AI Blog

by Michele Laurelli

Adagrad

Algorithm

Definition

Adaptive learning rate optimizer that adapts rates per parameter based on historical gradients.

Accumulates squared gradients, larger accumulation means smaller learning rate. Good for sparse data. Can have diminishing learning rates over time.

Sparse gradient optimization

NLP embeddings

Convex problems

Adaptive learning rate optimization algorithm using moving average of squared gradients.

Michele Laurelli - AI Research & Engineering