LLMForEverybody

每天3分钟，彻底弄懂神经网络的优化器（六）AdaGrad

1. AdaGrad算法的提出

AdaGrad（Adaptive Gradient Algorithm）是由 John Duchi, Elad Hazan, 和 Yoram Singer 提出的。这个算法在2011年的论文《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》1 中被详细描述，并发表在了《Journal of Machine Learning Research》上。AdaGrad算法的主要特点是为每个参数独立地调整学习率，使得不频繁更新的参数可以获得更大的学习率，而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据，因为它能够对稀疏特征给予更多的关注。然而，AdaGrad也有其缺点，主要是在学习过程中累积的平方梯度和会导致学习率变得过小，从而在训练后期几乎停止学习。为了解决这个问题，后续研究者提出了AdaGrad的变种，如AdaDelta和Adam等。

2. AdaGrad算法的原理

初始化：为每个参数 $\theta_i$ 初始化梯度平方和 $\sum g_i^2 = 0$。
梯度计算：在每次迭代中，计算参数 $\theta_i$ 的梯度 $g_i$。
更新梯度平方和： $\sum g_i^2 = \sum g_i^2 + g_i^2$
计算自适应学习率： $\eta_i = \frac{\eta}{\sqrt{\sum g_i^2} + \epsilon}$ 其中 $\eta$ 是全局学习率，$ \epsilon $ 是一个很小的数（如 $1e-8$），用于防止分母为零。
参数更新： $\theta_i = \theta_i - \eta_i \cdot g_i$