Adam是什么？

paiquba 05-15 1次浏览 0条评论

Adam是一种优化算法，也被称为“自适应矩估量”(Adaptive Moment Estimation)。它是一种基于梯度下降算法的优化器，用于练习深度神经收集。

Adam是什么？

Adam是由Diederik P. Kingma和Jimmy Lei Ba在2014年提出的。在所有基于梯度下降的算法中，Adam的表达要优于SGD(随机梯度下降)，它不只能够为每个参数计算区别的自适应进修率，并且能够用动量来跟踪参数的挪动。

Adam的工做原理是什么？

Adam的工做原理是通过几个步调来更新神经收集的权重：

计算梯度：起首计算所有参数的梯度。指数加权均匀：对每个参数的梯度停止指数加权均匀，以估量其一阶矩(均匀值)和二阶矩(方差)。误差校正：因为t=1时，EMA指数加权均匀估量的均值和方差会十分禁绝确，因而需要停止误差校正。更新参数：利用误差校正后的均值和方差来更新每个参数。

Adam的公式如下：

$$m_t=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t$$

$$v_t=\beta_2\cdot v_{t-1}+(1-\beta_2)\cdot g_t^2$$

$$\hat{m_t}=\frac{m_t}{1-\beta_1^t}$$$$\hat{v_t}=\frac{v_t}{1-\beta_2^t}$$

$$\theta=\theta-\alpha\cdot\frac{\hat{m_t}}{\sqrt{\hat{v_t}}+\epsilon}$$

此中，$m_t$暗示指数加权均匀估量的均值，$v_t$暗示指数加权均匀估量的方差，$\beta_1$和$\beta_2$是Adam中的超参数，$\hat{m_t}$和$\hat{v_t}$是误差校正后的值，$\theta$是要更新的参数，$\alpha$是进修率，$\epsilon$是一个很小的数，避免分母为0。

Adam与其他优化算法比拟有什么好坏势？

Adam相较于其他优化算法，具有以下优势：

适用性广：Adam适用于大大都的神经收集构造和超参数抉择。自适应进修率：Adam可针对每个参数计算区别的自适应进修率，大大进取练习效率。动量：Adam利用动量来跟踪参数的挪动，使其更快地收敛。优良的理论性能：Adam在练习神经收集时，有优良的理论性能和一些收敛包管。

但是，Adam也存在以下一些优势：

可能会陷进部分极小值：因为Adam利用二阶矩，因而可能会陷进部分极小值。需要设置超参数：Adam有三个需要设置的超参数，$\alpha$、$\beta_1$和$\beta_2$。若是不设置好，可能会影响Adam的性能。Adam若何调参？

Adam有三个需要设置的超参数，$\alpha$、$\beta_1$和$\beta_2$。调参时，凡是意见遵照以下步调：

设置$\beta_1=0.9$，$\beta_2=0.999$和$\epsilon=10^{-8}$，那是Adam的默认设置。设置较小的初始进修率$\alpha$。练习模子，并视察验证集上的丧失能否下降。若是丧失没有下降，则减小进修率$\alpha$，并反复步调3。若是丧失下降了，就能够增加$\alpha$，曲到验证集上的丧失起头上升。陆续练习模子，并视察验证集上的性能，曲抵达到更优性能。若是所选的$\beta_1$和$\beta_2$不起感化，则能够将它们调整为0.9或0.999，以获得更好的性能。Adam在深度进修中的使用

Adam是当前更时髦的优化算法之一，已经胜利使用于多个范畴，包罗计算机视觉、天然语言处置和强化进修等。

在计算机视觉中，Adam普及使用于图像分类、目的检测和图像生成等使命。在天然语言处置中，Adam也被用于文天职类、机器翻译和语言生成等使命。在强化进修中，Adam也被用于练习强化进修模子。

总结

Adam是一种基于梯度下降的优化算法，能够自适应地为每个参数计算区别的进修率，并利用动量来跟踪参数的挪动。相较于其他优化算法，Adam具有适用性广、自适应进修率、动量和优良的理论性能等优势。但也存在可能陷进部分极小值和需要设置超参数的优势。

Adam已经成为深度进修中更时髦的优化算法之一，普及使用于计算机视觉、天然语言处置和强化进修等范畴。

Adam 优化算法深度学习自适应学习率动量

国潮是什么？- 解析中国时尚的新潮流 QQ是什么？怎样使用QQ？