首页电影Adam是什么?

Adam是什么?

paiquba 05-15 1次浏览 0条评论

Adam是一种优化算法,也被称为“自适应矩估量”(Adaptive Moment Estimation)。它是一种基于梯度下降算法的优化器,用于练习深度神经收集。

Adam是什么?

Adam是由Diederik P. Kingma和Jimmy Lei Ba在2014年提出的。在所有基于梯度下降的算法中,Adam的表达要优于SGD(随机梯度下降),它不只能够为每个参数计算区别的自适应进修率,并且能够用动量来跟踪参数的挪动。

Adam的工做原理是什么?

Adam的工做原理是通过几个步调来更新神经收集的权重:

计算梯度:起首计算所有参数的梯度。指数加权均匀:对每个参数的梯度停止指数加权均匀,以估量其一阶矩(均匀值)和二阶矩(方差)。误差校正:因为t=1时,EMA指数加权均匀估量的均值和方差会十分禁绝确,因而需要停止误差校正。更新参数:利用误差校正后的均值和方差来更新每个参数。

Adam的公式如下:

$$m_t=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t$$

$$v_t=\beta_2\cdot v_{t-1}+(1-\beta_2)\cdot g_t^2$$

$$\hat{m_t}=\frac{m_t}{1-\beta_1^t}$$$$\hat{v_t}=\frac{v_t}{1-\beta_2^t}$$

$$\theta=\theta-\alpha\cdot\frac{\hat{m_t}}{\sqrt{\hat{v_t}}+\epsilon}$$

此中,$m_t$暗示指数加权均匀估量的均值,$v_t$暗示指数加权均匀估量的方差,$\beta_1$和$\beta_2$是Adam中的超参数,$\hat{m_t}$和$\hat{v_t}$是误差校正后的值,$\theta$是要更新的参数,$\alpha$是进修率,$\epsilon$是一个很小的数,避免分母为0。

Adam与其他优化算法比拟有什么好坏势?

Adam相较于其他优化算法,具有以下优势:

适用性广:Adam适用于大大都的神经收集构造和超参数抉择。自适应进修率:Adam可针对每个参数计算区别的自适应进修率,大大进取练习效率。动量:Adam利用动量来跟踪参数的挪动,使其更快地收敛。优良的理论性能:Adam在练习神经收集时,有优良的理论性能和一些收敛包管。

但是,Adam也存在以下一些优势:

可能会陷进部分极小值:因为Adam利用二阶矩,因而可能会陷进部分极小值。需要设置超参数:Adam有三个需要设置的超参数,$\alpha$、$\beta_1$和$\beta_2$。若是不设置好,可能会影响Adam的性能。Adam若何调参?

Adam有三个需要设置的超参数,$\alpha$、$\beta_1$和$\beta_2$。调参时,凡是意见遵照以下步调:

设置$\beta_1=0.9$,$\beta_2=0.999$和$\epsilon=10^{-8}$,那是Adam的默认设置。设置较小的初始进修率$\alpha$。练习模子,并视察验证集上的丧失能否下降。若是丧失没有下降,则减小进修率$\alpha$,并反复步调3。若是丧失下降了,就能够增加$\alpha$,曲到验证集上的丧失起头上升。陆续练习模子,并视察验证集上的性能,曲抵达到更优性能。若是所选的$\beta_1$和$\beta_2$不起感化,则能够将它们调整为0.9或0.999,以获得更好的性能。Adam在深度进修中的使用

Adam是当前更时髦的优化算法之一,已经胜利使用于多个范畴,包罗计算机视觉、天然语言处置和强化进修等。

在计算机视觉中,Adam普及使用于图像分类、目的检测和图像生成等使命。在天然语言处置中,Adam也被用于文天职类、机器翻译和语言生成等使命。在强化进修中,Adam也被用于练习强化进修模子。

总结

Adam是一种基于梯度下降的优化算法,能够自适应地为每个参数计算区别的进修率,并利用动量来跟踪参数的挪动。相较于其他优化算法,Adam具有适用性广、自适应进修率、动量和优良的理论性能等优势。但也存在可能陷进部分极小值和需要设置超参数的优势。

Adam已经成为深度进修中更时髦的优化算法之一,普及使用于计算机视觉、天然语言处置和强化进修等范畴。

Adam优化算法深度学习自适应学习率动量
国潮是什么?- 解析中国时尚的新潮流 QQ是什么?怎样使用QQ?
相关内容
发表评论

游客 回复需填写必要信息