凯发娱乐全屋家具定制公司

NEWS新闻中心

您当前所在位置: 主页 > 新闻中心 > 常见问题

深度学习中的优化方法总结(常见方法,动机,思路和优缺点)

发布日期:2024-05-06 05:44  浏览次数:

梯度下降算法(Gradient Descent Optimization)是神经网络模型训练最常用的优化算法:
在这里插入图片描述
缺点:

  • 选择合适的learning rate比较困难:如果数据是稀疏的,我们会想对出现频率低的特征进行快一点的更新,而高频的进行慢一点的更新,这时候SGD就不太能满足要求了
  • SGD容易收敛到局部最优,并且极容易被困在鞍点上,在这种点所有反向上的梯度值都为0(如果设置合适的初始化和step size,鞍点的影响会减少很多)

Momentum是模拟物理里动量的概念,即,前几次的梯度也会参与到运算中,因此:
它可以有效的解决模型陷入鞍点的问题
而且它在前后梯度方向一致时,能够加速学习;在前后方向不一致时,能够抑制震荡
在这里插入图片描述

Nesterov Accelerated Gradient是动量梯度下降算法的改进版本,其速度更快
其可以解释为往标准动量方法中添加了一个校正因子:
在这里插入图片描述

在训练模型时,我们会想对出现频率低的特征进行快一点的更新,而高频的进行慢一点的更新,而上述方法所有参数的学习率都是统一的,并不能满足我们的要求。因此,自适应学习率算法AdaGrad提出了
在这里插入图片描述
在训练迭代的过程中,其学习速率是逐渐衰减的,经常更新的参数其学习速率衰减更快,因此非常易于稀疏数据的训练

缺点:在深度学习中,深度过深时或者某次迭代时梯度过大会使r的值变的非常大,会造成训练的提前结束

RMSprop是对Adagrad算法的改进,其实思路很简单,引入一个衰减系数,让梯度平方的累计量r 每回合都衰减一定比例。该方法主要是解决训练提前结束的问题,适合处理非平稳目标,对RNN的效果特别好。
在这里插入图片描述

自适应矩估计(Adaptive moment estimation,Adam)本质上是带有动量项的RMSprop,其结合了Momentum和RMSprop算法的思想。它利用梯度的一阶矩估计 和 二阶矩估计 动态调整每个参数的学习率:
在这里插入图片描述
其中ρ1,ρ2的建议值分别为0.9和0.999。

在这里插入图片描述
左边: 在MNIST上训练多层神经网络
右边: 在CIFAR10上训练多层卷积网络

总结:

  • 对于稀疏数据,优先选择学习速率自适应的算法如RMSprop和Adam算法,而且最好采用默认值,大部分情况下其效果是较好的
  • 论文中通常采用不用momentum的SGD。SGD通常训练时间更长,容易陷入鞍点,但是在好的初始化和学习率调度方案的情况下,结果更可靠。
  • 在国际顶尖期刊的优化方法中:SGD和momentum的更新方法常用于CNN之类的网络结构;而自适应学习率算法的优化方法常用于RNN之类的网络结构。
  • Adadelta,RMSprop,Adam是比较相近的算法,通常Adam是最好的选择。

在线客服
服务热线

服务热线

020-88888888

微信咨询
凯发娱乐全屋家具定制公司
返回顶部
X凯发娱乐全屋家具定制公司

截屏,微信识别二维码

微信号:wixin888

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!

平台注册入口