上海启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

优化器-optimizer 汇总

更新时间:2025-01-07 21:31:40

在神经网络的训练过程中,有两个核心概念:损失函数和优化函数。损失函数作为评价指标,而优化函数则决定了网络的优化策略。为了更高效地优化网络结构,我们需要选择恰当的优化函数。常见的优化函数包括:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam等。

SGD(Stochastic Gradient Descent 随机梯度下降)是一种基于随机梯度下降算法的参数更新方法,每次只使用一个样本数据进行更新。每个epoch参数更新M(样本数)次,其中随机性体现在每次选取哪个样本是随机的,每个epoch样本更新的顺序也是随机的。

BGD(Batch Gradient Descent 批量梯度下降)每次将所有样本的梯度求和,然后根据梯度和对参数进行更新,每个epoch参数更新1次。

MBGD(Mini-batch Gradient Descent 小批量梯度下降)每次利用一小批样本进行计算,本质上就是在每个batch内部使用BGD策略,在batch外部使用SGD策略。

Momentum(动量梯度下降)引入物理“动量”的概念,累积速度,减少震荡,使参数更新的方向更稳定。每次梯度更新都会带有前几次梯度方向的惯性,使梯度的变化更加平滑。

NAG(Nesterov Accelerated Gradient 牛顿动量梯度下降)是Momentum算法的改进,通过根据此次梯度(i-1)和上一次梯度(i-2)的差值对Momentum算法得到的梯度进行修正,提高了算法的优化速度。

Adagrad(Adaptive Gradient Algorithm 自适学习率应梯度下降)根据不同参数距离最优解的远近,动态调整学习率。

RMSprop(root mean square prop)解决Adagrad分母会不断积累,导致学习率收缩并最终变得非常小的问题。

AdaDelta优化器对RMSProp算法进一步优化,不需要指定超参数。

Adam算法结合了动量和自适应学习率两个优化思路,既能适应稀疏梯度,又能缓解梯度震荡的问题。

AdamW和LARS是Adam算法的改进版本,LARS可以适应每层的学习率。

优化器选择需要考虑数据集特征、训练设置和项目目标。对于稀疏数据,可以选择Adagrad、Adadelta、RMSprop、Adam等优化器。Adam通常被认为是效果最好的选择。

在选择优化器之前,应了解其优缺点,并根据项目资源进行选择。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询