第T11周：优化器对比实验_耀世娱乐-耀世注册登录官方入口

Adam优化器：

?SGD优化器：

Adam优化器（Adaptive Moment Estimation）和随机梯度下降（SGD）是两种用于训练神经网络的常见优化算法，它们各自具有一些优点和缺点。

优点：

自适应学习率： Adam根据每个参数的历史梯度信息来自动调整学习率。这有助于在训练初期更快地收敛，同时在接近最优解时减小学习率，以更稳定地收敛到最小值。
动量项： Adam引入了动量项，使得在参数更新中考虑了先前梯度的平均。这有助于克服SGD中的梯度噪声，特别是在存在大量噪声的数据中。
适用于不同问题： Adam通常对各种深度学习问题表现良好，且无需太多超参数调整。

缺点：

Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。堆内存的需求比较小，也适用于大数据集和更高维空间的模型。

优点：

缺点：

SGD是一种随机梯度下降优化器，SGD就是每一次迭代计算mini-batch的梯度，然后对参数进行更新，是最常见的优化方法了。

Adam优化器和SGD优化器各自有各自的优点，在图像噪声比较多的时候更适合使用Adam优化器，同样，当损失出现陷入局部最小的问题时当然还是SGD优化器更能避免这个问题。