导读

新的state of the art优化器：Rectified Adam（RAdam），相比adam，可以稳定提高准确率，关键是，真的有用。

Liu, Jian, He等人的一篇新论文介绍了RAdam，也叫作“Rectified Adam”。这是经典Adam优化器的一个新变种，在自动的、动态的调整自适应学习率的基础上，他们详细研究了训练期间的变化和动量的影响。与vanilla Adam相比，RAdam有希望即刻对每一个AI架构进行提升。

RAdam对不同的学习率具有鲁棒性，同时仍能快速收敛并获得更高的精度(CIFAR数据集)

我已经在FastAI框架内测试了自己的RAdam，并很快获得了新的高精度记录，而在ImageNette上，只有两项难以击败FastAI排行榜得分。和我测试过的很多论文不一样，那些论文中的工作只适合他们特定的论文中使用的数据集，而并没有新数据集上做得很好，我试了一下RAdam，真的有提升。

RAdam and XResNet50, 86% in 5 epochs

Imagenet排行榜，当前最高是84.6%

因此，我们需要深入研究下RAdam，了解它在内部做了什么，以及为什么它有希望为几乎所有AI应用提供了更好的收敛性、更好的训练稳定性(对选择的学习率不那么敏感)和更好的准确性和泛化能力。

不仅仅是CNNs，RAdam在对十亿个单词数据集的LSTM语言模型上也表现出色

所有人工智能研究员的目标：一个快速和稳定的优化算法…

作者指出，尽管每个人都在朝着拥有快速稳定的优化算法的目标努力，但自适应学习率优化器(包括Adam、RMSProp等)都面临着陷入糟糕的局部优化(如果没有实现warmup方法的话)的风险。因此，几乎每个人都使用某种形式的warmup(FastAI在Fit_One_Cycle中内置了warmup功能)……但是为什么需要热身呢？

由于目前对人工智能社区中warmup启发式的潜在原因甚至最佳实践的理解有限，作者试图揭示这个问题的基础。他们发现，根本问题在于自适应学习率优化器的方差太大，特别是在训练的早期阶段，并且基于有限的训练数据进行过多的跳跃，从而会陷入较差的局部优化。

因此，当优化器只处理有限的训练数据时，warmup(初始训练阶段，学习速度要低得多)是自适应优化器抵消过多差异的必要条件。

下面是一个可视化的演示，展示了在没有warmup的情况下Adam最初的情况——在10次迭代中，梯度分布很快就被打乱了：