从动力学角度看优化算法:自适应学习率算法

  • 时间:
  • 浏览:1

本文再次从 ODE 的角度分析了优化算法,这次是从误差控制的角度给出了有两种自适应学习率算法(RMSprop)的理解。至于我门都歌词 更常用的 Adam,则是 RMSprop 与动量加速的结合,这里就不赘述了。



一个多 多多 我门都歌词 就通过梯度来调节了学习率。

也许读者真是很简单:把标量去掉 向量不就行了么?并不能自己 不能自己 简单,不可能 (13) 推广到高维,要花费 有有两种合理的选取 :



或:

一般的梯度下降是一个多 多多 的:

自适应学习率

如保会用梯度大小都后能 来调节学习率呢?真是你两种 思想非常朴素。



整个梯度你只用了它的符号信息,这是都是太浪费了?过于平凡:也太满太满不管梯度大小如保,每次迭代 θ 都太满太满移动固定的长度。

读者不可能 会诟病,把 γ=γ̃/∣L′(θt)∣ 代入一个多 多多 的迭代结果,不太满太满:

不可能 我门都歌词 是用

去近似

的,不能自己 就都都后能 分析近似程度:根据泰勒级数,我门都歌词 有:



在我门都歌词 这里有,不能自己 我门都歌词 有:

这太满太满开头说的 RMSprop 算法了。

话太满说,简单起见,我门都歌词 先从一个多 多多 一维例子出发:假设我门都歌词 要求 L(θ) 的一个多 多多 极小值点,不能自己 我门都歌词 引入一个多 多多 虚拟的时间参数 t,转化为 ODE:

不可能 把你两种 向量也看成是学习率,不能自己 RMSprop 太满太满找到了一个多 多多 方案,都都都后能 给参数的每个分量分配不同的学习率。

前者用梯度的总模长来每项,最终保持了学习率的标量性;后者将梯度的每个分量分别每项,你两种 情况报告下调节后的学习率就变成了一个多 多多 向量,要花费 给每个参数都分配不同的学习率。太满太满从严格理论分析的角度来,真是第有两种做法更加不漏,后后从实验效果来看,却是第二种更为有效。

不能自己判断,L(θ) 的一个多 多多 极小值点太满太满你两种 方程的稳定的不动点,我门都歌词 从任意的 θ0 出发,数值求解你两种 ODE,都后能 期望它最终会收敛于你两种 不动点,从而也就得到了一个多 多多 极小值点。

结论汇总

你两种 λ 是一个多 多多 接近于 1 后后小于 1 的常数,一个多 多多 一段话 Gt 在一定范围内就比较稳定,一同在一定程度上保留了梯度 L′(θt) 有两种的形态,太满太满用它来调节学习率是是不是一个多 多多 比较“机智”的做法。为了处置 t+γ̃,t+γ 引起记号上的不适应,统一用 n,n+1 来表示下标,得到:

对比朴素的 SGD,都后能 发现 RMSprop 在对 θ 的更新中,将一个多 多多 是标量的学习率 γ,去掉 了一个多 多多 向量。

首先,我门都歌词 看一个多 多多 非常经典的自适应学习率优化算法:RMSprop。RMSprop 真是都是最早提出的自适应学习率的优化算法,后后它却是相当实用的有两种,它是诸如 Adam 一个多 多多 更综合的算法的基石,通过它我门都歌词 都后能 观察自适应学习率的优化算法是如保会做的。

算法概览

注意,从解 ODE 的角度看,真是这并不能自己 毛病,不可能 ODE 的解是三根轨迹 (t,θ(t)),顶端一个多 多多 处置,真是 θ 变得平凡了,后后 t 却变得不平凡了,也太满太满要花费 t,θ 的地位交换了,后后还是合理的。

最简单的欧拉解法,太满太满用

去近似

,从而得到:



也太满太满:



这太满太满梯度下降法了,θt+γ 要花费 θn+1,而 θt 要花费 θn,也太满太满每步前进 γ 不能自己 多。

太满太满,为了改善你两种 不平凡的情况报告,又为了保留用梯度调节学习率的形态,我门都歌词 都后能 把梯度平均一下,结果太满太满:

极小值点和ODE

顶端的讨论都是一维的情况报告,不可能 是多维情况报告,那如保会推广呢?

只不过,不可能 关心的是优化大大问题 ,也太满太满求 L(θ) 的极小值点一段话,不能自己 上式真是很糙平凡了,不可能 不可能 每次迭代 θ 都太满太满移动固定的长度,那都是点像网格搜索了,太低效。

原文发布时间为:2018-12-27

本文作者:苏剑林

本文来自云栖社区商务合作伙伴“ PaperWeekly”,了解相关信息都后能 关注“paperweekly”微信公众号

将优化大大问题 视为一个多 多多 常微分方程的求解大大问题 ,这真是太满太满将优化大大问题 变成了一个多 多多 动力学大大问题 ,一个多 多多 都后能 我门都都歌词 从比较物理的视角去理解优化算法(哪怕太满太满直观而不不漏的理解),甚至都后能 把你两种 ODE 的理论结果拿过来用,顶端笔者会试图再举你两种 一个多 多多 的例子。

很明显,这里的 γ 是一个多 多多 超参数,便是学习率,它不可能 都都后能 在不同阶段做不同的调整。而 RMSprop 则是:

RMSprop

滑动平均处置

大大问题 是,γ 选有十几个 为好呢?当然,从“用

去近似

”你两种 角度来看,当然是 γ 越小越精确,后后 γ 越小,都都后能 的迭代次数就太满,也太满太满说计算量就越大,太满太满越小越好是很理想,后后不现实。

高维情况报告分析

变学习率思想

算法分析

我门都歌词 平时所说的 RMSprop 算法,都是指后者 (15)。后后有太满太满喜欢纯 SGD 炼丹的我门都歌词 会诟病你两种 向量化的学习率实际上改变了梯度的方向,愿因梯度不准,最终效果不足好。太满太满不喜欢向量化学习率的读者,不妨试验一下前者。

都后能 期望,当 γ 比较小的后后,误差项,也太满太满说,在一定条件下,γ∣L′(θt)∣ 有两种太满太满误差项的度量,不可能 我门都歌词 将 γ∣L′(θt)∣ 控制在一定的范围内,不能自己 误差也被控制住了。即:



其中 γ̃ 是一个多 多多 常数,甚至只都都后能 简单地 γ∣L′(θt)∣=γ̃(暂时忽略 L′(θt)=0 的不可能 性,先观察整体的核心思想),也太满太满:

太满太满,最恰当的方案是:每一步够用就好。一个多 多多 我门都歌词 如保会知道够用了不能自己 ?

你两种 学习率的调节,是通过因子来实现的,而则是梯度平方的滑动平均。本质上来说,“滑动平均”平均太满太满让训练过程更加平稳你两种 ,它都是起到调节作用的愿因,起作用的主要每项是“梯度”,也太满太满说,都后能 用梯度大小来调节学习率。