数学知识¶
可导:即设y=f(x) 一个单变量函数, 如果y x=x_0 左右导数分别存在且相等,则称y x=x_0 可导。如果一个函数在x_0 可导,那么它一定在x_0 是连续函数。
可微:设函数y= f(x),若自变量在点x 改变量\Delta x 函数相应的改变量\Delta y 关系\Delta y=A\times \Delta x + O(\Delta x),其中A \Delta x 关,则称函数f(x) 点x 微,并称A\times \Delta x 函数f(x) 点x 微分,记作dy,即dy=A\times \Delta x,当x= x_0 ,则记作dy∣x=x_0。

与经典的梯度下降法和随机梯度下降法相比,近端梯度下降法的适用范围相对狭窄。对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有l_1 范数或迹范数)时,近端梯度下降法才会派上用场。假设目标函数:
f(x)=g(x)+h(x)
其中,限定g(x) 是可微的凸函数、 h(x)是不可微 (或局部不可微) 的凸函数。
Paper:
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}f(y)+\frac{\lambda}{2}\parallel y-x \parallel^2
Theory:
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}(f(y)+\frac{1}{2\lambda}\parallel y-x \parallel^2)
从上面这个式子可以看出,上式是在寻找一个距离x 不要太远的一个y,使得f(x) 可能小,显然f(y)<=f(x)。最小化f(x) 要求新求得的y 不能和上一轮迭代得到的x 距离太远(泰勒公式通常只展开到一阶或二阶,高阶项被丢弃,要使得被丢弃的高阶项不至于对优化造成太大影响,下一个坐标点必须不能离原坐标点距离太大)。Prox_{\lambda}^{f}(x) 点是最小化函数f 临近x 折中。

这张图形象的表示了上面式子的几何意义,其中加粗的黑线表示作用域,浅色的黑线表示函数f 等高线,蓝色的点对应上面式子的x ,红色点表示最终求得的y 。在蓝色的点处计算Prox^f,则为相应的红色点(在蓝色的点处估计其得到红色的点)。函数定义域中的三个点仍然在定义域中,并且移动到函数的最小值,同时,另外两个点移动到定义域的边界并且朝向函数的最小值。参数\lambda 制近端操作将点映射到函数f 最小值的程度,\lambda 越大,则映射后的点更接近最小值,\lambda 越小,则向最小值移动的步长越小。
评论