数学知识

可导:即设$y=f(x)$ 一个单变量函数, 如果$y$ $x=x_0$ 左右导数分别存在且相等,则称$y$ $x=x_0$ 可导。如果一个函数在$x_0$ 可导,那么它一定在$x_0$ 是连续函数。

可微:设函数$y= f(x)$,若自变量在点$x$ 改变量$\Delta x$ 函数相应的改变量$\Delta y$ 关系$\Delta y=A\times \Delta x + O(\Delta x)$,其中$A$ $\Delta x$ 关,则称函数$f(x)$ 点$x$ 微,并称$A\times \Delta x$ 函数$f(x)$ 点$x$ 微分,记作$dy$,即$dy=A\times \Delta x$,当$x= x_0$ ,则记作$dy∣x=x_0$。

image-20210926112718662

与经典的梯度下降法和随机梯度下降法相比,近端梯度下降法的适用范围相对狭窄。对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有$l_1$​ 范数或迹范数)时,近端梯度下降法才会派上用场。假设目标函数:
$$
f(x)=g(x)+h(x)
$$
其中,限定$g(x)$ 是可微的凸函数、 $h(x)$​是不可微 (或局部不可微) 的凸函数。

Paper:
$$
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}f(y)+\frac{\lambda}{2}\parallel y-x \parallel^2
$$
Theory:
$$
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}(f(y)+\frac{1}{2\lambda}\parallel y-x \parallel^2)
$$

从上面这个式子可以看出,上式是在寻找一个距离$x$ 不要太远的一个$y$,使得$f(x)$ 可能小,显然$f(y)<=f(x)$。最小化$f(x)$ 要求新求得的$y$ 不能和上一轮迭代得到的$x$ 距离太远(泰勒公式通常只展开到一阶或二阶,高阶项被丢弃,要使得被丢弃的高阶项不至于对优化造成太大影响,下一个坐标点必须不能离原坐标点距离太大)。$Prox_{\lambda}^{f}(x)$ 点是最小化函数$f$ 临近$x$ 折中。

image-20210927161505329

这张图形象的表示了上面式子的几何意义,其中加粗的黑线表示作用域,浅色的黑线表示函数$f$ 等高线,蓝色的点对应上面式子的$x$ ,红色点表示最终求得的$y$ 。在蓝色的点处计算$Prox^f$,则为相应的红色点(在蓝色的点处估计其得到红色的点)。函数定义域中的三个点仍然在定义域中,并且移动到函数的最小值,同时,另外两个点移动到定义域的边界并且朝向函数的最小值。参数$\lambda$ 制近端操作将点映射到函数$f$ 最小值的程度,$\lambda$ 越大,则映射后的点更接近最小值,$\lambda$ 越小,则向最小值移动的步长越小。

References

Proximal Algorithms_机器学习的小学生-CSDN博客

www.luolei.info/2016/09/27/proximalAlgo/