ProximalGradientMethod

数学知识

可导：即设$y=f(x)$ 一个单变量函数，如果$y$ $x=x_0$ 左右导数分别存在且相等,则称$y$ $x=x_0$ 可导。如果一个函数在$x_0$ 可导，那么它一定在$x_0$ 是连续函数。

可微：设函数$y= f(x)$，若自变量在点$x$ 改变量$\Delta x$ 函数相应的改变量$\Delta y$ 关系$\Delta y=A\times \Delta x + O(\Delta x)$，其中$A$ $\Delta x$ 关，则称函数$f(x)$ 点$x$ 微，并称$A\times \Delta x$ 函数$f(x)$ 点$x$ 微分，记作$dy$，即$dy=A\times \Delta x$，当$x= x_0$ ，则记作$dy∣x=x_0$。

与经典的梯度下降法和随机梯度下降法相比，近端梯度下降法的适用范围相对狭窄。对于凸优化问题，当其目标函数存在不可微部分（例如目标函数中有$l_1$ 范数或迹范数)时，近端梯度下降法才会派上用场。假设目标函数:
$$
f(x)=g(x)+h(x)
$$
其中，限定$g(x)$ 是可微的凸函数、 $h(x)$是不可微 (或局部不可微) 的凸函数。

Paper:
$$
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}f(y)+\frac{\lambda}{2}\parallel y-x \parallel^2
$$
Theory:
$$
Prox_{\lambda}^{f}(x)=arg\min\limits_{y}(f(y)+\frac{1}{2\lambda}\parallel y-x \parallel^2)
$$

从上面这个式子可以看出，上式是在寻找一个距离$x$ 不要太远的一个$y$，使得$f(x)$ 可能小，显然$f(y)<=f(x)$。最小化$f(x)$ 要求新求得的$y$ 不能和上一轮迭代得到的$x$ 距离太远(泰勒公式通常只展开到一阶或二阶，高阶项被丢弃，要使得被丢弃的高阶项不至于对优化造成太大影响，下一个坐标点必须不能离原坐标点距离太大)。$Prox_{\lambda}^{f}(x)$ 点是最小化函数$f$ 临近$x$ 折中。

这张图形象的表示了上面式子的几何意义，其中加粗的黑线表示作用域，浅色的黑线表示函数$f$ 等高线，蓝色的点对应上面式子的$x$ ，红色点表示最终求得的$y$ 。在蓝色的点处计算$Prox^f$，则为相应的红色点(在蓝色的点处估计其得到红色的点)。函数定义域中的三个点仍然在定义域中，并且移动到函数的最小值，同时，另外两个点移动到定义域的边界并且朝向函数的最小值。参数$\lambda$ 制近端操作将点映射到函数$f$ 最小值的程度，$\lambda$ 越大，则映射后的点更接近最小值，$\lambda$ 越小，则向最小值移动的步长越小。

References

Proximal Algorithms_机器学习的小学生-CSDN博客