Untitled

数学知识¶

可导：即设 $y=f(x)$ 一个单变量函数，如果 $y$ $x=x_0$ 左右导数分别存在且相等,则称 $y$ $x=x_0$ 可导。如果一个函数在 $x_0$ 可导，那么它一定在 $x_0$ 是连续函数。

可微：设函数 $y= f(x)$ ，若自变量在点 $x$ 改变量 $\Delta x$ 函数相应的改变量 $\Delta y$ 关系 $\Delta y=A\times \Delta x + O(\Delta x)$ ，其中 $A$ $\Delta x$ 关，则称函数 $f(x)$ 点 $x$ 微，并称 $A\times \Delta x$ 函数 $f(x)$ 点 $x$ 微分，记作 $dy$ ，即 $dy=A\times \Delta x$ ，当 $x= x_0$ ，则记作 $dy∣x=x_0$ 。

与经典的梯度下降法和随机梯度下降法相比，近端梯度下降法的适用范围相对狭窄。对于凸优化问题，当其目标函数存在不可微部分（例如目标函数中有 $l_1$ 范数或迹范数)时，近端梯度下降法才会派上用场。假设目标函数:

f(x)=g(x)+h(x)

其中，限定

g(x)

是可微的凸函数、

h(x)

是不可微 (或局部不可微) 的凸函数。

Paper:

Prox_{\lambda}^{f}(x)=arg\min\limits_{y}f(y)+\frac{\lambda}{2}\parallel y-x \parallel^2

Theory:

Prox_{\lambda}^{f}(x)=arg\min\limits_{y}(f(y)+\frac{1}{2\lambda}\parallel y-x \parallel^2)

从上面这个式子可以看出，上式是在寻找一个距离 $x$ 不要太远的一个 $y$ ，使得 $f(x)$ 可能小，显然 $f(y)<=f(x)$ 。最小化 $f(x)$ 要求新求得的 $y$ 不能和上一轮迭代得到的 $x$ 距离太远(泰勒公式通常只展开到一阶或二阶，高阶项被丢弃，要使得被丢弃的高阶项不至于对优化造成太大影响，下一个坐标点必须不能离原坐标点距离太大)。 $Prox_{\lambda}^{f}(x)$ 点是最小化函数 $f$ 临近 $x$ 折中。

这张图形象的表示了上面式子的几何意义，其中加粗的黑线表示作用域，浅色的黑线表示函数 $f$ 等高线，蓝色的点对应上面式子的 $x$ ，红色点表示最终求得的 $y$ 。在蓝色的点处计算 $Prox^f$ ，则为相应的红色点(在蓝色的点处估计其得到红色的点)。函数定义域中的三个点仍然在定义域中，并且移动到函数的最小值，同时，另外两个点移动到定义域的边界并且朝向函数的最小值。参数 $\lambda$ 制近端操作将点映射到函数 $f$ 最小值的程度， $\lambda$ 越大，则映射后的点更接近最小值， $\lambda$ 越小，则向最小值移动的步长越小。

References¶

Proximal Algorithms_机器学习的小学生-CSDN博客

数学知识¶

References¶

评论