深度学习
深度学习
深度学习
作者:未知作者 笔记数:8 条
第4章 数值计算
优化指的是改变x以最小化或最大化某个函数f(x)的任务
,Hessian的特征值决定了学习率的量级
在多维情况下,我们需要检测函数的所有二阶导数。利用Hessian的特征值分解,我们可以将二阶导数测试扩展到多维情况
当Hessian是正定的(所有特征值都是正的),则该临界点是全局极小点。因为方向二阶导数在任意方向都是正的,参考单变量的二阶导数测试就能得出此结论。同样的,当Hessian是负定的(所有特征值都是负的),这个点就是局部极大点。
如果Hessian的特征值中至少一个是正的且至少一个是负的,那么x是f某个横截面的局部极大点,却是另一个横截面的全局极小点,
维度多于一个时,鞍点不一定要具有0特征值:仅需要同时具有正特征值和负特征值。
病态条件也导致很难选择合适的步长。步长必须足够小,以免冲过最小而向具有较强正曲率的方向上升
Hessian矩阵条件数为5的二次函数f(x)。这意味着最大曲率方向具有比最小曲率方向多5倍的曲率
This post is licensed under CC BY 4.0 by the author.