优化 | Notion

$$ ⁍ $$

优化是在空间范围内找到参数，最小化风险，其中 $\Theta$ 为约束条件

给定训练集，经验风险为

$$ ⁍ $$

为了防止过拟合，增强模型的泛化性，提出结构风险

$$ ⁍ $$

深度学习的优化挑战

训练误差与泛化误差
局部最小值
鞍点
梯度消失

凸优化

称一个集合 $\mathcal{X}$ 是凸集（convex set），若 $\forall a,b \in \mathcal{X}, \forall \lambda\in [0, 1], \lambda a + (1-\lambda)b\in\mathcal{X}$

<aside> 💡

凸集和交一定也是凸集，并则不一定

</aside>

称一个函数 $f:\mathcal{X}\rightarrow \mathbb{R}$ 是凸函数（convex function），若 $\forall a,b \in \mathcal{X}, \forall \lambda\in [0, 1], \lambda f(a) + (1-\lambda)f(b)\ge f\left(\lambda a + (1-\lambda)b\right)$

<aside> 💡

定义域是凸集保证了 $\lambda a + (1-\lambda)b$ 也在定义域内

</aside>

性质

琴生不等式：凸函数 $f$ 作用在某随机变量期望值 $E[X]$ 所得的结果，总不大于对随机变量先取函数值再取期望，即 $f\left(E[X]\right)\le E\left[f(X)\right]$

<aside> 💡

e.g. $E_{Y\sim P(Y)}\left[-\log P(X\mid Y)\right]\ge -\log P(X)$

</aside>

局部最小值是全局极小值