您当前的位置：首页 > IT编程 > TensorFlow
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \|

自学教程：数值优化（Numerical Optimization）学习系列-概述

51自学网 2020-01-11 23:28:25

TensorFlow

这篇教程数值优化（Numerical Optimization）学习系列-概述写得很实用，希望能帮到您。

开篇

数值优化通过迭代的方式解决优化问题，是数学建模中关键的一环。
Modeling过程，需要确定优化目标、目标所依赖的变量以及变量之间的约束关系，最后通过优化算法解决问题。

基础

对于一个优化问题，通常有一个优化目标函数 f(x) x为参数变量，c(x)为约束。
最优化问题的标注形式为 min f(x)x∈Rns.t. Ci(x)=0 i∈E Ci(x)≥0 i∈Imin f(x)x∈Rns.t. Ci(x)=0 i∈E Ci(x)≥0 i∈I
其中 EE 表示等式集合，II 表示不等式集合
其中满足约束的解称之为可行解

问题分类

根据目标函数或者约束函数的不同，对于最优化问题可以分为：

连续/离散优化问题
约束/非约束优化问题
线性/非线性优化问题
全局/局部优化问题
随机/确定性优化问题

了解分类规则后可以根据建模后的形式选择不同的算法。

凸优化

对于凸优化需要了解一下几个概念，详细可以参考Stephen Boyd的《凸优化》，里面对凸优化问题进行了详细的介绍。

凸集：如果集合S为凸集，当且仅当 x∈S, y∈S 并且α(x)+(1−α)(y) inS;α∈[0,1]x∈S, y∈S 并且α(x)+(1−α)(y) inS;α∈[0,1]
凸函数：如果函数f(x)为凸函数，当且仅当S为凸集，x∈S, y∈S; αf(x)+(1−α)f(y)≥f(αx+(1−α)y); α∈[0,1]x∈S, y∈S; αf(x)+(1−α)f(y)≥f(αx+(1−α)y); α∈[0,1]
严格凸函数，凸函数能够取到非等号，即α∈(0,1)α∈(0,1)
凸优化问题：对于标准形式目标函数为凸函数，等式约束为线性约束；不等式约束为凹函数。

无约束最优化问题

在机器学习中，有大量的问题可以归约为无约束最优化问题，例如线性回归、LR等。因此对于无约束问题的研究也很深入从简单的GD、SGD、TR到CG、Newton、(L-)BFGS等
1. 无约束最优化问题可以表示为 minf(x); x∈Rnminf(x); x∈Rn
2. 全局最优解 VS 局部最优解
* 全局最优简单理解为在整个定义域内解最小
* 局部最优：在某个邻域内解最小
3. 对于凸优化问题，任何局部最优解都是全局最优解。

局部最优解几个定理

泰勒展开公式，根据泰勒公式对于函数f(x)可以近似为
一阶展开近似：f(x)≈f(x0)+∇f(x0)T(x−x0)f(x)≈f(x0)+∇f(x0)T(x−x0)
二阶展开近似：f(x)≈f(x0)+∇f(x0)T(x−x0)+12(x−x0)T∇2f(x0)(x−x0)f(x)≈f(x0)+∇f(x0)T(x−x0)+12(x−x0)T∇2f(x0)(x−x0)
局部最小值的一阶必要条件，如果 x∗x∗ 为局部最优解并且函数f一阶可导，则在 x∗x∗ 的邻域内 ∇f(x∗)=0∇f(x∗)=0
局部最优解的二阶必要条件，如果 x∗x∗为局部最优解并且一阶和二阶可导，则∇f(x∗)=0∇f(x∗)=0 并且 ∇2f(x)正定∇2f(x)正定
证明：对于定理2，3的证明采用反证法。例如对于定理2. 假设 ∇f(x∗)≠0∇f(x∗)≠0，则根据泰勒一阶展开则可以找到∇f(x∗)T(x−x∗)≤0∇f(x∗)T(x−x∗)≤0
局部最优的二阶充分条件：如果函数f在 x∗x∗ 处满足∇f(x∗)=0∇f(x∗)=0并且∇2f(x)正定∇2f(x)正定，则 x∗x∗ 为局部最优解
如果函数f为凸函数，则f的任何局部最优解都为全局最优解。

优化算法概述

在后面会介绍一系列解决该问题的算法，先介绍几个简单的概念。
1. 通过数值优化算法求解，一般会给定初始点 x0,找到一系列点x1,x2,x3 ... xn→x∗x0,找到一系列点x1,x2,x3 ... xn→x∗
2. 通常有两大类比较重要的策略线搜索（Line Search）和信赖域（Trust Region）
3. Line Search策略：假设在某点xkxk，寻找方向pkpk和步长αα使得 min f(xk+αpk)min f(xk+αpk) 最小，如果pkpk确定则只需要解决一维最优化问题就可以找到下一个搜索点，如何确定pkpk后面介绍几类策略，最简单的策略就是当前点的梯度。
4. Trust Region策略：在某店xkxk解决优化问题 min mk(xk+pk)min mk(xk+pk)，其中mkmk为函数f在xkxk点的近似，同时为保证mkmk为一个较好的近似，即当pkpk 远离 xkxk 时偏离太大，则需要保证xk+pkxk+pk 在一个可信赖的区域内；
5. 通常情况下信赖域选择为椭圆、球或者盒状区域，即一个凸集容易找到最优解。
6. 模型mkmk一般可以选择为函数f的泰勒二阶近似，即 m(xk+p)≈f(xk)+∇f(xk)Tp+12pT∇2Bkpm(xk+p)≈f(xk)+∇f(xk)Tp+12pT∇2Bkp 其中BkBk为Hessian矩阵或者其近似
7. 以上两类策略的相同点是在某点xkxk通过解决一个优化问题找到下一个搜索点。LS首先选择方向pkpk通过解决一维最优化问题找到步长αα；TR首先对步长进行约束，通过解决简单的优化问题寻找搜索方向。

线搜索中搜索方向选择

最速下降方向，即搜索方向选择为,负梯度方向： pk=−∇fkpk=−∇fk。由泰勒展开公式f(xk+αpk)≈f(xk)+α∇f(xk)Tpk+12pTk∇2fkpkf(xk+αpk)≈f(xk)+α∇f(xk)Tpk+12pkT∇2fkpk，由于∇2fk∇2fk满足正定，因此只需要∇f(xk)Tpk∇f(xk)Tpk最小。即minf(xk)Tpk s.t||p||=1minf(xk)Tpk s.t||p||=1；可以推出p=−∇fk/||∇fk||p=−∇fk/||∇fk||。主要问题对于复杂问题效率较慢
通用搜索方向：从泰勒展开公式上可以看到，只要满足 ∇fkpk≤0∇fkpk≤0 都可以选择为搜索方向，问题是相比最速下降效率可能会较低。
牛顿方向(Nowton direction,pNkpkN)，pNk=−(∇2fk)−1∇fkpkN=−(∇2fk)−1∇fk，解释如下泰勒公式:mk(p)=f(xk+p)≈f(xk)+∇f(xk)Tp+12pT∇2fkpmin mk(p)⇒∇mk(p)=0⇒∇fk+∇f2kp=0⇒pNk=−(∇2fk)−1∇fk泰勒公式:mk(p)=f(xk+p)≈f(xk)+∇f(xk)Tp+12pT∇2fkpmin mk(p)⇒∇mk(p)=0⇒∇fk+∇fk2p=0⇒pkN=−(∇2fk)−1∇fk 关于 pNkpkN 1) 当 ∇2fk∇2fk正定时满足pT∇fk=−pT∇2fkp≤0pT∇fk=−pT∇2fkp≤0 满足函数值下降，为有效搜索方向。2) 当 ∇2fk∇2fk非正定时，−(∇2fk)−1−(∇2fk)−1不一定存在，即使存在也不一定满足下降条件。
伪牛顿方向(Quasi-Newton 方向)，pk=−B−1k∇fkpk=−Bk−1∇fk，由于Hessian矩阵计算复杂度较高而且不一定能够满足正定，可进行近似。泰勒公式：∇f(xk+p)≈∇f(xk)+∇2f(xk)p由于xk+1=xk+p，令sk=xk+1−xkyk=∇fk+1−∇fk⇒yk=Bk+1sk(伪牛顿条件)泰勒公式：∇f(xk+p)≈∇f(xk)+∇2f(xk)p由于xk+1=xk+p，令sk=xk+1−xkyk=∇fk+1−∇fk⇒yk=Bk+1sk(伪牛顿条件)另外一种理解方式将f(x)在点xk+1处进行泰勒展开f(x)≈f(xk+1)+∇f(xk+1)T(x−xk+1)+12(x−xk+1)T∇2fk+1(x−xk+1)在x=xk的梯度为∇fk≈∇fk+1+∇2fk+1(xk−xk+1)yk=Bk+1sk将f(x)在点xk+1处进行泰勒展开f(x)≈f(xk+1)+∇f(xk+1)T(x−xk+1)+12(x−xk+1)T∇2fk+1(x−xk+1)在x=xk的梯度为∇fk≈∇fk+1+∇2fk+1(xk−xk+1)yk=Bk+1sk在实际使用中一般还对Bk+1Bk+1添加一些附加条件，例如对称、正定以及低秩等，两个比较常用的近似算法为SR1 和BFGS
非线性共轭梯度方向：pk=−∇fk+βkpk−1pk=−∇fk+βkpk−1，后面会详细介绍该算法。

信赖域模型

对于LS中的共轭方向外，其他方向的模型均可以引入到TR中
例如，牛顿方向mk(xk+p)mk(xk+p) 中将Bk=0Bk=0 对应于TR模型中minfk+∇Tkps.t||p||2≤Δk⇒pk=−Δk∇fk||∇fk||minfk+∇kTps.t||p||2≤Δk⇒pk=−Δk∇fk||∇fk||

SCALING 问题

一个poor scaled 问题是指函数f(x)在某个方向上的变化比其他方向的变化，带来更大的函数值改动。即某个方向的微小改动带来巨大函数响应，例如f(x)=109x21+x22f(x)=109x12+x22 对x1方向的变化比较敏感。
可以通过变量重定义的方式解决问题。
线搜索问题中的最速下降法是poor scaled算法，Newton算法也会受到影响。最速下降法对于条件数比较大的问题会带来之字迭代，收敛速度大幅下降

总结

几个重要的知识点
1. 优化问题的标准形式（后续的学习中以此为准）
2. 凸优化问题：凸集、凸函数
3. 全局最优解 VS 局部最优解
4. 局部最优解的一阶、二阶必要条件，可证明
5. 线搜索常用搜索方向；信赖域常用模型
6. poor scaled问题
————————————————

【基础算法】神经网络参数优化器
数值优化（Numerical Optimization）学习系列