机器学习9--学习理论的基础知识

#机器学习9--学习理论的基础知识 ## 基本符号 > - $\epsilon$ 泛化误差： >> - 从训练样本数据中推导的规则，能够适用于新的样本的能力。 >> - 对服从分布D的样本，分类错误的概率。 - $\hat{\epsilon}$ 训练误差 >> - 训练误差在训练样本中训练出的规则，能够适用于训练样本的能力。 >> - 对训练样本，分类错误的部分，在总的训练集中所占比例。 - $h$ - $\hat{h }$ >> - $\theta$ 和 $\hat{\theta }$关系：ERM风险最小化$\theta$的过程： - $h$和 $\hat{h }$关系：ERM风险最小化$h$的过程： - $\epsilon$和$\hat{\epsilon}$关系：误差随着模型复杂度（VC维）**的增加的变化趋势。模型复杂度过低：欠拟合；过大：过拟合。其中，模型复杂度为假设类$\left| H\right|$的大小，比如：某一个值为多项式多次。 >>

$H$：假设类。对于先行分类器：

$D$：某一种分布。

基本公式

1、 2、 3、

##两个引理 1、联合界引理： 2、Hoeffding不等式 > 利用中心极限定理进行推导。其物理意义如下图所示。其中，表示阴影的概率，即错误的上届概率。当m增大时，钟形图收缩，误差下降。

$H$为有限的

即：其中，H为： 1、 2、即： > 表示： - $m$很大时，右边很小，两个误差很接近。 - 是人为给定的值。

3、对于任意h： 4、对于任意非h： > $m$很大时，右边很小，两个误差很接近。称为：一致收敛

5、我们关心的是m（样本大小），（两个误差的差值）和概率（两个误差接近的概率）三者的值。下面，我们对其进行求解。 6、令，当时，我们得到样本的大小： 7、进一步，我们得到的值： 8、对7进行展开： 9、最终得到我们的定理：得到 $\gamma$ 的值 > 物理意义：我们可以近似地认为：为假设类H的偏差bias；为假设的方差variance。偏差表示误差的大小，随着模型复杂度增大而减小；方差表示拟合得有多好，随着模型复杂度增大，而先减小后增大。如下图：

10、最终，我们还得到另外一个定理，简而言之，固定，求m： > 两个误差收敛的概率

下面开始为第10j ## $H$为无限的--更实用 当H有无限值时，即：**$|H|==k $**。则上面公式10中![](/img/1401850414368.png)，k将趋于无穷大；则m将无穷大。显然，这样是不行的。为了解决这种问题我们引入VC维。从而得到我们的理论。 ### shatters的定义 ![](/img/1401931065879.png) ### VC维的定义： ![](/img/1401931155527.png) > 结论：**对于n维线性分类器：$VC(H)=n+1$** eg. ![](/img/1401931314231.png)时：$VC(H)=3$