diff --git "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(15)--\345\215\212\347\233\221\347\235\243\345\255\246\344\271\240.md" "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(15)--\345\215\212\347\233\221\347\235\243\345\255\246\344\271\240.md" index 8806393..6b251e6 100644 --- "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(15)--\345\215\212\347\233\221\347\235\243\345\255\246\344\271\240.md" +++ "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(15)--\345\215\212\347\233\221\347\235\243\345\255\246\344\271\240.md" @@ -1,6 +1,6 @@ 上篇主要介绍了机器学习的理论基础,首先从独立同分布引入泛化误差与经验误差,接着介绍了PAC可学习的基本概念,即以较大的概率学习出与目标概念近似的假设(泛化误差满足预设上限),对于有限假设空间:(1)可分情形时,假设空间都是PAC可学习的,即当样本满足一定的数量之后,总是可以在与训练集一致的假设中找出目标概念的近似;(2)不可分情形时,假设空间都是不可知PAC可学习的,即以较大概率学习出与当前假设空间中泛化误差最小的假设的有效近似(Hoeffding不等式)。对于无限假设空间,通过增长函数与VC维来描述其复杂度,若学习算法满足经验风险最小化原则,则任何VC维有限的假设空间都是(不可知)PAC可学习的,同时也给出了泛化误差界与样本复杂度。稳定性则考察的是输入发生变化时输出的波动,稳定性通过损失函数与假设空间的可学习理论联系在了一起。本篇将讨论一种介于监督与非监督学习之间的学习算法--半监督学习。 -#**14、半监督学习** +# **14、半监督学习** 前面我们一直围绕的都是监督学习与无监督学习,监督学习指的是训练样本包含标记信息的学习任务,例如:常见的分类与回归算法;无监督学习则是训练样本不包含标记信息的学习任务,例如:聚类算法。在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。那如何利用未标记的样本数据呢? @@ -14,7 +14,7 @@ ![iwJFJS.png](https://s1.ax1x.com/2018/10/18/iwJFJS.png) -##**14.1 生成式方法** +## **14.1 生成式方法** **生成式方法**(generative methods)是基于生成式模型的方法,即先对联合分布P(x,c)建模,从而进一步求解 P(c | x),**此类方法假定样本数据服从一个潜在的分布,因此需要充分可靠的先验知识**。例如:前面已经接触到的贝叶斯分类器与高斯混合聚类,都属于生成式模型。现假定总体是一个高斯混合分布,即由多个高斯分布组合形成,从而一个子高斯分布就代表一个类簇(类别)。高斯混合分布的概率密度函数如下所示: @@ -34,7 +34,7 @@ 可以看出:基于生成式模型的方法十分依赖于对潜在数据分布的假设,即假设的分布要能和真实分布相吻合,否则利用未标记的样本数据反倒会在错误的道路上渐行渐远,从而降低学习器的泛化性能。因此,**此类方法要求极强的领域知识和掐指观天的本领**。 -##**14.2 半监督SVM** +## **14.2 半监督SVM** 监督学习中的SVM试图找到一个划分超平面,使得两侧支持向量之间的间隔最大,即“**最大划分间隔**”思想。对于半监督学习,S3VM则考虑超平面需穿过数据低密度的区域。TSVM是半监督支持向量机中的最著名代表,其核心思想是:尝试为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。TSVM采用局部搜索的策略来进行迭代求解,即首先使用有标记样本集训练出一个初始SVM,接着使用该学习器对未标记样本进行打标,这样所有样本都有了标记,并基于这些有标记的样本重新训练SVM,之后再寻找易出错样本不断调整。整个算法流程如下所示: @@ -42,7 +42,7 @@ ![iwJZss.png](https://s1.ax1x.com/2018/10/18/iwJZss.png) -##**14.3 基于分歧的方法** +## **14.3 基于分歧的方法** 基于分歧的方法通过多个学习器之间的**分歧(disagreement)/多样性(diversity)**来利用未标记样本数据,协同训练就是其中的一种经典方法。**协同训练最初是针对于多视图(multi-view)数据而设计的,多视图数据指的是样本对象具有多个属性集,每个属性集则对应一个试图**。例如:电影数据中就包含画面类属性和声音类属性,这样画面类属性的集合就对应着一个视图。首先引入两个关于视图的重要性质: @@ -55,7 +55,7 @@ ![iwJeLn.png](https://s1.ax1x.com/2018/10/18/iwJeLn.png) -##**14.4 半监督聚类** +## **14.4 半监督聚类** 前面提到的几种方法都是借助无标记样本数据来辅助监督学习的训练过程,从而使得学习更加充分/泛化性能得到提升;半监督聚类则是借助已有的监督信息来辅助聚类的过程。一般而言,监督信息大致有两种类型: