diff --git "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(13)--\347\211\271\345\276\201\351\200\211\346\213\251\344\270\216\347\250\200\347\226\217\345\255\246\344\271\240.md" "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(13)--\347\211\271\345\276\201\351\200\211\346\213\251\344\270\216\347\250\200\347\226\217\345\255\246\344\271\240.md" index 20c9319..848e0ee 100644 --- "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(13)--\347\211\271\345\276\201\351\200\211\346\213\251\344\270\216\347\250\200\347\226\217\345\255\246\344\271\240.md" +++ "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(13)--\347\211\271\345\276\201\351\200\211\346\213\251\344\270\216\347\250\200\347\226\217\345\255\246\344\271\240.md" @@ -1,6 +1,6 @@ 上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法,k近邻算法的核心在于k值的选取以及距离的度量,MDS要求原始空间样本之间的距离在降维后的低维空间中得以保持,主成分分析试图找到一个低维超平面来表出原空间样本点,核化主成分分析先将样本点映射到高维空间,再在高维空间中使用线性降维的方法,从而解决了原空间样本非线性分布的情形,基于流形学习的降维则是一种“邻域保持”的思想,最后度量学习试图去学习出一个距离度量来等效降维的效果。本篇将讨论另一种常用方法--特征选择与稀疏学习。 -#**12、特征选择与稀疏学习** +# **12、特征选择与稀疏学习** 最近在看论文的过程中,发现对于数据集行和列的叫法颇有不同,故在介绍本篇之前,决定先将最常用的术语罗列一二,以后再见到了不管它脚扑朔还是眼迷离就能一眼识破真身了~对于数据集中的一个对象及组成对象的零件元素: @@ -12,7 +12,7 @@ 回归正题,在机器学习中特征选择是一个重要的“**数据预处理**”(**data** **preprocessing**)过程,即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集,接着再利用数据子集来训练学习器;稀疏学习则是围绕着稀疏矩阵的优良性质,来完成相应的学习任务。 -##**12.1 子集搜索与评价** +## **12.1 子集搜索与评价** 一般地,我们可以用很多属性/特征来描述一个示例,例如对于一个人可以用性别、身高、体重、年龄、学历、专业、是否吃货等属性来描述,那现在想要训练出一个学习器来预测人的收入。根据生活经验易知:并不是所有的特征都与学习任务相关,例如年龄/学历/专业可能很大程度上影响了收入,身高/体重这些外貌属性也有较小的可能性影响收入,但像是否是一个地地道道的吃货这种属性就八杆子打不着了。因此我们只需要那些与学习任务紧密相关的特征,**特征选择便是从给定的特征集合中选出相关特征子集的过程**。 @@ -31,7 +31,7 @@ 此时,信息增益越大表示该属性子集包含有助于分类的特征越多,使用上述这种**子集搜索与子集评价相结合的机制,便可以得到特征选择方法**。值得一提的是若将前向搜索策略与信息增益结合在一起,与前面我们讲到的ID3决策树十分地相似。事实上,决策树也可以用于特征选择,树节点划分属性组成的集合便是选择出的特征子集。 -##**12.2 过滤式选择(Relief)** +## **12.2 过滤式选择(Relief)** 过滤式方法是一种将特征选择与学习器训练相分离的特征选择技术,即首先将相关特征挑选出来,再使用选择出的数据子集来训练学习器。Relief是其中著名的代表性算法,它使用一个“**相关统计量**”来度量特征的重要性,该统计量是一个向量,其中每个分量代表着相应特征的重要性,因此我们最终可以根据这个统计量各个分量的大小来选择出合适的特征子集。 @@ -47,7 +47,7 @@ 其中pl表示第l类样本在数据集中所占的比例,易知两者的不同之处在于:**标准Relief 只有一个猜错近邻,而Relief-F有多个猜错近邻**。 -##**12.3 包裹式选择(LVW)** +## **12.3 包裹式选择(LVW)** 与过滤式选择不同的是,包裹式选择将后续的学习器也考虑进来作为特征选择的评价准则。因此包裹式选择可以看作是为某种学习器**量身定做**的特征选择方法,由于在每一轮迭代中,包裹式选择都需要训练学习器,因此在获得较好性能的同时也产生了较大的开销。下面主要介绍一种经典的包裹式特征选择方法 --LVW(Las Vegas Wrapper),它在拉斯维加斯框架下使用随机策略来进行特征子集的搜索。拉斯维加斯?怎么听起来那么耳熟,不是那个声名显赫的赌场吗?歪果仁真会玩。怀着好奇科普一下,结果又顺带了一个赌场: @@ -62,7 +62,7 @@ LVW算法的具体流程如下所示,其中比较特别的是停止条件参 ![4.png](https://i.loli.net/2018/10/18/5bc853ed5e08e.png) -##**12.4 嵌入式选择与正则化** +## **12.4 嵌入式选择与正则化** 前面提到了的两种特征选择方法:**过滤式中特征选择与后续学习器完全分离,包裹式则是使用学习器作为特征选择的评价准则;嵌入式是一种将特征选择与学习器训练完全融合的特征选择方法,即将特征选择融入学习器的优化过程中**。在之前《经验风险与结构风险》中已经提到:经验风险指的是模型与训练数据的契合度,结构风险则是模型的复杂程度,机器学习的核心任务就是:**在模型简单的基础上保证模型的契合度**。例如:岭回归就是加上了L2范数的最小二乘法,有效地解决了奇异矩阵、过拟合等诸多问题,下面的嵌入式特征选择则是在损失函数后加上了L1范数。 @@ -82,7 +82,7 @@ L1范数美名又约**Lasso Regularization**,指的是向量中每个元素的 ![8.png](https://i.loli.net/2018/10/18/5bc853ed51aa1.png) -##**12.5 稀疏表示与字典学习** +## **12.5 稀疏表示与字典学习** 当样本数据是一个稀疏矩阵时,对学习任务来说会有不少的好处,例如很多问题变得线性可分,储存更为高效等。这便是稀疏表示与字典学习的基本出发点。稀疏矩阵即矩阵的每一行/列中都包含了大量的零元素,且这些零元素没有出现在同一行/列,对于一个给定的稠密矩阵,若我们能**通过某种方法找到其合适的稀疏表示**,则可以使得学习任务更加简单高效,我们称之为**稀疏编码(sparse coding)**或**字典学习(dictionary learning)**。 @@ -90,7 +90,7 @@ L1范数美名又约**Lasso Regularization**,指的是向量中每个元素的 ![9.png](https://i.loli.net/2018/10/18/5bc853ed0ca43.png) -##**12.6 压缩感知** +## **12.6 压缩感知** 压缩感知在前些年也是风风火火,与特征选择、稀疏表示不同的是:它关注的是通过欠采样信息来恢复全部信息。在实际问题中,为了方便传输和存储,我们一般将数字信息进行压缩,这样就有可能损失部分信息,如何根据已有的信息来重构出全部信号,这便是压缩感知的来历,压缩感知的前提是已知的信息具有稀疏表示。下面是关于压缩感知的一些背景: