四大机器学习降维算法：PCA、LDA、LLE、Laplacian-EigenmapsVIP免费

下载本文档

阅读 82
下载 28
格式 docx
大小 445.47 KB
约12页
2024-10-23 发布于山西
收藏
评论
点赞(0)
海报
举报

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-Eigenmaps_第1页

1/12页

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-Eigenmaps_第2页

2/12页

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-Eigenmaps_第3页

3/12页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/12

文本预览下载提示常见问题

机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数f:x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率；而通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。在很多算法中，降维算法成为了数据预处理的一部分，如PCA。事实上，有一些算法如果没有降维预处理，其实是很难得到很好的效果的。主成分分析算法（PCA）PrincipalComponentAnalysis(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。通俗的理解，如果把所有的点都映射到一起，那么几乎所有的信息（如点和点之间的距离关系）都丢失了，而如果映射后方差尽可能的大，那么数据点则会分散开来，以此来保留更多的信息。可以证明，PCA是丢失原始数据信息最少的一种线性降维方式。（实际上就是最接近原始数据，但是PCA并不试图去探索数据内在结构）设n维向量w为目标子空间的一个坐标轴方向（称为映射向量），最大化数据映射后的方差，有：其中m是数据实例的个数，xi是数据实例i的向量表达，x拔是所有数据实例的平均向量。定义W为包含所有映射向量为列向量的矩阵，经过线性代数变换，可以得到如下优化目标函数：其中tr表示矩阵的迹，A是数据协方差矩阵。容易得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。PCA的输出就是Y=W‘X，由X的原始维度降低到了k维。PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题，这导致使用PCA在很多情况下的分类效果并不好。具体可以看下图所示，若使用PCA将数据点投影至一维空间上时，PCA会选择2轴，这使得原本很容易区分的两簇点被揉杂在一起变得无法区分；而这时若选择1轴将会得到很好的区分结果。DiscriminantAnalysis所追求的目标与PCA不同，不是希望保持数据最多的信息，而是希望数据在降维后能够很容易地被区分开来。后面会介绍LDA的方法，是另一种常见的线性降维方法。另外一些非线性的降维方法利用数据点的局部性质，也可以做到比较好地区分结果，例如LLE，LaplacianEigenmap等。以后会介绍。LDALinearDiscriminantAnalysis(也有叫做FisherLinearDiscriminant)是一种有监督的（supervised）线性降维算法。与PCA保持数据信息不同，LDA是为了使得降维后的数据点尽可能地容易被区分！假设原始数据表示为X，（m*n矩阵，m是维度，n是sample的数量）既然是线性的，那么就是希望找到映射向量a，使得a‘X后的数据点能够保持以下两种性质：1、同类的数据点尽可能的接近（withinclass）2、不同类的数据点尽可能的分开（betweenclass）所以呢还是上次PCA用的这张图，如果图中两堆点是两类的话，那么我们就希望他们能够投影到轴1去（PCA结果为轴2），这样在一维空间中也是很容易区分的。接下来是推导，因为这里写公式很不方便，我就引用DengCai老师的一个ppt中的一小段图片了：思路还是非常清楚的，目标函数就是最后一行J（a)，μ（一飘）就是映射后的中心用来评估类间距，s（一瓢）就是映射后的点与中心的距离之和用来评估类内距。J(a)正好就是从上述两个性质演化出来的。因此两类情况下：加上a’a=1的条件（类似于PCA）可以拓展成多类：以上公式推导...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-Eigenmaps

机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中

降维的本质是学习一个映射函数f:x->y，其中x是原始数据点的表达，目前最多使用向量表达形式

y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）

f可能是显式的或隐式的、线性的或非线性的

目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据

之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率；而通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度

又或者希望通过降维算法来寻找数据内部的本质结构特征

在很多算法中，降维算法成为了数据预处理的一部分，如PCA

事实上，有一些算法如果没有降维预处理，其实是很难得到很好的效果的

主成分分析算法（PCA）PrincipalComponentAnalysis(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性

通俗的理解，如果把所有的点都映射到一起，那么几乎所有的信息（如点和点之间的距离关系）都丢失了，而如果映射后方差尽可能的大，那么数据点则会分散开来，以此来保留更多的信息

可以证明，PCA是丢失原始数据信息最少的一种线性降维方式

（实际上就是最接近原始数据，但是PCA并不试图去探索数据内在结构）设n维向量w为目标子空间的一个坐标轴方向（称为映射向量），最大化数据映射后的方差，有：其中m是数据实例的个数，xi是数据实例i的向量表达，x拔是所有数据实例的平均向量

定义W为包含所有映射向量为列向量的矩阵，经过线性代数变换，可以得到如下优化目标函数：其中tr表示矩阵

您可能关注的文档

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-EigenmapsVIP免费

四大机器学习降维算法：PCA、LDA、LLE、Laplacian-Eigenmaps

您可能关注的文档

相关文档

热门下载

相关标签