电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

降维和特征选择

降维和特征选择_第1页
1/9
降维和特征选择_第2页
2/9
降维和特征选择_第3页
3/9
1.数据降维,一般说的是维数约简()。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。特征选择,是从个特征中选择个出来,而其它的个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的个特征没有发生任何变化。这是二者的主要区别。在大部分情况下特征选择都是在冗余变量较多的情况下使用,特征之间并不是正交的,甚至还存在冗余坐标(即用个特征表达了维空间),因此删除部分冗余坐标并不会显著降维。另一方面,若原来的特征本身就是正交坐标系,那么删除多少特征就降了多少维,此时与降维类似,只是这种降维方式限定了只通过删除某几个坐标轴来实现。降维,如果特指这种线性降维方法,则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量,则实际上等价于对这组特殊的坐标系进行特征选择,方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下,降维所得的子空间是由几乎所有原始特征张成的,因此原始特征全部起作用。因此,有学者(提出了,旨在强迫使用部分原始特征张成尽量“优质”的子空间,同时实现了降维特征选择,从而能在分析主成分的同时还可以加入模型的解释性。1使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。(有区分度)2上式走义了总体相关系臥常用箱腊小写字乌卩作対代表符^估期羊本的协方差手nB 准差,可得到皮尔谨招关察轨常用英文d 韦母「代耒:使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的值。相关系数的一个明显缺陷是,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,相关性也可能会接近。3经典的卡方检验是检验定性自变量对定性因变量的相关性。过程:先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

降维和特征选择

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部