主成分分析方法 在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。 那么怎样找综合指标? 主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介 主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。 主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。信息的大小通常用离差平方和或方差来衡量。 主成分分析的基础思想是将数据原来的 p 个指标作线性组合,作为新的综合指标(PFFF,,,21)。其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F最大的组合对应的指标, 称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21FF且)var(2F最大,称为第二主成分;依次类推。易知PFFF,,,21互不相关且方差递减。实际处理中一般只选取前几个最大的主成分(总贡献率达到 85%),达到了降维的目的。 主成分的几何意义: 设有 n个样品,每个样品有两个观测变量,,21XX二维平面的散点图。 n个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。当只考虑一个时,原始数据中的信息将会有较大的损失。若将坐标轴旋转一下: sincos211XXF cossin211XXF 即 UXXXFF2121cossinsincos 且有IUU/,即U 是正交距阵,则 n个样品在1F 轴的离散程度最大(方差最大),变量1F 代表了原始数据的绝大部分信息,即使不考虑2F ,信息损失也不多。而且1F ,2F 不...