1在统计学中,主成分分析(principalcomponentsanalysis,PCA)是一种简化数据集的技术
它是一个线性变换
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征
这是通过保留低阶主成分,忽略高阶主成分做到的
这样低阶成分往往能够保留住数据的最重要方面
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素
这些涉及的因素一般称为指标,在多元统计分析中也称为变量
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多
主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数
第二,可通过因子负荷的结论,弄清X变量间的某些关系
第三,可用于多为数据的一种图形表现方法
第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析
第五,用主成分分析筛选回归变量
2案例分析:下表是关于全