1/15'
主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息
事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法
第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术
假定有n样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的数据矩阵:111212122212
ppnnnpxxxxxxXxxx⋯⋯⋯⋯(1)
2/15'
如何从这么多变量的数据中抓住事物的内在规律性呢
要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的
那么,这些综合指标(即新变量)应如何选取呢
显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好
如果记原来的变量指标为pxxx,,21,它们的综合指标——新变量指标为21,zz,mz(m≤p)
22112222121212121111pmpmmmppppxlxlxlzxlxlxlzxlxlxlz在(2)式中,系数lij由下列原则来决定:(1)zi与zj(i≠j;i,j=1,2,⋯,m)相互无关;