1第十章主成分分析与因子分析一个有经验的裁缝加工一件上衣,需要测量上体长、手臂长、胸围、颈围、肩宽、腰围等14个指标,但在批量生产中,测量每个人的14个指标是不可能的,怎么办呢
人们发现,这14个指标之间具有相关性,如果从这些指标中构造出少数几个指标,只要根据这少数的几个主要指标加工出的上衣就能适合大多数人的体型,即这少数几个指标充分把握了上衣的主要特征
事实上,采用主成分分析和因子分析便能找到两个不相关的指标“型和号”,根据这两个指标加工出的上衣,特体除外,95%以上的人都能穿
从14个指标中构造出两个不相关的指标的过程就称为降维
在现实中类似的降维事例是很多的,在统计学中主要利用因子分子和主成分分析实现对数据的降维处理
这一章我们将介绍因子分析和主成分分析如何实现降维,以及在SPSS中如何实现这两种方法
第一节主成分分析一、主成分分析的基本思想1
基本思想和数学模型在对某一事件进行研究时,常常会涉及到与此相关的多个变量,而这些变量之间往往存在着相关性,很多的变量以及变量间的相关性大大增加了研究的复杂程度
主成分分析就是在解决上述问题过程中产生的,目的在于用少数几个不相关的主成分来代表原来的多个变量,以方便我们对问题的分析
所谓的主成分就是指多个变量的线性组合,不同的主成分之间相互无关
假设有n个样品,每个样品有p个变量分别为pXXX,
,,21,则主成分的个数最多可以有p个,用公式表示为:ppiiiiXaXaXaF
2211pi,
方程应满足下列条件:(1)1
22221piiiaaa
(2)iF与jF(pjiji,
,2,1,;)不相关
(3)1F到pF方差依次递减
第一个条件对系数加以限制使得方差不会任意增大
如果不对系数加以限制,方差可以趋于无穷大就变得没有意义了,同时第一个条件也使得每个主成分都是原始变量的凸函数
第二个条件也是主成