因子分析︱使用 Stata 做主成分分析(19页)Good is good, but better carries it.精益求精,善益求善。因子分析︱使用 Stata 做主成分分析 文章来自计量经济学圈主成分分析在许多领域的讨论与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为讨论和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。假如分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。主成分分析是设法将原来众多具有一定相关性(比如 P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是考察多个变量间相关性一种多元统计方法,讨论如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来 P 个指标作线性组合,作为新的综合指标。最经典的做法就是用 F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var(F1)越大,表示 F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最大的,故称 F1 为第一主成分。假如第一主成分不足以代表原来 P 个指标的信息,再考虑选取 F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就不需要再出现在 F2 中,用数学语言表达就是要求 Cov(F1, F2)=0,则称 F2 为第二主成分,依此类推可以构造出第三、第四,……,第 P 个主成分。2. 问题描述下表 1 是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。那么一眼就能看出来,数学、物理、化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数学成绩拉的最开)。为什么一眼能看出来?因为坐标轴选对了!下面再看一组学生的数学、物理、化...