一、提出问题本文对于给定的某城市42 天中午 12 点的空气污染数据进行主成分分析,主要解决以下几个问题:(1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2)对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释
二、分析问题主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标
在实际问题研究中,为了系统、 全面地分析问题,我们必须考虑众多影响因素
因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠
本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性
针对问题一, 首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义
针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释
三、模型假设1、影响污染程度的变量只有本文中所提到的变量;2、随机选取的42 天;3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响
四、符号说明符号符号含义ii样本方差x原始变量Y样本主成分),(ovjXXCi样本协方差样本相关矩阵i样本平均值协方差矩阵P特征向量矩阵矩阵的特征值e矩阵的特征向量信息提取率五、问题求解协方差矩阵主成分分析设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为),,3,2,1(,332211pixexexexeYpipiiii(1)根据已有数据计算得样本的均值向量为根据