一、提出问题本文对于给定的某城市42 天中午 12 点的空气污染数据进行主成分分析,主要解决以下几个问题:(1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2)对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。二、分析问题主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、 全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。针对问题一, 首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。三、模型假设1、影响污染程度的变量只有本文中所提到的变量;2、随机选取的42 天;3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响。四、符号说明符号符号含义ii样本方差x原始变量Y样本主成分),(ovjXXCi样本协方差样本相关矩阵i样本平均值协方差矩阵P特征向量矩阵矩阵的特征值e矩阵的特征向量信息提取率五、问题求解协方差矩阵主成分分析设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为),,3,2,1(,332211pixexexexeYpipiiii(1)根据已有数据计算得样本的均值向量为根据协方差矩阵计算公式 (2)代入数据可求得随机变量相应的样本协方差矩阵为479.0595.0044.1177.0142.0624.0171.0595.0979.30127.3811.0822.2791.30232.2044.1127.3364.11088.1315.2763.6585.0177.0811.0088.1182.1674.0387.1463.0142.0822.2315.2674.0522.1909.3378.0624.0791.30763.6387.1-909.3156.300781.2171.0232.2-585.0-463.0-378.0-781.2-500.2利用特征值计算公式0E代入数据可求得的特征值i 与对应单位正交化特征向量)7,,2,1(iei分别为6941.3031,T1)0024.01125.00246.00046.00150.09932.00099.0...