1 / 15 数据分析上机实验模拟题一.第一章数据的描述性分析1.建立数据集设有数据集如下:LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165 相应变量分别为NAME ,AGE , WEIGHT 和 HEIGHT ,输入数据以建立一个名为exe_1 的SAS 数据集,并打印输出.2.数据的描述性分析例1.2 对血清蛋白含量, 利用 PROC UNIV ARITE 过程,求数据的方差、 标准差、 变异系数、极差、四分位极差、四分位标准差,程序如下:练习:利用MEANS过程求上述基本统计量。二.回归分析1.线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质);1122110ppXXXY1122110ppXXXY矩阵表示εX βYYXXXβTT1)(HYβXY2.统计推断 (回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法);(1) 回归方程的显著性检验:SSRSSEyySSTnii12)(, niiiyySSE12)(,niiyySSR12)(检验假设:0:1210pH,统计量),1(~)/()1/(0pnpFpnSSEpSSRFH 真,)(00FFPpH时,拒绝0H(2)回归系数的统计推断:检验假设0:0kkH,2 / 15 统计量)(~)(0pntstHkkk真,|)||(|000kkHkttPpk,拒绝kH 0k 的置信区间 :)()(21kkspnt(3)预测及统计推断:Tppxxxy01,0101100,0y 的置信区间:])(1[)(010210xXXxTTMSEpnty3.残差分析及处理措施(误差的正态性检验、残差图分析、Box-Cox 变换);(1)误差的正态性检验1)残差正态性的频率检验2)残差的正态QQ 图检验),()()(iirq),,2,1(ni近似一条直线,niiniiiiiqqrrqqrr1)(12)(1)()()()())((1(2)残差图分析),(),,(iXy3) Box-Cox 变换0,ln0,1)(YYY选择,使)(1)()())()();(ZXXX(XZZTTT ISSE最小4.回归方程的选取(1)穷举法评价回归方程优良性的准则:修正的复相关系数准则;pC准则,预测平方和准则(2)逐步回归法例 2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们的研究成果的质量指标1X 、从事研究工作的时间2X 以及能获得资助的指标3X .为此按一定的设计方案调查了24 位此类型的数学家,得数据如书上表2.3 所示.(1)假设误差服从),0(2N分布,建立 Y 与321,,XXX之间的线性回归方程并研究相3 / 15 应的统计推断问题.(2)假设某位数学家的关于321,,XXX的值为)(2.7,20,1.5),,(030201xxx,试预测他的年工资额并给出置信度为95%的置信区间.三.方差分析 ----单因素1. 单因素方差分析(1)统计模型因...