题目:数据得预处理问题摘要数据处理贯穿于社会生产与社会生活得各个领域
数据处理技术得进展及其应用得广度与深度,极大地影响着人类社会进展得进程
数据补充,异常数据得鉴别及修正,在各个领域也起到了重要作用
对于第一问,我们采纳了多元线性回归得方法对缺失数据进行补充,我们将196 0—2 0 1 5、x ls(见附表一)中得数据导入 ma t la b
首先作出散点图,设定y(X5 9 2 8 7)与 x1(X545 1 1)、x 2(X 57494)得关系为二元线性回归模型,即 y=b0+b 1 x 1+b2x2
之后作多元回归 ,求出系数 b0=18、014,b 1=0、0 5 1,b2=0、3 5 4,所以多元线性回归多项式为:Y=1 8、01 4+0、051*x1+0、354*x 2
再作出残差分析图验证拟合效果,残差较小,说明回归多项式与源数据吻合得较好
若 x 1=3 0、4,x2=2 8、6时,y 得数据缺失,则将x 1,x2 带入回归多项式,算出缺失值 y=2 9、6888
类似地,若x1=40、6,x 2=3 0、4 时,y得数据缺失,则将 x1,x 2带入回归多项式,算出缺失值 y=30、8 462,即可补充缺失数据
对于第二问,我们使用了异常值检验中标准差未知得t检验法
将除可疑测定值以外得其余测定值当做一个总体,并假设该总体服从正态分布
由这些测定值计算平均值与标准差 s,而将可疑值当做一个样本容量为 1 得特别总体
假如与其余测定值同属于一个总体,则它与其余测定值之间不应有显著性差异
检测统计量为:,假设可由标准差 s 替代来进行检验,则检测统计量可视为:
若统计量值大于相应置信度下得t检验法得临界值(该临界值通过查表法得出),则将判为异常值
由此算法即可鉴别出相应得异常数据
对于第三问,对于问题三,我们采纳了分段线性插值,最近方法插值,三次样条函数插值