国家财政收入的影响因素【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,获得了模型的回归系数估计值,然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了一系列的统计检验,并对模型进行了消除序列相关性的改进,使模型通过了各个统计的检验。之后,我们代入所给数据1953年-1980年的各项经济指标,得到预测值与实际值的拟合效果较好,预测较准确。最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。关键词:MATLABEviews财政收入回归模型LM检验序列相关性一、问题重述国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。二、问题假设1.财政收入只可能与问题重述中提到的6个因素有关,而与其它因素无关;2.所给数据真实准确,无录入错误。3.不考虑偏差大的数据,在建模中把异常点的数据剔除。三、符号说明y:财政收入;x1:国民收入;x2:工业总产值;x3:农业总产值;x4:总人口;x5:就业人口;x6:固定资产投资;β0,β1,β2,β3,β4,β5,β6:回归系数;E:随机误差。X1(-1),X3(-1),X6(-1):x1,x3,x6的一阶滞后项;YF:财政收入的预测值四、问题分析、模型的建立与求解1.问题的分析首先对数据作初步分析。分别用MATLAB作出财政收入与6个因素的散点图,从中找出异常的点,从而把异常的点所对应的数据剔除:图1x1-y散点图图2x2-y散点图500100015002000250030001002003004005006007008009001000国民收入(财政收入亿元010002000300040005000600070001002003004005006007008009001000工业总产值(财政收入亿元图3x3-y散点图图4x4-y散点图40050060070080090010001100120013001002003004005006007008009001000农业总产值(财政收入亿元5.566.577.588.599.51010.5x1041002003004005006007008009001000总人口(财政收入亿元图5x5-y散点图由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点图如下:2345678x1041002003004005006007008009001000就业人口(财政收入亿元22.533.544.5x1041002003004005006007008009001000就业人口(财政收入亿元图6去掉异常点后的x5-y散点图图7x6-y散点图2.模型的建立从以上的散点图可以看出财政收入Y与x1~x6大致都呈现线性的关系,我们再引入一个常量回归系数β0,作出了初步的模型:y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+E(1)3.模型的求解首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表1。参数参数估计值参数置信区间β0-15.5344-366.5816335.5127β10.51000.23010.7898β2-0.0259-0.07690.0251β3-0.5905-0.9901-0.1908β40.0113-0.00280.0254β5-0.0230-0.04920.0032β60.3419-0.03870.7225R2=0.9840,F=225.8953,p=0.000001002003004005006001002003004005006007008009001000固定资产投资(财政收入亿元表1模型(1)的计算结果表1显示,R2=0.9840指因变量y(财政收入)的98.40%可由模型(1)的自变量的变化来解释,F值远远超过F检验的临界值,p=0远小于α,因而模型(1)从整体来看是可用的。表1的回归系数给出了模型(1)中β0,β1,β2,β3,β4,β5,β6的估计值,即^β0=-15.5344,^β1=0.5100,^β2=−0.0259,^β3=−0.5905,^β4=0.0113,^β5=−0.0230,^β6=0.3419。检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。从估计结果来看,模型可能存在多重共线性。原因如下:在5%的显著性水平下,由置信区间可以看...