您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 【数学建模】国家财政收入的影响因素的评价及预期收入的预测
国家财政收入的影响因素的评价及预期收入的预测【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,并获得了模型的回归系数估计值及其置信区间。然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了改进,并得到了其交互式画面。考虑到数据的时间序列属性,我们对模型进行了自相关性诊断,作出残差散点图,初步判定其大部分点落在1,3象限,随机误差表现出正自相关趋势。但在之后的D-W检验中,我们计算出了DW值,自相关系数估计值ˆ,依照样本容量和回归变量数目,查阅了D-W分布表,得到检验的临界值dL和dU。在分析DW所在区间时,我们发现模型的自相关状态不能确定。之后,我们代入所给数据1952年-1980年的各项经济指标,得出的预测值与实际值相当吻合。最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。关键词:MATLAB财政收入回归模型自相关性诊断自相关系数D-W检验一、问题重述国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。二、问题假设1.财政收入只与问题重述中提到的6个因素有关;2.所给数据真实准确,无录入错误。三、符号说明y:财政收入;x1:国民收入;x2:工业总产值;x3:农业总产值;x4:总人口;x5:就业人口;x6:固定资产投资;β0,β1,β2,β3,β4,β5,β6:回归系数;ε:随机误差。四、问题分析、模型的建立与求解1.问题的分析首先对数据作初步分析。分别作出财政收入与6个因素的散点图,并用Excel自带的回归分析求出了各自自变量对y的R2(决定系数,越接近1则拟合程度越好):图1x1-y散点图图2x2-y散点图图3x3-y散点图图4x4-y散点图图5x5-y散点图由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点图如下:图6去掉异常点后的x5-y散点图图7x6-y散点图2.模型的建立从以上的散点图及y对x1~x6初步的回归分析,我们再引入一个常量回归系数β0,作出了初步的模型:εβ6x6x5β5x4β4x3β3x2β2x1β1β0y(1)3.模型的求解首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表1。参数参数估计值参数置信区间β0-15.5344-366.5816335.5127β10.51000.23010.7898β2-0.0259-0.07690.0251β3-0.5905-0.9901-0.1908β40.0113-0.00280.0254β5-0.0230-0.04920.0032β60.3419-0.03870.7225R2=0.9840,F=225.8953,p=0.0000表1模型(1)的计算结果表1显示,R2=0.9840指因变量y(财政收入)的98.40%可由模型确定,F值远远超过F检验的临界值,p=0远小于α,因而模型(1)从整体来看是可用的。表1的回归系数给出了模型(1)中β0,β1,β2,β3,β4,β5,β6的估计值,即-15.53440βˆ,5100.01βˆ,0259.0-2βˆ,5905.0-3βˆ,0113.04βˆ,0230.0-5βˆ,3419.06βˆ。检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。常数项的置信区间相当地大,故可以剔掉。4.模型的改进由以上的分析,我们剔掉了常数项β0。得到模型(2):εβ6x6x5β5x4β4x3β3x2β2x1β1y(2)再次检验相关参数:参数参数估计值参数置信区间β10.51460.26090.7683β2-0.0250-0.07030.0204β3-0.5958-0.9675-0.2241β40.01080.00270.0188β5-0.0223-0.0428-0.0018β60.33200.03170.6323R2=0.9840,F=283.1784,p=0.0000表2模型(2)的计算结果现在可以看到,只有β2一项的置信区间包含零点。我们加入了x22,log(x2)2,x1*x2,x2*x5等项,包含零点的置信区间不降反升,且目前R2=98.40%,目前的模型从整体上来看是可用的。将参数估计值代入模型(2)得到:x63320.0x50223.0x40108.00.5958x3x20.0250-x15146.0ˆy(3)使用rstool命令得到交互式画面(图8):图8交互式画面5.结果分析从表面上看,模型(2)的拟合度已经达到了R2=0.9840,但这个模型并没有考虑到我们的数据是一个时间序列。很明显随机误差ε会出现(自)相关性。残差yyetˆ可以作为随机误差的估计值,画出et~et-1的散点图(图9)能够从直观上判断ε的自相关性。残差数据见表3。年份1952195319541955195619571958残差-12.73321.4793-5.70266.2455-21.60533.033411.4851年份1960196119621963196419651966残差-37.4752-1.1597-16.6442-7.478717.223532.15615.043年份1967196819691970197119721973残差32.9908-22.6918-41.15255.414215.771428.712310.6054年份1974197519761977197819791980残差5.5024-24.5628-36.9943-14.23231.095186.33191.8876表3模型(3)的残差图9模型(3)et~et-1的散点图从图9可以看出,大部分点落在第1,3象限,表明ε存在正得自相关。为了对ε的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下的模型:tβ6x6x5β5x4β4x3β3x2β2x1β1ty,ttu1t(4)利用表3给出的残差,根据DW检验公式nttnttteeeDW22221)(计算得出DW=1.6082.根据公式)ˆ1(2DW计算得出1959.0ˆ.要根据DW的具体数值确定εt是否存在自相关,应该在给定的检验水平下,一招样本容量和回归变量数目,查D-W分布表[2],得到检验的临界值dL和dU,然后由DW所在的区间来决定。对于显著性水平α=0.05,n=29,k=6,查D-W分布表,得到检验的临界值dL=0.98,和dU=1.94。图10与DW值对应的自相关状态现在DWdL,由图10中DW所在区间,我们可以看到DW落在不能确定的区间。如前文所述,模型(2)经过了增加二次项,对数项的努力,依然存在置信区间包含零点的情况,我们分析原因可能是在1959-1962年,1966-1976年的重大历史事件对几项因素,以及财政收入产生了特殊的影响,使数据的规律性降低,变得难以预测。但若是剔除这些年份,数据量将显得过少,以及发生年代断代。下面,我们将使用模型(3)对之前数据进行评价:年份1952195319541955195619571958实际值184216248254268286357预测值197.499195.303254.508248.576290.446283.830346.393年份1959196019611962196319641965实际值444506271230266323393预测值482.371508.040288.511238.365249.688291.775378.918年份1966196719681969197019711972实际值466352303447564638658预测值433.998375.702345.188442.649549.325610.413648.546年份1973197419751976197719781979实际值691655692657723922890预测值686.677680.765730.215672.467723.153836.937889.400年份1980实际值826预测值880.373表4财政收入的预测值与实际值对比可以看到,预测值与实际值还是相当吻合的。之后,我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资,代入模型(2)。结果如下:正自相关0dL=0.98dU=1.9424-dL4-dU4无自相关负自相关不能确定不能确定DW=1.6082年份国民收入工业总产值农业总产值总人口就业人口固定资产投资199011412.9622452.27514611295463931.94517200098000.575710.6913873.612674372116.7732917.7年份财政收入(预测值)财政收入(实际值)19903539.682821.86200050961.713395.23表51990年和2000年财政收入预测值与实际值对比[3]数据来源自《CNKI中国统计年鉴数据库》从表5可以看到,1990年预测值与实际值相差大概25.4%,而2000年的预测值则偏差较大。在查阅数据时,我们就发现了2000年的工业总产值数据注明了“1990年不变价格”,而其余数据没有此说明项。并且,在固定资产投资一栏,我们查到了非常详细的分类,固定资产投资资金来源中国家预算内资金,固定资产投资资金来源中国内贷款,固定资产投资资金来源中自筹和其他资金等备注,而题目并未给出,这给我们筛选数据带来了极大的困难。总的来说,几十年来,统计方法或许都有变化,并且人民币的币值也发生了极大的变化(这是可以来源于直观的生活经验的),模型对1990年和2000年预测值与实际值的匹配程度有限,但对于1952-1980年的经济数据来说,依然有一定的参考价值。五、模型的评价优点模型的决定系数R2=0.9840较高,且都是一次项,计算简便。缺点自相关性未能判定,对1981年之后的数据预测值逐渐产生偏差。六、模型的推广与改进从前文的分析来看,我们认为1981年后,物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据,若补充上物价衡量指数,消费水平指数(CPI)等数据,模型的拟合度应该会更高。七、附件模型(1)的MATLAB程序:clear,clc%清屏x1=[598,586,707,737,825,837,1028,1114,1079,757,677,779,943,1152,1322,1249,1187,1372,1638,1780,1833,1978,1993,2121,2052,2189,2475,2702,2791]';x2=[349,455,520,558,715,798,1235,1681,1870,1156,964,1046,1250,1581,1911,1647,1565,2101,2747,3156,3365,3684,3696,4254,4309,4925,5590,6065,6592]';x3=[461,475,491,529,556,575,598,509,444,434,461,514,584,632,687,697,680,688,767,790,789,855,891,932,955,971,1058,1150,1194]';x4=[57482,58796,60266,61465,62
本文标题:【数学建模】国家财政收入的影响因素的评价及预期收入的预测
链接地址:https://www.777doc.com/doc-5009901 .html