您好,欢迎访问三七文档
P3651.下表列出了某城市18位35~44岁经理的年平均收入1x千元,风险偏好度2x和人寿保险额y千元的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合得到的,它的数值越大就月偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。请你通过表中的数据来建立一个适合的回归模型,验证上面的看法,并给出进一步的分析。序号y1x2x1011121314151617184937.408510554.37629846.18677746.13041430.36635639.060524579.380113352.766813355.9166基本模型一、验证(1)验证经理的年均收入和人寿保险额之间存在着二次关系,为了验证则大致地分析y与x1的散点图,运用曲线拟合的思想。序号y1x2x12345678919666.29076340.964525272.996108445.010612657.20441426.85254938.12244935.840626675.7969图1y与x1的散点图(二次关系)图1中的直线是用二次函数模型201121yxx其中0=-60.5239,1=1.7886,2=0.0302.,是随机误差。(2)①验证经理的风险偏好度和人寿保险额之间存在着线性关系,为了验证则大致地分析y与x2的散点图,运用曲线拟合的思想。图2y与x2的散点图(一次关系)图2中直线是用线性模型012yx其中0=38.7434,1=13.5218,是随机误差。②进一步验证y与x2是否存在二次关系,同样运用曲线拟合的思想。图3y与x2的散点图(二次关系)有图可知y与x2之间存在线性关系,二次关系是不合适的。(3)两个自变量年均收入和风险偏好度是否对人寿保险额有交互关系,不妨简单的用综合上面的分析,结合模型(1)和(2)建立如下的回归模型20112231412yxxxxx式中x1和x2称为回归变量,20112231412yxxxxx是给定年均收入x1和风险偏好度x2时,保险额y的平均值,其中0、1、2、3、4称为回归系数。模型求解表2模型(3)的计算结果参数参数估计值参数置信区间0-65.9461[-79.6004,-52.2917]10.8731[0.4197,1.3265]26.6005[4.5786,8.6223]30.0374[0.0332,0.0415]4-0.0138[-0.0436,0.0160]2R=0.9996F=11070.2944p02s=0.00033则20112231412yxxxxx中0、1、2、3、4的值分别为-65.9461、0.8731、6.6005、0.0374、-0.0138。即21211265.94610.87316.60050.03740.0138yxxxxx结果分析表2显示,2R=0.9996指因变量y的99.96%可由模型确定,F值远远超过F检验的临界值,p远小于a,因而模型(3)从整体来看是可用的。表2的回归系数给出了模型(3)中0、1、2、3、4的估计值分别为-65.9461、0.8731、6.6005、0.0374、-0.0138。检查它们的置信区间发现,4值的置信区间包含零点,表明回归的12xx变量对因变量y的影响不是太显著,则说明两个变量即年均收入和风险偏好度对人寿保险额不存在交互效应。模型改进模型(1)y与x1之间有二次关系,画出的图不是很好,线条过于复杂,没有达到较好的表达效果,于是,我运用线性关系来描述y与x1之间的关系。由图可说明y与x1之间运用线性关系描述更为恰当。图9y与x1的散点图(一次关系)附录1、模型(3)求解程序显示x=[1,66.290,7,66.290^2,66.290*7;1,40.964,5,40.964^2,40.964*5;1,72.996,10,72.996^2,72.996*10;1,45.010,6,45.010^2,45.010*6;1,57.204,4,57.204^2,57.204*4;1,26.852,5,26.852^2,26.852*5;1,38.122,4,38.122^2,38.122*4;1,35.840,6,35.840^2,35.840*6;1,75.796,9,75.796^2,75.796*9;1,37.408,5,37.408^2,37.408*5;1,54.376,2,54.376^2,54.376*2;1,46.186,7,46.186^2,46.186*7;1,46.130,4,46.130^2,46.130*4;1,30.366,3,30.366^2,30.366*3;1,39.060,5,39.060^2,39.060*5;1,79.380,1,79.380^2,79.380*1;1,52.766,8,52.766^2,52.766*8;1,55.916,6,55.916^2,55.916*6];y=[196,63,252,84,126,14,49,49,266,49,105,98,77,14,56,245,133,133];[b,bint,r,rint,stats]=regress(y',x,0.05)2、模型(3)结果显示b=-65.94610.87316.60050.0374-0.0138bint=-79.6004-52.29170.41971.32654.57868.62230.03320.0415-0.04360.0160r=-0.00920.2733-0.9104-0.9628-3.5763-1.60173.0347-0.99921.0091-0.44861.23142.1363-0.73830.41760.50040.56001.8146-1.7311rint=-3.77393.7555-3.60564.1521-3.86302.0422-4.71432.7887-6.4884-0.6641-4.37651.1731-0.23336.3028-4.54422.5458-1.90003.9182-4.29143.3942-1.83094.2937-1.19985.4724-4.45192.9754-2.51683.3521-3.36204.3628-0.28821.4082-1.48435.1136-5.36001.8978stats=1.0e+003*0.00108.304400.0033注:b的值是对应的回归系数,bint对应的是回归系数的置信区间,stats中对应的四个值分别是回归方程的决定系数2R、F统计量值、与统计量值对应的概率值p、剩余方差2s。评注从这个实例我们看到,建立回归模型可以先根据以知的数据,从常识和经验进行分析,辅以作图,决定取哪几个回归变量,及它们的函数形式。用MATLAB求解后,作统计分析:2R,F,p值,2s的大小是对模型整体的评价,每个回归系数置信区间是否包含零点,可以用来检验对应的回归变量对因变量的影响是否显著。如果对结果不够满意,则应改进模型,如添加二次项、交互项等。对因变量进行预测,经常是建立回归模型的主要目的之一。
本文标题:回归模型的建立
链接地址:https://www.777doc.com/doc-5329624 .html