您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 绩效管理 > 数据分析与统计软件的课程设计
《数据分析与统计软件》课课程程设设计计报报告告设计题目关于低体重初婴的回归分析设计时间姓名学号班级成绩指导老师关于出生体重偏低婴儿的回归分析【摘要】在医学界,婴儿的出身体重存在着一个最低的标准,而低于这一标准的婴儿被称为低体重初婴。低体重初婴相比于正常婴儿来说,无论是死亡率还是先天缺陷率都远远地高出。婴儿的出身体重偏低是一个长期困扰着医学界的问题。经过长期的研究发现:孕妇在怀孕期间的一些行为,包括饮食,吸烟习惯,和接受产前护理的情况等,和低体重初婴的出现机率有着很大的联系,所以我们可以通过指引孕妇怀孕期间的生活行为,来避免婴儿出身体重偏低的问题。本文根据回归分析的原理,分析多个潜在危险因子与出生体重偏低婴儿的出现之间的内在联系,构建预测模型,利用文献资料和低出生体重数据有效地拟合和预测低体重初婴的出现可能性。一、问题提出:婴儿的出身体重偏低是长期困扰着医学界的重大问题之一,多年来,婴儿出生体重偏低问题刺痛了许多温馨的家庭,让人们的心中蒙上了一层恐惧的黑影。经过多年的研究观察,我们发现孕妇在怀孕期间的一些行为和低体重初婴的出现机率具有很强的同步性,由此可见在这一类潜在危险因子与低体重初婴的出现之间必然存在着密切的联系,我们将尝试通过对已有文献的数据进行分析总结,挖掘出它们之间确切的数学关系。二、统计方法原理说明:(1)多元线性回归模型原理说明:设x1,x2,…,xp是p个可以精确测量或可控制的变量。如果变量y与x1,x2,…,xp之间的内在联系是线性的,那么进行n次试验,则可得n组数据:(yi,xi1,xi2,…,xip),i=1,2,…,n它们之间的关系可表示为:y1=b0+b1x11+b2x12+…+bpx1p+ε1y2=b0+b1x21+b2x22+…+bpx2p+ε2………………yn=b0+b1xn1+b2xn2+…+bpxnp+εn其中,b0,b1,b2,…,bp是p+l个待估参数,εi表示第i次试验中的随机因素对yi的影响。为简便起见,将此n个方程表示成矩阵形式:Y=XB+ε其中Y=(y1,y2,…,yn)'B=(b0,b1,…,bp)'ε=(ε1,ε2,…,εn)'上式便是p元线性回归的数学模型。而参数估计的方法是使用最小二乘估计。(2)Logistic回归模型的原理说明:拟合logistic回归采用最大似然估计法。检验模型或参数的显著性使用卡方统计量进行检验。利用logit变换可将属性变量取某个值的概率p的logit变换表示为自变量的线性函数,即logit(P)=β0+β1X1+β2X2+…+βmXm或等价于p=exp(β0+β1X1+β2X2+…+βmXm)1+exp(β0+β1X1+β2X2+…+βmXm),logit(p)=p1-p。三、数据分析1、设置指标经过研究选取了以下9个因子;AGE为孕妇的年龄;LWT为孕妇最后一次月经时的体重;RACE为种族(1=白种人,2=黑种人,3=其他);SMOKE为怀孕期间吸烟状况;PTL为早产史;HT为高血压病史;UI为子宫过敏的情况;FTV为怀孕前三个月接受产前护理的情况;LOW为低出生体重情况。其中,因子:RACE种族:“1”为白种人,“2”为黑种人,“3”为其他;SMOKE怀孕期间吸烟状况:“0”为没有,“1”为有;PTL早产史:“0”为没有,“1”为有1次,以此类推;HT高血压病史:“0”为没有,“1”为有;UI子宫过敏的情况:“0”为没有,“1”为有;FTV怀孕前三个月接受产前护理的情况:“0”为没有,“1”为1次,“2”为2次,以此类推;LOW低出生体重情况:“0”为不存在(出身体重=2500g),“1”为存在(出身体重2500g)2、数据样本与数据来源低出生体重数据:……表1现运用SAS软件对上述数据进行回归分析。源程序:datark;inputLOWAGELWTRACESMOKEPTLHTUIFTV;cards;04512310000102411610000101912011000003517010100103112010000202513010000202212910000002616030000002111510000101695300001020158100001025120100002028130300000028134300001014135100000020170110000033117100011018120300001029130110002016170200004032186100002018120110002022169100000030112100001025241200100024110301000023110100001020120300000019184110100024110100001030137100001029135100001029154100001019147110000019147110000016135110000025951130100211343000020192351101000221251000010241331000000361751000000231301000000171203100000191053000000231233000000201273000000301103000000321701000000221311000010231901000000201212100000321341110040251401000010182292000000161122000000161351100000231153100010311503100020201411020110221582010020221121120000282503100060201693010110241153000020261333120000281401000000231193000020241103000000171193000000171193000000211103100100301533000000201033000000191153000000161103000000309511000202213011000002312830000002212010010101913230000002411510000202285310000032132100004018901100100189011001001918910000202313020000102116010000002118521000203310911000103121511000202712411000002515510000102512520000002914011000201913811000202490111001035121211001029150100002026168210000017113200001017113200001017122110000025120300012028167100000028120300000036202100001032121300002031100100013028120110001020120300010025118110003015982000000181001100000181001100000229530010003010730101201915030000101995300000026113110000029123110001022118100001017103300001021124300000018107110010021108110012020105110001033155300003019182200010114100300002123943100001171422001001211301101031261901100001141013110001289511000212010530000312615430110111712020000212311011100011712011000313014211100012213011000112312030000012012221000012410521000011511530001012318721000113110211100111511010000012696300000121100301004118110211000120121111010118148300000125105301001120109300000117110110000120803100101221301110111271302000101201202100031171303110101241381000001191121100101261171110001191021000021201253000101258930200112110330000012415511100012592110000120150110002121200200012116130300001125115300000119911120101321051100001211651101011241323001001241282010011271503000001239730001112585300010125105301100134187210100129130100012128120311010;procprint;run;proccorrpearson;varLOWAGELWTRACESMOKEPTLHTUIFTV;run;procreg;modelLOW=AGELWTRACESMOKEPTLHTUIFTV;modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=adjrsqcpaic;modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwisevif;outputout=outr=residual;run;dataout1;setout;setrk;z=abs(residual);run;procprintdata=out1;run;proccorrdata=out1out=out2;varAGELWTRACESMOKEPTLHTUIFTVz;run;proccapabilitydata=out1;ppplotresidual;symbolc=redi=nonev=star;run;proclogisticdata=rk;modelLOW=AGELWTRACESMOKEPTLHTUIFTV/selection=stepwise;run;四、输出结果以及相关分析:1.录入数据:……2.简单统计量和Pearson相关系数:由相关系数我们可以认为,各个危险因子都与低出生体重情况具有较强的相关关系,所以尝试使用简单多元线性回归模型进行拟合。3.随机误差项的异方差检验:由异方差检验结果,我们可以选择使用FTV来构造权函数,进行加权最小二乘来估计参数系数,来减小随机误差项的异方差影响。所以采用加权最小二乘法弱化异方差影响后的回归方程为:y=0.685-0.02*AGE-0.002*LWT+0.053*RACE+0.159*SMOKE+0.184*PTL+0.479*HT+0.111*UI+0.038*FTV4.参数估计及模型检验:拟合模型为:LOW=0.42702-0.00529*AGE-0.00211*LWT+0.07743*RACE+0.16296*SMOKE+0.11712*PTL+0.37013*HT+0.15424*UI+0.00703*FTV,在α=0.1的情况下,只有参数RACE、SMOKE、HT显著,而其他参数估计都不显著,但方差分析中p0.0002,说明自变量从整体上对LOW具有显著的影响,所以我们对自变量进行选择,剔除不显著变量,优化回归方程。5.变量选择:(1)最优子集法:有最优子集法的输出结果我们可以看出,当自变量取LWT、RACE、SMOKE、PTL、HT和UI时AIC最小,所以方程最优,所以方程应该保
本文标题:数据分析与统计软件的课程设计
链接地址:https://www.777doc.com/doc-2130398 .html