您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > Poisson回归-冯国双
Poisson回归冯国双主要内容一、二项分布与Poisson分布二、广义线性模型三、Poisson回归四、Poisson回归的SAS分析五、Poisson回归需注意的统计问题二项分布指在只会产生两种可能结果(如“阳性”或“阴性”)的n次独立试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,,n的一种概率分布。n为试验次数,为“阳性”概率。n,0,1,2,x)1(x)!-(nx!n!)1()(xnxxnxxnCxp表示从n个不同元素中每次取出x个不同元素的组合Cxn二项分布二项分布的条件:1.每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;2.每次试验产生某种结果(如“阳性”)的概率π固定不变;3.各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。二项分布二项分布举例:假定某疫苗的不良事件发生率是10%,现在有3个人接种了该疫苗,可能会出现的各种结局的概率是多少?二项分布3个人中,k个人出现不良事件的概率为:二项分布二项分布的概率分布:在n次独立试验中,令x表示事件A发生的次数,则随机变量x所有可能的取值为0、1、2、……,其概率函数为:两个参数:n为试验次数,为事件发生率。二项分布二项分布的性质:μ=nπ标准差)1(n二项分布Poisson分布Poisson分布主要用于描述单位时间、面积、体积等单位内稀有事件个数的相对频率。Poisson随机变量x的分布是:一个参数μ0,是一常数Poisson分布Poisson分布的条件:1.试验是在给定的时间、面积、体积等单位内发生的事件次数;2.事件发生在给定的时间、面积、体积等单位内的概率对每一单位都是相同的;3.发生在一个时间、面积、体积等单位的事件与发生在其它单位的事件是互相独立的Poisson分布Poisson分布的条件示意图:Poisson分布Poisson分布举例:为监测饮用水的污染情况,某疾控中心对一社区的饮用水进行检测,下面是每毫升饮用水的细菌数,试分析该结果是否服从Poisson分布Poisson分布均值=0.5方差=0.496均值≈方差,可以认为服从Poisson分布dataaa;inputxf;cards;0243112023136;procmeansmeanvar;freqf;varx;run;Poisson分布计算Poisson分布μ=1μ=2μ=3μ=4Poisson分布μ=5μ=6负二项分布负二项分布NegativeBinominalDistribution(NB):负二项分布常用于度量某事件发生前所需要的时间长度如顾客一直排队直到得到服务的时间,设备到失效的时间等其结果与二项分布一样,为两类:发生和不发生但描述的不是发生的次数,而是直至发生时实验的次数负二项分布随机变量y的概率分布为:其中,π为事件发生(成功)的概率,y=直至观测到第k次事件发生(成功)的试验次数𝑭𝑭𝑺𝑭𝑭⋯𝑺𝑭𝒚−𝒌次失败和𝒌−𝟏次成功𝑺第𝒌次成功当k=1时,即第1次观察到事件发生kykykyYPyp)1(}{)(111)1()(yyp负二项分布负二项分布的性质:均值方差很明显看出,负二项分布的均值小于方差负二项分布)1(k22)1(k负二项分布与Poisson分布的关系:Poisson分布中,设定μ是常数,当μ不是常数,而是一个随机变量,且服从γ分布时,此时复合Poisson分布就是负二项分布负二项分布中的μ是变化的,换句话说,个体事件发生的概率不等,有的出现的概率大,有的出现概率小,从而导致方差变大。实际意义也就是说,不同地区、时间等发生的概率不等,有的发生概率高,有的发生概率低,可能存在一定的聚集性。负二项分布负二项分布常用于:描述生物的聚集性,如钉螺在土壤的分布、昆虫的空间分布等;医学上描述传染性疾病的分布和致病生物的分布。需要注意:描述的事件发生率应比较低,其“单位”应足够大负二项分布离散参数(dispersionparameter):NB分布的均数与方差:令,则x的均数为:方差为:将k-1称为离散参数,当k-1趋于0时,负二项分布退化为Poisson分布)1(k22)1(k1kkk/)1(22负二项分布广义线性模型广义线性模型“广”在什么地方?主要是“广”在因变量上。广义线性模型是一般线性模型的推广,一般线性模型中的因变量只能是定量变量广义线性模型则拓宽了这一范围,因变量不再仅限于定量变量,还可以是诸如二项分布、Poisson分布、负二项分布等非定量变量。广义线性模型广义线性模型(GeneralizedLinearModel)其中,等式右边是自变量x1,x2,…,xm,可以是一个,也可以是多个,形式可以是分类的,也可以是定量的。等式左边是一个联接函数,通过指定联接函数及数据分布,广义线性模型可转化成相应的具体模型。mmxxx)(g2211广义线性模型常用的联接函数分布联接函数数学表达式模型正态分布恒等函数g(μ)=μ线性回归模型二项分布Logit函数g(μ)=ln(π/1-π)logistic回归模型Poisson分布对数g(μ)=ln(λ)Poisson回归模型广义线性模型当指定分布为正态(normal)分布,且联接函数直接就是μ时,广义线性模型就成了多重线性回归模型。当指定分布为二项(binomial)分布,指定联接函数为logit(μ)即时,广义线性模型就是logistic回归模型。当指定分布为Poisson分布,联接函数为log(μ)时,广义线性模型就转化成Poisson回归模型。当指定分布为负二项(negativebinomial)分布,联接函数为log(μ)时,广义线性模型就转化为负二项回归。广义线性模型更进一步地将多重线性回归、logistic回归、Poisson回归、负二项回归等统一起来Poisson回归模型Poisson回归常用于单位时间或单位空间内某稀有事件发生数的影响因素分析医学中有不少现象均符合这种条件,尤其在肿瘤队列研究中,如对浅表性胃炎病人长期随访一段时间后的胃癌发生数。这种数据也称之为事件数资料(countdata)。其特征就是发生数能够一个一个地清点(counting),不能有小数点。Poisson回归模型Poisson回归模型的表达形式为:系数βi表示xi每增加一个单位,log(μ)的变动或者说xi每增加一个单位,对μ产生eβi的效应mmxxx2211)log(Poisson回归模型Poisson回归的应用条件:线性:因变量的对数与自变量呈线性关系独立性:各观测之间相互独立方差等于均值:各自变量水平上的因变量的方差与均值相等Poisson回归模型参数估计:最大似然估计:选择能有最大概率获得当前样本的值作为参数的估计值。将观察值X看成结果,而参数值β看成是导致这些结果的原因。现有结果,反过来推导各种原因的“概率”(似然程度)。因此,应该用“似然程度”最大的那组𝜷作为β的估计值,因为在已得到样本X的条件下,这组𝜷“看来最像”真参数值。这个估计𝜷叫做β的“最大似然估计”。Poisson回归模型参数检验:(1)Wald检验:检验回归系数是否为零。其检验假设为:H0:βj=0H1:βj≠022)ˆ(ˆWaldjjsePoisson回归模型参数检验:(2)似然比检验(likelihoodratiotest)比较两个嵌套模型的对数似然值似然比统计量服从χ2分布,其自由度为两个模型自变量数的差值,根据χ2值和相应的自由度可计算出P值LR=-2(lnLm1-lnLm2)=-2ln(m2m1LL)Poisson回归模型模型评价:Pearsonχ2——比较期望值和观测值的差别yi表示不同自变量组合水平下的观测数,μi表示期望数,V(μi)表示方差JjjjjjVyw12)()(Poisson回归模型模型评价:Deviance——比较饱和模型和现有模型的差别Ls表示现有模型,Lf表示饱和模型饱和模型解释了模型系统部分的所有变动,反映一种理想状态。Deviance值越小,现有模型与饱和模型的偏差越小,拟合效果越好。)ln(ln2)ln(2fsfsLLLLDPoisson回归模型模型评价:AIC(Akaikeinformationcriterion)、AICC(correctedAIC)、BIC(Bayesianinformationcriterion)AIC=(-2lnL)+2pAICC=(-2lnL)+2p𝒏𝒏−𝒑−𝟏BIC=(-2lnL)+p*log(n)p是参数个数这些指标可用于两个或多个模型拟合优度的比较。较小的值表示拟合模型较好。Poisson回归模型模型诊断:多重共线性(multi-collinearity)容忍度(tolerance):小于0.1时,可能存在共线性方差扩大因子(varianceinflationfactor,VIF):大于10时,可能存在共线性分类资料最好不用条件指数Poisson回归模型模型诊断:异常点诊断离群点(outliers):因变量预测值与实际值差别较大。诊断指标:Pearson残差、Deviance残差杠杆点(highleveragepoints):自变量远离其它值。诊断指标:杠杆值hi强影响点(influentialpoints):对模型估计影响较大。诊断指标:DFBETA,Cook距离(Cook’sDistance)Poisson回归模型模型诊断:过离散(overdispersion):测量方差大于期望方差两种处理方法:1、乘以一个过离散因子ϕ二项分布中,𝑽𝝁=𝝓𝝁(𝟏−𝝁)Poisson分布中,𝑽𝝁=𝝓𝝁2、采用负二项分布,负二项分布对方差的处理更为灵活kk/)1(22Poisson回归模型广义线性模型在SAS中可通过procgenmod命令实现。其常用语句有:Procgenmod选项;Class分类变量;Model因变量=自变量;Weight变量:Run;Poisson回归模型Model语句常用的选项有:指定分布和联接函数的选项Dist=该选项指定数据分布,常用的分布有:binomial(二项分布,默认联接为logit)、poisson(Poisson分布,默认联接为log)、negbin(负二项分布,默认联接为log)、normal(正态分布,默认联接为identity)、multinomial(多项分布,默认联接为cumlogit,即累积logit)Link=该选项指定与分布对应的联接函数,常用的有:logit(对应二项分布)、log(对应Poisson分布和负二项分布)、identity(对应正态分布)、cumlogit(对应多项分布,用于多分类logit模型)Poisson回归模型Model语句常用的选项:结果输出选项Type1给出似然比的1型分析结果,1型分析结果跟各变量进入模型的顺序有关。模型中每一个自变量的结果仅仅校正了在它之前进入模型的变量,而在它之后进入模型的变量则没有校正Type3给出似然比的3型分析结果,3型分析结果跟各变量进入模型的顺序无关。模型中每一个自变量的结果都是校正了所有其它变量的结果,不管是在它之前进入模型还是在它之后进入模型Poisson回归模型Model语句常用的选项:结果输出选项Pred输出预测值Residuals输出各种残差,包括Pearson残差、Deviance残差等diagnostics输出杠杆值、强影响点诊断等结果Of
本文标题:Poisson回归-冯国双
链接地址:https://www.777doc.com/doc-3906668 .html