您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第8章_广义线性模型
•回归分析中假定随机扰动服从这样的一些正态分布:其方差取常值,而均值则为附属数据的线性函数.•很多精算问题可以利用特殊的广义线性模型来处理,如方差分析,泊松回归以及Logistic对数(logit)与概率(Probit)模型等的几类。精算数据与模型•实践中采集的数据往往显示方差要大于均值.•用于描述索赔额的分布通常具有厚重的右尾.•有待建模的现象极少关于附属数据是可加的,一般往往可用乘法模型.广义线性模型•它允许偏离均值的随机误差服从不是正态分布。如,随机误差可服从指数散布族中的任一种分布,包含了泊松分布、(负)二项分布、伽玛分布与逆高斯分布等.•并不要求随机变量的均值是解释变量的线性函数。但进行某些变换后它仍是是线性的.譬如,当对数时,我们可以用乘法模型替代了加法模型.广义线性模型具有以下三个特征:1.假定观测量是相互独立的随机变量,1,,.iYin,其密度函数为指数散布族.最重要的例子有:·正态随机变量(,);iiN·泊松随机变量();iPossion·总体服从泊松分布()iPossion的样本容量为1/iin的样本均值;·i与二项随机变量的积:1(,)iiiB(从而表示1/i次试验中的成功的次数211(,).iiiiIG11(,)iii•伽玛随机变量•逆高斯随机变量i上面所列的分布的均值。i是与均值无关,但与随机变量的方差有关的一个参数。我们取i等于/iw,并称为散布参数,而称iw为权重.2.一个线性预估量,iijjjx,它是诸参数1,,p的线性函数,可以作为模型观察值的估计。3.设iY的期望值i,则可用联结函数与线性预估量i的关系:)(iig.注8.2.1(典则联结)注8.2.2(方差函数)以下依方差函数中的幂次的升幂序,分别表述之:1.具有常值方差20的正态分布(同方差性)2.方差与均值相等的泊松分布以及泊松总体的样本均值.对前者,我们有21,对后者而言,方差与均值成正比,即有21;3.如列举的参数化所示,(,)句分布具有固定的形状参数,从而其变异系数/取常值,故有22;4.如列举,必参数化所示,(,)IG分布的方差等于232.§8.3若干传统的估计方法与广义线性模型我们将风险因子评级成I与J个风险类而生成关于诸观测量(1,,;1,,)ijYiIJ的一个表格.如:观测量ijY便可表示具有特征i与j的所有司机的已观测到的事故总次数.i表示某一保单的签约年,j表示发展年,而观测量ijY便表示在日历年1ij针对附属于年i的诸保单而支付的总索赔额.假设观测量ijY概率分布服从一广义线性模型的假定.确切地说,假定它们可视为是一个以i与j作为解释变量的对数线性模型.即ijY的期望值可表为该模型的参数是,i与.j至少应有二个约束条件。不妨先假定11.方法8.3.5(BaileySimon方法=关于泊松总体的最小2估计)利用BaileySimon方法,可乘模型中的参数估计量ˆi与ˆj由下述解确定:这一方法之所以受到重视可如下解释:若以ijS表示服从泊松分布的索赔次数,则由(8.2)表示的BS恰是一2统计量现就(8.2)中的BS针对每一参数求偏导,即得一正规方程组:逐项置换法性质8.3.7(BaileySimon方法导致“安全保费”)可以证明,利用这一方法所得保费总额要较观测到的损失总额多.即:若ˆi与ˆj表示(8.4)的解,则有首先可将(8.4)中的第一组方程改写为设随机变量U为一离散型分布Pr[],jjUdp其中:则其二阶矩22ˆiUE。由Jensen不等式,22[]([]),EUEU可知:因此方法8.3.8(边缘总和法)在一个“良好”的收费系统内,对于一个拥有众多被保险人的组合来说,保费总额相等于观测到的损失总额.在可乘模型中,为估计参数我们需解下述含IJ个未知数,且由IJ个方程组成的方程组:解上述方程组的方法之一是从关于j的任意正初值开始,采用逐次置换法解之.为此可将该方程组改写成下述形式:性质8.3.9(对数线性泊松的GLM=边缘总和法)假设位于单元(,)ij中的被保险人共有ijw位,其中每一人引发的索赔次数皆服从()ijPossion分布;再假定ijij,则由极大似然法与边缘总和法给出的i与j的估计值是相同的。证明因为位于单元(,)ij的索赔总数服从()ijijPossionw分布,故以ijs为观察到的索赔总数的诸参数ij的极大似然函数可表为若将下述关系式代入上式:对i与j求其最大值,则恰可导出方程组(8.11).方法8.3.10(最小二乘法=关于正态的极大似然法)下述(8.15)中诸项具有相同的均值,因此将它们相加是有意义的.参数i与j的估计量由下述解确定:就上式中的SS针对每一参数求偏导,可得一正规方程组,我们将其写成一种适合于逐次置换的形式:方法8.3.11(直接法=关于伽玛分布的极大似然法)直接法通过求解下述方程组而确定关于参数i和j的估计量:例8.3.12(上述诸方法的数值说明)我们将上述4种方法运用于下表中的数据,数据的形式为,,1,2.ijijwyij§8.4偏差与比例偏差例8.4.1(正态分布)假设1,,nYY是相互独立的正态随机变量,其中iY是iw个相互独立且服从(,)iN分布的随机变量的平均,于是(,/).iiiYNw现记L为关于上述诸观测量参数的似然函数。再记ˆL和L分别表示在L中当以ˆi和i置换i后所得之值,我们有显然,对全模型而言,借助逐项最大化(8.20)即知,对每一皆有如以表示偏差便得这表明,对正态分布而言,最小化偏差(或等价地最大化似然函数)是和确定参数的最小二乘法等效的.例8.4.2(泊松样本均值)现令/,iiiYMw其中(/).iiiMPossionw以下简记(,).iiYPossion特别地,当1iw且1时,即化为通常的泊松随机变量.如/iw为一整数,iY便可视为/iw个相互独立的()iPossion随机变量之和.不过,没有这一限定,上述模型仍是合理有效的,其似然函数可表述于下:例8.4.3(伽玛分布)现假设(/,/{}),iiiiYww显然,iY与iw个相互独立的(1/,1/{})i随机变量的算术平均同分布,或等价地,与/iw个相互独立且服从(1/)iExp分布的随机变量的算术平均同分布.我们有此时,对全模型仍可得这是因为,iiy不难验证,此例中的偏差由下式给出:自然,上式中必须取正值iy指数散布族定义8.6.1(指数散布族)指数散布族密度具有以下形式上述和是实参数,)(b和),(c是实函数,密度的支撑集.D§8.6广义线性模型参数的作用与不同,因不影响均值的取值,而均值正是我们最感兴趣的.除个别特殊情形外,的值是固定与均值无关,但是未知的。支撑集D与无关,函数),(c也与无关。它是作为规范化函数出现的,用以保证密度的求和或积分恰等于1。对连续型分布:正态分布的支撑集是,,伽玛与逆高斯分布的支撑集皆为(0,)。对离散型分布,支撑集为可数集.例如,对泊松乘数分布来说,{,2,},D例8.6.2(指数散布族的若干成员)下述参数族是指数散布族中最重要的一些成员:1.正态分布2(,),N经参数化后,有2(,)与22(,)2.泊松分布()Possion,此时参数log,而1.3.二项分布(,),Bmp其中m是任意固定且已知的自然数,相应地有log1pp与1.4.负二项分布(,),NBrp其中r是任意固定且已知的正实数,相应地有log(1)p与1.5.伽玛分布(,),经参数化后,有(,)/,(,)1/.6.逆高斯分布(,),IG此时2221(,)/,(,)/,2且也必然有0。有三种不同的参数化形式:贯穿全书的“标准”参数化。在§8.2中采用的由均值和散布参数表示的参数化。本节中采用的由和表示的参数化。最后一种参数化称为是自然或典则参数化.例8.6.3(伽玛分布与指数散布族)本书其余部分采用的参数化是借助形状参数和刻度参数来表述的.为确定和,我们可将(,)密度函数的对数与(8.29)进行比较,由此可得(1)1,.a注意,此时我们有0.(2)令()log().b(3)(;)log(1)loglog()cyy.在,参数化中,是作为均值出现的,故有.由此即可推断,在,的参数化中,这些随机变量的均值是和无关的.引理8.6.4(指数散布族的矩母函数)对于每一个实数t,若在(8.29)中以t替换后,仍然得一密度.密度(8.29)以t为自变量的矩母函数由下式给出:证明:我们仅给出连续情形的证明;关于离散情形的证明,只须将该证明中的在支撑集D上的积分改为关手y在D上的求和即可.可将矩母函数如下依次写出:上述最后一个不等式成立,是因为(8.34)中第二个积分号内的被积函数也是一个密度函数。推论8.6.5(累积量母函数,半不变量,均值与方差)若Y具有密度(8.29),则其累积量母函数等于半不变量,2,1,jj由下式给出:鉴于这一原因,通常)(b称为累积量函数.由半不变量可推知Y的均值与方差分别为注意,均值仅依赖于,而方差等于散布参数和()b的乘积.方差函数()V等于(()).b推论8.6.6(取样本均值)假设1,,mYY是随机变量Y的m个相互独立的拷贝,记1()/mYYYm为其样本均值.如果Y是具有固定函数)(b和),(c,又以和为参数的指数散布族中的一员,则Y属于以和/m为参数的同一类型的指数散布族,若这一对参数是允许取的话.证明:由(8.33),我们有这恰是以和/m为参数的指数散布族中一员的矩母函数.例8.6.7(泊松乘数与样本均值)由推论8.6.6,m个独立的()Possion随机变量的样本均值具有指数散布族密度,其中)(b,),(c与和泊松密度表示式中的一致,但需以1/m置换1,且以12{0,,,}mm为其支撑集.这样的样本均值事实上可视为是()Possionm随机变量与1/m相乘.令0是任一实数,不一定是某一整数m的倒数.记:1exptMttYeEeEe)()(expbtb其中:log,().be这恰和通常的泊松分布的密度表达式是一致的。当为任一正数时,对每一,皆可定义一个以为参数的指数散布族的子类.Y的可能取值为{0,,2,}.当1/,m我们得到的是一个m个()Possion随机变量的平均值.当n时,相应的随机变量具有这样的性质,它的一个样本容量为n的样本均值服从()Possion分布.当/,(8.39)nm中的Y便是m个n型的随机变量的样本均值.当1时,我们将得到一个方差大于均值的随机变量,所以文献中也将这样的随机变量命名为“超散布泊松”.当2j时,M服从参数为2/的泊松分布,MY2,Y的支撑集为},4,2,0{因些被称为稀疏泊松分布。(二项与负二项分布)负二项分布(,)NBrp仅当视r为固定常数,且取1时,才能由指数分布族(8.29)描述.现考虑两个具有相同,不同的分布.由此推出这两个分布具有相同的均值和不同的方差.若以00,rp与11,rp分别表示这两个负二项分布的参数,则由(8.36)知,它们的方差之比恰等于它们的参数之比,而它们的三阶半不变量之比则为前述比例的平方.上述最后两个等式仅当01pp时才能同时成立,所以也必然有01rr推论8.6.9(指数散布族与Esscher变换)一个连续密度的以h为参数
本文标题:第8章_广义线性模型
链接地址:https://www.777doc.com/doc-3252866 .html