您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 中再财险的报告GLM与车险定价
中再财险“产险定价与预测建模培训会”(2013年7月26日)广义线性模型及其在汽车保险定价中的应用孟生旺中国人民大学统计学院主要内容1GLM基本理论简介2模拟数据的建模分析2.1索赔频率模型2.2索赔强度模型2.3纯保费模型3应用案例:车损险数据GLM基本理论简介线性回归模型:分布假设:正态分布方差:常数连接函数:恒等广义线性模型:分布假设:指数分布族方差:可变连接函数:log,logit,……指数分布族的密度函数:()(,)exp(,,)/iiiiiiiiybfycyww;均值和方差分别为:()()iiiEYbvar()()/()/iiiiiYbwVw指数分布族的性质:关于数据合并是封闭的。如果两个风险类别Y1和Y2的均值相同,离散参数也相同,权重分别为w1和w2,则它们的加权平均值Y=(w1*Y1+w2*Y2)/(w1+w2)仍然服从原指数分布族,权重为w1+w2。车险定价中常用的指数分布族(Tweedie分布类):方差函数:()pV,包含:正态分布:p=0泊松分布:p=1伽马分布:p=2逆高斯分布:p=3复合泊松分布:1p2(狭义的Tweedie分布),是一种混合型分布(离散+连续)注:0p1不存在分布,其他情况都有对应的分布,但应用较少。Tweedie分布类的性质:关于尺度变换是封闭的,即如果Y服从某个Tweeedie分布类,则cY也服从同一个Tweedie分布类(c是正常数)。例:索赔强度模型可以使用不同的货币单位。索赔频率模型可以使用不同的风险单位(如车年,车月)。泊松分布的生成机理(满足下述3条性质的分布是泊松分布):(1)在很小的时间区间,)ttt(内,发生一次索赔的概率与时间区间的长度近似成正比,即近似为t。(2)在很小的时间区间,)ttt(内,发生两次及其以上索赔的概率几乎为零。(3)在不相交的两个时间区间发生的索赔次数相互独立。泊松分布的性质:泊松分布的应用:(1)描述个体保单的索赔次数。(2)描述同质性保单组合中随机个体保单的索赔次数。例:假设每份保单的索赔次数服从参数为0.4的泊松分布,则从100份同质性保单组合中随机抽取一份保单的索赔次数仍然服从参数为0.4的泊松分布。即任意一份个体保单的索赔次数分布为:索赔次数概率00.67010.26820.05430.007伽马分布的性质:(均值=,方差=22)逆高斯分布的性质(均值=,方差=23)(与前述的伽马分布具有相同的均值和方差)伽马与逆高斯的比较:Tweedie分布的性质:车险定价中常用的连接函数:对数连接函数,得到乘法模型(1)加权线性回归:21var()/,miiiijjjYwx(2)广义线性模型:1var()()/,g()miiiiijjjYVwx(3)GLM的特例:定价中常用的Tweedie乘法模型1var()/,log()mpiiiiijjjYwxGLM的参数估计:极大似然法=迭代加权最小二乘法求解GLM极大似然估计的方程组:0()()iiiijiiiywxVg在Tweedie分布假设和对数连接函数下,上述方程组变形为:10iiiijpiiywx其中1expmiijjjx假设只有两个分类变量,上述方程组简化为:泊松:,ijijijijijijijijjjiiwywwyw(边际总和法)伽马:,ijijijijijijijijjjiiyy(直接法)复合泊松:1111,ijijijijijijijijppppjjiiijijijij注:p1时,期望值较大的类别,权重较小.GLM的评价和检验:偏差(Deviance)尺度化偏差(scaleddeviance,与离散参数有关):*maxmax2log2[(;)(;)]LDllLbyby,近似服从2()nr(非尺度化)偏差(deviance):*DD例:正态:2ˆ()iiiiwy泊松:ˆˆ(log()log())iiiiiiiiwyyyy伽马:ˆˆ(/1log(/))iiiiiiwyy注:偏差是估计值与拟合值之间某种距离的加权和。极大似然函数=极小偏差函数不同分布假设下尺度化偏差的比较注:数据量很大时,分布假设的影响很小拟合优度评价的卡方统计量:222ˆˆ()1()var()()iiiiiiiiiyywyVy,近似服从2()nrn表示样本量,r是参数个数。离散参数的估计:因为2()Enr故离散参数的无偏估计为22ˆ1()ˆ()iiiiiywnrnrVy(最佳方法)注:因为尺度化偏差*D近似服从2()nr,故离散参数也可以如下估计:*ˆDDDnrnr(易受模型误差影响)注:离散参数的另一种估计方法是极大似然法,也容易受到模型误差的影响注:估计离散参数时最好使用未汇总的数据。嵌套模型的检验:两个嵌套模型的尺度化Deviance之差服从2()pq。残差及其应用:(1)皮尔逊残差:ˆˆ()/iiPiiiyrVw如果i已知,皮尔逊残差的均值为零,方差为。当离散参数相对于均值很小时,近似服从正态分布。学生化皮尔逊残差=上式除以(1)ih(2)偏差残差:ˆsign()Diiiiirywd,当离散参数相对于均值很小时,近似服从正态分布,近似效果优于皮尔逊残差。学生化偏差残差=上式除以(1)ih注:在正态分布假设下的线性回归模型中,皮尔逊残差与偏差残差重合,都精确服从正态分布。当因变量服从逆高斯分布时,偏差残差也精确服从正态分布。当/较大时,不能保证上述两种残差近似服从正态分布。(3)随机化分位残差:服从标准正态分布。1ˆˆ{(;,)}QiiirFy(连续变量)1ˆˆˆˆ{},~uniform(,],lim(;,),(;,)iQiiiiiiiiiyyruuabaFybFy(离散变量)(4)残差的应用:发现异常值,检验方差假设是否成立。模型选择:AIC22BIC2log()lplpn索赔频率模型:泊松回归模拟数据说明:一共模拟1000份保单的损失数据。A和B是两个分类变量。A有2个水平:A1和A2,其中A1是基准水平。B有3个水平:B1,B2和B3,其中B1是基准水平。所有保单被划分为6个风险类别。模拟索赔次数时设定的参数值为beta=(0.2,-0.2,-0.3,0.4)table(dat$y)0123456295349209983793泊松分布拟合每个风险类别的经验索赔次数不同风险类别的平均索赔次数差异dat[,var(y)/mean(y)][1]1.081283dat[,list(均值=mean(y),方差=var(y),方差比均值=var(y)/mean(y)),by=list(A,B)]AB均值方差方差比均值1:111.30357141.48214291.13698632:220.80952380.86170521.06445933:131.86309521.66377960.89301914:211.11445780.82924420.74407865:120.85454551.00310421.17384546:231.68484851.50983000.8961221mod=glm(y~A+B,family=poisson(link=log),data=dat)summary(mod)Coefficients:EstimateStd.ErrorzvaluePr(|z|)(Intercept)0.242610.056324.3071.65e-05***A2-0.108240.05617-1.9270.054.B2-0.373590.07801-4.7891.68e-06***B30.383240.064555.9372.91e-09***(Dispersionparameterforpoissonfamilytakentobe1)Nulldeviance:1233.1on999degreesoffreedomResidualdeviance:1111.6on996degreesoffreedomAIC:2820.2#I型检验anova(mod)AnalysisofDevianceTableModel:poisson,link:logResponse:yTermsaddedsequentially(firsttolast)DfDevianceResid.DfResid.DevNULL9991233.1A14.0179981229.1B2117.4589961111.61-pchisq(c(4.017,117.458),c(1,2))#p值[1]0.045043770.00000000#III型检验:除了待检验的变量外,假设其他所有变量都包含在模型中。如果模型中包含交互项等高级项,III型检验不适用。library(car)Anova(mod,type=3)AnalysisofDevianceTable(TypeIIItests)Response:yLRChisqDfPr(Chisq)A3.71910.05381.B117.45822e-16***plot(mod,which=c(1,2,4))#残差图注:横轴是线性预测值。残差是deviance残差(隐含)。library(gamlss)mod1=gamlss(y~A+B,family=PO)GAMLSS-RSiteration1:GlobalDeviance=2812.21GAMLSS-RSiteration2:GlobalDeviance=2812.21plot(mod1)*****************************************************************SummaryoftheRandomisedQuantileResidualsmean=-0.003560068variance=0.9926385coef.ofskewness=0.004010459coef.ofkurtosis=3.153639Fillibencorrelationcoefficient=0.999511*****************************************************************#使用错误的正态分布假设?mod2=gamlss(y~A+B,family=NO)GAMLSS-RSiteration1:GlobalDeviance=3036.148GAMLSS-RSiteration2:GlobalDeviance=3036.148plot(mod2)*****************************************************************SummaryoftheQuantileResidualsmean=9.762871e-16variance=1.001001coef.ofskewness=0.8483181coef.ofkurtosis=3.791022Fillibencorrelationcoefficient=0.9720617*****************************************************************错误的正态分布假设对拟合值的影响newdat=dat[,sum(y),by=list(A,B)]newdat=newdat[,list(A,B)]cbind(fit.PO=exp(predict(mod1,newdata=newdat)),fit.NO=predict(mod2,newdata=newdat)
本文标题:中再财险的报告GLM与车险定价
链接地址:https://www.777doc.com/doc-1453617 .html