您好,欢迎访问三七文档
第六章经验模型问题:如何选取合适的理赔额分布或理赔次数的分布。分布拟合检验的一般步骤(1)获得损失分布的经验分布信息,例如经验分布图、样本均值、样本方差、分位点等。(2)选择一种概率分布作为损失的分布类型,估计所选择分布中所包含的参数;(3)对分布进行拟合检验,以确信所选择的分布类型和参数估计是否恰当;(4)考虑是否还有其它适合的分布,如果有,重复第(1)—(3)步;(5)在几种合适的分布中选取一个最优的分布作为损失额的分布。选择的标准有多种,常用的方法是比较2统计量的值,比较最大似然函数的值等;(6)模型的修正。选择模型后,要注意随时对模型修正,以反映未来发生的情况,如通货膨胀,免赔额变化等。一、构建经验模型DatasetA下表是某保险公司在一年内小汽车发生事故次数的统计数据:发生事故次数驾驶员数量081,714111,306216183250440不少于57DatasetB下表是某劳工补偿险的部分原始损失数据2782115126155161243294340384457680855877974119313401884255815743DatasetC下表是某责任险的赔付数据:支付范围支付次数0-7500997500-175004217500-325002932500-675002867500-12500017125000-3000009超过3000003DatasetD1寿险保单终止有三种状态:死亡,期满和退保(surrender)。下表是某寿险保单持有人在签订保单后5年内保单终止的时间记录。policyholderTimeofdeathTimeofsurrender1-0.124.80.53-0.840.83.953.11.86-1.87-1.88-2.19-2.5102.92.8112.94.612-3.9134.0-14-4.015-4.1164.8-17-4.818-4.819-30--其中‘-’表示时间未知,最后12个保单持有人保单期满并退保。DatasetD2下表表示寿险保单存活状态的两次观测值,其中Firstobserved表示第一次观测的时间,若为0则表示保单签订后马上进行记录,Lastobserved表示第二次观测的时间,Event表示最后一次观测时保单持有人的状态,S表示退保,D表示死亡,E表示保单期满。PolicyFirstobservedLastobservedEventPolicyFirstobservedLastobservedEvent100.1S1604.8D200.5S1704.8S300.8S1805.0S400.8D19-3005.0E501.8S310.35.0E601.8S320.75.0E702.1S331.04.1D802.5S341.83.1D902.8S352.13.9S1002.9D362.95.0E1102.9D374.8S1203.9S383.24.0D1304.0D393.45.0E1404.0S403.95.0E1504.1s例这是一组责任险保单的赔付数据,这个数据中包含了不同的免赔额和限额。年免赔额最大支付额赔付额年免赔额最大支付额赔付额9001000000289091150000001000000010000000900500000058519201000000183690250000100000001534792010000001070590010000001563592050000001097390030000002055392050000001340890010000000345849201000000016339900100000007966192350000500000095736900400000132601920100000021231390150000050000001410989920500000043954390010000000278440192700000001500000010987109001000000048943609203000000121118090100000001000000093167519305000001051091010000001891930300000014029910300000030893930100000001529691010000003139293500001000000275169150000010000000494889301000000053467911750001000000674259330000050000008746391010000001503109310000050000002209959145000000330000001335735931500005000000274086910100000003308199930500000018623049112750000100000001000000093050000005000000请同学们观察上述几个数据集的特征个体,完整数据分组数据Truncated和Censored数据我们将分三种情况讨论经验模型的构建个体,完整数据分组数据Truncated和Censored数据censored(fromabove)truncated(frombelow)(一)个体数据对于个体数据,它的经验分布信息除了样本均值、样本方差、中位数、极大值和极小值,还包括经验分布函数、生存函数(survival),死亡力函数(cumulativehazardratefunctuon)等信息。1、样本分布函数样本分布函数就是累积频率,其定义式为()nnumberofobservationsxFxn其中n是样本量。例:设某医疗保险,规定免赔额为50元,随机抽取了10个理赔事件,赔偿额分别为1411646403512593171511107567F10(16)=1/10=0.1,F10(40)=0.2,…,F10(1511)=1可以证明:当X1,X2,…,Xn是某总体X~F(x)的独立同分布的样本时,Fn(x)依概率收敛到F(x).经验生存函数'()1()innnumberofxstStFtn特殊地,设样本为n个数据x1,x2,…,xn,这n个数据中只有k个不同的值,把这k个值按从小到大的顺序排列,记为y(1)y(2)…y(k),令sj表示等于y(j)的数据的个数,kjiijrs表示大于等于y(j)的个数,经验生存函数为1(),jnjjrStifytyn则样本分布函数(1)(1)()()0,()1/,,2,...,1,njjjkxyFxrnyxyjkxy例:假设某数据集包括7、2、4、4、6、2、1、9,则11y,22y,34y,46y,57y,69y,11s,22s,32s,41s,51s,61s,kjiijrs18r,27r,35r,43r,52r,61r483(4.5)8rSn,3444.56yy8(3)?S例假设某数据集包含下面的数据:1.0,1.3,1.5,1.5,2.1,2.1,2.1,和2.8,计算其经验分布函数。解:k=5,jyjsjrj11.01821.3?731.52?42.13452.81180,1.0710.125,1.01.38610.250,1.31.58()410.5,1.52.18110.875,2.12.881,2.8xxxFxxxx2、经验均值、经验方差等1ˆ221111ˆ,()nniiiiXnXXn1ˆ()((numberof'))ikkiixuEXuxuxsun3、百分位数设随机变量X的分布函数为(,)Fx,称()p为(,)Fx的100%p分位数,如果()p满足(()|)pFp个体数据的样本分位点:将1,,nxx按从小到大的顺序排列为(1)(),,nxx。对于01p,g=[(n+1)p]表示不超过(n+1)p的最大整数,此时认为分位数应该在x(g)和x(g+1)之间。记h=(n+1)p-g表示(n+1)p的小数部分,则样本的100p%的分位数为(p)=(1-h)x(g)+hx(g+1)中位数当n为奇数时,记k=(n+1)/2,中位数为x(k),当n为偶数时,记k=n/2,则中位数为)1()(2121kkxx例:求下表中的理赔记录的25%和75%分位数来估计参数的值。0.10.52.24.128.10.20.72.65.930.00.20.92.96.249.20.31.33.212.163.80.41.83.313.65118.0由于0.25×26=6.5,因此,0.25的分位点为0.5×0.5+0.5×0.7=0.65类似计算,0.75×26=19.5,0.75的分位点为0.5×12.1+0.5×13.65=12.8754、核估计直观含义经验分布函数是离散的,而大多数真实分布是连续的,因此经验分布不能很好的近似真实的分布,核估计的基本思想就是对每个观测值yj使用一个连续分布函数去近似,即令()jyKx表示在yj附近的分布函数,其均值为yj,则分布函数的核估计定义为:1ˆ()()()jkjyjFxpyKx()jpy表示yj的经验概率,密度函数1ˆ()()()jkjyjfxpykx其中jyK是连续分布函数,jyk为其分布函数。常见的核函数均匀核函数0,1(),20,yxybkxybxybbxyb0,(),21,yxybxybKxybxybbxyb请同学们画出均匀核函数分布图例:某个损失数据的样本为:7,12,15,19,26,27,29,29,30,33,38,53。给定带宽参数5h,利用均匀核函数,估计ˆ(20),fˆ(20),Fˆˆ(30),(30)fF。对于ˆ(20)f,需要考虑15,19处的经验密度,两点的权重都为11210h。11111ˆ(20)1210121060f。对于ˆ(20)F,需要考虑的点包括7,12,15,19。其中前两个点在带宽范围左边,权重为1,第三个点权重也为1,第四个点权重为0。6。因此:11113ˆ(20)1110.61212121210F。同法可得:1111111111111ˆ(30)12101210121012101210121020f11111111219ˆ(30)11110.90.80.60.50.212121212121212121230F我们可以绘制核密度估计的分布函数和密度函数图像,如图8-7所示̣。图8-1均匀核密度估计的密度函数和分布函数三角核函数220,,(),0,yxybxybybxybkxybxyxybbxyb(请同学们画出三角型图)22220,(),2()()1,21,yxybxybybxybKxybxyxybbxyb例:例某个损失数据的样本为:7,12,15,19,26,27,29,29,30,33,38,53。给定带宽参数5h,利用均匀核函数,估计ˆ(20),fˆ(20),Fˆˆ(30),(30)fF估计过程类似。为计算ˆ(20)f,需要考虑的点是15,19。由公式(8.4.8)得到相应的权重分别为0和25|2019|4525。因此:141ˆ(20)122575f对于对于ˆ(20)F,由(8.4.9)计算得到点7,12,15,19的权重分别为1,1,1,22(19205)1712525。因此:11111723ˆ(20)111121212122575F同理可得,3ˆ(30)50f,49ˆ(30)75F。相应的估计结果示意图为:图8-2
本文标题:精算模型第六章
链接地址:https://www.777doc.com/doc-3942525 .html