您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 概率统计模型讲座PPT
概率统计模型讲座主讲:吕佳数学与计算机科学学院确定性因素和随机性因素随机因素可以忽略随机因素影响可以简单地以平均值的作用出现随机因素影响必须考虑随机模型确定性模型随机性模型一、电梯问题有r个人在某栋大楼的一楼进入电梯,大楼共有n层。如果每个乘客在任何一层楼出电梯的可能性相同,那么直到电梯中的人下完为止,电梯平均需要停多少次?如果在一楼共进入电梯14人,而这栋大楼共有28层高,请用计算机模拟验证你的理论。Matlab模拟程序dianti.m:N=5000;%模拟次数n=28;%电梯层数r=14;%电梯开始进的人数s=0;x=zeros(n,1);fork=1:N%模拟N次s1=0;fori=1:nx(i)=0;endforj=1:r%对每个人是否下电梯进行模拟i=1+floor(rand(1,1)*n);x(i)=1;%第i层有人下ends1=sum(x);%该次模拟中总共要下的人数s=s+s1;%累加各次模拟中要下的人数endeq=s/N%模拟平均值输出ei=n*(1-(1-1/n)^r)%理论值输出计算机模拟程序二、聪明的保险公司人寿保险问题3、对这2500个参保对象每人每年至少收取多少保险费才能使公司以不小于0.99的概率每年获利不少于10万元?假设有2500个同一年龄段同一社会阶层的人参加某保险公司的人寿保险。根据以前的统计资料,在一年里每个人死亡的概率为0.0001.每个参加保险的人一年付给保险公司120元保险费,而在死亡时其家属从保险公司领取20000元,那么,1、保险公司有多大可能性亏本?2、有多大可能性保险公司一年获利不少于10万元?4、由于保险公司之间竞争激烈,为了吸引参保者、挤垮对手,保险费还可以降低,比如20元,只要不亏本就行。因此,保险公司将考虑这样的问题:在死亡率和赔偿金不变的情况下,每人每年交给保险公司20元保险费,保险公司至少要吸引多少个参保者才能以不小于0.99的概率不亏本?人寿保险问题人寿保险问题的数学模型问题的关键在于,保险公司会面临多少理赔,即会有多少参保者死亡?而这是具有随机性的。可以引入随机变量X来表示参保者中的死亡人数。问题分析容易理解:X是服从二项分布B(n,p)的,其中n为参保总人数,p为死亡概率。根据中心极限定理还可以知道,X近似服从正态分布N(np,npq),可据此解决上述问题。模型构成用随机变量X表示一年之中死亡的人数,则X~B(2500,0.0001),一年之中有k个人死亡的概率为:25002500{}(0.0001)(0.9999),0,1,2,,2500kkkPXkCk根据E(X)=2500×0.0001=0.25,D(X)=2500×0.0001×0.9999≈0.25,由中心极限定理知;X~N(0.25,0.52)。1、保险公司亏本的概率为:25002500250016{15}(0.0001)(0.9999)0.000001kkkkPXC实际上这个值很难计算,改用正态分布计算会方便很多:模型求解150.25{15}1{15}1()1(29.5)00.5PXPX2、“一年获利不少于10万元”等价于“X≦10”100.25{10}()(19.5)10.5PX3、设x为每人每年所交保险费,“获利不少于10万元”即2500x-20000X≧100000,等价于X≦x/8-5.50.258{5}()0.9980.550.2582.3351.320.5xxPXxx即每人应交给保险公司51.32元保险费。模型求解4、设y为参保人数,X仍为参保死亡人数,那么此时X~N(0.0001y,0.0001×0.9999y),则不亏本的条件变为:20y-20000X≥0,即X≤y/1000.0.00011000{}()0.9910000.00010.99990.000110002.336710.00010.9999yyyPXyyyyy即保险公司至少要吸引671人参加保险。模型求解对于二项分布,当n很大时,可以应用中心极限定理用正态分布近似计算。理论依据德莫佛-拉普拉斯中心极限定理(DeMoivre-Laplace)设随机变量ξn(n=1,2,...)服从参数为n,p(0p1)的二项分布,则~(0,1).wnnpNnpq关于中心极限定理在客观实际中有这样一种随机变量,它们是由大量的相互独立的随机因素的综合影响所形成的。而其中每一个别因素在总的影响中所起的作用都是微小的。这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理的客观背景。正态分布在随机变量的各种分布中,占有特别重要的地位.在某些条件下,即使原来并不服从正态分布的一些独立的随机变量,它们的和的分布,当随机变量的个数无限增加时,也是趋于正态分布的.在概率论里,把研究在什么条件下,大量独立随机变量和的分布以正态分布为极限这一类定理称为中心极限定理.关于中心极限定理关于中心极限定理一般说来,如果某些偶然因素对总和的影响是均匀的,微小的,即没有一项起特别突出的作用,那么就可以断定描述这些大量独立的随机因素的总和的随机变量是近似的服从正态分布.这是数理统计中大样本的理论基础,用数学形式来表达就是李雅普诺夫定理.关于中心极限定理李雅普诺夫Liapunov定理:设ξ1,ξ2…是相互独立的随机变量,有期望及方差2kkkkE=aD=0k=1,2,,2nnkkk=1k=120nn2kk=1a1limP==()2txxedtx关于中心极限定理这个定理的实际意义是:如果一个随机现象由众多的随机因素所引起,每一因素在总的变化里起着不显著的作用,就可以推断,描述这个随机现象的随机变量近似的服从正态分布.由于这些情况很普遍,所以有相当多一类随机变量遵从正态分布,从而正态分布成为概率统计中最重要的分布.三、社会收入分配公平吗?收入分配问题收入的差异是反应社会收入分配是否公平的重要指标。一般来说,鼓励自由竞争会扩大收入差异,但是政府可以通过税收政策和对低收入者的补贴来缩小收入的差异。现有30个工人家庭的月收入(元)的数据,从低到高列表如下:编号收入编号收入编号收入116501120202125502170012208022268031800132100232800418201421502428205183015220025286061880162250262920719001723002730008192018235028322091940192430293580101980202500304010工人家庭月收入表根据以上数据,你能设法描述收入分配的不公平程度吗?来看看洛伦兹(Lorenz)是怎么做的:洛伦兹曲线把这30个家庭按收入顺序分成相等的5组,然后统计出每组家庭的收入总数以及户数和收入的累积值及百分比累积值,如下表所示:组号户数累积百分比组内收入收入累积收入累积百分比1(1~6户)20%106801068014.99%2(7~12户)40%118402252031.61%3(13~18户)60%133503587050.35%4(19~24户)80%157805165072.50%5(25~30户)100%1959071240100%洛伦兹曲线用横坐标表示户数累积百分比,纵坐标表示收入累积百分比,描点、连线便得到洛伦兹曲线,它是一条向下凸的曲线。如果所有家庭的收入全部相等,则洛伦兹曲线为y=x,这条线称为绝对平等线,所以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的,所以洛伦兹曲线位于直线y=x的下方,它越接近直线y=x,收入就越平均;越向下凸出,则收入分配越不平均。基尼(Gini)系数在洛伦兹曲线的基础上,意大利统计学家基尼于1992年在他发表的有关收入集中指数的研究中提出了基尼系数。1010)(2121)(21dxxLdxxLg评价纵观以上洛伦兹曲线得到的过程,只用到数理统计中极其平常而简单的数据处理的基础知识,但却解决了“收入分配公平程度分析”这样的大问题。由此可见,往往不是我们所学的知识没用,而是我们没有运用知识的意识,没有深入理解知识的本质,也没有抓住问题的本质。而数学建模正是在用数学知识解决问题的过程中把对知识的运用和对问题的挖掘同时发挥到极致!四、生命线越长寿命越长?有人认为人的寿命与手掌上的“生命线”的长度有关,“生命线”长的人,寿命就长些;“生命线”越短的人,寿命就越短。下表列出了50位自然死亡的人的生存年龄x(单位:年)及“生命线”的长度(单位:厘米)的数据,试检验以上说法是否正确。编号12345678910111213x19404242474950545656575758y9.7599.69.7511.39.4511.397.95128.110.28.55编号14151617181920212223242526x61626265656566666667686868y7.27.958.858.258.859.758.859.1510.29.157.958.859编号27282930313233343536373839x69697071717172737474757575y7.810.110.59.159.459.459.458.18.859.66.459.7510.2编号4041424344454647484950x7677808282828386888894y68.8599.7510.713.27.957.959.159.759生命线越长寿命越长?生命线越长寿命越长?问题分析人的寿命和生命线的长度都是不确定的量,可分别用变量X和Y来描述。数据表实际上提供了X和Y的观测值。要对“生命线”越长寿命越长?这个问题给出是与否的回答,相当与假定:两随机变量Y和随机变量X有线性依赖的关系。生命线越长寿命越长?利用相关系数可以判断两随机变量之间是否存在线性关系。然而,随机变量X和Y的分布都是未知的,无法直接计算其相关系数这一数字特征。但是我们可以从数据即样本观测值来计算相关系数的估计量r.模型建立生命线越长寿命越长?5021505021166.66,9.198,2319334308.57,30549.759755.22,107.184,78.4098iiiiiiixxxyyyxyxyxyLLL利用所给数据可以计算出:从而X与Y之间的相关系数的估计值为:0.122550xyxxyyLrLL生命线越长寿命越长?由于0.05||(48)0.275rr所以X与Y之间的线性相关关系是不显著的。相关分析和回归分析在客观世界中,普遍存在着变量之间的相互关系。数学的重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间的关系分为两类:确定性关系-------即我们所熟悉的变量之间的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系。非确定性关系-------即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,变量之间的这种非确定性关系,称为相关关系。例如:人的身高和体重的关系;人的血压和年龄的关系,某产品的广告投入与销售额的关系等。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律。这种近似地表示它们之间的相关关系的函数被称为回归函数。最简单的情形是由两个变量形成的关系。考虑用下列模型表示:但是由于两个变量之间不存在确定的函数关系,因此,必须把随即波动考虑进去,故引入模型如下:()Yfx()Yfxx是普通变量是随机误差Y是随机变量相关分析和回归分析回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间的近似表达式,并由此对相应的变量进行预测和控制。相关分析和回归分析相关分析法和回归分析是研究两个或两个以上变量的相关关系的重要的统计方法。但两者之间又有明显的区别:回归分析相
本文标题:概率统计模型讲座PPT
链接地址:https://www.777doc.com/doc-7169116 .html