您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据的统计学0741
大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区大数据的统计学基础——第7周大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区余额宝与大数定律——概率在相同的条件下,重复n次试验,事件A发生的次数𝑛𝐴称为A发生的频数,𝑛𝐴n称为事件A发生的频率。大量的试验证明,当试验的重复次数n逐渐增大时,事件A发生的频率会逐渐稳定于某个常数p。这个p就是事件A发生的概率重复试验中事件的频率的稳定性,是大量随机现象的统计规律性的典型表现随着试验次数的增加,事件H的频率与0.5之间的差距越来越小大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区统计规律性在随机事件的大量重复出现中,往往呈现几乎必然的规律,这类规律就是大数定律。人口男女比例接近1:1多次抛掷硬币,正面向上出现的频率接近1/2一个精密钳工在测量一个工件时,由于具有随机误差,他总是反复测量多次,然后用各次的平均值来作为测量的结果.而且经验表明:只要测量的次数足够多,总可以达到要求的精度.大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区切比雪夫不等式设随机变量X具有数学期望E(X)=μ,方差D(X)=𝜎2,则对任意正数ε,不等式𝑃{|𝑋−𝜇|≥𝜀}≤𝜎2𝜀2都成立。𝑃{|𝑋−𝜇|≥𝜀}≤𝜎2𝜀2等价于𝑃𝑋−𝜇𝜀𝜎1−1𝜀2所有数据中,至少有3/4的数据位于平均数2个标准差范围内。所有数据中,至少有8/9的数据位于平均数3个标准差范围内。所有数据中,至少有15/16的数据位于平均数4个标准差范围内大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区弱大数定律大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区弱大数定律的意义对于独立同分布且具有相同均值μ的随机变量X1,X2,……Xn,当n很大时,它们的算术平均数1𝑛𝑖=1𝑛𝑋𝑖很接近于μ。可以使用样本的均值去估计总体均值。例:设Xi是赌场某一台老虎机第i局的赢利,易知Xi独立同分布,且具有相同的均值μ(μ0)。根据弱大数定律,只要n足够大,老虎机的每一局的平均赢利1𝑛𝑖=1𝑛𝑋𝑖会很接近于μ。也就是说,即使这台老虎机前面几局都赔钱了,只要不断地有人投注到这个老虎机中,最终都是会赢利的。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区伯努利大数定理大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区伯努利大数定理的意义伯努利大数定律的结论虽然简单,但其意义却是相当深刻的.它告诉我们当试验次数趋于无穷时,事件A发生的频率依概率收敛于A发生的概率,这样,频率接近于概率这一直观的经验就有了严格的数学意义.在实际应用中,当试验次数很大时,便可以用事件的频率来代替事件的概率某个箱子里装有若干个白球和红球,具体比例不知道。若从中做1000次有放回抽样,抽出红球100个,白球900个,则我们可以说抽出红球的概率是100/1000=0.1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区大数定律的应用赌场的盈利保险公司的保障彩票:一颗均匀的骰子连掷n次,问点数之和Yn是怎样的分布?显然,Yn是n个独立同分布的随机变量之和:Yn=X1+X2+……+Xn,其中Xi有着共同的分布律:当n=1时,Y1的分布律与X1的分布律一样大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区中心极限定理当n=2时,Y2的分布律如下:这时Y2的概率直方图呈单峰对称的阶梯型大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区中心极限定理n=3时,Y3的概率直方图n=4时,Y4的概率直方图1414大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区独立同分布的中心极限定理n个相互独立同分布的随机变量之和的分布近似于正态分布,n愈大,此种近似程度愈好使用严格地数学定义上述定理:大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区定理说明对于均值为μ,方差为𝜎20的独立同分布的随机变量X1,X2,……,Xn之和𝑖=1𝑛𝑋𝑖,当n足够大时,有一般情况下,𝑖=1𝑛𝑋𝑖的精确分布很难计算出来,但有了上述定理,我们可以求出它的近似正态分布,从而可以计算一些近似概率。)1,0(~/1近似于1NnXnnii大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子设X1,X2,……,Xn是n个独立同分布的随机变量,其共同分布为区间(0,1)上的均匀分布,即诸Xi~U(0,1).若取n=100,求概率P(X1+X2+……+Xn≤60)的近似值。E(Xi)=1/2,D(Xi)=1/12;记Y=X1+X2+……+Xn根据定理,有𝑌−𝑛𝐸(𝑋𝑖)𝑛𝜎近似地服从N(0,1)故P(Y≤60)=P(𝑌−100∗12100∗112≤60−100∗12100∗112)≈Φ(3.464)=0.9997大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区Lyapunov定理大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区Lyapunov定理当n很大时,无论各个随机变量Xk服从什么分布,只要相互独立而且满足定理条件则它们的和𝑘=1𝑛𝑋𝑘就近似服从正态分布。即近似服从标准正态分布。如,在任一指定时刻,一个城市的耗电量是大量用户耗电量的总和,从而可以知道这个城市的耗电量服从正态分布。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布近似正态分布大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布近似正态分布大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子假如某保险公司10000个同阶层的人参加人寿保险,每人每年付12元保险费,在一年内一个人死亡的概率为0.006,死亡时,其家属可向保险公司领得1000元。试问:平均每户支付赔偿金5.9元至6.1元的概率是多少?保险公司亏本的概率有多大?保险公司每年利润大于4万元的概率是多少?(1)设𝑋𝑖表示保险公司支付给第i户的赔偿金,则𝐸𝑋𝑖=0×0.994+1000×0.006=6;𝐷𝑋𝑖=𝐸𝑋𝑖2−𝐸𝑋𝑖2=10002×0.006−62=5964设𝑋𝑖相互独立,i=1,2,……,10000.则表示保险公司平均对每户的赔偿金。𝐸𝑋=6,𝐷𝑋=110000×5964=0.5964100001110000iiXX大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子由中心极限定理,故𝑋~𝑁(6,0.5964)𝑃5.9𝑋6.1=Φ6.1−60.5964−Φ5.9−60.5964=Φ0.1295−Φ−0.1295=0.103038进一步,𝑃4.5𝑋7.5=Φ7.5−60.5964−Φ4.5−60.5964=0.9479虽然每一家的赔偿金差别很大,但保险公司平均对每户的支付计划约等于6元,在4.5元至7.5元内的概率接近于0.95,也就是说,有95%的可能性保险公司最多要赔偿75000,相对于保险公司的收入120000来说,这个数额还是赚了不少。(2)保险公司亏本,也就是赔偿金额大于1000*120=12(万元),即死亡人数大于120人的概率。死亡人数为Y~B(10000,0.006),则E(Y)=60,D(Y)=59.64.由中心极限定理,Y近似服从正态分布N(60,59.64),那么P{Y120}=1-P{Y=120}=1-Φ(0.77)=0大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子(3)如果保险公司每年利润大于4万元,即赔偿人数小于80人。则可见,保险公司每年利润大于4万元的概率接近100%。在保险市场的竞争过程中,由两个可以采用的策略,一是降低保险费3元,另一个是提高赔偿金500元,那种做法更有可能吸纳更多的投保者,哪一种效果更好?对保险公司来说,收益是一样的,而采用提高赔偿金比降低3元保险费更能吸引投保户。8060{80}()(2.59)0.995259.64PY大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区总体与样本普查:人口普查;考察某所高中高三学生成绩,将所有学生的成绩都统计出来……抽样调查:考察某个电视节目的受欢迎程度,随机采访1000名观众;考察1000个产品的质量,从中抽取10个产品检查……总体(population)——有限总体、无限总体个体样本(sample)总体容量N样本容量n大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区简单随机抽样样本简单随机抽样:总体中每个个体被抽中的概率都相等设X是具有分布函数F的随机变量,若X1,X2,……Xn是具有同一分布函数F的、相互独立的(独立同分布,也记作i.i.d)的随机变量,则称X1,X2,……Xn为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本。它们的观察者x1,x2,……,xn称为样本值,又称为X的n个独立的观察值。假设某批灯泡的寿命X(小时)服从U(3000,5000)。从这批灯泡中随机抽出10个做测试,发现这10个灯泡的寿命分别为3125,3692,4297,4172,3186,4852,3946,4286,3912,3364。再从这批灯泡中抽取10个测试,它们的寿命分别为3645,4482,4617,3594,4287,3641,3289,3791,4982,4236.大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区统计量把样本所包含的关于我们所关心的事物的信息集中起来,这便是针对不同的问题构造出样本的某种函数,这种函数在统计学中称为统计量。例如:样本均值,样本方差,样本标准差数学定义:设X1,X2,……,Xn是来自总体的一个样本,g(X1,X2,……,Xn)是X1,X2,……,Xn的函数,若g中不含未知参数,则称g(X1,X2,……,Xn)是一个统计量只利用已知的总体信息与样本信息就可以求出来的大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区样本均值设X1,X2,……,Xn是来自总体X(E(X)=μ,D(X)=𝜎2)的一个样本,其观察值为x1,x2,……,xn。样本均值:𝑋=1𝑛𝑖=1𝑛𝑋𝑖样本均值观察值:𝑥=1𝑛𝑖=1𝑛𝑥𝑖样本均值是总体均值的无偏估计量——样本均值的期望等于总体均值E1𝑛𝑖=1𝑛𝑋𝑖=1𝑛𝑖=1𝑛𝐸(𝑋𝑖)=1𝑛𝑖=1𝑛𝜇=𝜇一般使用样本均值估计总体均值样本均值的方差:D𝑋=𝐷1𝑛𝑖=1𝑛𝑋𝑖=1𝑛2𝑖=1
本文标题:大数据的统计学0741
链接地址:https://www.777doc.com/doc-28511 .html