您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 随机数的首位数字出现概率统计分析
1随机数的首位数字出现概率统计分析西南大学2011级朱熹朱心阳周亚晶何龙刘伟田宸宇内容摘要:本文运用一系列统计方法对学生人数进行统计分析,以及自己对实验现象的隐含的原理的猜测、证明。实验结果表明:a)首位数字是1的数字出现的几率最大,依次是2至9逐个递减。并且满足一定的函数关系。b)所有数字所在的数量级一定要有很大的差距,不然无法得出这个结论。c)所统计的数字一定不要受太大的人为因数影响。以此定律,我们可以检验一些记账的数据是否被私自删改,以及比赛投票的结果的检验复查,防止一些简单的造假行为。关键词:统计分析;首位数字;数量级;随机1、引言2001年,美国最大的能源交易商安然公司宣布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。如今做假账这些行为应当严厉打击,也许在次定律发现之前,做的一些假账逃过了法律的制裁。传闻1935年,美国的一位叫做本福特的物理学家在图书2馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这就说明了前几页翻阅得跟多,由此本福特发现了这一定律。本福特定律看似不符合逻辑,实质上它是经得起检验的。为此我们作出此次统计调查再一次亲身感受结论的正确性,同时我们也将作出自己的猜想,以及自己对定律的理解。2、提出问题对于自然出现的数字的首位数,是否1~9这九个数字的出现概率一定为1/9?如果不是,那它们将满足什么关系?为什么会出现不等于1/9这种情况?这种规律能否在实际生活工作中应用?能不能对此有一个直观的理解?这就是本次统计方案设计大赛我们队所研究的课题——首位数字出现几率的概率统计。3、分析问题对于自然出现的这些数字0、1、2、3、4、5、6、7、8、9,如果按照一定的度量单位制,这里我们假设他们为十进制进位方式,且数字按固定比例增长,那么在首位数字较小时,首数增长得会很慢,这意味着首位数变化的速率会很慢,但是当首位数字增长后,随着首位数字变大,首位数字的值增长也会加快。举个例子,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多3时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。也就是说,如果这些数据随机地出现,就算出现概率是等可能的,那么在一段时间内,我们看到的1出现的次数也将大于其他数字,所以这直接造成了首位数字是1出现的几率最大。4、设计统计方案我们猜想这些数字出现的规律满足由1开始逐渐递减,并且符合一定的函数关系。为此,我们将采集大量数据,为了让数据满足“随机、自然出现”这个条件,我们对重庆沙坪坝、洋人街和北碚的商铺做了调查,调查对象为这些商店的月营业额。由于商店类型不同,所以它们的营销额差距也是相当大的,可以产生相差几个数量级的营销额,且不受太多人为因素的影响。不要过多的选择同一地点且同一种商品的商店,那样可能将产生一些相似的数据。按照不同的月份分为12组,那么每个商店将可以为我们提供出12个数据。例如,第一家一月份的营业额为38914元,第二家一月份营业额为4339元,第三家一月份营业额为985元,第四家……那第一组的数据便为:38914、4339、985……之后,通过java编程统计,便能得到每个组中这九个数字在首位时出现的概率。之后再进行分析比对,于是得出结果。为了验证该结果,我们同时也将对其他一些数据进行同样的统计分析,4例如贴吧点击数、不同投票的结果等等。5、统计结果所有调查的商店每月份的营销额的首位数字数量及比列如下:(第一行为首位数字,第二行为数据的个数,第三行为数据个数占总个数的百分数。后面的表同此)12345678928717410284746659544830.4%18.4%10.7%8.8%7.9%6.9%6.3%5.6%5.0%通过对采集到的数据进行汇总和统计,我们发现在这些数据中,首位为1的出现概率远大于其他数字,并且接近于30%;而2~9这些数字出现的概率不仅远小于1出现的概率,其出现概率也是符合逐级递减的规律。并且符合数字越大递减的速率越慢的这一规律。与前面的猜想一致。6、误差分析将我们得到的数据与标准值相比较得方差σ=【(0.304-0.301)^2+(0.184-0.176)^2+(0.107-0.097)^2+(0.088-0.097)^2+(0.079-0.079)^2+(0.069-0.067)^2+(0.063-0.058)^2+(0.056-0.051)^2+(0.050-0.046)^2】÷9=0.0054σ相对较小,所以此次验证比较准确。5于是我们得出结论,自然随机变量中,只要样本空间够大,那么数字1~9出现的概率并不是想象中的满足1/9,而是满足下图中所示线性规律:7、资料搜索与自己理解通过查阅相关资料,我们发现,自然出现的随机数据满足Benford定律——只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。对应不同的进位制其函数关系为:6ddddPbbb11loglog1log其中,b为进位制,如采用10进位制,则b=10,如采用8进位制,则b=8;d为首位数字(d=1、2、3······b-1)我们可以用使用二进制时来简单的检验一下这个结果二进制中,以1开头的数占100%。而按照本福特定律,二进制中,以1开头的数占P=ln2/ln2-ln1/ln2=100%。完全符合。从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。本福特定律产生的根源,就在于指数增长,如果要增长相同的高度,那么越在后面所需要的时间就会越少,也就是说从1增长到2所停滞的时间最长,所以这样的数据个数在自然界出现的概率也将会大一些。然而从8到9的增长时间就很短了,这些数据自然会很少。这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:(横轴代表时间,纵轴代表那个变量)7显然,在某时刻你得到它以1开头的概率要大于9开头。而这是只取一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以1开头的数据数量就大于以9开头的数量了。而指数增长的形式在自然界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。比如说人类科技发展的速度大致和已有的科技成果成正比,所以人类的科技发展就是个指数增长;人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。指数增长是自然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。而关于该定律严谨的证明,可以参考Hill,T.P.“AStatisticalDerivationoftheSignificant-DigitLaw.”Stat.Sci.10,354-363,1996.。同时,我们也参考了2010年年末百度贴吧投票的结果,由于贴吧数8量极大而且参与投票者极多,虽然存在刷票现象,但对整体并不造成极大影响。但从减小误差考虑,我们只调查了当时贴吧人气大于1的部分参与人数多的贴吧,并按贴吧分类进行分组动漫类贴吧:首位数字数量及其比例123456789228684372344142738327825817639.3%14.5%12.4%7.6%7.3%6.6%4.7%4.5%3.0%人气为10000以上的贴吧数量:2499首位数字数量及其比例123456789944481315207155120114956837.8%37.8%12.6%8.3%6.2%4.8%4.6%3.8%2.7%于是不难发现,不管是营业额或者投票的排名都满足该定律,即首位出现1的概率最大,依次递减。而对于那种按一定规律排序的,或者人为修饰过的数字则不满足上述规律,例如身份证号、电话号码等。以下是对在校学生人数出生的数据统计分析得到的结果。首位数字及其比例91234567899881023105694611231307896954100711.8%12.0%12.5%11.2%13.3%15.5%10.6%11.3%11.9%可以看出,这种经过人为修饰后的数据与标准值相差甚大。为什么会产生这样的原因?人数之间数量级的波动并不大,几乎没有数量级的跨越,而且几乎是平均分配的,所以产生的比例也就接近于1:1。对于该定律的应用,发现在物理里面也同样满足,例如强子的宽度、统计物理的三个重要分布,Boltzmann-Gibbs分布,Bose-Einstein分布,Fermi-Dirac分布也基本遵循这个定律8、数据仿真采用1至100中的任意两个数、三个数、四个数······十个数相乘产生010至1010数量级的数字。采用java编程,设计此程序,然后随机筛选出部分数据,按首位数进行统计得下表:123456789数据个数301717651242971782661583519466所占比例0.3020.1760.1240.0970.0780.0660.0580.0520.047采用matlab作出函数图像如下:10得出其函数:5682.03702.01235.00216.00019.00001.0)(2345xxxxxxf与已知的函数)11lg()(xxp相比较。将两个函数作差得)11lg(5682.03702.01235.00216.00019.00001.0)(g2345xxxxxxx将函数P(x)用泰勒公式在x=0处展开得:54320001.00019.00216.01235.03702.05684.0)(xxxxxxp所以g(x)几乎趋于0,也就是说f(x)与p(x)几乎相等。所以模拟出来的结果与真实结果几乎相同。119、理论分析对此定律提出自己的看法,建立自己的模型。设a1,nna,nf为以n为首的数字出现的概率。则定义n为数a升到n的难度系数。那么再定义1nn为数字n-1上升到n的难度系数。那么我们可以想象从n-1上升到n的难度系数占总难度系数和的比例就是n-1为首的数字在所有随机出现的数字的概率。因为上升的难度系数越大,首位数字停滞的时间越久,以此为开头的数据个数就越多。对等式两边取b为底的对数得loglogbnbna令NNNP1得到1log()logbNbnnPa那么我们可以得到921PPPPfNn最后化简可以得到公式11log()lg()1()lg()log10lg10bbnnnnnfxn与已知公式完全一样。10、总结在贴吧的统计结果中,比标准值偏大,造成这项误差的原因,因为投票不可能是规律排布,所以只能是人为修饰,考虑到当时有刷票现象,12所以判断出有可能是这个因素导致的误差偏大。在处理一些数据时我们可以通过此方法来验证它是否造假。所以综合以上所有统计结果,我们得出结论:自然出现的数据满足Benford定律,即b进位制中,以数n起头的数出现的机率为nnnnPbbb11loglog1log且有110lg)9102312lg()9()2()1(PPP与事实相符合。而所选数据必须满足条件:(1)数据不能是规律排序的;(2)数据不能经过人为修饰。通过此次统计调查,我们不但得出了随机数据出现的一般规律,而且也验证了Benford定律的正确性。参考文献[1]2005年6月2日明报D15版,《假帐克星——本福特定律》,吴端伟博士[2]2010年5
本文标题:随机数的首位数字出现概率统计分析
链接地址:https://www.777doc.com/doc-2004364 .html