您好,欢迎访问三七文档
正态分布的前世今生(上)作者:rickjin(靳志辉)校对:汤涛,香港浸会大学数学讲座教授重新整理一下,把格式调整好,公式重新敲了一下(网上部分是无法显示的LaTeX,部分是图片),整理成PDF,不敢写名了…神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差就服从了正态分布。创世纪-数理统计一、正态分布学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式:222)(21)(xexf(1)也非常具有数学的美感。其标准化后的概率密度函数:2221)(xexf(2)更加的简洁漂亮,两个最重要的数学常量π、e都出现在了公式之中。在我个人的审美之中,它也属于top-N的最美丽的数学公式之一。如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。图1正态分布的钟形曲线正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。图2德国10马克纸币图3纸币上的正态分布曲线图4德国钢镚正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现误差服从这个奇妙的分布的。直到我读研究生的时候我的导师给我介绍了陈希儒的《数理统计简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。正态分布的这段历史是很精彩的,我们通过讲几个故事来揭开她的神秘面纱。二、邂逅,正态曲线的首次发现第一个故事和概率论的发展密切相关,主角是棣莫弗(DeMoivre)和拉普拉斯(Laplace)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理:)sin()cos()sin(cosninin(3)古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努力都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation),就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A、B两人在赌场里赌博,A、B各自的获胜概率是pqp1,。赌n局,若A赢的局数npX,则A付给赌场npX元,否则B付给赌场Xnp元。问赌场挣钱的期望值是多少?问题并不复杂,本质上是一个二项分布,最后求出的理论结果是),,(2nppnnpqb(4)其中iniinqpCipnb),,((5)是常见的二项概率。但是对具体的n,要把这个理论结果实际计算出数值结果可不容易,因为其中的二项公式中有组合数。这就驱动DeMoivre寻找近似计算的方法计算。与此相关联的另一个问题,是遵从二项分布的随机变量),(~pnBX,求X落在二项分布中心点一定范围的概率)|(|dnpXPPd是多少。对于21p的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是棣莫弗和Stirling处在同一个时代,而且二人之间有联系,Stirling公式是在数学分析中必学的一个重要公式(事实上斯特林公式的形式其实是棣莫弗最先发现的,但是斯特林改进了这个公式,改进的结果为棣莫弗所用):nennn2!(6)1733年,棣莫弗很快利用Stirling公式计算取得了重要的进展。考虑n是偶数的情形,令二项概率ninCinbib21,21,)((7)通过Stirling公式做一些简单的计算容易得到:ndnbdnbnnb22exp2222(8)于是有:ndndnb22exp222(9)使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到:ccccnincncincncidxxnninininbncnXP222222222exp212221exp212exp22221(10)看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。以上只是讨论了21p的情形,棣莫弗也对21p做了一些计算,后来拉普拉斯对21p的情况做了更多的分析,并把二项分布的正态近似推广到了任意p的情况。这是第一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的情形被推导出来的。熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。[DeMoivre-Laplace中心极限定理]设随机变量,...)2,1(nXn服从参数为p的二项分布,则对任意的X,恒有:xpnndttxpnpXXP2exp21)1(lim2(11)我在大学学习数理统计的时候,学习的过程都是先学习了正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是当时很困惑数学家们是如何凭空就找到这个分布的。然而读了陈希孺的《数理统计学简史》之后,才发现正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净,我们难以在数学课本上看到数学家对数学问题是如何研究推进的。DNA双螺旋结构的发现者之一Waston在他的名著《DNA双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。”棣莫弗给出他的发现后40年(大约是1770),拉普拉斯建立了中心极限定理较一般的形式,中心极限定理后续又被其它数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量N趋于无穷的时候,其极限分布都有正态的形式,这构成了数理统计学中大样本理论的基础。棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗不是个统计学家,从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分布)在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。那Gauss做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。下回分解:-)三、最小二乘法,数据分析的瑞士军刀第二个故事的主角是欧拉(Euler)、拉普拉斯(Lapalace)、勒让德(Legendre)和高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下:土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度,海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。这些天文学和测地学的问题,无不涉及到数据的多次测量,数据的计算与分析;十七、十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法,虽然缺乏理论上的论证,也不断的受到一些人的质疑。取平均作为一种异常直观的方式,已经被使用了千百年,在多年积累的数据的处理经验中也得到一定的验证,被认为是一种良好的数据处理方法。图5勒让德以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些天文学的问题大体都可以转换为描述如下的问题:有我们想估计的量p,...,0,另有若干个可以测量的量yxxp,,...,1,这些量之间有线性关系ppxxy...110(12)如何通过多组观测数据求解出参数p,...,0呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。pnpnnnppppxxxyxxxyxxxy...............22110222212102121211101(13)但是面临的一个问题是,有n组观测数据,p+1个变量,如果np+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组划归为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为2)-(理论值观测值累计误差(14)我们求解出导致累积误差最小的参数即可。nipipiiniixxye1211012)]...([minargminargˆ(15)勒让德在论文中对最小二乘法的优良性做了几点说明:最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位计算中只要求偏导后求解线性方程组,计算过程明确便捷最小二乘可以导出算术平均值作为估计值对于最后一点,从统计学的角度来看是很重要的一个性质。推理如下:假设真值为,nxxx,...,,21为n次测量值,每次测量的误差为iixe,按最小二乘法,误差累积为:niiniixeL1212)()((16)求解使得)(L达到最小,正好是算术平均niixnx121(17)由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去
本文标题:正态分布的前世今生
链接地址:https://www.777doc.com/doc-1667103 .html