您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第五章 概率与概率分布
第五章概率与概率分布第一节概率的基本概念一、后验概率二、先验概率第二节随机变量及其概率分布第三节正态分布一、正态分布的特征二、正态分布表三、正态分布表的用法四、正态分布理论的实际应用五、检验分布是否为正态的方法在语言实验研究中,我们通常选取研究对象的一部分(即样本)加以研究,在此基础上,通过推断统计对所有的研究对象(即总体)的情况作出推断。在进行这种推断时,我们不仅要指出总休可能是什么情况,而且还要指出我们进行这种推断的把握程度有多大,或者总体出现这种情况的可能性有多大,这个“可能性”就是概率。因此,要学好推断统计,就要对概率这一概念有所了解。第一节概率的基本概念简而言之,概率就是在某种条件下,某个事件出现的可能性。显然,这个事件可能会出现,也可能不出现,所以通常称之为“随机事件”。概率可分为两类:“后验概率”与“先验概率”。一、后验概率后验概率(或统计概率)是指通过实际观测,根据在总观测次数中某事件所出现的次数来计算该事件出现的概率,这种概率其实是一个相对频率,是实际概率的估计值。一般用A代表随机事件(例如“全体学生中的男生”),用P代表频率(概率估计值),或用n表示观测的次数,用m表示事件出现的次数,则(5.1)二、先验概率当可能出现的情况(叫做“基本事件”)是有限的,而且其出现的可能性相等时,所计算的概率称为“先验概率”或“古典概率”(无需经过实际观测)。用n表示基本事件的总数,用m表示事件A所包括的基本事件,用P代表概率,则(5.2)第二节随机变量及其概率分布随机变量是指在实验中受随机(或偶然)因素的影响,其取值无法进行准确预测的变量。譬如,我们要随机选取一些学生,来调查其家庭的人口数,“人口数”是一个随机变量,因为它可以取这一个值,也可以取那一个值,究竟取哪一个值完全是偶然的,无法碗切地预测,这要等到实验(实际抽取)之后才能得知。我们可以用某种方法对随机变量可取数值的概率分布进行描述,这就是随机变量的概率分布。第三节正态分布正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中(尤其是推断统计中)具有特殊的重要性。首先,在自然界、现实生活以及我们的语言研究中,许多现象或特征都是呈正态分布。就统计工作本身来讲,正态分布具有一些特殊的数学特征,使得我们能够预测总体中多大比例的个体将会在一定范围内取正态分布的变量的某些值,此外,一些重要的差异显著性检验也要求所涉及的变量呈正态分布(见第七章)。一、正态分布的特征正态分布主要具有以下几个特征:(1)其形状如钟,中央点(最高点)为平均数点,整个分布以过该点的垂线左右对称,横坐标代表标准差,即横坐标上各点表示离开平均数的标准差单位数,曲线两端向靠近横坐标处无限延伸,但永远不能与之相交(见图5.1)(2)在正态分布的中央点,平均数、中数与众数相等或重合(见图5.1)。(3)正态曲线完全是由平均数和标准差两个参数碗定的。有了这两个值,就可以利用正态分布的密度函数绘出正态曲线。当随机变量的平均数与标准差的值不同时,正态分布就会呈现不同的形态。在平均数相同的情况下,标准差大的正态曲线低平宽阔,而小的则高尖狭窄。但是我们可以把一个正态分布里的观测值换算成标准分(见第四章),即把原来的随机变量转换成一个标准正态变量,这样就可以把各种不同形态的正态分布转换成标准正态分布。(4)在曲线下,从任一标准差(整数或小数均可)作垂线,截取的“尾巴”所占总面积的比例都可以精确地计算出来。任一标准差与平均数之间的面积也可以精确地计算出来。任何两个标准差之间的面积也是固定的。正态曲线下的总面积为1,因而任一面积与总面积之比(即该面积本身)可以视为随机变量的值出现的概率。当直方形的宽度(即分组区间)相等时,各直方形的面积与相应的分组区间的数值的次数或频率也是成比例的,而数值出现的次数与总次数之比就是数值出现的概率。标准差与正态曲线下的面积的对应关系见图5.2二、正态分布表由于任何形态的正态分布都可以转换成标准正态分布,我们就有可能依据标准正态分布编制一个通用的表,列出与各Z值相对应的正态曲线下的面积(或概率),这就是正态分布表(附表2)。当我们想知道一个正态分布中的某个观测值所对应的面积时,或者已知面积,求相对应的观测值时,就不用一一计算了,只要把观测值换算成标准分,然后查正态分布表即可得到答案。三、正态分布表的用法1.由Z值查A值(1)查某Z值与平均数之间的面积。先在第一列找到要查的Z值,其后的数值即是该Z值值与平均数之间所夹的面积。例如:(2)查某Z值以上或以下的面积(即该Z值所截去的尾巴的面积)。由于表中A值为某Z值与平均数之间的面积,而平均数以上或以下(即平均数右侧或左侧)的面积各占曲线下总面积的一半,所以,在按照上述方法查到A值之后,还要进行一些简单的计算:求某Z值以上的面积时,如果Z为正值,用0.5减去A值就可得到,如果Z为负值,则要用A值加上0.5平均数右侧的面积)才能得到;求某Z值以下的面积时,如果Z为正值,用A值加上0.5就可得到,如果Z为负值,则要用0.5平均数左侧的减去值才能得到。(3)求两个Z值之间的面积。求两个Z值之间的面积时也要进行一些运算。例如:求Z=1.00和Z=2.00之间的面积。查表得:Z=1.00时,A=0.34134,Z=2.00时,则A=0.47725Z=1.00和Z=2.00之间的面积应为0.47725-0.34134=0.135912.由A值查Z值(1)已知平均数与某Z值之间的面积A,查与之对应的Z值。只要在标有A的一列里找到该面积值,其前的数值即是对应的Z值。如果已知的面积在表里没有列出,则用表里与之最接近的面积值。如果不知道该面积是平均数以上还是以下的面积,则查出的Z值可能是正值,也可能是负值。例如:已知平均数以上的面积A=0.067,Z=0.17(表中面积为0.06749);已知平均数以下的面积A=0.35,Z=-1.04(表中面积为0.35083)(2)已知正态分布两端的面积值,求该面积的分界点的值。由于表中所给面积为平均数与值之间的面积,因而查表时不能直接用两端的面积,而是要用0.5减去两端的面积,然后再查表求Z值。例如:求分布曲线右端面积为0.025的分界点的值:0.5-0.025=0.475,查表得Z=1.96;求分布曲线左端面积为0.05的分界点的Z值:0.5-0.05=0.45,查表得Z=-1.64(表中面积为0.44950)。(3)已知正态曲线下中央部分的面积,求两侧分界点的值。由于分布曲线是对称的,两侧的Z值其实是一样的,只是符号不同而已,所以只查一侧的Z值即可。由于表中列出的只是平均数与一侧Z值之间的面积,所以查表之前,要先用2去除中央部分的面积。例如:求中央部分面积为0.68的两侧分界点的Z值:0.68/2=0.34,查表得Z=±1.00(表中面积为0.34134).四、正态分布理论的实际应用正态分布理论和正态分布表在语言研究中有着重要的实用份值。下面是一些主要的应用示例。1.选拔与淘汰在包括外语教学在内的各类教育中,我们都面着对学生进行选拔和淘汰的问题,如高考时选拔考生、教学中选拔优等生或淘汰差生等等。在所有这些工作中,正态分布的理论都能给予我们有益的指导。2.考试后分数的分档在各类教育评估中,都会遇到对分数或能力进行分档的问题,例如在考试后,往往要统计每个分数段的人数。当考生人数比较少时,直接数一数就可以了,但是对于大规模的考试(例如涉及数以千计、数以万计的考生),这一做法显然不太经济有效。这时,如果考试的平均分和标准差已知,利用正态分布表就可以估计出各分数段的人数。该人数为理论值,它与实际人数是比较接近的。3.等级评定前确定各等级或档次的人数我们在按照某种能力指标、考试分数等对学生评定等级或分档时,为了保证各等级人数分布合理,可以利用正态分布的理论,计算出各等级或档次应该包含的人数。例1如果100个学生的能力服从正态分布,要把他们分成5个等级(A,B,C,D,E),求每个等级应该包含的人数。分析:求每个等级的人数,首先要计算每个等级在正态分布中的面积或概率,然后乘以总人数即可得到各等级的人数。在讨论正态分布的特征时我们看到,正负三个标准差基本上包括了正态曲线下所有的面积,因此我们可以将6个标准差除以等级的个数5,就可以把整个面积等分成5个部分。计算:第一步:将6个标准差除以等级的个数5,得1.2个标准差,即平均每一等级约包含1.2个标准差或Z分数。这5个等级为:第二步:查表求对应于每一等级的而积或概率:第三步:用各等级的面积乘以总人数100,得各等级应该包含的人数(应四舍五入取整数,如果各等级的人数之和与总人数有出入,则在中间一个等级调整):五、检验分布是否为正态的方法对于一组数据是否为正态分布,可以用多种方法进行检验。方法之一是绘制直力一图或多边图,这样就可以非常直观地看出数据分布的形态是否大休对称或呈单众数分布。方法之二是比较理论分布与实际分布中各标准差之间的而积或概率。方法之三是计算数据分布的偏态值和峰值。如果分布的形态不是对称的,而是偏向一边,称为“偏态”。如果偏向左边,即低数值的次数偏高,称为“正偏态”反之,则称为“负偏态’(见图5.3)。偏态值就是分布的偏刹程度的指标,正值表示分布为正偏态,负值表示分布为负偏态,如果其值为0,则表示分布为正态。峰值表示分布曲线的顶点尖峭的程度,正值表示分布曲线较尖,称“尖峰态”,负值表示分布曲线较平,称为“低峰态”,如果其值为0,则表示分布曲线为正态(见图5.4)计算偏态值与峰值的公式为方法之四是比较算术平均数、众数与中数。从正态分布的特征可知,在正态分布中这三个数值完全相同,在正偏态分布中,平均数高于中数和众数,而在负偏态分布中,平均数则低于中数和众数,因此通过比较它们的接近程度,就可以知道数据的分布是否呈正态分布。根据三者之间的关系,皮尔逊提出了一个偏态量数公式:式中SK—偏态量数M—算术平均数;Mo—众数;Md—中数。如果SK为正值,则分布为正偏态,如果SK为负值,则分布为负偏态,如果SK的值为零,则分布为正态。小结显然,这个事件可能会出现,也可能不出现,所以通常称之为“随机事件”。概率可分为两类:“后验概率”与“先验概率”。随机变量是指在实验中受随机(或偶然)因素的影响,其取值无法进行准确预测的变量。正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中(尤其是推断统计中)具有特殊的重要性。正态分布理论和正态分布表在语言研究中有着重要的实用份值。
本文标题:第五章 概率与概率分布
链接地址:https://www.777doc.com/doc-6313434 .html