您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第三章 次数分布和平均数、变异数
第三章次数分布和平均数、变异数第一节总体及其样本第二节次数分布第三节平均数第四节变异数第一节总体及其样本1、数据:指在生物学试验或调查中,对研究对象的某些特征或性状进行观察记载得到的数字资料2、变数:指研究的性状连续性变数(continuousvariable)变数间断性变数(discontinuousordiscretevariable)3、变量:指变数中的每一个观察值4、总体:指具有共同性质的所有个体组成的集团N:表示总体容量有限总体(finitepopulation)总体无限总体(infinitepopulation)5、样本:从研究总体中抽出的一部分有代表性的个体所组成的集团n:表示样本容量大样本(n30)样本小样本(n≤30)6、参数:由总体全部观察值算得的总体特征数用希腊字母表示如:总体平均数用表示总体的方差用2表示总体标准差用表示第一节总体及其样本第一节总体及其样本7、统计数:由样本所有观察值算得的样本特征数如:样本平均数用表示样本的方差用S2表示样本标准差用S表示y8、观察值:指目标性状一次测定的数值用拉丁字母表示一、试验资料的性质与分类第二节次数分布试验中观察记载所得的数据因其研究的性状、特性不同而具有不同的性质,一般可分为数量性状资料和质量性状资料。1、数量性状:指可以通过计数和量测的性状。如小麦基本苗数、穗粒数、株高、粒重等。其所得的变数分为间断性变数和连续性变数。2、质量性状:指可以通过观察而不能量测的性状,又称属性性状。如花药、子粒的颜色、芒的有无等。质量性状资料可以通过两种方法得到:统计次数法和给分法。第二节次数分布二、数据的分组(一)单项式分组该分组方式主要应用于变异范围不大的间断性变数和质量性状资料1、间断性变数资料分组1)若变数可取值个数不多时以自然单位进行分组100个麦穗每穗小穗数的次数分布表(P37)每穗小穗数(y)次数(f)1561615173218251917205总次数(n)100第二节次数分布2)若变数可取值个数太多,则可按取值大小,从小到大相邻若干个值合为一组的方法进行整理(一般要求组距相等)200个稻穗每穗粒数的次数分布表(P37)每穗粒数(y)次数(f)26-30131-35336-4010……………………76-80381-852合计200第二节次数分布3)属性变数资料以性状属性类别进行分组有几类性状就分几组玉米F2代两对性状分离的次数分布表性状属性次数(f)黄色非甜850黄色甜粒282白色非甜287白色甜粒96合计1515第二节次数分布(二)组限式分组该分组方式主要适用连续性变数和变异范围较大的间断性变数1、求极差:R=最大值-最小值R=254-75=1792、确定组数和组距组数=1+3.3lg(n)组距=R/组数=179/12=14.9≈153、选定组中值和组限第一组的组中值以接近最小观察值为宜第二组的组中值=第一组的组中值+组距下限=组中点值-组距/2上限=组中点值+组距/24、数据归组140行水稻产量的次数布表组限组中点值(y)次数(f)67.5-82.582.5-97.597.5-112.5112.5-127.5127.5-142.5142.5-157.5157.5-172.5172.5-187.5187.5-202.5202.5-217.5217.5-232.5232.5-247.5247.5-262.5合计75901051201351501651801952102252402252771317202521139321140第二节次数分布140行水稻产量次数分布图75105120135150165180195210225240255900102030组中点值次数三、次数分布图(一)方柱形适用连续性变数的资料不同发育时期玉米叶片和叶鞘干物质积累0.05.010.015.020.025.030.035.040.0叶片干叶鞘干干物质重(g)三叶期七叶期拔节期抽雄期乳熟期成熟期第二节次数分布(二)多边形图适用连续性变数的资料图1豫农202不同播期下灌浆速率Fig1Fillingrateunderdifferentsowingdate00.0250.050.0750.10.1250.150.1750.258111417202326293235384144开花后天数datesafteranthesis灌浆速率(g/d)s1s2s3s4s5第二节次数分布(三)条形图适用于变异范围较小的间断性变数或质量性状的资料100个麦穗每穗小穗数次数分布图05101520253035151617181920每穗小穗数次数变异范围较小的间断性变数资料水稻F2代植株米粒性状分离图020406080100120红糯红非白糯白非米粒性状次数质量性状的变数资料第二节次数分布(四)饼形图适用于变异范围较小的间断性变数的质量性状的资料水稻F2代植株米粒性状分离图白非17%红糯54%白糯8%红非21%质量性状变数资料100个麦穗每穗小穗数分布图15个6%1615%17个32%18个25%19个17%20个5%间断性变数资料四常用统计表与统计图(一)统计表1、统计表的结构和要求统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:表号标题编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。统计表编制具体要求如下:①标题标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。②标目标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等。③数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。④线条表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。2、统计表的种类统计表可根据纵、横标目是否有分组分为简单表和复合表两类。①简单表由一组横标目和一组纵标目组成,纵横标目都未分组。此类表适于简单资料的统计,如表2-6。②复合表由两组或两组以上的横标目与一组纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计,如表2-11。表2-11几种动物性食品的营养成分(二)统计图常用的统计图有长条图(barchart)、园饼图(piechart)、线图(linearchart)、直方图(histogram)和折线图(broken-linechart)等。一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园饼图。统计图绘制的基本要求1、标题简明扼要,列于图的下方。2、纵、横两轴应有刻度,注明单位。3、横轴由左至右、纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5。4、图中需用不同颜色或线条代表不同处理、样品等时,应有图例说明。第三节平均数一、平均数的意义和种类一)平均数的作用1、度量数据资料的趋中性,衡量一组数据的综合水平2、可以作为一组数据的代表值与其它数据相比较二)平均数的种类1、算术平均数:所有观察值的总和除以观察值个数所得的商。2、中数:将资料内所观察值从小到大排序,居于中间位置的观察值。记作:Md3、众数:资料中出现次数最多的观察值。记作:Mo4、几何平均数:n个观察值乘积的n次方根。记作:G第三节平均数1niiyyynn二、算术平均数的计算方法一)总体算术平均数1NiiyyNN二)样本平均数1、一般计算方法2、加权计算方法iiifyfyyfn三、算术平均数的重要特性一)离均差之和等于零1()()0niiiyyyy二)离均差之和最小22()()yyya注:a为不等于的任一实数y平均数是度量数据趋中性的,是一组数据的典型代表,不同数据资料整体水平如何,常常是用平均数去比较。但不同数据资料,其平均数的代表性否一样呢?例如下面的两组人:24岁26岁25岁25岁49岁1岁因此单用平均数还不足以很好地描述一组数据的主要特征两组人的平均年龄都是25岁,你能说这两人都是青年人吗?第四节变异数平均数的局限性一)极差(range):R=Max(y)-Min(y)上例中:第一组数据的极差为:R1=26-24=2第二组数据的极差为:R2=49-1=48用极差度量数据资料变异大小的局限性:极差只考虑了数据中的两个极端值,没有充分利用资料提供的全部信息,而且极端值往往是数据中最不可靠的观测值,因此用极差来表示数据资料的变异具有明显的局限性,一般只在观测值较少的情况下使用。第四节变异数一、变异数的作用及其与平均数的关系1、变异数的作用:变异数主要用来度量数据资料的离中性2、变异数与平均数的关系:对同一组资料来说,变异程度越小,平均数的代表性越好;变异程度越大,平均数的代表性越好二、变异数的种类为了解决资料中所有观测值的离均差正负抵消的问题,采用先平方后再相加的办法。数据资料的变异取决于观测值的离散程度,这自然会联想到所有观测值离均差的大小,如果把这些差值加在一起,数值大就说明这组数据离散程度大,听起来似乎比较合理,但是我们由平均数的第一个性质知道:用什么特征数来表示数据资料的变异大小比较合理呢?()0yy第四节变异数离均差平方和:2()SSyy上例中:第一组数据的平方和为:SS1=(24-25)2+(25-25)2+(26-25)2=2第二组数据的平方和为:SS2=(1-25)2+(25-25)2+(49-25)2=1152当两组资料中观测值的数目不等时,用平方和来表示数据资料的变异性是否有局限性呢?例如现在有2个班,I班有22位同学,II班有30位同学,以身高作为考查指标,用SS来比较哪班同学身高的离散程度大,若哪班同学身高的离散程度大就发给哪班同学每人一张电影票。试问,是I班同学有意见还是II班同学有意见?这不公平,因为II班人数多。I班因此必需消除样本容量对离均差平方和的影响,这就需要引入另外一个特征数-方差计算公式:222()/(1)1yynSSSnn221/()/NiiSSNyN样本方差(samplevariance):221(1/()/)(1)niiSSSynyn注意:样本方差不用n来除,而用n-1来除,n-1称为样本方差的自由度(degreeoffreedom,dforDFor)二)方差总体方差(populationvariance):第四节变异数因为大多数情况下根据平均数的第二个重要特性:所以用来估计老是偏小。而样本方差是用于无偏估计总体方差的,所以在计算样本方差时用样本的SS除以n-1,来进行矫正。这在统计学上也得到了证明。那么为什么是除以n-1,而不是除以n-2或n-3等其它数?y22()()yyy2()yy2()ydf=n-k例如有这样一组数据:3,7,5,8,2其平均数等于5,那么这5个数中只4个数值可以自由变动,若3变成4,7变成9,5变成7,8变成1,那么最后一个数只能是4否则平均数就不等于5了,这里的限制条件只有一个,就是平均数。因此df=n-1=5-1=41、总体标准差(PopulationSD):222()/[()/]/yNyyNN2、样本标准差(SampleSD):222()/(1)[()/]/(1)Syynyynn方差的限制性:在计算SS时由于对离均差进行了平方,所以它的单位是原来数据单位的平方,在实践上难以解释,有没有其它方法来弥补方差在度量数据资料变异大小时存的不足呢?三)标准差第四节变异数4、方差和标准差的功能(1)方差和标准差的值均大于零(2)资料中各观测值都加上或减去一个常数,方差和标准差不变(3)资料中各观测值都乘以或除以一个常数a,方差增加或减少a2倍,标准差增加或减少a倍3、方差和标准差的特性方差
本文标题:第三章 次数分布和平均数、变异数
链接地址:https://www.777doc.com/doc-3995116 .html