您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 招聘面试 > 第2章_试验资料的整理与特征数的计算
第二章试验资料的整理与特征数的计算学习要求掌握:不同数据类型分布图的制作及应用、平均数的计算及应用、变异数的计算及应用熟悉:资料分类;原始数据的检查、核对;次数表、统计图的Excel和Origin编制。了解:数据收集内容和方法、统计软件Excel和Origin的其他作图功能、偏斜度系数和峭度系数的计算。本章主要内容第一节试验资料的搜集与整理第二节试验资料特征数的计算第一节试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理一、试验资料的类型数量性状资料连续型资料:(计量资料)离散型资料:(计数资料)指用量测手段得到的数量性状资料,即用度量衡等计量工具直接测定的数量性状资料。其数据是长度、容积、重量等来表示。例如:身高、产奶量、体重、绵羊剪毛量等。这类数据通常是非整数,数据的变异是连续的。由记录不同类别个体的数目所得到的数据。各个观测值只能以整数表示,在相邻的整数间不得有带小数的数值出现。例如:猪的产仔数、鸡的产蛋数、鱼的尾数等。数量性状(quantitativecharacter):是指能够以量测或计数的方式表示其特征的性状。质量性状资料统计次数法评分法于一定总体内,根据某一质量性状的类别统计其次数或频数,以次数或频数来作为质量性状的数据。用数字级别表示某现象在表现程度上的差别。质量性状(qualitativecharacter):是指能观察到而不能直接测量的性状,如颜色、性别、生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,常可以统计次数法和评分法。二、试验资料的搜集调查(survey)试验(experiment)对于直接调查取得的原始数据:完整性:单位或个体数目是否有遗漏、所调查的项目或指标是否齐全、调查过程是否存在偏见、准确性准确性:数据是否符合实际、计算是否有失误。造成数据不准确的原因主要表现在两方面:数据本身的错误;取样差错,不具有代表性三、试验资料的整理(一)原始数据的检查和核对对于间接获得的第二手数据,要注意数据的真实性、使用性和时效性数据的筛选:包括纠正或剔除错误数据,去除异常数据(二)频数表(frequencytable)和频数图(frequencygraph)1、离散型数据频数表和频数图的绘制间断性变量资料——单项式分例1.以50枚受精种蛋孵化出雏鸡的天数(数据见表1)为例,绘制频数表和频数图。表150枚受精种蛋孵化出雏鸡的天数21202021232222222122202322232219222324221922212121222224222121222223222221222223222322222223232221222120202123222222212220232223221922232422192221212122222422212122222322222122222322232222222323222122解:小鸡出壳的天数在19~24天范围内变动,有6个不同的观测值。以各个不同观测值分组,共分为6组,开始建立频数(率)表:组值(孵化天数)频数计算频数频率1920.042030.0621100.2022240.482390.182420.04总计501.00打正字或划线从表中我们可以迅速而直观地看出:孵化天数大多集中在21~23天,以22天的最多,孵化天数较短(19~20天)和较长(24天)的都较少频数(率)图是频数(率)的图形表示:051015202530192021222324孵化天数频数注意:离散型数据频数图上方条间有间隙100个麦穗每穗小穗数的次数分布表2、连续型数据频数表和频数图的绘制连续性变量资料——组距式分☆组距式分组的基本步骤1)求全距(极差);R=Max(x)-Min(x)2)确定组数和组距;组距(i)=全距/组数3)确定组限及组中值;组中值=(组下限+组上限)/24)统计分组例2.以120头母羊的体重资料(数据见表2)为例,绘制频数表和频数直方图表2120母羊的体重资料(单位:kg)535051575651484662516156625846484650545640535157545952475759545052546250505351545650525052435348506058526450473752464542535847505045556251504353425654455654656147524949514552544857455354575454454452505252555054435756544955504846564545514649解:(1)数据排序(sort),从原始数据中找出最大值和最小值,并求出极差(range):max=65,min=37,极差R=max-min=65-37=28(2)决定划分组数。一般来说,数据较少时,如50~100个数,可以分为7~10组,数据较多时,可分为15~20组。本题中n=120,所以初步确定组数为10组。(3)根据极差与决定划分的组数,确定组距、组限(classlimit)、组中值(midvalue):组距=极差/组数=28/10=2.8≈3(组距一般取整数);组限就是依据原始数据用来分组的每组的上下限,组中值就是每一组组限的平均值。组限组界组中值频数频率374043。。。64组下限组限组界组中值频数频率37~3940~4243~45。。。64~66(4)在频数表中列出全部组界、组界和中值。由于测量精度的原因,第一组(组限为37~39)实际代表从36.5kg到39.5kg的所有数据,因为连续型数据一般是小数,这里只是因为测量精度以及记录的方便以整数表示出来。例如,真实值为39.3公斤的数据会四舍五入成39公斤被记录,它会被包括在第一组内。36.5~39.5称为组界,表示组的实际界限。组限组界组中值频数频率37~3936.5~39.53840~4239.5~42.54143~4542.5~45.544。。。。。。。。。64~6663.5~66.565(5)统计每组频数,完成频数表。组限组界组中值频数频率37~3936.5~39.53810.00840~4239.5~42.54130.02543~4542.5~45.544120.10046~4845.5~48.547150.12549~5148.5~51.550270.22552~5451.5~54.553310.25855~5754.5~57.556170.14258~6057.5~60.55960.05061~6360.5~63.56260.05064~6663.5~66.56520.017连续型数据分组频率表的一般步骤将观察数据排序,求全距确定组数确定组限、组距和组中值列出全部组界、组界和中值形成频数分布表连续型数据频数直方图(histogram)的绘制:首先得到频数表,然后以组界为横坐标,以频数为纵坐标,以每一组的组界为一个边,相应的频数为另一个边,作矩形,构成直方图。直方图0510152025303537~3940~4243~4546~4849~5152~5455~5758~6061~6364~66体重频数频率注意:(1)连续型直方图方条间没有间隙,因为它以组界为方条的底部坐标(2)但方条的标识可以用组限标出,如上图,为了直观的需要。其它的统计图:请参考课本直方图0510152025303537~3940~4243~4546~4849~5152~5455~5758~6061~6364~66体重频数0.00%20.00%40.00%60.00%80.00%100.00%120.00%频率累积%母羊体重比重图1%3%10%13%22%25%14%5%5%2%37~3940~4243~4546~4849~5152~5455~5758~6061~6364~6680名学生考试成绩的次数分布表0510152025646770737679828588919497组中值次数可以看出数据的集中情况,频数最高的组值或中值称为“众数”可以直观地看出数据的变异情况,分析数据分布的概率和数据的离散情况从频数(率)表或频数(率)图中,可以看出图形的形状,分析数据的分布规律,符合什么分布绘制频数(率)分布的意义第二节试验资料特征数的计算(1)数据的集中性(以哪点为中心集中分布):(2)数据的变异性(数据间相互差异程度):(3)数据分布的对称性:(4)数据分布的陡峭性:以平均数衡量以标准差或变异系数衡量以峭度衡量以偏斜度衡量(1)(2)是重点;(3)(4)自学注意一、平均数1、算术平均数(arithmeticmean)定义:资料中各观测值的总和除以观测值个数所得的商,简称为平均数或均数,记为“”。算术平均数的计算根据样本的大小以及分组情况分为:直接法、加权法、计算机程序法。x(1)直接法:主要用于未经分组资料平均数的计算。此时样本含量往往较小,如n≤30。12x,x,,xxnn设样本包含个观测值:,那么样本平均数为:121xxxxxxnininnn意义明确时简写为求和符号“∑”以后经常用到,这里提醒以下它的常用的三个运算法则:b1abbaabbbaaa()ba1)xx;()(yx)yxniiiiiiiiiiiiiacnccccbcccc,或()(为常数);((为常数)算术平均数的基本特征算术平均数的计算与样本内的每个值都有关,它的大小受每个值的影响若每个都乘以相同的数k,平均数亦应乘以k若每个都加上相同的数A,平均数亦应加上A如果是n1个数的平均数,是n2个数的平均数,那么全部n1+n2个数的算术平均数是加权平均数(weightedmean)xixi1x2x112212nxxnxnn例1某种公牛站测得10头成年公牛的体重分别为500,520,535,560,585,600,480,510,505,490(kg),求其平均体重。)(5.52810528510490535520500kgnxx解:(2)加权法:主要用于样本含量大且已经分组的资料(或称频数资料)平均数的计算。11221121xxxxxkiikkikkiiffffffff在获得频数分布表的基础上采用加权法计算平均数,计算公式为:xxiiiifik这里,-第组的组中值(离散型数据时,为组值)-第组的频数-分组数xxiiiifif因为可以衡量第组中值在计算平均数时所占比重的大小,所以称为的权,加权法由此而得名。例2,根据本章第二节例二得到的120头母羊体重资料的频数表,计算这个样本的平均数。组限组界组中值频数频率37~3936.5~39.53810.00840~4239.5~42.54130.02543~4542.5~45.544120.10046~4845.5~48.547150.12549~5148.5~51.550270.22552~5451.5~54.553310.25855~5754.5~57.556170.14258~6057.5~60.55960.05061~6360.5~63.56260.05064~6663.5~66.56520.017101101x1383412656195x51.6kg132120iiiiiff+++解:==()+++张村有个张千万,隔壁九个穷光蛋,平均起来算一算,人人都是张百万2、中位数(median)定义:将样本内所有观测值从小到大排列,位于中间的那个值,称为中位数。如果是奇数个数据,很容易从数列中找出中间位置的数。如果是偶数个数据,则就需要将中间位置上的两个数取其算术平均数作为中位数。中位数具备算术平均数的第二、三条性质,不具备第一条、第四条性质。3、众数(mode)定义:样本中出现次数最多的那个值或对于分组资料而言频数最多那组的组中值,称为众数。具备算术平均数的第二、三条性质,不具备第一条、第四条性
本文标题:第2章_试验资料的整理与特征数的计算
链接地址:https://www.777doc.com/doc-3252168 .html