您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 定量资料统计学方法小结
计量资料分析常用的统计学方法小结第二章、定量资料的统计描述频率分布表与频率分布图:描述平均水平的统计指标(描述集中趋势):算数均数、几何均数、中位数与百分位数、众数描述变异程度的统计指标(描述离散趋势):极差、四分位数间距、方差、标准差、变异系数描述分布形态的统计指标:偏度系数、峰度系数第一节频率分布表与频率分布图离散型定量变量和连续型定量变量的频率分布离散型定量变量的取值是不连续的。直接清点各变量值出现的频数计算相应的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的大小。连续型定量变量的取值是连续的。将数据适当分组,清点各组频数,并计算相应频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,纵坐标为频率密度,即频率/组距,直方图面积之和等于1.1、离散型定量变量的频率分布步骤:(1)直接清点各变量值出现的频数(2)计算各组频率,累计频数,累计频率2、连续型定量变量的频率分布步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。(2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。编制频率表的注意事项:(1)分组不宜过粗,也不宜过细。通常分为10~15个组。(2)为计算方便,组段下限一般取较整齐的数值。确定各组段上下限时,各组段要连续但不重叠。除去最后一个组段,其余组段应包含下限值,不包含上限值。(3)第一组段应包含最小值,最后一组段应包含最大值。3、频数表和频数分布图用途(1)描述频数分布的类型对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。偏态分布:负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。(2)描述频数分布的特征随机变量的分布具有两个特征——集中趋势与离散趋势。①数据集中(平均):总体中的个体具有某些同性质,这些同性质是的数据趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。②数据变异(离散):同一总体中的个体之间又普遍存在各种差别,使得变量值向平均水平左右离散,称为离散趋势。(3)便于发现某些离群值或极端值。(4)便于进一步做统计分析和处理第二节描述平均水平的统计指标(描述集中趋势的指标)统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有三种——算数均数、几何均数、中位数。1、算术均数:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。常用μ表示总体均数,用表示样本均数。均数适用于对称分布,特别是正态分布资料。直接计算法(利用原始数据):12nXXXXXnn12nXXXXXnn加权法(利用频数表):k:频数表的组段数,f:频数,X:组中值。2、几何均数(geometricmeanG)可用于反映一组原始观察值不对称,但经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。(1)直接法计算公式:57.566403201608040201058G(2)加权法公式(频率表法):112233123kkkfXfXfXfXfXXfffffX本组段下限值+下组段下限值其中212121lg1lg(lglglg)lglgnnnGXXXXGXXXnnXGn为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X例有8份血清的抗体效价分别为1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗体效价。1lg[(lg5lg10lg20lg640)/8]56.57G根据G的倒数得到平均抗体效价为:1:571lglg()fXGf∑f:各组频数之和,即n3、中位数(medianM)与百分位数(percentilePx)是将每个变量值从小到大排列,位置居于中间的那个变量值。理论上有一半的观察值高于中位数,一半的观察值低于中位数。中位数适用于各种分布的变量,特别是偏峰分布的变量。只与位次居中的观察值有关,不受分布两端特大或特小值的影响。因此,在末端无确定值资料,不能计算均数和几何均数的时候,可计算中位数。(1)直接法计算公式:n为奇数时:n为偶数时:(2)频率表法:对于频率表资料,可以通过百分位数法近似计算中位数。百分位数:是指将n个观察值从小到大依次排序后,对于x%位的数值;表示将原始观察值分为两个部分,理论上有x%的观察值小于有(1-x)%的观察值大于XP。所以百分位数P50就是中位数。∑fL:为小于L所在组段的累计频数1()2nMX()(1)2212nnMXX(50%)(50%)LmMnnfMLif所在组段下限值至该下限值的累计频数组距所在组段下限值至上限值间的频数XP(3)百分位数(percentile)直接算法:当%nX为带有小数位时:Trunc(nx%)的意思是n和x%的结果取整数当%nX为整数时:例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患者:住院天数:(1)n=120,120乘5%等于6,为整数:(2)n=120,120乘99%等于118.8,带有小数,故取整trunc(118.8)=118频数表算法:设有n个原始数据从小到大排列,第X百分位数的计算公式为:[trunc(%)1]XnXPX(%)(%1)12XnXnXPXX123456789117118119120122233445404042455(6)(7)11(34)3.5()22PXX天99(119)(%)142()truncnXPXX天(%)XXXLXiPLnXffXL:第X百分位数所在组段下限Lf:小于XL各组段的累计频数Xi:第X百分位数所在组段组距n:为总例数当时,公式(2-9)即为中位数的计算公式例:脉搏组段频数,f相对频数(%)累积频数累积相对频数(1)(3)(4)=(3)/N(5)=(3)↓(6)=(5)/N56~21.5421.5459~53.8575.3862~129.231914.6265~1511.543426.1568~2519.235945.3871~2620.008565.3874~1914.6210480.0077~1511.5411991.5480~107.6912999.2383~8510.77130100.00合计130试分别求例2-1频数表的第25、第75百分位数4、众数(mode)众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。正态分布时:均数=中位数=众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数50505050()2LinMPLff1%50%2XP25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66第三节描述变异程度的统计指标(描述离散程度的指标)同一总体中的不同个体之间存在差异称为变异。不同的观察指标,其变异程度不同;即使是同一观察指标,在不同总体中,其变异程度也会有所不同。常用的描述变异程度的指标包括极差、四分位数间距、方差、标准差、变异系数。1、极差(Range)极差,也称全距,用R表示:即一组变量值最大值与最小值之差。样本接近的同类资料相比较,极差越大意味着数据越离散,或者说数据之间的变异程度越大。极差计算简单,但仅利用了两端点值,稳定性差。R=最大值-最小值极差的特点:极差只能粗略地说明变量的变动范围。极差只用最大值和最小值计算,未考虑到中间的全部信息。偏态资料时更不稳定。2、四分位数间距(quartilerange)四分位数间距,用Q表示P75和P25分别称为上四分位数和下四分位数。四分位数间距定义为P75和P25之差。即Q=P75-P250%(41)25%(41)75%(41)100%(41)如上图所示,理论上,有1/4个观察值比P75大,有1/4个观察值比P25小,P75和P25之间恰好包括总体中50%的个体观察值。Q越大意味着数据间变异越大。四分位间距可用于各种分布的资料,特别对服从偏峰分布的变量。常把中位数和四分位间距结合起来描述变量的平均水平和变异程度。与极差相比,四分位间距更稳定,但仍未考虑数据中的每个观察值的离散程度。3、方差(variance)方差考虑了所有观察值的变异程度。总体方差用22()XN表示,定义为总离均差平方和,∑22()XN在总体所有个体中的平均;样本方差用表示。方差越大意味着数据间变异越大。(1)平均偏差为利用每一个观察值的信息,计算各观察值偏离平均值的平均差距(即离均差,他们的和称为离均差和)。为免于正负抵消,可将每个观察值与均数的差值的绝对值相加再取平均,称为平均偏差(meandifference)。∑22()XNn(2)离均差平方和(sumofsquare,SS)为克服平均偏差使用绝对值不便运算的缺点,可以将“离均差”平方,即计算离均差平方和。其计算公式为:2XXSS(3)方差(meanofsquare,MS)①将离均差平方和取平均,即为方差(variance)。对于样本资料,取平均值时分母用n-1代替n其中n-1称为自由度(df),在n个离均差平方项中,只有n-1个是独立的,称为自由度(degreeoffreedom,df)其意义是当2()1XXSn给定时,随机变量X“自由”取值的个数。总和不变,自由度就少了一个,所以用n-1任何统计量的自由度υ=n-限制条件的个数。②总体方差与样本方差总体方差:样本方差:4、标准差(standarddeviation,SD)(1)方差的平方根为标准差,总体标准差用σ表示,样本标准差用S表示,其度量单位与均数一致,所以最常用。2()XNMS=22()1XXSn22()XN22()1XXSn2()1XXSn标准差的公式还可以写成:利用频数表计算标准差的公式为:(2)标准差的意义和用途说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差...标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见后)结合均值与正态分布的规律,估计参考值的范围(见后)。5、变异系数(coefficientofvariation,CV)变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。CV的意义是变异程度的大小,相对于平均水平的百分比。变异系数没有单位。变异系数越大意味着相对于均数而言变异程度越大。其中S为样本标准差,为样本均数。22()1XXnSn22()1fXfXfSfCVSX100%CVSX100%6、分布形态对教学评价的指导意义-0.100.10.20.30.40.5=3030~4040~5050~6060~7070~8080~9090~100分数段比率学生成绩分布曲线正态分布曲线正态分布:说明学生考试成绩分布比较正常。正偏态分布:说明低分段的学生人数比较多,可能是试题难度偏高或者是此次考查内容学生掌握情况不好。负偏态分布:说明高分段的学生较多,可能是学生知识掌握较好,也可能是试题难度较低。平坡型分布:说明学生成
本文标题:定量资料统计学方法小结
链接地址:https://www.777doc.com/doc-2499062 .html