您好,欢迎访问三七文档
常用医学统计方法MedicalStatistics教学内容9.73学时计量资料的统计分析(理论课)9.72学时计量资料的软件实现(操作演示)9.93学时计数资料的统计分析(理论课)9.92学时计数资料的软件实现(操作演示)计量资料的统计描述DescriptiveStatistics统计资料的分类1、计量资料(或定量变量)2、计数资料(或无序分类变量)3、等级资料(或有序等级变量)计量资料(或定量变量)1.定义:测定每个观察单位的某项指标量的大小,所得的资料称为计量资料。其变量值是定量的,表现为数值大小,一般带有度量衡或其它单位。2.特点:每个观察单位的观察值之间有量的区别。1.定义:将观察单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。2.特点:计数排列是无序分组,同组各观察单位之间没有量的差别,但各组间有质的不同,不同质的观察单位不能归入一组。变量值是定性的,表现为互不相容的属性或类别二项分类和多项分类计数资料(或无序分类变量)等级资料(或有序等级变量)1.定义:将观察单位按某种属性的不同程度而顺序分组,所得各组的观察单位数称为等级资料,通常有两个以上等级。这类资料具有计数资料的特点,但所分各组之间又有等级顺序,如由轻到重、由小到大排列。2.特点:等级是有序分组。同计数资料的区别是:属性的分组有程度或等级的差别,各组按一定顺序排列;与计量资料的区别是:每个观察单位未确切定量,所以又称为半定量资料。资料的转化根据分析的需要,变量可以转化,但只能由高级向低级转化。连续型→有序→分类→二值血红蛋白(g/dl)等级计数<6重度贫血异常6~中度贫血异常9~轻度贫血异常12~16血红蛋白正常正常>16血红蛋白增高异常但必须明确,凡能计量的,应尽可能采用计量资料;因为计量资料可以得到较多的信息。实例(一)胆管癌患者部分指标编号性别年龄(岁)部位分化程度分期肝转移PCNA指数生存时间(月)(1)(2)(3)(4)(5)(6)(7)(8)(9)1男61上低分化Ⅰ阳性52142女58中高分化Ⅱ阴性89203女63上高分化Ⅳ阴性93194女71下中分化Ⅱ阳性7855男59上高分化Ⅲ阴性8535………………………计量计量计量计数计数计数等级等级实例(二)体重指数(1)身高(2)班制(3)劳动强度(4)紧张程度(5)心率(6)嗜肥肉史(7)收缩压(8)舒张压(9)中风家族史(10)12.241.6211370114690有16.471.6331372011070无15.191.6412272010070无15.591.6311384111470无12.601.6431368111668无┆┆┆┆┆┆┆┆┆┆城市脑力劳动者调查资料部分指标摘录注:体重指数=体重/身高3(Kg/m3);嗜肥肉史有1,无0劳动强度轻1,中等2,重3紧张程度不紧张1,一般2,紧张3班制日班制1,两班制2,三班制3等级等级计量计量计量计量计量计数计数计数平均数指标AverageNumber平均数指标平均数(average)是描述一群同质变量值集中位置的特征值,用以说明同类现象或事物数量的中等水平(集中趋势)。常用的有算术均数、中位数、众数、几何均数等算术均数(arithmeticmean),简称均数(mean)符号为(相应的总体均数记为μ)。xnxnxxxxxn321算术均数的计算实例:某市10名7岁男童体重(kg)分别为:17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5,求其平均体重。kgx35.21105.25...0.183.17均数的应用与特点适用条件:算术均数适合于对称分布的资料,如分布均匀的小样本数据或近似正态分布的大样本数据;特点:算术均数容易受极端值的影响.几何均数(geometricmean)符号为G。几何均数的计算几何均数的定义公式为:n个变量值x的连乘积的n次方根。nnxxxG21当n>3时,上式计算不便,而常采用以下计算公式:式中logx表示对观察值x求对数,log-1为相应对数的反对数。几何均数就是变量对数值的算术均数的反对数。nxloglogG1同一资料,几何均数均数实例5人的血清滴度为:1:2,1:4,1:8,1:16,1:32,求平均滴度。8532log16log8log4log2loglog1G几何均数的应用与特点适用条件:几何均数常用以描述观察值为等比级数资料(呈倍数关系的等比资料)或对数正态分布资料的集中趋势。◆呈等比级数的资料,如血清滴度、抗体效价等;特点:同一资料,几何均数均数众数(mode)众数是指在一群观察值中,出现频率最高(即次数最多)的数据,在频数表上表现为频数最多组的组中值,数理上指曲线上的最高点。用符号Mo表示。适用条件:众数主要应用在对小样本的探索性数据进行分析。特点:它不受变量数列极端数值的影响,但众值的计算只有在总体单位数足够多,而且又具有明显的集中趋势时,才有意义。中位数(median)将一组变量值按大小顺序排列,位次居中的变量值即为中位数。中位数将变量值一分为二,一半比它小,一半比它大。符号为M、Md。计算公式为:为偶数为奇数nxxnxMd/n/n/)n(221221中位数的计算实例12个数据如下:顺序号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)数据值7.48.68.610.811.611.611.612.112.314.315.015.6中位数的应用与特点适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。特点:由于中位数总处在居中的位置上,将频数等分为二,它不受特大或特小值的影响,仅仅利用了中间的1~2个数据。均数、中位数、众数三者关系正态分布时:均数=中位数=众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数1.同质事物或现象才能求平均数2.要根据数据分布类型正确选用平均数3.要与下一节的离散趋势分析相结合,以弥补反映不出差异和易受极端值影响的缺陷。在计算和应用平均数指标时的注意事项变异指标VariationNumber变异指标(variationnumber)又称离散指标(Dispersionnumber),用以描述一组计量资料各观察值之间参差不齐的程度。变异指标越大,观察值之间差异愈大,说明平均数的代表性就越差;反之亦然。三组同性别、同年龄儿童体重甲组2628303234乙组2427303336丙组26293031240123202428323640丙组乙组甲组极差(Range)意义:是一批数据中最大值与最小值之差,反映了数据散布范围。minmaxxxR符号及计算:优点:简便。缺点:①不能反映在该范围以内的其它数据的离散度;②各样本含量大小悬殊时,不宜比较其极差;③极差的抽样误差较大,样本的例数越多,极差越大,不够稳定。适用条件:极差仅适用于对未知分布的小样本资料作粗略的分析。样本量增大,极差会增大。通常与众数结合使用。极差(Range)四分位数间距(Quartilerange)意义:包括了全部变量值中居于中间水平的一半数据的分布范围。Q=P25–P75符号及计算:Q缺点:比较稳定,但不能反映其余数据的变异情况,没有充分利用每个变量值的信息。适用条件:四分位数间距用来描述大样本偏态资料的变异情况。通常与中位数结合使用。四分位数间距(Quartilerange)符号及计算:方差分为样本方差和总体方差。样本方差符号为,相应的总体方差符号为。方差(Variance)2s2意义:样本观察值的离均差平方和(sumofsquare,SS)的均值。表示一组数据的平均离散情况。1)(22nxxs222()/1xxnsn标准差(standarddeviation)意义:标准差即为方差的平方根。其单位与原变量X的单位相同。122nnxxs符号及计算:样本标准差符号为s,相应的总体标准差符号为σ三组同性别、同年龄儿童体重甲组2628303234乙组2427303336丙组26293031340123202428323640丙组乙组甲组3.162284.743422.91548方差与标准差的应用方差或标准差属同类变异指标,它们多用来描述均匀分布或近似正态分布的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中常用的形式表达资料。sx方差与标准差的应用方差是样本观察值的离均差平方的平均值,它全面地反映了数据的变异大小;方差越大,观察值与均数间的差异就越大,数据的变异程度就越大,反之亦然;标准差的量纲与原始数据一致,适用于对称分布的资料;标准差保持了方差的优点,其单位与观察值单位一致。变异系数(coefficientofvariation,CV)变异系数可用于不同类型资料间变异程度的比较,%100xsCV变异系数也可用于均数相差悬殊时同单位资料间变异程度的比较,如不同年龄段同性别儿童的体重变异大小比较等。符号及计算:适用条件:均数标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%实例:某部队干部体检得到体脂的均数和标准差分别为18.9%和5.8%,血清胆固醇的均数与标准差分别为4.84mmol/L和1.03mmol/L,试比较两者的变异情况。由于体脂和血清胆固醇是两个不同的观察指标,不能直接比较其标准差大小,而应比较变异系数。对本例:体脂变异系数:血清胆固醇变异系数:显然,体脂变异大于血清胆固醇变异。%69.30%1009.188.51CV%40.21%10084.4036.12CV变异系数主要用于量纲不同的指标间,或均数相差较大的指标间的变异程度的比较;极差、四分位数间距与标准差有单位;变异系数为标准差与均数的比值,无单位;变异系数的特点平均数与变异指标的使用范围•均数与标准差:适用是均匀分布的小样本数据或近似正态分布数据,对样本含量没有要求。•中位数与四分位数间距:适用于大样本偏态分布资料。•众数与极差:适用于描述未知分布的小样本数据。•几何均数:描述近似对数正态分布数据的平均水平或平均发展速度•变异系数:比较不同资料或同类资料均数相差悬殊时变异程度的比较。AVERAGE、MEAN算术均数GEOMEAN几何均数MEDIAN中位数MODE众数HARMEAN调和均数STDEV标准差VAR方差QUARTILE四分位数PERCENTILE百分位数FREQUENCY频数分布计量资料的统计推断AnalysisStatistics假设检验概述t检验单因素方差分析假设检验概述假设检验(hypothesistesting)亦称显著性检验(significancetesting):目的是通过考察一部分样本对总体作出二择一的决策。一、假设检验的基本思想样本均数间存在差异各样本来自于同一总体,差异仅由抽样误差引起各样本来自于不同总体,差异不仅包含抽样误差,更主要反映了总体参数间确实存在差异假设检验的意义原因假设检验质量检查例子:已知一批弹药必须有95%以上的合格才算该批弹药是合格的,现某工厂生产了一批弹药,怎么判断该批弹药是否合格?一个自然的想法是从该批产品中随机抽取100件来做试验,问题转换成这100件样品中最多有多少件不合格就可以判断该批产品是合格的?假定该批弹药的合格率为95%,则根据二项分布,从该批弹药中随机抽取100件,有件不合件的概率为全部合格的概率为:0.0059;至多有1件不合格的概率为:0.0312;至多有2件不合格的概率为:0.0812;至多有3件不合格的概率为:0.1396…。kkkkC05.095.01001000k1k2k3k假设检验就是基于小概率事件原理即“小概率事件在一次随机试验中几乎不可能发生”这一推断原理的
本文标题:计量资料的统计分析
链接地址:https://www.777doc.com/doc-3709768 .html