您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第3章变异程度的统计描述
第三章变异程度的统计描述变异是生物医学数据最显著的特征。掌握:描述数据分布离散趋势的指标;正态分布的概念和特征、标准正态分布下面积分布规律。熟悉:医学参考值范围的意义和计算;了解:正态分布表、正态分布的应用。学习目的和要求描述数值变量资料的分布特征必须从集中趋势和离散趋势两方面来进行,缺一不可。例:三组同年龄女大学生体重(kg)如下,试分析其分布特征。甲组4648515357=51乙组4447525557=51丙组4549505556=51xxxR=11R=13R=11一、极差和四分位数间距(一)极差(range)R,也称全距。例:甲、乙两人高血压患者测量5天的收缩压(mmHg)得:甲162145178142186=162.6乙164160163159166=162.4x第一节衡量变异程度的指标xR甲=186-142=44R乙=166-159=7•四分位数间距(quartileinterval,Q)就是上四分位数QU(即P75)与下四分位数间距QL(即P25)之差。•其间包含了全部观察值的一半,单位与原观察值相同。•四分位数间距越大,则数据的变异度越大;反之,说明变异度越小。(二)四分位数间距(quartile)Q0255075100四分位数间距与中位数一起可全面描述偏态分布资料的分布特征。)/(7.13530)8145775.0630(13075dlmgP)/(32.630)1692725.0630(4025dlmgPQ=135.7-63.2=72.5(mg/dl)例2.4某地630名正常女性血清甘油三酯含量的频数表甘油三酯(mg/dl)频数累积频数累积频率(1)(2)(3)(4)10~27274.340~16919631.170~16736357.6100~9445772.5130~8153885.4160~4258092.1190~2860896.5220~1462298.7250~462699.4280~362999.8310~1630100.0合计630--(一)平均偏差(meandifference)nX-X平均偏差二、离均差平方和、方差、标准差和变异系数例:对甲乙两名高血压患者连续观察5天,测得的收缩圧分别为:甲患者(mmHg)162145178142186=162.6乙患者(mmHg)164160163159166=162.4xx)15.52(mmHg5162.6186162.6145162.6162-++-+-甲患者平均偏差=2.32(mmHg)5162.4166162.4160162.4164-++-+-乙患者平均偏差=甲患者的血压波动较乙患者大。•平均偏差是一个很直观的变异度量,但由于使用了绝对值,在数学上不便于继续处理,使它在应用上受到很大的限制,实际中很少使用。•为了克服平均偏差使用绝对值不便进一步运算的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和。(二)离均差平方和(sumofsquare,SS)nXXXXXX2222)()()((三)方差与标准差(variance,standarddeviation,S或SD)NX22)(1)(22nxXSNX2)(1)(2nxXSN-1称自由度Degreeoffreedom1)(1222nnxxnxxS例3.1对甲乙两名高血压患者连续观察5天,测得的收缩压分别为:甲患者(mmHg)162145178142186=162.6乙患者(mmHg)164160163159166=162.4甲患者:ΣX=162+145+178+142+186=813ΣX2=1622+1452+...+1862=133713甲乙)(49.19155/8131337131/)(222mmHgnnXXS)(88.2155/8121319021/)(222mmHgnnXXSxx大样本频数表资料可用下列公式计算标准差:122nnfxfXS例3.2根据第2章表2-2资料计算其标准差红细胞数组中值(x)频数(f)fxfx2(1)(2)(3)(4)=(2)(3)(5)=(2)(4)3.80~3.9027.8030.424.00~4.10624.60100.864.20~4.301147.30203.394.40~4.5025112.50506.254.60~4.7032150.40706.88.....5.80~5.9015.9034.81合计140669.803224.2038.01140140/8.6692.32241/)(222nnfXfXS(×1012/L)•在所有的变异指标中,标准差或方差是其它变异指标所不能比拟的。•标准差能够直接用于代数运算,如根据来自总体的几个样本的标准差可以直接求得合并样本的标准差,而不必根据合并样本重新计算。计量资料的主要描述性指标及其适用条件主要指标适用条件、s对称分布、正态或近似正态分布资料G、lg-1Slgx等比级数或对数正态分布资料M、Q偏态分布、分布不明或分布末端无确定值的资料x用标准差比较两个样本的变异程度时需注意:1.两组数据的均数相差不大2.单位相同(标准差使用的度量衡单位与原始数据相同)(五)变异系数(coefficientofvariation,CV)例3.3已知:舒张压均数为77.5标准差为10.7收缩压均数为122.9标准差为17.1舒张压%8.13%1005.777.10%100XSCV%9.13%1009.1221.17%100XSCV可见两种指标的变异度几乎没有什么差别。收缩压例7.10某地调查110名20男大学生,其身高均数为172.73cm,标准差为4.09cm;其体重均数为55.04kg,标准差为4.10kg,试比较两者变异程度。身高体重%37.2%10073.17209.4%100XsCV%45.7%10004.5510.4%100XsCV指高峰位于中央(均数所在处)、两测逐渐降低且左右对称、不与横轴相交的光滑的曲线。以某地140名正常男子红细胞数资料为例:第二节正态分布及其应用正态分布曲线:表2-2某地140名正常男子红细胞数的频数表红细胞数划记组中值频数频率(1)(2)(3)(4)(5)3.80~T3.9021.44.00~正一4.1064.34.20~正正一4.30117.94.40~正正正正正4.502517.94.60~正正正正正正T4.703222.94.80~正正正正正T4.902719.35.00~正正正T5.101712.15.20~正正T5.30139.35.40~5.5042.95.60~T5.7021.45.80~6.00一5.9010.7L/1012•若横坐标为红细胞数(变量值X),第i组的组距和人数分别用△Xi和fi表示,则在(X,X+△Xi)区间内每单位红细胞数的频率为:f(X)称作密度函数将前图表示人数的纵坐标换成f(X)后可以得到下图:iiXnfXf/)/()()/()(nfXXfii矩形面积等于红细胞在这一区间内出现的频率正态分布的密度函数:222)(21)(XeXfnX2)(在μ和σ未知的情况下,可用和S作为μ和σ的估计值。x-∝x∝正态分布的几个特征•以均值μ为中心,左右对称•曲线下的面积集中在以均数为中心的部分,越远离中心,曲线下面积越小。•正态曲线下面积分布有一定规律:范围内的面积为68.3%范围内的面积为95.0%范围内的面积为99.0%•正态分布有两个参数,μ和σ96.158.2二、标准正态分布(Standardnormaldistribution)是均数为0,标准差为1的正态分布。对任何参数μ和σ的正态分布,都可以通过一个简单的变量变化转成标准正态分布,即xu标准正态分布的密度函数2221)(ueuuudueu2221)(-<u分布函数求标准正态曲线下的面积。标准正态分布的分布函数222)(21)(XeXf当均数为0,标准差为1时例如:成年男子红细胞数近似服从正态分布,均数为4.78(×1012/L),标准差为0.38(×1012/L)。现想知道红细胞数在4×1012/L以下所占的比例?一旦完成了这种变换,就可以利用标准正态分布表求出与原始变量X有关的概率值。可以先将变换为相应的u值,即:例:已知均数为4.78,标准差为0.38Xu05.238.078.44Xu查附表1(P194),标准正态曲线下左侧尾部面积,得Φ(-2.05)=0.0202,即在4×1012/L以下者占总人数的2.02%。若需要求出在4×1012/L~5.5×1012/L范围内所占的比例,可以通过下面计算获得。)38.078.44()38.078.45.5()5.500.4(XP)05.2()]89.1(1[0202.0)0294.01(9504.0总体平均数总体标准差即在4×1012/L~5.5×1012/L范围内占总人数的95.04%。例:成年男子红细胞数近似服从正态分布,均数为4.78(×1012/L)标准差为0.38(×1012/L),现想知道红细胞数在4×1012/L~5.5×1012/L范围内所占的比例。05.238.078.44Xu第一步:进行U变换89.138.078.45.5Xu第二步:查附表1,标准正态分布曲线下面积。Φ(-2.05)=0.0202Φ(-1.89)=0.0294(1.89查不到)9706.00294.01)05.2()]89.1(1[0202.0)0294.01(9504.0)38.078.44()38.078.45.5()5.500.4(XP正态分布的应用•是各种统计推断方法的理论基础•可进行医学参考值范围的估计•可进行误差分析和检测的质量控制第三节医学参考值范围•医学参考值范围(refrencevaluerange)又称正常值范围(normalrange)。指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。一、医学参考值范围的概念1、临床实践:着眼于个体,作为划分正常人与异常人的界线。2、预防医学实践:着眼于群体,如评价儿童的发育水平。参考值范围的应用:二、医学参考值范围的制定方法1.选择足够数量的正常人作为参照样本2.对选定的正常人进行准确的测定3.决定取单侧范围还是双侧范围值4.选择适当的百分范围5.选择适当的方法估计参考值范围的界限青光眼病人和正常人眼内压分布图受检人数正常人患者14161820222426283032343638眼内压重叠区若将眼内压的阳性诊断标准定为22mmHg,所有患者均被判为阳性。但是,眼内压在22-26mmHg之间的正常人被误判为阳性(假阳性),造成误诊。若将眼内压的阳性诊断标准定为26mmHg,所有的正常人均被判为阴性。但是,眼内压在22-26mmHg之间的患者被误判为阴性(假阴性),造成漏诊。表3-2参考值范围所对应的百分位数百分范围(%)单侧双侧(对称)下限上限下限上限95P5P95P2.5P97.599P1P99P0.5P99.5表3-3参考值范围所对应的正态分布区间百分范围(%)单侧双侧(对称)下限上限下限上限95-1.645s+1.645s-1.96s+1.96s99-2.33s+2.33s-2.58s+2.58sxxxxxxxx医学参考值计算方法1.正态分布法适用于正态或近似正态分布资料双侧界值:单侧上界:单侧下界:sx96.1sx645.1sx645.1求:该地成年男子红细胞数的95%参考值范围。LLx/010.38s/1078.41212)/10(52.538.096.178.496.112
本文标题:第3章变异程度的统计描述
链接地址:https://www.777doc.com/doc-4045684 .html