您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 人群健康研究的统计方法
第七章医学统计学的基本概念和步骤一、统计学基本概念1.总体与样本2.同质与变异3.参数与统计量4.误差5.概率与频率1.总体与样本总体:根据研究目的而确定同质观察单位的全体。样本:从总体中抽取的部分观察单位。随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。2.同质与变异同质:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。变异:在同质的基础上被观察个体之间的差异被称为变异。3、参数与统计量parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。是固定的常数。总体样本抽取部分观察单位统计量参数推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。在参数附近波动的随机变量。SX、4、误差(error)误差:实际观察值与客观真实值之差(1)系统误差(2)随机误差90mmhg。。。。。。85真值血压计测定值系统误差。。。。。。随机误差和系统误差随机误差概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。频率:样本的实际发生率称为频率。频率与概率间的关系:样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越接近概率。5、概率与频率二、数据类型1.计量资料用仪器、工具等测量方法获得的数据2.计数资料按某种属性分类,然后清点每类的数据。也叫定性数据3.等级资料半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(ordinalcategorydata)。①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:,,++,+++及以上三类资料间关系例:一组2040岁成年人的血压值以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压计量资料等级资料计数资料实例数据第八章数值变量资料的统计描述一、计量资料的统计描述平均指标(算术均数、几何均数、中位数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)1、平均指标1.算术均数(mean):适用条件:资料呈对称分布,一般用于正态或近似正态分布。2.几何均数(geometricmean)。适用条件:呈倍数关系的等比资料或对数正态分布资料。3.中位数(median)。适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。2.变异指标反映数据的离散程度。即个体观察值的变异程度。1.极差(全距)2.四分位数间距3.方差Variance4.标准差StandardDeviation5.变异系数CV变异指标小结1.极差较粗糙,适合于任何分布2.标准差最常用,适合于正态或近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数±标准差偏态分布:中位数(四分位间距)xs图形特点:钟型(中间高,两头低,左右对称,以X轴为渐进线)最高处对应于X轴的值就是均数两个参数:位置参数和形态参数。曲线下面积恒为1或100%。二、正态分布1.意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准,但不是“金标准”。三、医学参考值范围的制定双侧:血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常单侧下限:如:肺活量过低异常单双侧常依据医学专业知识而定。2.单、双侧问题:3.医学参考值范围有90%、95%、99%等,最常用的为95%。计算医学参考值范围的常用方法:1.正态分布法2.百分位数法第九章数值变量资料的统计推断一、均数的抽样误差与标准误总体样本抽取部分观察单位统计量参数统计推断如:样本均数样本标准差S如:总体均数总体标准差X抽样误差(samplingerror):由于个体变异产生的、抽样造成的样本统计量与总体参数间差异,称为抽样误差。1.标准误(standarderror,SE)nX/统计量的标准差称为标准误,是衡量样本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大小。降低抽样误差的途径有:①减小S。②增加样本含量n。由于总体标准差通常是未知的,而用样本标准差S来估计,因此,均数标准误的估计值为SnxS=X二、总体均数的估计XS、总体均数的点估计(pointestimation)与区间估计(intervalestimation)参数的估计点估计:由样本统计量直接估计总体参数区间估计:按预先给定的概率(1-)所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(Confidenceinterval,CI)、区间估计:可信度与可信区间预先给定的概率1-称为可信度或置信度(confidencelevel),常取95%或99%。没有特别说明,一般取双侧95%。可信区间有可信下限(lowerlimit,L)和可信上限(upperlimit,U),一般表示为(L,U)。t检验,亦称studentt检验,主要用于样本含量较小(如n60)的两个样本均数的比较。1.单样本t检验2.配对样本t检验3.两样本t检验三、t检验四、方差分析1、完全随机设计2、随机区组设计(1)设计将全部试验对象随机分配到g个处理组,各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。1、完全随机设计(2)统计分析方法选择1.对于正态分布且方差齐性的资料,常采用完全随机设计的单因素方差分析(one-wayANOVA);2.对于非正态分布或方差不齐的资料,可采用Wilcoxon秩和检验。2、随机区组设计先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。(1)随机分组方法(2)统计方法选择1.正态分布且方差齐同的资料,应采用两因素方差分析(two-wayANOVA);2.当不满足方差分析时,可采用随机区组设计资料的FriedmanM检验。当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。若想进一步了解哪两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较。3、多个样本均数间的多重比较多重比较不能用两样本均数比较的t检验!若用两样本均数比较的t检验进行多次重复重比较,将会加大犯Ⅰ类错误(把本无差别的两个总体均数判为有差别)的概率。1、LSD-t检验适用范围:一对或几对在专业上有特殊意义的样本均数间的比较。2、Dunnett-t检验适用条件:适用于g-1个实验组与一个对照组均数差别的多重比较。3、SNK-q检验适用于多个样本均数两两之间的全面比较。第十章分类变量的统计描述心理反应病例数焦虑102抑郁57自我认同紊乱10恐惧5合计174反映该指标(心理反应)分类的分布1.一个因素分类计数的频数表一、分类数据的统计描述方法2.两因素交叉频数表不同用药与疗效的关系分组疗效(Y)(X)有效数无效数合计A药组203050B药组104050不同用药、性别与疗效的比较男女用药有效无效有效无效试验组20101010对照组10151520反映用药与疗效、性别与疗效的关系。3.两因素以上的交叉分组表1.定义:是两个有关的绝对数之比,统称为相对数。相对数的意义:消除基数影响,便于事物间的比较。给出事物发生频率(强度)的估计。相对数是工作决策的依据。二、常用相对数3、常用的相对数指标(1)率:又称为强度相对数,说明某事物在单位观察数中发生的频率和强度。率的计算通式:比例基数总数可能发生该结果的观察数实际发生某结果的观察率率指标做统计结论的描述描述内容:描述某现象发生频率水平。不同组间频率指标可作比较。例:某地中老年人白内障的患病情况年龄组受检白内障患者白内障(岁)人数患者构成比%患病率%40-5606815.1812.1450-44112928.7929.2560-29613530.1345.6170-1499721.6565.10≥8022194.2486.36合计1468448100.0030.52描述:随着年龄的增加,白内障患病率增加,80岁人群达86.36%2.构成比概念:说明某事物内部各组成部分在总量中所占的比重.一般为构成比、百分比。计算通式:%100数同一事物各部分的总例事物某部分的例数某部分构成比例:某地中老年人白内障的患病情况年龄组受检白内障患者白内障(岁)人数患者构成比%患病率%40-5606815.1812.1450-44112928.7929.2560-29613530.1345.6170-1499721.6565.10≥8022194.2486.36合计1468448100.0030.52%1004040数各年龄组白内障患者总岁组白内障患者数岁组白内障患者构成构成比的特点和意义特点:(1)各部分构成比的合计为100%。(2)事物内部某一部分的构成比发生变化,其他部分构成也发生变化。意义:研究事物按一个特征分类,构成比反映事物内部组成的结构特征,指出工作重点。3.相对比相对比:反映两个指标(指标可为绝对数、相对数;性质相同或不同)相比的倍数或百分数。例:某医院出生性别比=男性婴儿数/女性婴儿数=370/358=1.03(或103%)医护比=医生人数/护士人数)(倍数或百分数乙指标甲指标相对比%第十一章分类变量资料的统计推断χ2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,此方法以χ2分布为理论依据,可用于两个或多个率间的比较,计数资料的关联度分析等等。表两组降低颅内压有效率的比较组别有效无效合计有效率(%)试验组99510495.20对照组75219678.13合计1742620087.001、四格表资料的卡方检验22()()()()()adbcnabcdacbd组别阳性阴性合计A组ab(a+b)B组cd(c+d)合计(a+c)(b+d)(n)四格表专用公式①多个样本率比较时,有R行2列,称为R×2表;②两个样本的构成比比较时,有2行C列,称2×C表;③多个样本的构成比比较,有R行C列,称为R×C表。2、行×列表资料的检验2(1)多个样本率或两个构成比比较的2检验三种疗法有效率的比较疗法有效无效合计有效率(%)物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41(2)双向无序分类资料的关联性检验表某地5801人的血型ABO血型MN血型合计MNMNO4314909021823A3884108001598B4955879502032AB13717932348合计1451166626845801问题:(1)两分类变量有无关联?(2)关联程度如何?第十二章基于秩转换的非参数检验参数检验方法回顾参数检验方法:t检验,方差分析;总体分布假定:各组样本所来自的总体为正态分布;各总体分布间的关系假定:各总体分布的形状相同,即方差相等(方差齐性)。一、非参数检验方法概述1、定义:不依赖于总体的分布类型,对样本所来自总体的分布不作严格假定的统计推断方法,称为非参数检验。又可称为任意分布检验。非参数检验是一类统计学方法的总称,基于秩转换(ranktransformation)的非参数检验只是其中的一种。2、秩次以及秩转换的概念秩次(rank):某种测量值按照从小到大的顺序排序后,每一测量值所对应的序号。秩转换:将
本文标题:人群健康研究的统计方法
链接地址:https://www.777doc.com/doc-5084829 .html