您好,欢迎访问三七文档
1绪论一、卫生统计学的定义根据统计学的原理和方法,研究医学数据的收集、表达和分析的一门应用学科。二、统计工作的步骤1、设计2、搜集资料3、整理资料4、分析资料三、统计资料的类型1、定量资料:可通过对观察单位测量取得数值,一般有度量衡单位。如身长(cm)、血压(kPa)、脉搏(次/分)。虽然如脉搏、白细胞计数等测量值只能是正整数(不连续),但为研究方便习惯上也视为连续变量。2、分类资料:分类变量的可能取值是离散的。表现为互不相容的类别。如性别、血型、民族、职业等。(1)无序分类unorderedcategories(或名义变量nominalvariable)表现为变量的不同取值间没有大小、强弱、优劣等程度之别。如性别、血型等。无序分类资料称为计数资料。A.二项分类:如性别分为男、女;虫卵化验结果分为阴性、阳性等。B.多项分类:如人群血型的A、B、O、AB等。(2)有序分类:表现为变量的不同取值间有大小、强弱、优劣等程度之别。如疗效可分为治愈、显效、好转、无效,尿蛋白化验结果分为一、±、++、+++等。各类之间有程度上的差别。有序分类变量资料称为等级资料(rankeddata)。(3)各类变量间的互相转化根据研究分析的需要,各类资料可相互转化。分类变量转化为数值是将具有属性的事物,按其顺序、轻重、大小、主次标以数码。A.对于有序分类变量有时可通过给各类别赋值,如治愈为3、显效为2、好转为l、无效为0,作为数值变量处理。B.数值变量也可转化为分类变量:如按血压测量值大小将血压分为低血压、正常、高血压,从而按分类变量处理。四、基本概念1、总体:根据研究目的确定的同质观察单位的全体。有限总体?无限总体?2、样本:从总体中随机抽取部分观察单位实测值的集合。3、同质:是指具有某些相同因素的个体,而这些因素会对研究指标产生影响(如同一地区、2同一年份、同一性别等)。4、变异是指在同质的基础上各观察值之间的差异。个体差异来源于一些未加控制或无法控制,甚至不明因素所致的随机误差。5、变量(variable):亦称研究因素或指标,是观察单位的某项属性或特征,由研究目的所确定。例如体重、白细胞计数、血红蛋白、性别,等。6、变量值(valueofvariable)亦称观察值(observedvalue)和资料(data):是变量的观察结果。7、参数:用于描述总体特征的指标,由总体观察值计算而来。8、统计量:用于描述样本特征的指标,由样本观察值计算而来。定量资料的统计描述一、频数、频数分布、频数表1、频数:将原始资料进行分组,每一组的事件数即称为该组频数。如原始资料为分类资料,则按性质类别进行分组;如原始资料为计量资料,则按变量值区间来分组。2、频数分布:原始资料落在各数据组的分布情况3、频数表:将各数据组及其相应的事件数用表格的形式列出来。4、频数表的用途(1)揭示资料的分布特征和分布类型(2)便于进一步计算和分析(3)便于发现某些特大或特小的可疑值5、频数表的制作步骤(1)求极差(2)定组数、组距及各组段的上、下限(n≈30,分5~6组;n>100,分10组左右)。确定第一组下限时应考虑:便于分组、计算;第一组应包括最小值,最后一组应包括最大值。(3)归组6、计量资料频数分布的两个特征:集中趋势?离散趋势?7、频数分布的类型:对称分布?偏态分布?二、集中趋势的描述1、算术均数(简称均数):适用于对称分布,特别是正态分布。2、几何均数:等比资料如抗体滴度;对数正态分布资料。3、中位数:偏态分布资料;分布不明资料;开口资料。3三、离散程度的描述1、极差:样本含量相差较大时,不宜用极差比较分布的离散程度。2、四分位数间距:P75-P25,描述偏态分布资料的离散趋势,常与中位数结合使用。3、方差:多用于假设检验中。4、标准差:描述正态或近似正态分布资料的离散趋势,常与均数结合使用。它主要用于:(1)说明观察值变异程度的大小,两组观察值均数相近,单位相同时,S越大变异程度越大。(2)与均数一起描述正态分布资料的特征(3)计算变异系数(4)计算标准误定性资料的统计描述1.常用的三类相对数及使用的注意事项统计表与统计图1.绘制统计表的原则2.常用的统计图的用途常用概率分布一、二项分布的条件、特征及和泊松分布、正态分布的关系。二、泊松分布的特征。三、正态分布的概念和特征1、正态分布的概念:它是以均数为中心的对称的钟型分布2、正态分布的两个参数:均数(集中趋势位置)和标准差(离散程度)3、正态曲线下面积分布规律:-1σ到+1σ68.27%;-1.96σ到+1.96σ95.00%;-2.58σ到+2.58σ99.00%二、标准正态分布为便于描述和应用,将服从正态分布的随机变量作数据变换。设u=(X-μ)/σ,则u的均数等于0,标准差等于1,即将μ的位置移到原点,横轴尺度以σ为单位,这样将正态分布变换为标准正态分布。u值又称为标准正态离差。三、正态分布的主要应用1、估计频数分布习题1.1(4)估计该地30~49岁健康男子血清胆固醇小于4.50mmol/L的概率u=(4.50-4.7351)/0.8816=-0.27,概率为0.3936,即39.4%2、制定参考值范围指标过大和过小均异常定双侧;仅过小异常定单侧下限(如肺活量);仅过大异常定单侧上限(如尿铅含量)4正态分布法用于服从正态分布的指标;百分位数法用于不服从正态分布的指标。参数估计基础一、均数的抽样误差与标准误1、抽样误差:由个体变异产生,抽样造成的样本统计量与总体参数的差异。2、中心极限定理:从正态总体中随机抽取例数为n的样本,样本均数也服从正态分布;即使从偏态总体中抽样,当n足够大(如n50),样本均数也近似正态分布。(了解)3、标准误:反映样本均数间的离散程度,样本均数与总体均数的差异,说明均数抽样误差的大小。标准误越小,表示抽样误差越小,则统计量越稳定,与参数越接近。注意跟标准差的区别nxnssx二、t分布1、概念:当总体标准差未知时,可作正态变量x的t转换:nsxt2、t分布与标准正态分布的联系:t分布只有1个参数:自由度(=n-1)。逐渐增大时,t分布逐渐逼近标准正态分布。当=∝时,t分布就完全成为标准正态分布了。3、t界值表的使用:对于相同的自由度,值愈小,t,值愈大;对于相同的值,自由度愈大,t,值愈小。三、总体均数的估计参数估计:指用样本指标值(统计量)估计总体指标值(参数)。1、点(值)估计:用样本均数估计总体均数。但未考虑抽样误差。2、区间估计:按预先给定的概率(1-α)确定包含未知总体均数的可能范围。可信度(1-)和可信限(可信区间的两个端点值)的概念?总体均数的1-可信区间为:xstx,2/95%可信区间(confidenceinterval)的含义:有95%的可能认为计算出的可信区间包含了总体参数。可信区间的可信度和精密度:99%(范围宽,可信度高,但精密度差)和95%可信区间的比较。注意和参考值范围区分。假设检验51、假设检验的步骤(1)建立检验假设(H0,H1)和确定检验水准()(2)选定检验方法和计算检验统计量(3)确定P值和作出统计学推断统计结论:(两种药物疗效)的差别有(或无)统计学意义。专业结论:可认为…不同;尚不能认为…不同;甲药疗效优于乙药,尚不能认为两药疗效有差别,等。2、假设检验的基本原理要检验两样本均数的差异是由于抽样误差引起,还是由于总体均数不同所致,运用反证法。首先建立检验假设,假设样本来自同一总体,然后在假设的基础上计算统计量,根据统计量的大小来判断假设成立的概率有多大,当假设成立的概率较大时就不拒绝该假设,当假设成立的概率较小时就拒绝该假设。3、t检验的用途,适用什么类型的资料1)单样本t检验(One-samplettest)。2)配对t检验(Paired-samplesttest)配对设计主要有以下情形两个同质受试对象分别接受两种不同的处理同一受试对象分别接受两种不同的处理同一受试对象处理前后应用条件:要求“差数”服从正态分布3)两样本t检验(Independent-samplesttest)。应用条件:要求两个正态总体方差相等,特别是在样本含量较小时(如n1和n2均小于50)。4、Ⅰ型错误和Ⅱ型错误Ⅰ型错误(α):拒绝了实际上是成立的H0Ⅱ型错误(β):不拒绝了实际上是不成立的H0α的β关系:α小,β大;α大,β小;同时减少,只有增加n1-β:检验效能,指两总体确有差别,按β水准能发现它们有差别的能力。5、假设检验时应注意的问题(P越小,是否代表差异越大;P和α的区别)6、可信区间与假设检验的区别和联系(了解)1)可信区间亦可回答假设检验的问题:如可信区间包含了H0,则……?2)可信区间比假设检验可提供更多的信息3)可信区间只能在检验水准α的前提下进行计算(即只能知道P值是否小于α,如0.05),而假设检验能够获得确切的概率P值。6方差分析一、完全随机设计方差分析完全随机设计方差分析的总变异分几部分?F值是与的比值?如各样本均数来自同一总体,则F值理论上等于。若各样本均数不是来自同一总体,则变异会增大,F值将明显于1。二、随机区组方差分析1、随机区组方差分析的总变异分为几部分?由于从总变异中分离出变异,减少了个体差异对研究结果的影响,一般而言,较成组设计更容易检验出处理组间的差别,提高了检验效率。2、区组效应是否具有统计学意义是重要的,它表明了区组的划分是否成功。如区组效应有统计学意义,可提高检验效率;如区组效应无统计学意义,则并不能提高检验效率,甚至有可能降低检验效率。因此,并非任何场合划分区组都好。若没有足够理由显示不同区组间差别确有统计学意义,则宁可不分三、方差分析对数据的基本假设1、任何两个观察值之间均不相关。2、每一水平下的观察值Xij分别服从总体均数为μi的正态分布。3、各总体的方差相等。四、两两比较及其SAS实现2检验1、2检验用于解决哪些问题?2、四格表资料2检验的应用条件?(1)基本公式:应用条件为n≥40,T≥5。(2)校正公式:应用条件为n≥40,1≤T5。(3)确切概率法:应用条件为n40,或T1。3、配对四格表资料的2检验:掌握计算方法4.行×列表2检验时的注意事项(了解)(1)当有1/5及以上格子的理论频数T5,或有1个格子T1时,应该与相邻组合并(但要合理),或增加样本例数。(2)结论为拒绝H0,是认为各总体率不等或不全相等(其中至少有两个总体率不等)。(3)若结局变量为单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。秩和检验71、参数统计与非参数统计参数统计:通常要求样本来自的总体分布型是已知的(如正态分布),在这种假设的基础上,对总体参数进行估计和检验。非参数统计:不依赖总体分布类型,也不对总体参数进行推断的假设检验。2、非参数统计的假设检验(编秩次的方法要掌握)(1)配对设计差值的符号秩和检验H0:差值总体中位数Md=0H1:Md≠0(2)成组设计两样本比较的秩和检验H0:两总体分布相同H1:两总体分布不相同(3)多个样本比较的秩和检验(以3组为例)H0:三个总体分布相同H1:三个总体的位置不同或不全相同3、非参数统计的优缺点优点:不受总体分布的限制,适用范围广。缺点:没有充分利用资料提供的信息。适用参数检验条件的资料,应首选参数检验4、非参数统计的适用情况(1)等级资料;(2)偏态分布;(3)分布不明;(4)个别数据偏离过大;(5)各组方差明显不齐5、判断资料分布类型的途径(1)据文献或以往经验;(2)频数表;(3)正态性检验(4)若测定值(都是正值)服从正态分布,则一般来说,标准差s不会大于均值,更不会是均值的若干倍。两变量关联性分析1、直线相关的概念:如不要求由X估计Y,而关心的是两个变量间是否确有直线相关关系,如有直线相关关系,那么相关的方向和程度如何?资料要求:X、Y服从双变量正态分布。2、相关系数的意义:用r表示。描述两个变量直线相关的方向和紧密程度。r的取值范围:-1≤r≤1。r0为正相关,r0为负
本文标题:卫生统计学复习提纲
链接地址:https://www.777doc.com/doc-2599525 .html