您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 基础医学 > 研究生医学统计学考点总结
医学统计学基本概念:1.医学统计学Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不可预测的;一种或多种不可控因素(已知的或未知的)作用下的综合表现;个体变异是普遍存在的;个体变异是有规律的;没有个体变异,就没有统计学。4.总体和样本:总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。个体(individual):是构成总体的最基本观察单位。样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。样本含量(samplesize):样本中包含的个体个数。5.参数和统计量:总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:、、π。统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、s、p。在总体被确定之后,总体参数就是一个常数,是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。7.概率和频率:频率(relativefrequency):在n次随机试验中,事件A发生了m次,则比值m/n称为事件A在这n次试验中出现的频率。概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0≤P≤1。8.小概率事件和小概率原理:小概率事件:医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会发生的。9.变量的分类:按照取值的特性:X数值变量numericalVariable定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。分类变量categoricalVariable定性变量:取值是是分散、定性的,表现为互不相容的类别和属性。•无序分类unorderedcategorics:无顺序,无间隔,仅有分类–二项分类–多项分类•有序分类orderedcategorics等级变量:仅有顺序,无单位;取值间的差异是不可度量的不同分类的互相转化数值变量→无序分类变量数值变量→有序分类变量有序分类变量→无序分类变量信息量只有减少,不可增加统计描述指标,呈现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量详细,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本→所在总体特征假设检验:该指标可能的影响因素分析频数分布1.频数表编制步骤求极差:R=Xmax-Xmin选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取8~12组列出组段:组段的含义:包括组段的下限而不含组段的上限。如:3.2~等价于[3.2,3.5)。划记归组获得频数求频率,完成频数表:相应的频数除以总数即为频率,各组段的频率总和为1或者100%。2.频数分布所提供的信息频数分布图用以表示数据的分布规律。观察有无可疑值。考察分布的类型。对称分布非对称分布(偏态分布)•左偏态(负偏态):指分布的长尾在峰的左侧。•右偏态(正偏态):指分布的长尾在峰的右侧。考察分布的特征集中位置(CentralTendency):描述指标有平均数(算术均数(Mean)、几何均数(GeometricMean)、中位数(Median)、百分位数(Percentile))。离散趋势(TendencyofDispersion):描述指标有极差(Range)、四分位数间距(interquartilerange)、方差(Variance)、标准差(StandardDeviation)、变异系数(coefficientofvariation)。3.平均数应用的注意事项:同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料。几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资料适合计算均数或几何均数时,不宜用中位数。中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。不同质的资料应考虑分别计算平均数。百分位数:样本含量较少时不宜计算靠近两端的百分位数。平均数要与变异指标结合使用。4.变异度指标:四分位数间距(inter-quartilerange):QU-QL=P75-P25,即中间一半观察值的极差。方差及标准差:变异系数(coefficientofvariation,CV):为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度5.变异度的正确应用:极差不稳定,不灵敏标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分22XN221XXsnNX221XXsn100%sCVX散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。6.总结:每个观察指标均有其特定的变异规律;描述变异:图形描述统计量描述平均数:均数、几何均数、中位数和百分位数变异度:极差、方差、标准差、四分位数间距、变异系数不同分布的指标,用不同的统计量描述;用平均数与变异度共同描述。正态分布1.公式:如果随机变量X的概率密度函数为(-∞<X<+∞)则称X服从正态分布,记作X~N(,2),其中,为分布的均数,为分布的标准差。为总体均数,为总体标准差。π为圆周率,e为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。2.正态分布的特征(重要):单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1,对称区域面积相等。-1.64~+1.64内面积为90%;-1.96~+1.96内面积为95%;-2.58~+2.58内面积为99%。正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。XfXe22()21()23.标准正态分布:标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。记为N(0,1)。标准正态分布是一条曲线。概率密度函数为:(-∞<u<+∞)正态分布转换为标准正态分布:若X~N(,2),作变换:则u服从标准正态分布,u称为标准正态离差(standardnormaldeviation)4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围参考值范围:1.参考值范围(referenceinterval):是绝大多数正常人的某观察指标所在的范围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。2.参考值范围确定的原则:选定足够例数的同质的正常人作为研究对象:例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性控制检测误差判断是否分组(性别,年龄组)单、双侧问题(onesidedortwosided)选择百分界值(90%,95%)确定可疑范围3.参考值范围的估计方法:正态分布法、百分位数法抽样误差1.概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(samplingerror)。抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。2.中心极限定理(centrallimittheorem):从均数为μ,标准差为σ的正态总体中随机抽样,样本均数服从均数为μ,标准差为的正态分布。从均数为μ,标准差为σ的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为μ,标准差为的正态分布。3.标准误(standarderror):用样本统计量的标准差来反映抽样误差的大小,又称标准误。221()2uueXunnXnXssn其中,σ为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计4.标准误的意义:反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。t分布1.根据中心极限定理的内容,当样本含量足够大时,对从均数为μ,标准差为σ的任意总体中随机抽样所得的样本均数进行标准化变换,有2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:这里,ν为自由度,取值为n-13.t分布的性质:t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。t分布以0为中心,左右对称。分布的高峰位置比u分布低,尾部高。t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。t界值表。可信区间1.统计推断(statisticalinference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameterestimation)、假设检验(hypothesistesting)。2.参数估计:点估计(PointEstimation):用样本统计量作为总体参数的估计。区间估计(IntervalEstimation):3.可信区间定义:按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidenceinterval,CI),预先给定的概率(1-α)称为可信度或者置信度(confidencelevel),常取95%或99%。可信区间(CL,CU)是一开区间CL、CU称为可信限。4.可信区间的计算:样本含量较小时(n≤100):下限:上限:~(0,1)XNn~Xttsn,XXts,XXts样本含量较大时(n100):下限:上限:5.均数之差可信区间的计算:均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2的t分布。样本含量较大时,服从标准正态分布。合并方差:均数之差
本文标题:研究生医学统计学考点总结
链接地址:https://www.777doc.com/doc-2179623 .html