您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 卫生统计学学习指导与习题集
1卫生统计学学习指导与习题集第一章绪论【教学要求】了解:医学统计学的发展史;统计学与公共卫生的关系。熟悉:统计学习的目标与方法掌握:统计学基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。【重点难点】第一节医学中统计思维的进化第二节统计学与公共卫生互动推动一、统计学是公共卫生专业人员的得力工具公共卫生是群体科学,应用统计探索群体规律。统计抽样技术;设计群体调查,掌握人群的卫生状况和需求;统计描述:反映疾病和卫生资源的分布特征;统计推断:偶然性的背景中识别危险因素、评价卫生措施、进行科学决策。二、现代公共卫生领域对统计学的挑战公共卫生不仅应用统计学,而且不断提出新要求和新问题,是现代统计学研究和发展的巨大功力。第三节统计学的若干概念一、总体与样本总体是根据研究目的确定的同质研究对象的全体,按研究对象来源又有目标总体和研究总体。样本是指从研究总体中抽取的一部分有代表性的个体。抽样研究的目的是用样本推断总体。二、同质与变异同质是指同一总体中个体的性质、影响条件或背景相同或非常相近。变异是指同质的个体之间存在的差异。统计学的任务是在变异的背景上描述同一总体的同质性,揭示不同总体的异质性。三、变量的类型定量变量可分为离散型变量和连续型变量。变量类型可以转化:定量→有序→分类→二值。注意转化方向只能由信息量多向信息量少。四、参数与统计量参数是指反映总体特征的统计指标。五、设计与分析统计设计是医药卫生设计科研不可或缺的部分。统计设计包括抽样方法、统计学原则、分类变量定性变量定量变量{变量{有序变量2统计方法数据如何收集、样本量多大等统计学内容。设计决定了统计分析的方法。统计设计和统计分析是不可分割的两项内容。六、因果与联系探究因果关系首先考虑是否存在联系。但存在联系未必有因果联系,因为存在大量的混杂因素。单靠统计学分析大多只能考虑变量之间的联系,难于证明因果联系。第四节目标与方法一、基本概念方法与技能正确理解基本概念、掌握常用的设计和经典的分析方法、学会用统计软件完成有关计算。二、教与学的方法应用是根本目的,理解概念与动手实践才是根本。要结合生活经验、医学实际来教与学。借助统计学实验理解统计现象与理论,借助案例讨论从反面吸取教训。【补充习题】一、选择题(一)A1题每一道题下面有A、B、C、D、E五个被选答案,请从中选择一个最佳答案。1.下面的变量中,属于分类变量的是(B)A.脉搏B.血型C.肺活量D.红细胞计数E.血压2.下面的变量中,属于定量变量的是(B)A.性别B.体重C.血型D.职业E.民族3.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于(A)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为(C)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断,样本应是(C)A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明(二)A2型每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择3一个最佳答案。1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。有180万儿童参与,约有1/4参与者得到了随机化。这180万儿童是(C)A.目标总体B.研究总体C.1份样本D.1份随机样本E.180万份样本2.上述试验最终肯定了索尔克疫苗的效果。请问此结论是针对(C)而言。A.180万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。(×)2.假变量可以参与计算,所以假变量是定量变量。(×)3.离散变量在数值很大时。单位为“千”或“万”时可以取小数值,此时可接近地视为连续型变量(√)4.同质的个体间不存在差异。(×)5.如果个体间有变异,则它们一定不是来自同一总体。(×)4第二章定量资料的统计描述【重点难点】第一节频率分布表与频率分布图一、离散型定量变量的频率分布对离散型定量变量,变量值的取值是不连续的。直接清点各变量值出现的频数,即为频率分布表。离散型定量变量的频率分布图可用直方图表达,以各等宽矩形直条的高度表示各频率的多少。二、连续型定量变量的频率分布对连续型定量变量,变量值的取值是连续的,将数据适当分组,清点各组的频数,即为频率分布表。连续型定量变量的频率分布图可用直方图表达。即纵坐标为频率密度,即频率/组距,直方图的面积之和等于1.三、频率分布表(图)的用途频率分布表(图)可以揭示资料的分布类型,如对称分布或偏峰分布;也可以描述资料的分布特征,即集中趋势和离散趋势;便于发现某些特大和特小的可疑值;便于进一步计算指标和统计分析。第二节描述集中趋势的统计指标对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。常用的平均数有3种:算数均数、几何均数和中位数。一、算术均数意义:算术均数简称均数,常用μ表示总体均数,𝑋̅表示样本均数。反映全部数量观察值的平均数量水平。适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。计算:1.直接法(基于原始数据)𝑋̅=𝑋1+𝑋2+⋯+𝑋𝑛𝑛=∑𝑋𝑛其中,n为样本含量,𝑋1+𝑋2+⋯+𝑋𝑛为观察值。2.频率表法(也叫加权法,基于频率表资料)𝑋̅=∑𝑓𝑥0∑𝑓=∑𝑓𝑥0𝑛其中,f为组段的频数,𝑥0为组段的中值,𝑥0=(组段上限+组段下限)/2。二、几何均数意义:几何均数以符号G表示,常用来反映一组含多个数量级数据的集中位置。适用条件:适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。观察值间常呈倍数关系,或变化范围跨越多个数量级。计算:1.直接法(基于原始数据)G=√𝑋1𝑋2…𝑋𝑛𝑛或G=𝑙𝑜𝑔−1[∑log𝑋𝑛]2.频率表法(也称加权法,基于频率表资料)5G=𝑙og−1[∑𝑓𝑙𝑜𝑔𝑋𝑛]三、中位数意义:中位数常用符号M表示,是指将原始观察值从小到大排序后,位次居中的那个数,即理论上有一半的观察值低于中位数,一般都观察值高于中位数。适用条件:中位数适用于各种分布的资料,特别是偏峰分布资料、分布末端无确定值的资料等。计算:1.直接法(基于原始数据)将n例观察值从小到大排列,第i个数据用𝑋𝐼∗表示。n为奇数时,M=𝑋𝑛+12∗n为偶数时,M=12(𝑋𝑛2∗+𝑋n2+1∗)2.百分位数法(基于频率表资料)百分位数常用符号𝑃𝑥表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有x%个体观察值比它小,有1-x%个体观察值比它大。中位数就是一个特定的百分位数,即M=𝑃50。𝑃𝑥=L+𝑖𝐹𝐿+𝑖−𝐹𝐿(n*x%-𝐹𝐿)其中L为欲求的百分位数所在组段的下限,i为该组段的组距,𝐹𝐿为截止至L的累计频数,𝐹𝐿+𝑖−𝐹𝐿为该组段内的频数,n为总频数。四、众数意义:全部实测值中出现次数最多的数值即为众数。第三节描述离散趋势的统计指标同一总体中不同个体存在的差异称为变异。为比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度。常用的描述离散趋势的统计量包括极差、四分位数间距、方差、标准差和变异系数。一、极差意义:极差,也称全距。样本量接近的同类资料比较,极差越大意味着数据间变异越大。极差只考虑数据的最大值和最小值,所以用极差反映数据的变异程度常常比较粗略和不稳定。计算:R=最大值—最小值适用条件:资料不限。二、四分位数间距意义:四分位数间距表示百分位数𝑃75和百分位数𝑃25之差,理论上𝑃25与𝑃75之间恰好包括总体中间50%的个体观察值。同类资料比较,Q越大意味着数据间变异越大。用四分位数间距反映数据的变异程度比极差稳定。计算:Q=𝑃75—𝑃25其中,𝑃75和𝑃25的求法参见前述百分位数求法。适用条件:四分位数间距可用于各种分布资料,特别对偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。6三、方差意义:方差考虑了全部观察值的变异程度。总体方差用𝜎2表示,定义为观察值离均差平方和的算术均数;样本方差用𝑆2表示,是总体方差的无偏估计。同类资料比较时,方差越大意味着数据间变异度越大。计算:总体方差𝜎2=∑(X−μ)2𝑁样本方差𝑆2=∑(X−𝑋̅)2𝑛−1适用条件:见标准差。四、标准差意义:方差的算术平方根称为标准差。总体标准差用𝜎表示,样本标准差用S表示。标准差的量纲与原变量一致,故实际应用中常使用标准差。同类资料比较时,标准差越大意味着观察值间变异度越大。计算:总体标准差𝜎=√∑(X−μ)2𝑁样本标准差S=√∑(X−𝑋̅)2𝑛−1其中,n-1称为自由度。适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述的集中趋势和离散趋势。五、变异系数意义:变异系数用CV表示,为标准差与算术均数之比,是一个不带量纲的相对数。计算:CV=𝑆𝑋̅×100%适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述资料的集中趋势和离散趋势。第四节描述分布形态的统计指标一、偏度系数意义:理论上总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时分布为负偏峰。计算:SKEW=𝑛(𝑛−1)(𝑛−2)∑(𝑋−𝑋̅𝑆)3二、峰度系数意义:理论上正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔取正值时,其分布较正态分布的峰尖峭。计算:KURT=𝑛(n+1)(𝑛−1)(𝑛−2)(𝑛−3)∑(𝑋−𝑋̅𝑆)4−3(𝑛−1)2(𝑛−2)(𝑛−3)【补充练习题】选择题(一)A1型每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。1.用频率表计算平均数时各组的组中值应为(E)A.本组段变量值的平均数B.本组段变量值的中位数7C.本组段的上限值D.本组段的下限值E.(本组段上限值+本组段下限值)/22.离散型定量变量的频率分布图可以用(B)表达。A.直方图B.直条图C.百分条图D.箱式图E.复式条图3.变异系数越大说明(E)。A.标准差越大B.平均数越大C.标准差、平均数都大D.平均数小E.以均数为准变异程度大4.均数和标准差的关系是(D)A.均数越大,标准差越小B.均数越大,标准差越大C.标准差越大,均数对各变量值的代表性越好D.标准差越小,均数对各变量值的代表性越好E.均数和标准差都可以描述资料的离散趋势5.把𝑃25,𝑃50,𝑃75标在一个数轴上,则(E)A.𝑃50一定在𝑃25和𝑃75的中间B.𝑃50一定不在𝑃25和𝑃75的中间C.𝑃50一定靠近𝑃25一些D.𝑃50一定靠近𝑃75一些E.以上都不是(二)A2型每一道题以一个小案例出现,其下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。1.已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,20,其潜伏期的平均为(B)天。A.9B.9.5C.10D.10.2E.112.已知某地一群7岁男童身高均数为100cm,标准差为5cm;体重均数为20kg,标准差为3kg,则身高和体重的变异程度有(C)
本文标题:卫生统计学学习指导与习题集
链接地址:https://www.777doc.com/doc-4212541 .html