您好,欢迎访问三七文档
当前位置:首页 > 资格认证/考试 > 医师/药师资格考试 > 2021年全科主治基础知识讲义4医学统计学方法
1医学统计学方法 知识点1 统计学概述 统计学中的基本概念 总体和样本: 总体:是根据研究目的而确定的同质的研究对象的集合。换句话:同质的所有观察单位某一变量值的集合。 分为有限总体和无限总体。 样本:是指从总体中随机抽取的有代表性的一部分观察单位的集合。 同质:指被研究指标的影响因素完全相同。是科学研究的基础,是相对的。 变异:是同质基础上的个体差异。是绝对的。统计的任务就是在同质分组的基础上,通过对个体变异的研究,透过偶然现象,反映同质事物的本质特征和规律。统计数据具有变异的特征。 概率: 概率:随机事件发生可能性的大小,P[0,1]。 小概率事件:P≤0.05或P≤0.01为小概率。统计学认为小概率事件在一次试验中不大可能发生。 小概率事件原理是统计推断的基本原理之一。 参数和统计量: 参数:总体的指标。μ,π,σ 统计量:样本的指标。,p,s,t,F,M 变量及其分类 变量的概念: 变量:观察单位的某种特征。也叫作观察指标。 变量值:对变量观察或测量的结果。 变量的分类: 分析内容分类可将变量分为因素性变量和结果性变量。 如在病人生命质量调查问卷中,反映生命质量的各条目得分是结果性变量,而与生命质量有关的年龄、性别、经济收入即为因素性变量。因素性变量也常常作为分组变量。 按变量性质分类数值变量和分类变量。 数值变量(或称定量变量、定量指标):变量值是连续的,通常有度量衡单位。 分类变量(或称定性变量、定性指标):变量值是间断的,通常没有度量衡单位,表现为两种或多种互不相容的属性或程度上的大小。 分类变量资料又可分为计数资料和等级资料。 ①计数资料是将观察单位按事物的某种属性或类别分组,再计数各组的观察单位数,如性别; ②等级资料是将观察单位按事物某种属性的不同程度分组,再计数各组的观察单位数,它的分组是按等级排序的,故也称之为半定量资料,如尿蛋白检测结果。 资料类型的转换: 一般来说,定量的资料,即数值变量资料可转移为分类变量或等级变量的资料。 资料的类型只能从定量向半定量或定性转换,或者从半定量向定性转换,无法反向转换。 例如:研究北京2012年正常成年男性的血压值。 研究对象观察单位变量 变量值同质 变异有限总体总体 样本参数统计量2 统计学工作基本步骤 1.设计,最为重要 2.搜集资料 3.整理资料 4.分析资料:包括统计描述和统计推断 【例题】 以下关于变量说法正确的是 A.测定60名正常成年女性血小板数所得资料只能是计量资料 B.分类变量也可以转化为数值变量 C.定性资料可以转换为半定量资料 D.结果性变量一般为分组变量 E.变量就是观察指标『正确答案』E 【例题】 以下说法不正确的是 A.变量是由变量名和变量值组成 B.统计工作步骤中最重要的是设计 C.概率可描述某随机事件发生可能性大小 D.样本应该具有一定代表性 E.总体的指标称为统计量『正确答案』E 知识点2 资料特征的描述性分析 定量资料的统计描述 统计描述是通过图表或统计指标,对数据资料进行整理、分析,并对数据的分布状态、数字特征进行估计和描述的方法。 集中趋势的描述 平均数是用于描述一组同质的数值变量集中趋势的一个指标系列,它反映一组变量值的平均水平。 医学研究中常用的平均数有算术均数、几何均数、中位数。3 120名12岁健康男孩身高的频数分布 1.算数均数μ, 适用于正态分布或近似正态分布资料 表123名糖尿病患者餐后2小时血糖均数的计算(加权法)组段(μg/g)(1)频数f(2)组中值x(3)fx(4)=(2)(3)7.0~10.0~13.0~16.0~19.0~22.0~37111725268.511.514.517.520.523.525.580.5159.5297.5512.5611.0 续表组段(μg/g)(1)频数f(2)组中值x(3)fx(4)=(2)(3)25.0~28.0~31.0~34.0~37.01596426.529.532.535.5397.5265.5195.0142.0合计123——2686.5 2.几何均数G 适用于对数正态分布或等比资料4 测得5人的血清IgG抗体滴度为1:20,1:40,1:80,1:40,1:20,求其平均抗体滴度。 3.中位数M 适用于偏态分布资料 151例慢性胃炎患者住院时间的中位数(d)计算住院天数频数累计频数累计频率(%)0-707046.3615-5412482.1230-1614092.7245-514596.0360-414998.6875-115099.3490-015099.34105-1151151100.00 4.百分位数P 以Px表示,一个百分位数Px将总体或样本的全部观察值分成两部分,理论上有的观察值x%比它小,有(100-x)%的观察值比它大。 5.平均数指标的正确应用集中趋势指标应用条件算数均数μ正态分布或近似正态分布资料几何均数G对数正态分布或等比资料中位数M偏态分布资料 离散趋势的描述 【例】三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。5 1.极差R R=最大值-最小值 它适用于任何分布类型的资料。但因其只受两侧极端值的影响,故反映一组观察值的变异程度时较粗糙,也不够稳定。未考虑到抽样误差。 2.四分位数间距Q Q=P75-P25 缩小一半观察单位的极差,也未考虑到抽样误差。该指标的适用条件同中位数,而且通常与中位数结合,全面描述偏态分布或总体分布不明资料的特征。 3.方差σ2和标准差σ 实际考虑到抽样误差标准差。适用条件与均数相同,而且通常与均数结合描述正态或近似正态分布资料的特征。标准差越大,说明变量值越分散。 【例】中甲、丙两组数据的标准差 甲组n=5,∑X=26+28+30+32+34=150 ∑X2=262+282+302+322+342=4540 同理,丙组n=5,∑X=150,∑X2=4534,s=2.92(kg) 4.变异系数CV 适用于度量衡不同或均数相差悬殊时变异的比较 【例】某地20岁男子100名,其身高均数为166.06(cm),标准差为4.95(cm);体重均数为53.72(kg),标准差为3.96(kg)。欲比较身高与体重的变异度何者为大。6 身高CV=4.95/166.06x100%=2.98% 体重CV=3.96/53.72x100%=7.37% 正态分布及其应用 1.正态分布的基本概念和特征 正态分布是以均数为中心,低于均数的人数与高于均数的人数大致相等,越接近均数,人数越多,离均数越远,人数逐渐减少,形成了以均数为中心两侧基本对称的钟形分布。这种资料在医学现象中很常见,称为正态分布。 正态分布具有下列特征: (1)正态曲线在横轴上方,均数处最高。 (2)正态分布以均数为中心,左右对称。 (3)正态分布有两个参数,即均数μ与标准差σ。μ是位置参数,σ是变异度参数。 (4)正态曲线下的面积具有一定的分布规律。 2.正态分布的面积分布规律 面积规律 正态分布标准正态分布面积(或概率)7μ-1σ~μ+1σ-1~+168.27%μ-1.96σ~μ+1.96σ-1.96~+1.9695.00%μ-2.58σ~μ+2.58σ-2.58~+2.5899.00% 3.正态分布的应用 (1)正态分布是很多统计方法的理论基础; (2)估计医学参考值范围; 正态分布法 百分位数法P2.5—P97.5 定性资料的统计描述 1.相对数 (1)率 表示某事件发生的频率或强度,例如发病率,死亡率; (2)构成比:比较各类别可能发生的频率分布,其特征之一是合计值为1。 (3)相对比 表示两个有关指标之比; 2.应用相对数注意事项 (1)计算相对数时,分母应该足够大; (2)正确计算合计率; (3)率和构成比不要混淆; (4)相对数比较应该注意其可比性,或标准化后再进行比较; 【例题】关于相对数描述错误的是 A.率是反应发生强度的指标 B.计算合计率可将分率相加除以分率个数 C.各个构成比之和肯定等于1 D.比可以是绝对数之比,也可是率之比 E.粗率之间不宜直接比较『正确答案』B 【例题】适于用中位数与四分位数间距描述的资料是 A.偏态分布资料 B.对称分布资料 C.负偏态分布资料 D.正态分布资料 E.正偏态分布资料『正确答案』A8 【例题】不属于变异指标的是 A.中位数 B.标准差 C.全距 D.四分位间距 E.变异系数『正确答案』A 【例题】A.算术均数表示其平均水平;B.中位数表示其平均水平;C.几何均数表示其平均水平;D.众数表示其平均水平;E.百分位数表示其平均水平 (1)食物中毒的潜伏期最常以『正确答案』B (2)血红蛋白含量最常以『正确答案』A (3)血清抗体滴度资料最常以『正确答案』C 知识点3 资料的统计推断 抽样误差与标准误 在同一总体中做随机抽样,因抽样而造成的样本指标与总体参数之差或样本指标与样本指标之差称为抽样误差。 抽样误差属于随机误差,它是客观存在的、不可避免的,但可加以控制,可以用统计学方法估计其大小。描述抽样误差大小的指标是标准误。 均数的标准误 由于抽样而造成的样本均数与总体均数及样本均数之间的差异。 标准误含义为样本均数的标准差。 用途:衡量抽样误差的大小;估计总体均数的置信区间 率的标准误 与均数的标准误类似,它可反映样本率抽样误差的大小。9 要增强样本指标对总体指标的代表性,最为有效的方法是适当增大样本含量。 均数的假设检验常用方法 假设检验的基本思想和基本步骤 基本思想:反证法思想和小概率思想。 【例题】为研究山区成年男子的脉搏数是否高于一般成年男子的脉搏数,某医生在某山区随机调查了25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.0次/分。根据大量调查,已知健康成年男子脉搏的均数为72次/分,能否根据此调查认为山区成年男子的脉搏均数高于一般成年男子的脉搏均数? (1)建立假设和设定检验水准 H0:μ=μ0无效假设,74.2由于抽样误差造成 H1:μ≠μ0备择假设,由于山区造成不同 α=0.05 (2)计算统计量 (3)确定P值,作出推断结论 按α=0.05不拒绝H0,尚不能认为该山区健康成年男子脉搏均数与一般健康成年男子的脉搏均数不同。 均数比较的假设检验 可选择的方法有u检验、t检验、方差分析等,每一类方法中又可因设计类型或分析目的的不同而有不同的检验方法,需正确选择。 Z检验用于总体标准差σ已知,或大样本,两资料比较,且二者均符合正态分布。 t检验用于总体标准差σ未知,或小样本,两资料比较,且二者均符合正态分布。 t检验 (1)样本均数与总体均数的比较 小样本,两者比较,正态分布 【例题】为研究山区成年男子的脉搏数是否高于一般成年男子的脉搏数,某医生在某山区随机调查了25名健康成年男子,求得其脉搏均数为74.2次/分,标准差为6.0次/分。根据大量调查,已知健康成年男子脉搏的均数为72次/分,能否根据此调查认为山区成年男子的脉搏均数高于一般成年男子的脉搏均数? ①建立假设和设定检验水准 H0:μ=μ0无效假设,74.2由于抽样误差造成10 H1:μ≠μ0备择假设,由于山区造成不同 α=0.05 ②计算统计量 ③确定P值,作出推断结论 按α=0.05不拒绝H0,尚不能认为该山区健康成年男子脉搏均数与一般健康成年男子的脉搏均数不同。 (2)配对t检验 配对设计主要有以下几种形式: ①同一受试对象接受某种处理措施前后的比较。 ②同一样品由两种方法检测或同一受试对象在机体的两个部位施予两种处理措
本文标题:2021年全科主治基础知识讲义4医学统计学方法
链接地址:https://www.777doc.com/doc-8876651 .html