您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文档 > 第一节统计学方法概述
2020/1/201第七章人群健康研究的统计学方法2020/1/202“统计”一词,对一般人来说并不陌生。在报刊上常见用来说明我们工作、事业成绩的数字、表、图,称为统计数字、统计表和统计图。在西方,统计学(statistics)一词,源出于state(国家、情况),专指有关“国情”的学问,最初多用于文字记叙,后发展为数量比较,随着概率论思想与方法的引入,逐渐形成今天在理论与应用方面都已相当完备的独立学科。1.某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高也大于乙班?为什么?2.用A,B两种药物分别治疗同病患者各50人,如果A药的治愈率(60%)高于B药(50%),证明A药的疗效优于B药。这种说法对吗?为什么?思考题2020/1/205如何学习医学统计学1、掌握基本概念、基本原理和基本方法。培养统计思维能力。2、掌握常用统计分析方法。对统计公式,要求了解其用途、适用条件和注意事项。切忌死记硬背,关键是灵活运用。3、重视习题课。联系实际,紧密结合专业知识,多做练习题。2020/1/208例:北京某医院某大夫使用“乌贝散”(乌贼骨3钱,白芨3钱,川贝3钱,甘草3钱,共研细末过120目筛,冲服)治疗胃溃疡病出血107例,有效101例,有效率为94.4%。那么如果别的医院,其它大夫使用“乌贝散”来治疗胃溃疡病出血,其有效率也一定是94.4%吗?显然,不一定恰为94.4%,那么是多少呢?比它高还是比它低?这就是一个求可信区间的问题。2020/1/209例:某杂志中一篇文章报导,用某种中草药治疗玫瑰糠疹,有效率为78%,平均疗程为三周左右。问此药治疗玫瑰糠疹的确有效吗?由于玫瑰糠疹具有自然治愈的情况,一般不服药,多喝水,到三周左右有些患者也会自愈。所以,此药的78%疗效有待探讨。这就要求设立具有可比性的对照组。2020/1/2010再譬如,用某药治某病,治一例有效,能说100%有效吗?治疗二例有效,能说明100%有效吗?治十例,其中九例有效,能说90%有效吗?显然,观察的例数将是个重要因素,例数太少不足以说明问题。观察例数太多,将费时,加重科研经济负担。那么观察多少例能说明问题?这是一个样本可靠性问题。2020/1/2011一些现象既有规律性又有随机性,肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性,而绝非每个吸烟的人都会患肺癌,这体现了随机性;再如,一般来说,白种人身材比黄种人要高些,这就是规律性,但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现随机性。2020/1/2012第一节统计学方法概述一、统计学的意义统计学是运用数理统计的原理和方法,研究数据资料的搜集、整理、分析与推断的科学,是认识社会和自然现象客观规律的数量特征的重要工具。医学统计学是认识医学现象数量特征的重要工具,是运用数理统计的原理和方法,结合医学实际,来研究医学科研的实验设计和数据处理的一门科学。“医学统计学是处理医学资料中的同质性(homogeneity)和变异性(variation)的科学与艺术”2020/1/2013二、统计学中的几个基本概念(一)同质与变异(二)总体与样本(三)参数与统计量(四)误差(五)概率2020/1/2014(一)同质与变异homogeneityandvariation同质:指观察单位(研究个体)间被研究指标的影响因素相同。个体:即观察单位,是统计研究中的最基本单位。变量:观察单位的研究特征变量值:变量的观察结果变异:指同质的个体之间的差异。2020/1/2015同质与变异的例子例1调查2008年淄博市7岁男童的身高和体重同质:2008年、淄博市、7岁男童变异:身高和体重各不相同例2研究某降压药的疗效同质:高血压患者、用某药治疗变异:疗效各不相同2020/1/2018(二)总体与样本populationandsample总体:根据研究目的所确定的同质观察单位某项变量值的集合(全体)。分有限总体与无限总体样本:从总体中随机抽取的部分观察单位变量值的集合。2020/1/2019随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。2020/1/2020(三)参数与统计量parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数总体样本抽取部分观察单位统计量参数推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。SX、2020/1/2021(四)误差error误差:泛指实验数据的实测值与真实值之差1系统误差2随机测量误差3抽样误差2020/1/2022系统误差systematicerror在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。特点:观察值系统性、方向性、周期性的偏离真值。可以通过严格的实验设计和技术措施消除。2020/1/20232随机测量误差(randomerrorofmeasurement)或称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机地变化。随机测量误差服从正态分布,可以用概率统计方法处理。2020/1/20243抽样误差(samplingerror)我们从同一总体中随机抽取若干个例数相同的样本,其样本统计量之间会有所不同。这种由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异,统计上称为抽样误差。抽样误差在医学生物实验中最主要的来源是个体的变异。所以这是一种难以控制的、不可避免的误差。但抽样误差是有一定规律的。2020/1/2025(五)概率probability确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。2020/1/2026必然事件P=1不可能事件P=0随机事件0P1P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。小概率事件2020/1/2027样本的实际发生率称为频率。设在相同条件下,独立重复进行N次试验,事件A出现n次,则事件A出现的频率为f=n/N。频率与概率间的关系:概率是参数,频率是统计量;频率总是围绕概率上下波动;样本含量n越大,波动幅度越小,频率越接近概率。频率frequency2020/1/2028三统计资料的类型(一)数值变量资料(二)分类变量资料(三)变量间转化2020/1/2029住院号年龄岁身高cm体重kg住院天数d职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月观察单位observations个体individuals变量variablesnumericalvariabledata数值变量资料Categoricalvariabledata分类变量资料Units;elements2020/1/2030(一)数值变量资料numericalvariabledata用定量方法测定观察单位(个体)某项指标数值的大小,所得的资料,称数值变量资料。也叫定量资料Quantitativedata或计量资料特点:有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L);资料之间具连续性。2020/1/2031(二)分类变量资料categoricalvariabledata将观察单位按某种属性或类别分组,然后清点各组的观察单位数,所得的资料称分类变量资料也叫定性资料(Qualitativedata)特点:无固有计量单位,如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)2020/1/20321、无序分类(unorderedcategories)各类别之间有性质上的不同,而无程度上的差别。①二项分类如临床某些检验结果用阳性或阴性反应表示,对一批某病患者检验完毕后,清点呈阳性或阴性反应的各有若干例。②多项分类调查某人群的血型分布,按照A、B、AB、O四型分组。清点所得该人群的各血型组的人数是计数资料;2020/1/20332、有序分类资料(ordinalcategorydata)各类别之间有性质上的差别,且排列有序,给人以“半定量”的概念,所以也叫等级资料Rankdata。①癌症分期:早、中、晚。②药物疗效:治愈、好转、无效、死亡。③尿蛋白:,,,++,+++2020/1/2034实例数据1胆管癌患者部分指标编号性别年龄(岁)部位分化程度分期肝转移PCNA指数生存时间(月)(1)(2)(3)(4)(5)(6)(7)(8)(9)1男61上低分化Ⅰ阳性52142女58中高分化Ⅱ阴性89203女63上高分化Ⅳ阴性93194女71下中分化Ⅱ阳性7855男59上高分化Ⅲ阴性8535………………………2020/1/2035体重指数身高班制劳动强度紧张程度心率嗜肥肉史收缩压舒张压中风家族史(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)12.241.6211370114690有16.471.6331372011070无15.191.6412272010070无15.591.6311384111470无12.601.6431368111668无…………………………实例数据22020/1/2036(三)变量间的转化例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压数值变量资料等级资料分类变量资料2020/1/2037又如在计量诊断中,将某些阳性体征根据确诊病人的概率赋予分数,分数的多少代表量的大小,这样原来的计数资料就转化为计量资料。由于计量资料可以得到较多的信息,所以凡能计量的,尽量采用计量资料。2020/1/2038统计资料的几种类型:变量类型变量值表现实例资料类型数量变量定量(具体数值)身高(cm)计量资料二分类对立的两类属性性别(男,女)无序多分类不相容的多类属性血型(A,B,O)计数资料分类变量有序多分类类间有程度差异的属性(又称等级资料)文化程度(初中、高中、大学...)等级资料2020/1/2039四、统计工作的基本步骤(一)统计设计:包括调查、实验设计。(二)收集资料:取得准确可靠的原始资料(三)整理资料:对资料进行核查、改错,系统化、条理化(四)分析资料:统计描述、统计推断2020/1/2040(一)统计设计statisticaldesign统计设计是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证。1.调查设计:surveydesign客观描述研究总体,不对研究总体施加任何干预,目的在于摸清某一事物的水平和分布状态。2020/1/2041(1)实验研究设计:以动物或生物材料为研究对象,在研究过程中对研究对象施加干预。(2)临床试验设计:以人为研究对象,在研究过程中施加干预。2.实验设计:experiment
本文标题:第一节统计学方法概述
链接地址:https://www.777doc.com/doc-3196803 .html