您好,欢迎访问三七文档
第一章绪论刘启玲(Tel:38185219;E-mail:liuqilingsan@163.com;Office:公卫系流行病与统计学教研室)人卫规划教材《卫生统计学》主编:方积乾统计学(statistics)※概念:统计学是处理数据中变异性的科学与艺术,内容包括数据的收集(collection)、分析(analysis)、解释(interpretation)和表达(presentation),目的是求得可靠的结果。以往教材中概念:是研究数据的收集、整理、分析和推断的一门科学。第一节概述根据研究领域和研究对象的不同,统计学又分为:数理统计、经济统计、生物统计、卫生统计、医学统计……医学统计学(medicalstatistics):用统计学的原理和方法研究医学中的问题。卫生统计学(healthstatistics):与医学统计学基本相同,但更侧重于社会、人群的卫生问题。1.采用统计学方法,发现不确定现象背后隐藏的规律。※变异(variation)是个体间存在的差异,是绝对的,是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。为什么要学习统计学?图1-1120名正常成年男子红细胞计数直方图05101520252.63.23.84.45.05.66.2红细胞计数(1012/L)比率%最大值=6.18,最小值=3.29,极差=2.892.用统计学思维方式考虑有关医学研究中的问题“阳性”结果是否是虚假联系?某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效?“阴性”结果是否是样本含量不足?有人曾对发表在Lancet,NEnglJMed,JAMA等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有62篇(93%)可能是由于样本含量不足造成的假阴性。3.保证你的研究论文能通过统计学审查据国外60~80年代对不同医学杂志发表论文的调查,有统计错误的论文的百分比最高达72%,最低也有20%。国内1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。某研究者1996年对4586篇论文统计(中华医学会系列杂志仅占6.9%),数据分析方法误用达55.7%。4.获得循证医学证据的主要手段“良好愿望的医学”(well-meaningmedicine)转入“以证据为基础的医学”(evidence-basedmedicine,EBM)需要有统计学方法的支持。全世界的医学期刊每年大约刊登600万学术论文,但能作为可靠“证据”的论文并不多。工作生活中常见的统计学问题:•如何判断药物的疗效?(假设检验)•明天是否下雨?体育彩票能否中奖?(概率论)•子女为什么象父母,其强度有多大?(相关与回归)•美国的民意测验是如何进行的?(设计,抽样)•中国的市场调查的可信性有多大?(现场调查)卫生统计学的学习:1.为什么大家认为统计学难学?特点:抽象,复杂,枯燥2.难,为什么还要学习?实用3.怎样学习卫生统计学?多练习,难→易,抓住关键点和精髓第二节医学统计资料的来源与分类一、原始统计数据的来源:1.常规保存数据医院信息系统(HIS)、统计报表等2.现场调查记录3.实验记录4.其他二、统计数据的分类:只有认识了数据的特点,才能正确地选用统计分析方法基本概念:变量及变量值※研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值值叫变量值(也叫观察值),全部变量值的集合也称为资料。按变量值的性质可将资料分为:定性资料(qualitative)定量资料(quantitative)等级资料(ranked)定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位多为间断性资料(通过枚举或记数得来)可分为二项与多项定性资料1.定性资料(分类资料、分类变量)2.定量资料(计量资料、数值变量)定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。例如:体重与身高特点:表现为数值大小有度量衡单位多为连续性资料(通过测量得到)定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。示例:检查尿蛋白,观察单位是每一份尿标本,按结果等级不同可分为-、+、++、+++、++++等。3.等级资料(有序变量)1、定性数据(qualitativedata)(二项与多项)分类数据(categoricaldata)计数数据(enumeration(counting)data)2、定量数据(quantitativedata)计量数据(measurementdata)区间数据(intervaldata)数值数据(numericaldata)3、等级资料(rankeddata)有序资料(ordinaldata)定性与定量数据的别名三类数据间的关系例:一组2040岁成年人的血压(变量)以12kPa为界分为正常与异常两组,统计每组例数8低血压8正常血压12轻度高血压15中度高血压17重度高血压定量数据等级数据定性数据三类数据的编码与计算(1)例:一组2040岁成年人的血压以12kPa为界分为正常(=0)与异常(=1)两组,统计每组例数8低血压418正常血压10212轻度高血压13315中度高血压16417重度高血压185定量数据等级数据定性数据三类数据的编码与计算(2)1.定量数据:允许计算均数、标准差等(可采用t、F检验等,可当做有序或定性数据处理)2.定性数据:编码是任意的,不能对编码执行均数标准差等计算,但可计算率或比(可采用卡方检验等)调查14名男子的婚姻状况分类编码频数(frequency)单身13已婚25离异32分居443.有序数据:允许基于顺序的计算,如计算中位数、百分位数(可当做定性数据处理)第三节统计学中常用的几个基本概念1、总体与样本2、抽样方法3、同质与变异4、误差5、频率与概率6、参数与统计量※1.总体与样本(population&sample)总体:根据研究目的确定的同质的、所有观察单位的某种变量值的集合。例:2009级陕西中医学院本科女生身高;2007年陕西中医学院大学生的身高;全国女大学生的身高(高血压病人;肥胖病人)分类:有限总体:理论上说,观察单位的数量是可知的、有限的。无限总体:没有时间和地点的限制,观察单位总数量是不可知的。目标总体研究总体鉴于总体的巨大或不可知性能否研究其中的一部分?不可能或没有必要对全体中的每一个对象进行研究样本(sample)概念:从总体中随机抽取的、具有代表性的部分研究对象,其实测值的集合。如何从总体中得到有代表性的一部分?得到多少合适呢?2.随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到样本中)。Targetpopulation(目标总体)Populationsampled(抽样总体)Sample(样本)能不能成功的达到从样本推断总体的目的,关键是抽样方法,样本的代表性和推断的技术,这些是统计学的核心内容。概率(随机)抽样等概率抽样非等概率抽样简单随机抽样系统抽样分层抽样整群抽样抽样方法:3.同质与变异同质与变异:研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素。例如:研究某新药治疗胃溃疡的效果,所有研究对象都必须是确诊为胃溃疡的病人且病情相似,在这种同质的基础上观察治疗效果,有的人治愈,有的人未愈,这种差异就是变异。从本质上说,统计学就是研究变异的科学4.误差定义:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差随机误差系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数增加而减小。(随机测量误差,抽样误差)。在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。随机测量误差由于抽样原因造成的样本指标与总体指标之间的差别。(举例)特点:有抽样发生抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。抽样误差(1)改进抽样方法,增加样本的代表性;样本量n相等的情况下:整群抽样单纯随机抽样系统抽样分层抽样(2)增加样本量n;(3)选择变异程度较小的研究指标。减少抽样误差的方法:频率:样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为f=m/n。概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。5、频率与概率(frequencyandprobability)必然事件P=1随机事件0P1不可能事件P=0统计学上把P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),认为不大可能发生。CertainImpossible0.501通常我们把经常遇到的事件分为三种类型:频率与概率间的关系:1.样本频率总是围绕概率上下波动;2.样本含量n越大,波动幅度越小,频率越接近概率。请问:大家能成为同学这件事发生的概率是大还是小?6、参数与统计量(parameterandstatistic)参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为μ、σ。固定的常数总体样本抽取部分观察单位统计量参数推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。SX、一、研究设计二、搜集资料三、整理资料四、分析资料五、结果表达第四节统计工作的基本步骤设计的内容包括资料的收集、整理和分析全过程的设想和安排。常有:1.调查设计(surveydesign)对研究对象不施加任何干预,通常建立随机抽样(randomsampling)方案。2.实验设计(experimentdesign)对研究对象施加干预,如动物实验研究、临床试验,通常建立随机分组(randomallocation)方案。一、研究设计实验设计的三个基本原则1.随机化(randomization)2.对照(control)3.重复(replication)Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”二、收集资料(datacollection)收集资料要遵循完整、准确、及时三个原则。卫生工作中统计资料主要来源于三个方面:1.统计报表:由国家统一设计,要求医疗卫生机构定期逐级上报。如传染病防治法。2.经常性工作记录:如经常性卫生监测记录等。3.专题调查和实验:我们常把前两个来源称经常性资料,后者称为一时性资料。三、整理资料(sortingdata)目的是将搜集到的原始资料系统化、条理化,便于进一步计算与分析。1.编码,将数据输入计算机2.纠错改错、补漏等四、分析资料(dataanalysis)※运用各种统计分析方法,结合专业知识,从经过整理的资料中,计算出各种指标,进行统计描述和统计推断,反映数据的综合特征,阐明事物的内在联系与规律。1.统计描述(descriptivestatistics):指用统计指标、统计表、统计图等方法对资料的数量特征及分布规律进行测定和描述。2.统计推断(inferentialstatistics):指
本文标题:卫生统计学 绪论
链接地址:https://www.777doc.com/doc-5954604 .html