您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 医药统计学 第一章 数据的描述与整理
医药统计学一.基本概念概率论(probability):是研究随机现象数量规律的数学学科。eg:研究运动员打靶成绩的规律,分析11种可能结果(0、1、2、3、4、….、10环)出现的概率及其规律性。数理统计(mathematicalstatistics):以概率论为基础,通过对数据的收集、整理、分析和推断来研究随机现象的统计规律的学科。研究对象统计学(statistics):以概率论、数理统计学为基础,研究资料和信息(数据)的搜集、整理、分析和解释的科学。目的是帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。1、statistics:单数名词表示统计学,复数名词表示统计数据或资料。Webster国际大辞典(第三版)对统计学的定义是:“asciencedealingwiththecollection,analysis,interpretationandpresentationofnumericaldata”。LastJM主编的一本流行病学辞典对统计学的定义是:“thescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresults”。由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科,强调了“过程”。2、统计学(统计工作)的内容:任何统计工作和统计研究的全过程都可分为以下五个步骤:⑴设计(design):关键、依据。在进行统计工作和研究工作之前必须有一个周密的设计。前期准备工作:查阅文献了解现状征询意见设计内容包括:确定研究目的、研究假说;确定观察对象、观察单位、样本含量和抽样方法;拟定研究方案;预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据。⑵收集资料(collectionofdata):遵循统计学原理采取必要措施得到准确可靠的原始资料。基本原则:及时、完整、准确、可靠、系统原则。资料来源:–原始资料(一手资料):包括经常性资料。eg:日常医疗卫生工作记录、统计报表、专门报告卡等;专题研究资料(一时性资料)。eg:专题调查资料、实验研究资料。–次级资料(二手资料):文献的二次开发(循证医学)。⑶整理资料(sortingdata):通过科学的分组和归纳,用图表的形式来展示资料特征,使原始资料系统化、条理化,便于进一步计算统计指标和分析。步骤:审核:遵循及时性、完整性、准确性、有效性原则。包括逻辑检查与技术检查。(eg:录入误差——170输入为17,对结果影响较大,故应进行双份录入)分类或分组:质量分类——按性质、类别分类整理,即“同质者合并,非同质者分开”的原则对资料进行分组。多用于定性数据(定类或定序数据)的整理。一般用二维表。数量分组——按数量大小分组整理,即在同质基础上根据数值大小进行分组,组与组之间是连续的或非连续的。多用于定量数据(数值数据)的整理。拟订整理表:汇总归纳。制定统计图表或报告。(4)分析资料(analysisofdata):目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律,是统计学的核心。包括:统计描述(descriptivestatistics):用统计指标(样本均数、标准差、率)与统计图(表)等方法对样本资料的数量特征及其分布规律进行描述分析事物特征。统计推断(inferentialstatistics):指如何抽样,以及如何用样本信息推断总体特征,分析事物间相互关系(eg:药物疗效的统计学分析)。⑸解释资料(interpretationofdata):对统计结果进行说明和应用(eg:药物疗效的统计判断)。进行资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。统计工作的五个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。目前,应用广泛,成为医药学研究、疾病防治、卫生事业管理等多方面的重要手段、工具之一,即成为方法论。医药数理统计学(Mathematicalstatisticsofmedicine):应用概率论与数理统计学的原理与方法研究医药学以及卫生服务领域中数据的收集、整理、分析和解释的一门科学。理论基础——概率论、数理统计研究对象——随机、不确定的现象医药领域:新药研制、药物鉴定、药理分析、试验设计、药政管理、处方筛选、医药信息等。二.学习医药数理统计学的目的与要求目的:掌握医药数理统计学的基本理论、基本方法、基本统计技能,为今后从事医药领域的科学研究、阅读专业书刊、从事具体的实践工作打下必要的数理统计学基础。一、数据的统计整理和图示研究统计资料的第一步工作是判断统计资料的频数分布类型(故应初步编制频数分布表,绘制频数分布图)。频数(frequence):各类别的数据个数,即观察值的个数。频率(frequency/relativefrequency):各类别的数据个数占总数据个数的比例值。频数分布表(frequencytable):反映各类别及其相应频数的表格形式,即观察值在其所取范围内分布的情况。(1)确定组数k:100~400个数据,一般分5~15个组段,可适当变动。观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些。Sturgesr的经验公式计算组数:k=1+lnN/ln2(N:数据的个数;ln:以e为底的自然对数)注:不可过多:资料分散,编制与计算繁锁,且分布规律不能显示。不可过少:损失信息,计算误差较大,且无法显示分布特征。原则:以显示数据的分布特征和规律为依据。(2)确定组距(classinterval/classwidth):相邻两组段的下限之差称为组距。全距或极差(range):R=最大值—最小值=Xmax—Xmin组距(d):d=R/k注:d可等距,也可不等距。eg:数据中有特大或特小的数值(食物中毒的潜伏期,年龄分组0-、7-、18、60-等)。(3)确定组段:各组段的起点和终点分别称为下限和上限。原则:不重不漏;注:第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。连续性资料的某组段包含下限,但不包含上限。(4)计算频数,形成频数分布表:确定组段界限,列成表1.3的形式,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,表中的第(1)、(2)栏即所需的频数表。注:连续性计量资料各组段上限不标出,以表示其连续性。计算机编制准确、快速,但应保证原始数据的准确输入和组距的合理设计。频数表的用途陈述资料,便于进一步分析。观察频数分布的特征:定性描述——集中趋势、离散趋势和分布的的形状。观察数据的分布类型(初步判定),以便选取适当的统计方法。发现资料中某些特大或特小的可疑值。当样本含量较大时,各组段的频率作为概率的估计值。频数分布的类型对称分布:指多数频数集中在中央位置,两端的频数分布大致对称。特殊的对称分布为正态分布(normaldistribution)。eg:体重、身高等生理、生化检测结果等。偏态分布:频数分布不对称,集中位置偏向一侧。124132140148156164010203040人数身高(cm)对称分布Fraction身高110.2134.50.236364图1某市110名7岁男童身高的频数分布eg:正偏态分布:又称右偏态分布,指观察值较多的集中在数值较小的一侧(eg:传染病的潜伏期、非必需元素含量分布等)。负偏态分布:又称左偏态分布,指观察值较多的集中在数值较大的一侧(eg:学生成绩、儿童视力、糖尿病年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布)。注:不同的频数分布类型资料应选用不同的统计分析方法。偏态分布正偏态负偏态Frequencyvar512345678902468Frequencyvar6123456789100510二、常用统计软件简介(一)SAS(统计分析系统)全称StatisticalAnalysisSystem,是当前最流行的国际标准通用的统计分析软件,但操作略为繁琐。(二)SPSS(社会科学统计软件)全称StatisticalPackageforSocialScience,是当前最流行,应用最广泛的专业统计分析软件,操作方便。(三)EXCEL(电子表格软件)可进行基本的统计分析。操作简便。频数分布的特征:分布的集中趋势(centraltendency):身高有高有矮,但多数人身高集中在中间部分组段,以中等身高居多,此为集中趋势。分布的离散程度(dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了离散程度。对于数值变量资料,可从集中趋势和离散程度两个侧面去分析其规律性。分布的形状:峰度与偏度。一.数据分布集中趋势的描述频数分布表、图显示的集中趋势和离散程度较粗略,而计算其各指标则是准确、定量描述其分布特征。集中趋势指标:平均数,反映观察值的集中位置或平均水平,即观察值的典型水平或代表值。描述一组同质观察值的平均水平或中心位置的常用指标有均数、中位数、众数、几何均数等。平均水平指标1.算术均数(arithmeticmean,mean):简称均数,是反映一组同质的呈对称分布的数值数据的平均水平的指标,用得最多的统计描述指标。总体均数样本均数μx(1)计算:直接法:样本含量较少eg:10名七岁儿童体重(kg)分别17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5,求平均体重。解:x=17.3+18+…25.510=21.35(kg)加权法(weightingmethod):频数表资料或样本中相同观察值较多x=f1x1+f2x2+f3x3+…fnxnf1+f2+f3+…fn=fxf它是权重!组中值(2)应用(适用条件):均数能全面反映全部观察值的平均数量水平,应用甚广,最适于对称分布资料,特别是正态或近似正态分布的数值资料;对于偏态资料,均数不能较好地反映其集中趋势。我也知道了!(3)数学性质:)=0)2其中,a为任意实数。niix1(xniix1(x21niiax截尾均值eg:比赛时去掉一个最高分、一个最低分,然后计算均值。2.中位数(median):将一组数据按从小到大的顺序排列,位置居中的数即是中位数。是反映一组同质的呈非正态分布的数值数据和定序数据的平均水平。用表示。(1)计算:直接法:样本含量较少(1)/2/2/21n()/2nnnnXMXX当为奇数当为偶数Meeg:9例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.5Me=4.89例正常人的发汞值:1.1,1.83.54.24.85.65.97.116Me=4.810例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.516Me=(4.8+5.6)/2=5.2加权法:频数表资料我知道了!)2(LMfnfiLMe2)应用(适用条件):常用于描述偏态分布资料或开口资料的集中趋势,它与均数、几何均数不同的是,不是由全部观察值的数据综合得到,不受极端值的影响,而只受居中变量波动的影响。对于对称分布资料,中位数和均数在理论上是相同的。3.众数(mode):是数据中出现次数最多的观察值,用Mo表示。一般用来反映一组同质的定性数据的平均水平。应用条件:集中趋势较明显或仅为一个分布中心的定性数据资料。优点:易理解,不受极端值的影响。缺点:灵敏度、计算功能和稳定性差,具有不唯一性。在数值数据中,可能有多个或无Mo二.数据分布离散程度的描述离散程度用变异指标表示,反映各观察值与其平均水平(中心值)的偏离程度。集中趋势指标对一组数据的代表性取决于其离散程度,即离散程度越小,集中指标对一组数据的代表性代表性越好。eg:两名
本文标题:医药统计学 第一章 数据的描述与整理
链接地址:https://www.777doc.com/doc-3536173 .html