您好,欢迎访问三七文档
第一章绪论第一节统计学与统计方法一.统计与统计学的定义StatisticsStatisticsisthescienceofmakingeffectiveuseofnumericaldatarelatingtogroupsofindividualsorexperiments.Itdealswithallaspectsofthis,includingnotonlythecollection,analysisandinterpretationofsuchdata,butalsotheplanningofthecollectionofdata,intermsofthedesignofsurveysandexperiments.统计学作为一门学科的定义是:关于数据收集、表达和分析的普遍原理和方法。①以正确的方式收集数据,如实验设计、调查设计等。②描述数据的统计特征,如数据化简、统计指标的选择与计算、统计结果的表达等。③统计分析及得出正确结论,如根据概率分布,对实验和观察结果存在的差异和关联作出统计推断。④指导实验设计统计学的功能科技迅速发展,信息大量产生。数据作为信息的主要载体广泛存在。纷乱复杂的数据要借助统计学这个工具,在混沌中发现规律。统计学就是研究数据及其存在规律的科学。工作生活中常见的统计学问题如何判断药物的疗效?(假设检验)明天是否下雨?体育彩票能否中奖?(概率论)子女为什么象父母,其强度有多大?(相关与回归)美国的民意测验是如何进行的?(设计,抽样)中国的市场调查的可信性有多大?(现场调查)哪种饲料喂养最佳?哪种工艺条件最好?统计学是对令人困惑费解的数字问题做出设想的艺术。实例遗传学家F.Galton爵士(1822-1911)对上千家庭父亲身高和儿子身高的观察发现遗传的“回归”现象1960年英国医生Doll,Hill等发现吸烟与肺癌有关由统计学理论指导的数据收集、表达和分析的方法,可以概括为以下几点:统计学方法问题的识别与表达(发现问题、提出问题)。搜集有关资料。通过归纳得出假说:因果联系及重要的模式。从假说作出演绎:进行新的实验设计,解决新问题。推理:结果与演绎相符,假说得到加强,但不是被证明(例某地区食盐与高血压的关系)。第二节统计工作的基本步骤1.专业设计:选题、建立假说、确定研究对象和技术方法等→个性2.统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标及统计分析方法。一、科研设计二、收集资料专题调查、实验或临床试验等。三.整理资料整理资料即原始数据的条理化、系统化的过程。所采取的手段→合理化分组,目的→实现专业目标。质分组:按事物的属性或性质分组→分类变量;量分组:按数据的大小→数值变量。四.分析资料1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。2.统计推断:用样本信息推断总体特征:①参数估计,②假设检验。第三节统计资料的类型有三种类型的资料:计量资料,计数资料,等级资料基本概念:变量及变量值:研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料(DATA)。按变量值的性质可将资料分为定量(计量)资料和定性(计数)资料。1.计量资料定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。例如:体重与身高特点:有度量衡单位多为连续性资料(通过测量得到)定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位,多为间断性资料(通过枚举或记数得来)。如,死亡率,优秀率,成功率等。2.计数资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。如:优、良、中、合格、不合格-、+、++、+++、+++++3.等级资料(三)资料的转化(变量类型的转化)数值变量分类变量(不能反向转化)例如:测得5人的WBC(个/m3)数如下:300060005000800012000数值变量低正常正常正常高分类变量若按正常3人,异常2人分组→二分类变量若按低1人,正常3人,高1人分组→等级资料提示:①多途径;②尽量用定量指标,否则损失信息量;③定性指标可转化为定量指标,但较粗糙。第四节统计学中的几个基本概念1、变异2、总体与样本3、抽样方法4、误差5、频率与概率1.变异variation同质事物个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。变异是统计学存在的基础,从本质上说,统计学就是研究变异的科学。对变异的认识:(1)自然变异的范围是有限的,可以度量;参差不齐的测量值,通过大量重复观测可以显现出统计分布规律,如下表数据:表1-1120名正常成年男子红细胞计数值5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.691210/L最大值=6.18,最小值=3.29,极差=2.89。算术均数=4.72,标准差=0.57①变异的范围在3.2~6.2;②有明显的统计分布规律,4.7~5.0的人数最多。根据表1-1的数据,统计上还可以进一步推论出正常成年男子红细胞计数的正常值参考范围。表1-1数据的变异特征图1-1120名正常成年男子细胞计数直方图05101520252.63.23.84.45.05.66.2红细胞计数(1012/L)频率%(2)用统计的方法可以确定出所有研究对象的变异范围,如正常成年男性的细胞数的范围。身高范围等等。(3)没有变异就没有统计,变异使统计有了用武之地。2总体与样本populationandsample总体:根据研究目的确定的同质研究对象的全体(集合)。总体分有限总体与无限总体。由于调查总体的不可能性、巨大性和没必要,只对其中的一部分对象进行调查。样本(sample):是总体中抽取的有代表性的一部分,即从总体中随机抽取的部分观察单位。注意:要随机抽样(无主观性)样本量(samplesize):样本中包含的研究单位数。例如:某药治疗高血压患者30名:样本量(n)为30随机抽样Randomsampling为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。4.误差error误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有:(1)系统误差:(2)非系统误差(3)抽样误差§1.1误差及其种类误差:测量值给出值与客观真值之差误差实验误差数据处理误差系统误差随机误差抽样误差过失误差舍入误差算法误差人为误差x相对误差系统误差systematicerror由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。例如测血糖,有斑氏法和葡萄糖氧化法,斑氏法易受体内还原性物质的影响测量结果偏高。特点:具有累加性;这类误差可以通过实验设计和技术措施来消除或使之减少。系统误差可定误差确定原因引起的误差。其性质:重复性多次测定测定重复出现单向性正误差或者负误差确定性误差基本恒定不变无抵偿性无法通过多次测定取平均值可减免改变实验条件才能发现它影响测定结果的准确性无法应用概率统计方法减弱或消除重复测定不能发现或减少系统误差来源方法误差仪器和试剂个人误差系统误差检查和减免方法试验设计对照试验空白试验回收试验CBARA:加入标准后测得量B:未加入标准前测得量C:加入标准量非系统误差由于研究者偶然失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(grosserror)这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。随机误差(randomerror)偶然误差、不可定误差不确定原因引起的误差性质:随机性单次测定误差大小和符号无法估计多次观测服从概率统计规律正态性分布为正态分布抵偿性多次重复测定取平均值可减免影响测定结果的精密度抽样误差(samplingerror)由于抽样所造成的样本统计量与总体参数的差别。特点:1)不可避免性2)有统计规律产生原因:个体差异(生物变异)(1)改进抽样方法,增加样本的代表性。(2)增加样本量n(3)选择变异程度较小的研究指标减少抽样误差的方法:观察性研究由于组间不可比性产生的系统误差称为偏倚(bias),如吸烟组的平均年龄大于非吸烟组,两组死亡率的差异包含年龄偏倚。偏倚(bias)5、频率(relativefrequency)、概率(probability)、小概率事件一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,现在,我们看一掷币模拟试验:在相同条件下重复试验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有两种:实验者投掷次数出现“正面”次数频率HuPing111.0000HuPing200.0000HuPing320.6667HuPing430.7500HuPing530.6000HuPing620.4000HuPing740.5714Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.50051.频率(frequency),假设在相同条件下,独立地重复做n次试验,A在n次试验中出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率。当试验重复很多次时,有P(A)≈m/n(1-1)2概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现f次,则称为随机事件A出现的频率。当n逐渐增大时,频率趋向于一个常数,则称该常数为随机事件A的概率,可记为;P(A),0≤P(A)≤1fn频率是就样本而言的,而概率从总体的意义上说的。试验次数越多,估计越可靠。0<P(A)<1随机事件P(A)=1必然事件P(A)=0不可能事件3小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将p(A)≤0.05或≤0.01称为小概率事件,认为小概率事件在一次试验中不可能发生。现代实验设计方法和统计分析技术的奠基者、英国生物统计学家fisher在20世纪20年代撰写的实验设计和统计方法专著时,因不可能计算出所有小概率对应的t分布和F分布的临界值,只好给出了a=0.05,0.01时对应的t分布和F分布的临界值表。令他未曾想到的是这种因统计计算方法的限制而人为设定的两个数字,至今仍然被当作小概率的唯一数量标准。6准确度与精密度准确度(accuracy)观测值的正确性精密度(precision)观测值彼此
本文标题:统计学01 绪论
链接地址:https://www.777doc.com/doc-4028191 .html