您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 生物统计学基本概念及公式
生物统计学(Biostatistics)是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序1、提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:统计学设计(statisticaldesign):是指用统计学原理对研究的全过程所作出的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和时间)获取准确可靠的信息资料及可信的结论,使效益最大化。3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料描述性统计(descriptivestatistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。统计推断(inferentialstatistics)是通过随机样本信息推断总体特征的过程。统计推断又包括置信区间(confidenceinterval)估计与统计学假设检验(hypothesistest)。统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。6、分析结果的合理解释(Explicationofresults):研究中应注意的问题1、统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。变量variable:在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为随机变量(Randomvariable),简称变量;针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。总体(Population)与样本(Sample):根据研究目的所确定的具有相同性质的观察单位的集合成为总体(母体)。从同一总体中通过随机化过程抽取的部分观察单位称为样本(子样)。抽样(Sampling)从研究总体中通过一定原则获取样本的过程样本含量(Samplesize).样本中所包含的基本研究单位数量同质(Homogeneity):同一总体中的每一个体都具有相同性质类别的特征。变异(Variation):同一总体中的各个体间的差异性。随机化(randomization):能使总体中每一观察单位均能以同等机会(概率)进入样本,或分配到实验组与对照组的过程。抽样误差(SamplingError):由于总体中各个体间存在变异性,因抽样过程的随机性所至样本的统计量与总体的参数不等,或多个样本的统计量存在差异性称为抽样误差。概率(Probability):描述随机事件发生的可能性的度量。随机事件A的发生概率记为P(A)。概率的取值在0到1之间,若P=1或P=0的事件称为必然事件,若0P1的事件为随机事件。概率接近于0(如P0.05)的事件称为小概率事件。分布(distribution):一个随机试验的所有结局事件与对应的概率的排列称为分布。对应于样本数量值分布称其为频率分布(FrequencyDistribution);对应总体数量值的分布则称其为概率分布(ProbabilityDistribution)。参数(Parameter):描述总体特征的数量称为参数;常用希腊字符表示,如μ表示总体均数,σ表示总体标准差,π表示总体率。统计量(Statistic):描述样本特征的数量称为统计量;常用英语字母表示,如x表示样本均数,s表示样本标准差,p表示样本率。生物医学数据的组织与表达变量的类型:按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量)1、定性变量(QualitativeVariable)(1)名义变量(Nominalvariable)二项分类:性别分类,如男性为1,女性为0。多项无序分类:血型的A、B、AB、O型多项无序分类(2)有序(等级)变量(Ordinalorrankingvariable)多项有序分类:疗效观测分为显效、有效、好转及无效4个类别。2、定量变量(QuantitativeVariable)(1)区间变量(intervalvariable):或数值变量(numericalvariable)如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。(一般有度量衡单位,类别间的差别大小有实际意义)(2)比变量(ratiovariable):以上例子中除体温外(具有真实意义的零点)连续型变量(Continuousvariable)与离散型变量(Discretevariables)根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量频数分布表:*定量数据的频数分布;*(非配对设计)定性数据的频数分布*配对设计定性数据的频数分布频数(frequency):将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。R=6.29-2.72=3.57mmol/L(2)决定分组组数、组距:组距=极差/组数。(3)列出组段:(4)划记计数。(非配对设计)定性数据的频数分布:*一维频数表*二维频数表*高维频数表统计图形表达:*直方图(Histogram):用于描述定量变量的数据分布特征。*概率-概率散点图(p-pplot)又称为p-p图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性;*分位数-分位数散点图(q-qplot)又称为q-q图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性绘P-P或Q-Q图的数据*茎叶(Stem-Leaf)图*盒式图(Boxplot)直条图(Barchart):用直条反映定性变量不同类别下的某指标大小。饼图(pieChart):反映定性变量各个分类的构成情况。*散点图*线图*统计地图(statisticalmap)SAS会话窗口界面:三个基本窗口*Editor编辑窗:在此编写SAS程序*Log记录窗:记录程序运行过程中所做的内容,如所运行的数据情况、所调用的过程步、程序运行时间等(红色---错误绿色---警告兰色---正常)*Output结果输出窗:统计分析的结果。*Result窗口*Explorer窗口单变量综合性描述统计量常用的中心趋势指标:算术均数、几何均数、中位数、众数,统称为平均数(average)算术平均数TheArithmeticmean:简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量SampleSize)。反映一组呈对称分布的变量值在数量上的平均水平。(1)直接计算法:公式:nxxnii1(2)加权法:kikiiiikikiiiffxfifxx1111组中值=(下限值+上限值)/2均数的特征:*最常用,特别是正态分布资料;*对极值非常敏感,最大值和最小值常将其拉向自己;*离均差的和为0中位数(median):是将每个变量值从小到大排列,位置居于中间的那个变量值。公式:n为奇数时)21(nXMn为偶数时)12()2(21nnXXM频数表资料的中位数中位数所在组的频数的累计频数)-中位数所在组前一组(所在组下限值+组距%50nM中位数的特征:计算时只利用了位置居中的测量值,优点:对极值不敏感,缺点:并非考虑到每个观测值;适用于各种分布类型的资料,特别适合于:大样本偏态分布资料或者一端或两端无确切数值的资料百分位数(percentile):直接计算设有n个原始数据从小到大排列,第X百分位数的计算公式为:当nX%为带有小数位时:]1%)[int(nXXPx当nX%为整数时:)1%(%)(21nXnXXXPx频数表法:计算方法大致同中位数几何均数(geometricmean):可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。公式:nnXXXG~.21(2)加权法:)lg(lg1fXfG几何均数的特征1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。对于lg(xi),具有正态分布的所有特性。众数(Mode):是一群数据中出现次数(频数)最多的值。适用于大样本;较粗糙。众数的特征:1、对于某些数据而言,例如均匀分布,并不存在众数;2、对于某些数据存在两个或多于两个的众数;3、定性数据可以存在众数;4.众数对于进一步的统计学计算与分析不具备应用价值。离散与变异性指标:全距;方差;标准差;变异系数;四分位间距;多样性指数全距range:为最大值与最小值之差,也叫极差,即R=Max(x)−Min(x).方差:(Variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即1)(1)(1122122nnxxnxxSniniinii总体方差:N)(122niixμσ标准差:样本标准差为样本方差的平方根;总体标准差为总体方差的平方根。样本标准差实用公式样本标准差的加权公式随机变量xi的标准化:如果随机变量xi服从正态分布,均数和标准差分别为x和s,则随机变量xi的标准化正态离差值(Standardnormaldeviation)又称为标准化得分值(StandardScores)为:sxxZii变异系数(coefficientofvariation,CV):常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。%100xsCV四分位数间距(inter-quartilerange):用IQR表示:IQR=P75-P25=Q3-Q41)(2112nnxxsniinii1)(112112kiikiikiiikiiiffxfxfs多样性指数(IndicesofDiversity):描述无序分类变量在各各义类别间频数的离散度。用熵与最大熵之比表达离散度率、比的均数与方差率(rate):在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。比(ratio):构成比(Proportion,constituentratio):构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。相对比(relativeratio)是由两个有关联的指标之比。应用率比指标时的注意事项1、保证有足够样本含量;2、不要将率和比指标混淆;3、注意平均率的计算;4、率和比指标比较时,要有可比性(不可比时可采用率标准化);5、不要简单由样本率的差异做出结论。率比和均数一样都有抽样误差,需采用假设检验下结论。随机变量、概率和概率分布频率frequency:样本的实际发生率。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。概率probability:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。样本空间(samplingspace):随机试验的所有可能的结果称为样本空间。频率与概率间的关系:1.样本频率总是围绕概率上
本文标题:生物统计学基本概念及公式
链接地址:https://www.777doc.com/doc-2201275 .html