您好,欢迎访问三七文档
生物统计学考试总结第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1.提供整理、描述数据资料的科学方法并确定其特征2.判断试验结果的可靠性3.提供由样本推断总体的方法4.试验设计的原则相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合2.个体:组成总体的基本单元3.样本:由总体中抽出的若干个体所构成的集合n30大样本;n30小样本4.参数:描述总体特征的数量5.统计数:描述样本特征的数量由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数6..效应:由因素而引起试验差异的作用7.互作:两个或两个以上处理因素间的相互作用产生的效应生物统计学的研究包括了两个过程:1.从总体抽取样本的过程——抽样过程2.从样本的统计数到总体参数的过程——统计推断过程第二章1.算术平均数:是所有观察值的和除以观察的个数平均数(AVERAGE)特性:(1)样本中各观测值与平均数之差-离均差-的总和等于零(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小2.中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为以外的任何数值为设xa中位数,以Md表示3.众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以Mo表示4.几何平均数:资料中有n个观测值,其乘积开n次方所得的数值,以G表示。5.极差(全距):样本数据资料中最大观测值与最小观测值的差值R=max{x1,x2,…,xn}—mix{x1,x2,…,xn}6.样本方差:总体方差:用n-1代替n作,可以避免偏小估计,从而实现样本方差对总体方差的无偏估计在统计上,自由度(df=n-1)是指样本内独立而能自由变动的观测值的个数在计算其他统计数时,如果受到k个条件的限制,则其自由度为n-k7.样本标准差:总体标准差:(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍STDEV:基于给定样本的标准偏差STDEVP:基于给定样本总体的标准偏差8变异系数(CV):样本标准差除以样本的平均数,得到百分比(1)变异系数是样本变量的相对变量,是不带单位的纯数(2)用变异系数可以比较不同样本相对变异程度的大小第三章概率的计算法则:(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生的概率等于各自事件的概率的乘积(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和加法定理推理1:如果A1、A2、…An为n个互斥事件,则其和事件的概率为:P(A1+A2…An)=P(A1)+P(A2)+…+P(An)加法定理:如果A和B是任何两件事件,则概率分布:(1)离散型随机变量的概率分布变量(x)x1x2x3…xn概率(P)p1p2p3…pnP(x=xi)=pi(i=1,2,…,n)离散随机变量的方差(2)连续型随机变量的概率分布)()()(BPAPBAP)()()(BPAPBAP)()()()(BAPBPAPBAP22)(21xxdxxfxxxPRiiixXPx122)()(连续型随机变量的概率分布1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于03.不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),它满足条件(2),f(x)不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1.二项分布的概率函数记作B(n,p)或者B(n,π)(1)每次试验只有两个对立结果,分布记为A与,它们出现的概率分布为p与q(q=1-p)(2)试验具有重复性和独立性二项式分布的概率累积函数:若随机变量x服从二项式分布,则有二项分布的总体平均数为二项分布的总体标准差为:二项成数(百分数)分布的平均数:二项成数(百分数)分布的标准差:B(n,p)BINOMDISTxnumber_s实验成功次数ntrials独立实验次数pprobability_s一次实验中成功的概率cumulativeTrue:False:例:假设年龄60~64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,60~64岁的男性老人第二年的死亡率约为0.02)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点异常,但不是很异常。如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。Anpxpxiix)(npqxpxiix2)(ixxPxF0)()(pnnpnxpnpqnnpqnxp2.泊松分布二项式分布中,如果p值很小而n值很大(p0.1和np5),则泊松分布式中:为参数,泊松分布的平均数、方差、标准差POISSONxX事件出现的次数mean期望值cumulativeTrue:False:例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲曾患有乳腺癌的1000名40~49岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?解:如果用二项分布,则n=1000,p=1/1000,BINOMDISTnumber_sTrialsprobability_scumulative310000.001Ture0.9810.019解:如果用泊松分布,则n=1000,p=1/1000,则平均值=1POISSIONxmeancumulative31Ture0.9810.019则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性3.正态分布(高斯分布)为总体平均数,为总体标准差正态分布的特征1.当时,f(x)有最大值2.当的绝对值相等的时候,f(x)值也相等3.当的绝对值越大,f(x)值就越小,但永远不等于04.正态分布曲线完全由函数和来决定5.正态分布曲线在处各有一个拐点6.正态分布求和为0!)(xexPx,...2,1,0,xnp2)()(iixXPxXP)3(XP)4(XP)3(XP)4(XP),(2NxxxxNORMDISTxiX函数值的区间点Mean算术平均值Standard_dev标准差cumulativeTrue:累积False:概率密度函数值标准正态分布:NORMSDISTxiZ标准正态分布的区间点NORMSINVuprobability正态分布概率,介于0~1之间,含0,14.t分布:是小样本分布,小样本分布一般是指n30。t分布适用于当总体标准差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等P45TDIST:返回自由度为n的t分布在x点处的单尾或者双尾概率。TINV:返回自由度为n的t分布的双尾概率分布函数的反函数.注意:1)TINV返回t值,P(|X|t)=probability,即P(|X|t)=P(X-torXt)2)单尾t值可通过用两倍概率替换概率而求得eg:如果概率为0.05而自由度为10,双尾值由TINV(0.05,10)计算得到2.28139;TINVProbability双尾学生t分布的概率Degrees_freedom自由度1,02xu而同样概率和自由度的单尾值由TINV(2*0.05,10)计算得到1.812462。5.卡方分布P456.F分布1、概率抽样:根据已知的概率选取样本简单随机抽样:完全随机地抽选样本分层抽样:总体分成不同的“层”,然后在每一层内进行抽样整群抽样:将一组被调查者(群)作为一个抽样单位等距抽样:在样本框中每隔一定距离抽选一个被调查者2、非概率抽样:不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者3、配额抽样:选择一群特定数目、满足特定条件的被调查者抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布1.所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布2.是一种理论概率分布3.随机变量是样本统计量——样本均值,样本比例等4结果来自容量相同的所有可能样本(符号)样本平均数的基本性质:(1)样本均值的均值(数学期望)等于总体均值x定义:一个参数的估计量是ˆ,如果)ˆ(E,则称ˆ是的无偏估计(2)样本均值的方差等于总体方差的1/nnx22(3)样本平均数的标准误差的定义(4)当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n。即~N(μ,σ2/n)中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布两个独立样本平均数差数的分布P44第四章假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。如果抽样结果使小概率事件发生,则拒绝假设。如果抽样结果没有使小概率事件发生,则接受假设特点:(1)采用逻辑上的反证法(2)依据统计学上的小概率原理生物统计学上,一般认为:等于或小于0.05或0.01的概率为小概率在一次试验中,一个几乎不可能发生的事件发生的概率。假设检验的步骤:1、提出假设2、确定适当的检验统计量3、确定显著性水平a4、计算概率5、推断是否接受假设两类:1)弃真错误;2)取伪错误一.大样本平均数的假设检验——u检验应用范围:1)总体方差2已知2)总体方差2未知,但样本为大样本(30n),用s2来代替2XXX两个样本平均数比较的u检验二、小样本平均数的假设检验——t检验应用范围:总体方差未知,且样本为小样本(),采用t检验当总体方差为未知时,当样本容量小于30,检验一个样本平均数是否属于平均数为的指定总体,其遵循自由度为df=n-1的t分布T分布的计算:230n20xsxxx2、成组数据平均数比较的t检验成组数据资料是两个样本的各个变量从各自总体中抽取的,即两个抽样样本彼此独立。这样,不论两样本容量是否相同,所得数据皆为成组数据。两个样本的总体方差相等,自由度df=n1+n2-2两个样本的总体方差不相等,但抽样样本数相等,自由度df=n-13、成对数据平均数比较的t检验第五章统计假设:H0:观测值与理论值的差异是由随机误差引起HA:观测值与理论值之间有真实差异所以卡方值是度量实际观测值与理论值偏南程度的一个统计量卡方值越小,表明观测值与理论值越接近卡方值越大,表明观测值与理论值相差越大卡方值为0
本文标题:生物统计学考试总结
链接地址:https://www.777doc.com/doc-1886419 .html