您好,欢迎访问三七文档
总体率的统计分析2二项分布概念复习•Bernoulli试验•每次试验可能的结果只有二个:对于其中的某一个结果为随机事件,则随机试验的结果归结为:发生、不发生•N次独立重复Bernoulli试验•即:每次试验的随机事件发生的概率为•考察特定的随机事件发生的次数X•X是一个随机变量,服从二项分布3基本概念•二项分布–n次独立Bernoulli试验,结局A出现的次数X的概率分布服从二项分布•二项分布指的是概率的分布•注意:二项分布是一个离散型分布X的取值01…k…n取值概率000()1nn111()1nn…()1nknkk…()1nnnnn其相应取值概率为P(X=k)=()1nknkk4二项分布的两个参数•显然对于不同的n、不同的有不同的二项分布。它们是二项分布的两个参数。•若X服从二项分布,则记X~B(n,)。n=20,=0.5n=5,=0.35二项分布的基本特征•二项分布的名称由来是因为计算公式中含有二项式的展开项•二项分布的均数和方差–均数μ=n–方差=n(1-)!Pr()11!!nxxnxnnxnx6二项分布的基本特征•当=0.5时,图形对称;当≠0.5时,图形呈偏态,但随n的增大,图形逐渐对称。•因此,当n较大,不太极端时,可以采用正态近似方法计算概率分布规律(例如计算参考值范围)n=10=0.3n=30=0.37样本率的抽样分布•对于大量重复随机抽样而言,样本率p围绕着总体率附近随机波动,样本量n的值越大,这种波动的幅度就越小。•当n充分大时,p的分布就近似于均数为,标准差为sqrt((1-)/n)的正态分布。–一般的标准是n和n(1-)均大于5,且n40–当样本情况接近此标准时,往往会进行校正•注意:上文所说的样本率p的标准差,为了区分阳性数x的标准差,亦称样本率的标准差为标准误。二项分布的应用9总体率的区间估计•对一个总体参数都有点估计和区间估计,点估计直接使用样本统计量即可•区间估计:直接计算概率–在样本例数较小,且样本率接近1或0,即阳性事件发生率很高或很低时,可按照率的抽样分布规律确定总体率的可信区间,为方便应用,统计学家根据二项分布原理,编制了总体率95%和99%可信区间的百分率可信区间表10总体率的区间估计•区间估计:正态近似–当n较大,和1-均不太小时,样本率的抽样分布近似正态分布,因此可按正态近似法求总体率的1-可信区间。•Stata计算–没有这么麻烦,使用cii命令即自动完成–例6.1某疗法治疗某病28人,6人有效,求该疗法有效率的95%可信区间。–例6.2某疗法治疗某病10人,7人有效,求该疗法有效率的95%可信区间。11样本率与已知总体率的比较•如前所述,当n较大,和1-均不太小时,样本率的抽样分布近似正态分布,可利用正态分布的原理作假设检验。•反之,则可使用二项分布自身的概率分布进行假设检验,这种方法被称为确切概率法12样本率与已知总体率的比较•例6.4用常规疗法治疗流行性出血热的病死率为15%,现用某新法治疗50名患者,死亡6例,问新法治疗流行性出血热的病死率是否不等于常规疗法。–由于样本量较大,因此可以考虑采用正态近似法分析13样本率与已知总体率的比较•假设检验(正态近似法)–H0:新法和常规疗法治疗流行性出血热的病死率相等,=0–H1:新法和常规疗法治疗流行性出血热的病死率不相等,即≠0–设=0.05–检验统计量为–当H0成立时,统计量U近似服从标准正态分布。–即:若|U|1.96,则拒绝H0。000(1)/PUn14样本率与已知总体率的比较•本例:•|U|1.96,不能拒绝H0,因此没有足够的增加证据可以推断新疗法的病死率与传统认疗法不同。•Stata操作命令为:prtesti5060.15,count•结果与上述相同。60.15500.5940.15(10.15)/50u15样本率与已知总体率的比较•例6.5已知A药物治疗幽门螺旋杆菌感染的治愈率为60%。现拟用B药物治疗。现用B药治疗幽门螺旋杆菌感染患者10人,其中9人治愈。问B药治疗幽门螺旋杆菌感染的治愈率是否不同于A药的治愈率。–样本量较小,需要使用确切概率计算来完成分析–显然,本次检验应当是双侧检验。16确切概率法的基本思想•假设检验可以理解为根据水平,把统计量可能的取值范围分为拒绝范围(亦称拒绝域)和不拒绝范围。如果统计量的取值落在拒绝范围内(即:P),则拒绝H0,反之不拒绝H0。•对于确切概率法也是相同的,根据水平,把可能的样本点范围分为拒绝范围和不拒绝范围,如果样本点X落在拒绝范围内,则拒绝H0,反之不拒绝H0。17确切概率法的基本思想•拒绝范围构成的(双侧检验)基本原则(以下是H0为真的假设下的概率):–属于拒绝范围内的任一可能样本点的概率小于非拒绝范围的任一可能样本点的概率;–拒绝范围内所有可能样本点的累积概率,并且对于非拒绝范围内的任一可能样本点加入拒绝范围,都将使其累积概率。•定义:记P=小于等于实际样本点概率的所有可能样本点概率之和。18确切概率法的基本思想•如果实际样本点在拒绝范围内,根据P值定义和拒绝范围构成的原则可知,P,可以拒绝H0。•如果实际样本点在拒绝范围外,则P实际样本点的概率+拒绝范围内所有可能的样本点的累积概率。根据拒绝范围构成的第二条原则可知:P,因此不能拒绝H0。•综合上述可知:这样定义P是可以用于假设检验的。19样本率与已知总体率的比较•建立假设–H0:B药的幽门螺旋杆菌感染治愈率=60%–H1:B药的幽门螺旋杆菌感染治愈率60%–双侧检验=0.05•计算概率值–P=小于等于实际样本点概率的所有可能样本点概率之和–先计算样本点的概率9910(9)0.60.40.0403PXC20样本率与已知总体率的比较–也可以用Stata命令bitesti1090.6得到相同的结果。0129100=0.0001049+0.001573+0.010617+0.0403108+0.0060466=0.586850.05HPPPPPP不能拒绝XPXPXP00.000104940.111476780.120932410.001572950.200658190.040310820.010616860.2508227100.006046630.042467370.2149908假设H0为真的情况下,计算治愈人数的概率分布21样本率与已知总体率的比较•如果研究前已知道B药疗效不低于A药的信息,则此例研究问题可改为单侧检验–H0:=0.6vs.H1:0.6=0.05•可首先计算成立时总体中出现现有样本点X=9的概率•计算H1:方向更极端的情况。–P=P9+P10=0.0403108+0.0060466=0.0463574–拒绝H0。22成组设计两样本率的比较•建立假设–H0:用含氟牙膏和一般牙膏儿童龋患率相等–H1:用含氟牙膏和一般牙膏儿童龋患率不等•随后的分析过程和两样本的u检验无太大差异,不再详述•还有另一个等价的、更通用的方法可供使用:卡方检验23Stata计算•一、总体率的区间计算cii样本量时间发生数•二、样本率与总体率的比较prtesti样本量事件发生数总体率,count
本文标题:总体率统计
链接地址:https://www.777doc.com/doc-3453742 .html