您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第3章 参数估计和一般检验20100925
3参数估计和统计检验3.1母体和子样研究对象的全体为母体,组成母体的每个单元为个体。★通常是从母体任意抽取一部分个体进行观测,通过对子样的统计,可以对母体分布和特征作出估计和推断,这就是抽样研究法。抽样研究法是从局部描述整体的方法●一方面,子样取自母体,具有母体的特征,●另一方面,子样只是局部,不可能完全反映母体分布的规律。母体可以分为有限母体和无限母体两种情况。无限母体:无法全部观测。有限母体:可以进行全部观测,但往往是得不偿失。我们的任务是根据有限的子样观测值,来估计母体特征。3.2分布的估计描述母体中随机变量分布的函数称为母体分布函数。在很多场合采用分布函数的数字特征值表示更为方便。数学期望和方差是两个最常用的分布函数数字特征。dxxxfxE)()(dxxfxExxExExD)()]([)]([)(22数学期望的定义式为式中f(x)为概率分布密度函数。E(x)和D(x)分别称为母体数学期望和母体方差。方差的定义式为222)(21)(xexfniiixnxnieeL122222)(222)(1)2(21niixnL1222)(21)2ln(2lnniixL120)(1)(ln0)(1)(ln123niixnLniixxn11ˆniniiixxnxn11222)(1)ˆ(1ˆ[例3-1]随机变量x~N(,σ2),子样观测值为x1,x2,…xn,求分布参数,σ2的最大似然估计值。似然函数取对数可得显然,似然函数取值最大时应有解联立方程,可得最大似然估计值这是用有限次测量所得的子样观测值,对正态母体参数作出的估计,是最常用的重要的结论。解:因x~N(u,σ2),可知概率密度函数3.3参数的点估计3.3.1数学期望的点估计根据子样观测值来估计随机母体的分布参数,就是参数的点估计。x)()(xExE)(1)(xDnxD)()(1)(1)1()(11xExnEnxEnxnExEniinii)(1)(1)(1)1()(2121xDnxnDnxDnxnDxDniinii若随机母体x的子样观测值为x1,x2,…,xn,其子样平均值与母体数学期望及其方差之间的关系为:证明如下:根据数学期望的运算性质,可知根据方差的运算性质,可知3.3.2方差的点估计niixxnnnS1222)(11ˆ1niixxnS12)(112ˆ母体方差的估计值()用随机子样方差(S2)来表示,为子样方差的平方根叫做子样标准差,即而子样平均值的标准差则是nSxxnnSniix12)()1(13.4参数的区间估计母体参数值以多大的概率存在于某个区间,也就是说,母体参数存在于某个区间的可能性有多大,这就是区间估计。一般将这个区间表示为[A-B,A+B]的形式。3.4.1数学期望的区间估计可以证明,正态母体的子样平均值的分布也是正态的。nxDxExenxDxf)()]([212)(21)(nxDxEx)()(将它变换成标准正态分布,则令所以,~N(0,1)由附录1可查知,=2.57时概率为0.99,即P(||≤2.57)=0.9999.0])(57.2)([nxDxExP])(57.2,)(57.2[nxDxnxDx但就多数情况而论,母体方差D(x)是未知的,这种情况下,我们只能用D(x)的估计值S2来近似。nSxExnSxExt)()(2定义:随机变量母体x~N(,σ2),已知随机子样观测值为x1,x2,…,xn相互独立,则有为具有t分布的随机变量,记作t~t(n)。22)11()21()1()2()(nntnnntf01)(dxexx随机变量t的概率密度函数:式中,Γ是伽玛函数,其定义是:t分布概率密度函数曲线见图3-1。可以看出:①t分布是关于t=0的对称曲线;②t分布与原母体分布及分布参数无关,而只与子样观测值的容量n有关。n是t分布唯一的分布参数。图3-1t分布概率密度函数曲线在n不大的情况下,母体的子样平均值只服从t分布。按t分布的规律,计算在给定置信概率下的一个临界值tα,使其满足P[|t|tα]=1-α1],[tnSxtnSxPα称为信度,也叫显著性水平,其实际意义应为冒险度。P=1-α,即为置信概率。n-1为自由度。从附录2的t函数分布表中查出临界值tα。附录2t函数分布表返回P11[例3-2]对管内流量进行8次测量,测得值为(kg/h):380.599,380.504,380.564,380.507,380.519,380.508,380.523,380.579。估计流量期望值所在区间(置信概率95%)。x],[tnSxtnSx解:测量母体的分布与方差均未给定,其子样平均值应遵从t分布。根据数据计算可得:子样平均值=380.538子样标准差S=0.037根据题意,自由度n-1=7,置信概率P=0.95,信度=1-P=0.05,P[|t|≤t0.05]=0.95查附录2,得t0.05=2.365列出置信区间为将所得数据代入[380.538-2.365*0.037/2.828,380.538+2.365*0.037/2.828]即区间为[380.507,380.569],置信概率为0.95,或者说,流量期望值在区间[380.507,380.569]内的可能性为95%。3.4.2方差的区间估计定义:若x1,x2,…,xn为相互独立且服从正态N(0,1)的随机子样值,则随机变量niixx122服从自由度为f=n-1的c2分布,记作c2~c2(f),其中f为自由度。c2(f)的概率密度函数是图3-2c2函数分布概率密度曲线)2(2)()(2212222fexxffxf若母体x~N(,2),随机子样观测值为x1,x2,…,xn,子样方差为S2,则可以证明,)1(~1222nxSn2222)(1xxSnVi我们借助手这一结论,来研究母体方差存在的区间。为此,令随机变量V服从自由度为f=n-1的c2分布。选择下临界值V1和上临界值V2(V1<V2),使概率为P,满足221)(10pdVVfV1][)1,2(2)1,21(2nnxVxP)1,21(222)1,2(22)()(ninixxxxxx如果选择V1时满足:则使曲线下左右两部分阴影面积相等。21)(VVPdVVf图3-3上下临界值与信度的关系附录3c2分布临界值c2(,f)表20.117.515.52.18818.516.014.11.69716.814.412.61.24615.112.811.070.831513.311.19.490.484411.39.357.810.21639.217.385.990.050626.635.023.840.0009810.010.0250.050.975f注:f为自由度自由度f应为子样容量数n减1。328110681.9)(xxii69.110681.91610681.9323[例3-3]如例3-2情况,估计流量测量方差的置信区间(置信概率为95%)。解:由例3-2的数据可得由题意可知,P=0.95,=1-95%=0.05,自由度n-1=7,查附录3,得:c2(0.025,7)=16,c2(0.975,7)=1.69估计区间为即(0.00061,0.0057)。)1,21(222)1,2(22)()(ninixxxxxx按式计算,380.599,380.504,380.564,380.507,380.519,380.508,380.523,380.579(kg/h)3.5一般统计检验测量中的系统误差、随机误差与过失误差总是纠缠在一起,难以区分。统计检验就是利用数理统计方法对误差进行分析,从而正确地评价测量数据,并对如何有效地改进实验提供有用的信息。3.5.1离群值检验有时发现在一组测量值中会有一、两个值明显地偏大或偏小,这样的测量值称为离群值或可疑值。出现离群值的原因是什么呢?数据的波动只能来自随机误差和过失误差。对离群值进行检验:如果离群值严重偏离并超出了随机误差的限度,则必包含过失误差,属异常值,应舍去。如果离群值虽离群但并没有超出随机误差所允许的范围,则属正常值,应保留。dd(1)4法根据测量值的概率分布可知,偏差大于3σ的测量值出现概率约为0.3%。此为小概率事件,而小概率事件在有限次试验中是不可能发生的。如果竟然发生了,那是不正常的。即偏差大于3σ的测量值在有限次检验中是不可能出现的,如果出现,则为异常值,是过失误差所致,应该舍去。3σ≈4δ≈4dx先将离群值除外,计算其余数据的平均值和平均偏差,如果|x-|≥4则离群值为异常值,舍去。否则为正常值,应保留。16.40x02.0d08.04d08.014.016.4002.40[例3-4]测定碱灰的总碱量(Na2O%)。得到5个数据:40.02,40.13,40.15,40.16,40.20。试问40.02这个数据应否舍去?解:将40.02除外,其余4个数据的平均值及平均偏差为:故40.02应舍去。112xxxxQn11xxxxQnnn(2)Q检验法将一组数据从小到大排列:x1,x2,…,xn,其中x1或xn可能为离群值,计算统计量Q。若xn为离群值,则:0.570.600.630.680.740.820.930.99Q0.990.490.510.540.590.640.730.840.97Q0.950.410.440.470.510.560.640.760.94Q0.90109876543测定次数nQ值若x1为离群值,则:Q即邻差与极差之比。如果Q大于等于表3-1中所列的临界值,离群值应舍去,否则应保留。返回P20[例3-5]用Q检验法判断例3-4中的40.02数据应否舍去(P=95%)?61.002.4020.4002.4013.40Q解:Q0.95=0.73(n=5)Q<Q0.95,故40.02这个数据应保留。40.02,40.13,40.15,40.16,40.20Q表格(3)格鲁布斯(Grubbs)法x将一组数据按从小到大顺序排列:x1,x2,…,xn,其中x1或xn可能为离群值,先求出这组数据的平均值及标准偏差S,然后求出统计量T。SxxT1若x1为离群值,则:SxxTn若xn为离群值,则:如果T值大于等于格鲁布斯检验临界值表(见附表4)中所列T,n,离群值应舍去,否则应保留。为显著性水平,即把正常值判为异常值之类错误的概率。与置信度P之间的关系为:=1-P。附表4格鲁布斯检验临界值T,n表注:n为数据个数13.40x068.0S62.1068.002.4013.40T[例3-6]用格鲁布斯法检验例3-4中40.02这一数据应否舍去(P=95%)?解:T0.05,5=1.672TT0.05,5故40.02这一数据应保留。离群值检验最好采用格鲁布斯法。此外,Q检验法也优于4d法。40.02,40.13,40.15,40.16,40.203.5.2平均值检验nStxf,(1)平均值与标准值的比较为了判断是否存在系统误差,可以将所得样本的平均值与标准值作比较,进行t检验。的波动范围为x],[,,nStnStffnSxt●如果t值临界值t,f,说明平均值对的偏离已超出随机误差的范围,必存在系统误差,称平均值与之间存在显著性差异。●如果tt,f,原假设无系统误差成立,称平均值与之间无显著性差异。[例3-7]用一种新方法测定标准试样中的二氧化硅含量(%),得以下8个数据:34.30,34.32,34
本文标题:第3章 参数估计和一般检验20100925
链接地址:https://www.777doc.com/doc-3878938 .html