您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 第5节-试验数据误差的统计检验
任课教师:涂军令何清朝洁参考教材:实验设计与数据处理(第二版)实验设计与数据处理试验数据误差的统计假设检验HypothesisTesting试验数据误差的统计假设检验HypothesisTesting一、异常值的检验可疑数据、离群值、异常值一般处理原则为:•在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误•试验结束后,在分析试验结果时,如发现异常数据,则应先找出产生差异的原因,再对其进行取舍•在分析试验结果时,如不清楚产生异常值的确切原因,则应对数据进行统计处理;若数据较少,则可重做一组数据•对于舍去的数据,在试验报告中应注明舍去的原因或所选用的统计方法掩盖(masking):真正的异常点未被识别淹没(swamping):正常点误判为异常的离群点❖可疑值得舍弃与保留在实验中,得到一组数据之后,往往有个别数据与其他数据相差较远,这一数据称为可疑值,又称为异常值或极端值,它的去舍,应按统计学方法进行处理。可疑值4d法Q检验法格鲁布斯检验法异常值检验的两类方法:⒈技术判别法即在实验过程中,人们根据常识或经验,判别由于震动、误读等原因造成的坏值;或根据物理的或化学的性质,进行技术分析,以判别偏差较大的数据是否确系异常值。此种方法的特点,可随时发现,随时剔除。⒉统计判别法统计判别法的基本思想在于,给定一置信概率,并由此确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,系属异常数据,应予剔除。①内容:可疑数据xp,若32pxxss−或则应将该试验值剔除。②说明:◼计算平均值及标准偏差s时,应包括可疑值在内◼3s相当于显著水平=0.01,2s相当于显著水平=0.05Pauta1、拉依达()检验法•可疑数据应逐一检验,不能同时检验多个数据首先检验偏差最大的数•剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差•方法简单,无须查表•该检验法适用于试验次数较多或要求不高时3s为界时,要求n>102s为界时,要求n>5有一组分析测试数据:0.128,0.129,0.131,0.133,0.135,0.138,0.141,0.142,0.145,0.148,0.167,问其中偏差较大的0.167这一数据是否应被舍去?(=0.01)解:(1)计算③例:0.140,0.01116xs==(2)计算偏差,xs0.1670.1400.027pxx−=−=(3)比较3s=3×0.01116=0.0335>0.027故按拉依达准则,当=0.01时,0.167这一可疑值不应舍去2、格拉布斯(Grubbs)检验法①内容:可疑数据xp,若则应将该值剔除。(,)nG——Grubbs检验临界值(,)ppndxxGs=−格拉布斯(Grubbs)检验临界值G(,n)表②说明:•计算平均值及标准偏差s时,应包括可疑值在内•可疑数据应逐一检验,不能同时检验多个数据首先检验偏差最大的数•剔除一个数后,如果还要检验下一个数,应重新计算平均值及标准偏差•能适用于试验数据较少时•格拉布斯准则也可以用于检验两个数据偏小,或两个数据偏大的情况③例:例1-133、狄克逊(Dixon)检验法①单侧情形•将n个试验数据按从小到大的顺序排列:x1≤x2≤…≤xn-1≤xn如果有异常值存在,必然出现在两端,即x1或xn•计算出统计量D或D′•查单侧临界值1()Dn−➢检验xn时,当1()DDn−时,可剔除xn◼检验➢检验x1时,当时,可剔除x11'()DDn−②双侧情形•计算D和D′•查双侧临界值1()Dn−◼检验➢当'DD1()DDn−,判断nx为异常值➢当'DD1'()DDn−,判断1x为异常值③说明•适用于试验数据较少时的检验,计算量较小•单侧检验时,可疑数据应逐一检验,不能同时检验多个数据•剔除一个数后,如果还要检验下一个数,应重新排序④例:例1-14统计学方法证明,当测定次数非常多(例如大于20时,总体标准偏差与总体平均偏差有下列关系=0.79790.80。43,偏差超过4的测量值可以舍弃。其步骤为:(1)将可疑值除外,求其余数据的平均值和平均偏差;1−nx(2)求可疑值x与平均值之间的差的绝对值1−nx1−−nxx(3)判断114−−−nndxx舍弃。1−ndd4、4法【例】某试样经四次测得的百分含量分别为:30.34%,30.22%,30.42%,30.38(%)。试问30.22%是否应该舍弃?•应舍弃•该法适用于测定次数为3-10时的检验。其具体处理步骤如下;•将测得的数据由小到大排列。•求出最大值与最小值之差Xn-X1。•求出可疑数据与其相邻数据的差Xn-Xn-1。•求出统计量Q计:•Q计=(Xn-Xn-1)/(Xn-X1)•优点:Q检验法符合数理统计原理,特别具有直观性和计算简便的优点。•缺点:测定次数限制在3-10次。5、Q检验法•根据测定次数和要求的置信度(如90%),在表上查得Q0.90。•将Q计与Q0.90相比较,若Q计大于Q0.90,则可弃去可疑数字。否则应予保留。测定次数Q0.90Q0.95Q0.9930.940.980.9940.760.850.9350.640.730.8260.550.640.7470.510.590.6880.470.540.6390.440.510.60100.410.480.57解:将数据按大小排列0.5042、0.5050、0.5051、0.5063、0.5064、0.5086。X6-X1=0.5086-0.5042X6-X5=0.5086-0.5064Q计=(0.5086-0.5064)/(0.5086-0.5042)=0.50n=6,Q0.90=0.55Q计=0.50Q计小于Q0.90,0.5086这个数应予保留。【例】用Q检验法判断下列数据时,0.5086是否可弃去。0.5042、0.5064、0.5051、0.5050、0.5086、0.5063。Subtitle分析方法的准确性在工作中经常会与到这样的问题:(1)建立了一种新的分析方法,该方法是否可靠?(2)两个实验室或两个操作人员,采用相同方法,分析同样的试样,谁的结果准确?无论以上哪种情况,由于偶然误差的存在,两个结果之间有差异是必然的。但是否存在有系统误差,既两组数据之间是否有显著性差异,是判定新方法是否可靠、谁的结果准确的关键所在。显著性检验方法有F检验法和t检验法。二、系统误差/随机误差的检验问题:是由随机误差引起,或存在系统误差?0−Tx021−xx显著性检验显著性差异非显著性差异系统误差校正随机误差正常显著性检验➢对含量真值为T的某物质进行分析,得到平均值x0−Tx➢用两种不同的方法、或两台不同的仪器、或两个不同的实验室对同一样品进行分析,得到平均值021−xx21,xx但,但❖平均值检验-t,ft,f1.平均值与标准值的比较t检验法:假设不存在系统误差,那么T=是由随机误差引起的,测量误差应满足t分布,0−Txxsxt/−=nsTx,,,根据计算出的t值应落在指定的概率区间里。否则,假设不满足,表明存在着显著性差异。t检验法的步骤:➢根据算出t值;nsTx,,,➢给出显著性水平或置信度➢将计算出的t值与表上查得的t值进行比较,若表计tt习惯上说表明有系统误差存在。表计tt表示落在为中心的某一指定概率之外。在一次测定中,这样的几率是极小的,故认为是不可能的,拒绝接受。x【例】某化验室测定CaO的质量分数为30.43%的某样品中CaO的含量,得如下结果:%05.0%,51.30,6===sxn问此测定有无系统误差?(给定=0.05)解9.3605.043.3051.30=−=−=−=nsxsxtx计算查表57.25,05.0==ttfa,比较:表计算tt说明和T有显著差异,此测定有系统误差。假设:=Tu检验法:u检验法与t检验的不同在于用u分布,而不是用t分布。【例】某炼铁厂生产的铁水,从长期经验知道它的碳含量服从正态分布,T为4.55%,标准偏差为0.08%。现在又生产了5炉铁水,其碳含量分别为4.28%,4.40%,4.42%,4.35%,4.37%。试问均值有无变化?(给定=0.05)解假设:=T3.5508.055.436.4=−=−=−=nxxux计算查表表计算uu96.105.0=u比较:结论:均值比原来的降低了。(表明生产过程有差异)(%)36.45/)37.435.442.440.428.4(=++++=x问题:如果分析方法存在系统误差,这个结论可靠吗?得到这个结论的前提是:测试是可靠的,测试过程不存在系统误差。2、两组平均值的比较两个实验室对同一标样进行分析,得到:111,,snx和222,,snx假设不存在系统误差,那么:T==212)1()1(21222211212121−+−+−=+−=nnsnsnsnnnnsxxtpp是由于随机误差引起的,应满足自由度f=(n1+n2–2)的t分布,021−xx两组平均值的比较的方法:1、F检验法检验两组实验数据的精密度S1和S2之间有无显著差异:22小大计算ssF=查表表计算FF精密度无显著差异。2、t检验确定两组平均值之间有无显著性差异2)1()1(21222211212121−+−+−=+−=nnsnsnsnnnnsxxtpp计算3、查表2)(21−+==nnfftta,表4、比较表计算tt非显著差异,无系统误差具体计算见教材的例题。两组平均值的比较的方法:置信度95%时部分F值(单边)置信度90%时部分F值(双边)4.284.394.534.765.1464.955.055.195.415.7956.096.166.396.596.9448.949.019.129.289.55319.3319.3019.2519.1619.00265432f大f小➢F检验的目的为比较两样本的精密度,精密度仅取决于随机误差,与系统误差无关,因此无需进行t检验➢t检验的目的在于说明样本平均值的准确度,准确度同时取决于精密度和系统误差,只有在精密度基本一致时方可检验是否存在系统误差,故t检验前需进行F检验秩和检验法(ranksumtest)(1)目的:两组数据或两种试验方法之间是否存在系统误差、两种方法是否等效等,不要求数据具有正态分布(2)内容:•设有两组试验数据,相互独立,n1,n2分别是两组数据的个数,总假定n1≤n2;•将这个试验数据混在一起,按从小到大的次序排列•每个试验值在序列中的次序叫作该值的秩(rank)•将属于第1组数据的秩相加,其和记为R1R1——第1组数据的秩和(ranksum)如果两组数据之间无显著差异,则R1就不应该太大或太小•查秩和临界值表:根据显著性水平和n1,n2,可查得R1的上下限T2和T1•检验:➢如果R1>T2或R1<T1,则认为两组数据有显著差异,另一组数据有系统误差➢如果T1<R1<T2,则两组数据无显著差异,另一组数据也无系统误差(3)例:设甲、乙两组测定值为:甲:8.6,10.0,9.9,8.8,9.1,9.1乙:8.7,8.4,9.2,8.9,7.4,8.0,7.3,8.1,6.8已知甲组数据无系统误差,试用秩和检验法检验乙组测定值是否有系统误差。(=0.05)解:(1)排序:秩1234567891011.511.5131415甲8.68.89.19.19.910.0乙6.87.37.48.08.18.48.78.99.2(2)求秩和R1R1=7+9+11.5+11.5+14+15=68(3)查秩和临界值表对于=0.05,n1=6,n2=9得T1=33,T2=63,∴R1>T2故:两组数据有显著差异,乙组测定值有系统误差随堂作业【题2】某学生测定盐酸溶液的浓度(mol/L),获得以下结果:0.2038;0.2042;0.2052;0.2039。第三个结果应否舍去?结果应如何表示?如测定了第五次,结果为0.2041,这时第三个结果可舍弃吗?(用Q法,P=0.90)【题3】4次测定某试样中氯的
本文标题:第5节-试验数据误差的统计检验
链接地址:https://www.777doc.com/doc-5487062 .html