您好,欢迎访问三七文档
致遠工管-林東成編寫1授課目錄第1章導論第2章統計資料的整理與描述第3章機率導論第4章常用的機率分佈與統計分佈第5章描樣方法與描樣分佈第6章統計估計第7章統計檢定第8章變異數分析第9章相關分析與迴歸模式第10章無母數統計檢定第11章類別資料分析---列聯表與卡方檢定致遠工管-林東成編寫2當獲得母體的樣本資料時,可由各種機率分佈當中,選擇出最接近該母體的機率分佈,續之即估計該分佈之參數值,使樣本資料與母體參數有最佳的推論與檢定能力。然即使隨機變數的機率分佈及其參數值已知,仍無法準確的預測某特定事件一定或不一定發生,而只能預測此事件發生之機率為若干。此不確定性發生的原因主要是因為自然現象有固有的隨機性(InherentRandomness)。但不確定性的其他因素則可能包括分佈模式選擇的不適切,或參數推定不準確所致。雖然參數推定值的準確性可因樣本數的增加而提高。但固有的變異性確可能因為樣本數增加而益形顯著。統計估計過程是由母體中抽取出數樣本,藉機率原理找第六章統計估計母體樣本分佈、參數統計量隨機抽取推論檢定計算描述致遠工管-林東成編寫3出適當的樣本統計量,再以此樣本統計量推估母體參數。統計估計方法,一般分為點估計與區間估計兩種。6.1點估計(PointEstimation)◎假設隨機變數X的母體機率密度函數f(x|),其中為未知的參數。為估計此未知的參數,則由母體中抽取出數樣本,得到觀測值為x1,x2,…,xn。◎利用點估計方法求出一估計式(Estimator),以ˆ表示。再將觀測值為x1,x2,…,xn代入估計式中得到一數值,此數值稱之為參數的估計值(Estimate)。◎常用方法:(1)最大概似法,(2)動差法。6.2.1最大概似法(MaximumLikelihoodMethod)母體f(x|)觀測值為x1,x2,…,xn估計式ˆ參數的估計值致遠工管-林東成編寫4◎由Fisher(1912)提出。假設隨機變數X的母體機率密度函數f(x|),其中為未知的參數,為估計此未知的參數,則由母體中抽取出數樣本,得到觀測值為x1,x2,…,xn。則概似函數定義為L(x1,x2,…,xn;)=f(x1,)f(x2,)…f(xn,)(6.1)◎使概似函數L(x1,x2,…,xn;)值為最大,則能求出估計式ˆ,稱此ˆ為最大概似估計式(MLE,MaximumLikelihoodMethod)範例、某公司新推出光碟燒錄機,其使用壽命服從指數分佈致遠工管-林東成編寫5f(x)=(1/)e-x/。為估計參數以了解平均使用壽命,隨機抽取出11台樣本做測試,測得其壽命結果如下:8,10,13,14,19,21,27,28,34,41,52(百小時)。試以最大概似法估計值。SOL:L(x1,x2,…,xn;)=f(x1,)f(x2,)…f(xn,)n1iin21/xn/x/x/xe)1(e1e1e1lnL(x1,x2,…,xn;)=-nln-(1/)ni=1xid(lnL)/d=-n/+(1/2)ni=1xi=0Estimator(估計式)ˆ=ni=1xi/nˆ=(8+10+13+14+19+21+27+28+34+41+52)/11=267/11範例、假設隨機變數X~N(,2),從其中隨機抽取出一組樣母體f(x)=(1/)e-x/觀測值為8,10,13,14,19,21,27,28,34,41,52估計式ˆ=ni=1xi/n參數的估計值ˆ=267/11致遠工管-林東成編寫6本x1,x2,…,xn,試以最大概似法估計,2值。SOL:L(x1,x2,…,xn;,2)=f(x1,,2)f(x2,,2)…f(xn,,2)22i22n2212)x(n2)x(2)x(e)21(e21e21lnL(x1,x2,…,xn;,2)=ln22i2)x(ne)21(=-(n/2)ln(2)-(n/2)ln(2)-((xi-)2)/22xxn1ˆ0),(Llnn1ii22n1ii222)xx(n1ˆ0),(Lln致遠工管-林東成編寫7範例、台灣的地理位置處於東亞地震帶,地震活動較頻繁。假設台灣發生有感地震的次數服從卜氏分佈Poi()。台東氣象站為了要估計此參數,以了解台灣有感地震情形,於是觀察過去一年來的每月資料,得到台灣有感地震資料如下:9,7,12,14,3,11,7,10,4,6,8,10。試以最大概似法求之估計式,並由樣資料去估計值。SOL:L(x1,x2,…,xn;)=f(x1,)f(x2,)…f(xn,)!xe!xe!xe!xein1ixnnx2x1xn1iin21lnL(x1,x2,…,xn;)=-n+ni=1xiln-lnni=1xi!d(lnL)/d=-n+(ni=1xi)/=0Estimator(估計式)ˆ=ni=1xi/nˆ=(9+7+12+14+3+11+7+10+4+6+8+10)/12=101/12=8.42致遠工管-林東成編寫86.2.2動差法(MomentMethod)◎由Pearson(1894)提出。假設隨機變數X的k次動差為k=E[Xk],則樣本動差定義為n1ikkixn1ˆkˆ即為對k次動差k點估計。◎對母體平均值、變異數2做點估計一次動差(k=1)n1i1i1xn1ˆn1iixxn1ˆ二次動差(k=2)22n1i2i2n1ii2ˆˆxxn1)xx(n1ˆ◎對常態分配、2而言,用動差法估計與用最大概似法估計的結果是一樣的。但對其他分配,其結果有異。致遠工管-林東成編寫9範例、假設隨機變數X~U(0,)代表致遠校門口學生等候計程車時間所滿足之分佈,茲從學生等候計程車時間,隨機抽取出5樣本:0.5、1、2、3.5、8(分鐘),試以動差法估計值。SOL:均勻分佈以X~U(a,b)表示,其期望值與變異數為:E[x]=(a+b)/2Var[x]=(b-a)2/12X~U(0,)E[x]=/2=/2=2ˆ=(2/n)ni=1xi=2x=2(0.5+1+2+3.5+8)/5=6(動差法)若用最大概似法估計U(0,),易得之最大概似法估計式ˆ=max1inxi={0.5、1、2、3.5、8}=86.2如何評量『點估計』的優良性同一未知參數的估計式有很多種,何者最佳?統計學定義三個準則:(1)不偏(2)有效性(3)最小變異數。定義:不偏估計式(UnbiasedEstimator)設未知參數的估計式為ˆ,ˆ可視為一隨機變數。因此,隨機變數ˆ會服從某一機率分佈,當此分佈的期望值E[ˆ]正好等於未知參數時,即E[ˆ]=,稱ˆ為的不偏估計式。致遠工管-林東成編寫10範例、假設由一個隨機變數X~N(,2),從其中隨機抽取出5個樣本x1,x2,x3,x4,x5,試下列4個估計式,何者是的不偏估計式。(1)1ˆ=x1,(2)2ˆ=(x1+x5)/2,(3)3ˆ=(x1+2x5)/2,(4)4ˆ=(x1+x2+x3+x4+x5)/5SOL:(1)]ˆ[E1=E[x1]=(2)]ˆ[E2=E[(x1+x5)/2]=(3)]ˆ[E3=E[(x1+2x5)/2]=3/2(4)]ˆ[E4=E[(x1+x2+x3+x4+x5)/5]=421ˆ,ˆ,ˆ是的不偏估計式。範例、假設由一個隨機變數X~N(,2),從其中隨機抽取出n個樣本,試下列樣本變異數S2是否是母體變異數2之不偏估計式。SOL:E[S2]=E[ni=1(xi–x)2/(n-1)]=E[ni=1(xi2–nx2)]/(n-1)={ni=1E[xi2]-nE[2x]}/(n-1)={n(2+2)-n(2+2/n)}/(n-1)=2致遠工管-林東成編寫11◎通常由一個隨機變數X~N(,2),從其中隨機抽取出n個樣本,下列關係成立,且為不偏估計值。E[x]=、E[21xx]=1-2、E[S2]=2E[pˆ]=p、E[21pˆpˆ]=p1-p2定義:有效性(Efficiency)設茲有二個不偏估計式,即為1ˆ與2ˆ。若Var[1ˆ]Var[2ˆ],則稱1ˆ比2ˆ有效率。致遠工管-林東成編寫12範例、承上題,假設由一個隨機變數X~N(,2),從其中隨機抽取出5個樣本x1,x2,x3,x4,x5,試下列4個估計式,何者是的不偏估計式。(1)1ˆ=x1,(2)2ˆ=(x1+x5)/2,(3)3ˆ=(x1+2x5)/2,(4)4ˆ=(x1+x2+x3+x4+x5)/5SOL:421ˆ,ˆ,ˆ是的不偏估計式。Var[1ˆ]=Var[x1]=2Var[2ˆ]={Var[x1]+Var[x5]}/4=2/2Var[4ˆ]=2/54ˆ之變異數最小,故選用4ˆ來估計最佳,即最有效率也。定義:最小變異不偏估計式(Minimum-VarianceUnbiased)若一不偏估計式,且其變異數比其他不偏估計式的變異數小,則稱此不偏估計式為最小變異不偏估計式,亦稱最佳估計式(BestEstimator)。如,上題4ˆ即為最小變異不偏估計式。致遠工管-林東成編寫13範例、假設x1,x2,x3由波松機率密度函數Poi()其中是未知參數,隨機抽取的三個樣本。現有四個估計式分別為:(1)1ˆ=x1,(2)2ˆ=(x1+x2)/2,(3)3ˆ=(x1+2x2)/3,(4)4ˆ=(x1+x2+x3)/3試問:(A)那些是的不偏估計式?(B)在所有不偏估計式中,何者具有最小變異數?SOL:(A)(1)、(2)、(3)、(4)皆是的不偏估計式。(B)Var[1ˆ]=Var[x1]=Var[2ˆ]=Var[(x1+x2)/2]=/2Var[3ˆ]=Var[(x1+2x2)/3]=5/9Var[4ˆ]=Var[(x1+x2+x3)/3]=3/9Var[1ˆ]Var[2ˆ]Var[3ˆ]Var[4ˆ]4ˆ之變異數最小,故選用4ˆ來估計最佳。Excel,p.175~p.186致遠工管-林東成編寫146.3區間估計(IntervalEstimation)用點估計方法找出的估計值為ˆ時,通常ˆ的樣本估計值不一定會準確的落於上,而是略大於或小於,即ˆ的樣本估計值會落於附近區間內。將估計結果以區間的形式表示之---『區間估計』,即『此區間包含了真正的參數』。區間估計之程序:以機率表示:P(LU)=1-其中1-為信賴水準(ConfidenceLevel)。為顯著水準(SignificanceLevel)。(L,U)為信賴區間(ConfidenceInterval),即對參數所做估計的1-信賴水準的信賴區間。L為信賴區間下限,U為信賴區間上限。母體f(x|)估計式ˆˆ區間(L,U)區間(L,U)包含參數的機率1-致遠工管-林東成編寫15以樣本平均值的95%信賴區間為例,即在100次抽樣中有95次包含母體平均值,亦就是表示會有5次沒有包含母體平均值。=5%,P(LU)=1-=1-5%=95%。令信賴區間長度=L-U,在1-信賴水準下,區間長度(即誤差是也)愈短,表示此區間估計的精確度愈高。亦即對未知的母體參數的可能變動範圍較小,其掌握度較高。6.3.1常態分佈母體平均值之區間估計母體N(,2)x為之最佳估計值的區間估計由以x為中心往兩邊延伸變異數2已知變異數2未知致遠工管-林東成編寫166.3.1.(a)變異數2已知假設x為由N(,2)中隨機抽取n個樣本的樣
本文标题:SPC理论指导
链接地址:https://www.777doc.com/doc-416757 .html