您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第十六章两等距比值尺度变项间的相关
1第十六章兩等距/比值尺度變項間的相關壹、本單元目標1、解釋散佈圖(scattergram)。2、計算及解釋斜率(slope)、截距(intercept)、Pearson’sr及r2。3、找到並說明最小平方之迴歸線(theleast-squaresregressionline)並用其來預測應變項的數值。4、解釋總變異量(totalvariance)、已解釋變異量(explainedvariance),以及未解釋變異量(unexplainedvariance)等概念。5、用迴歸及相關的技巧來分析及描述兩個變項間的關係。6、從事Pearson’sr的顯著測定。貳、前言兩等距/比值變項間的相關,通常是稱之為correlation(當然我們仍可用association)。雖然這裡談的變項,是用與先前介紹的測量尺度不同,但是一談到相關,我們還是要問相關是否存在,相關之強度及相關方向或趨勢等三個主要問題。貳、Scattergrams(散佈圖)在前面章節討論相關時,第一步要做的是檢查交叉表之百分比的情況。自然,在兩變項是類別或等級變項時,我們可以這麼做。當兩變項都是interval-ratio時,我們就不能看百分比之變化,但我們可以先看兩變項之散佈圖。散佈圖即是以資料中每一個案在兩變項之分數而建立之坐標圖。以書中P.395表15.1之資料為例,可以畫出如圖15.1(P.395)之散佈圖。表15.1之例共有12個案,每一個案(家)在小孩人數及丈夫每週做家事時間兩變項上各有一值。若以小孩人數為X,做家事時間為Y,則每一個案之X、Y值則為圖15.1中之一點。如您所見圖15.1有清楚的標題,X及Y軸亦有軸之標題,通常X及Y軸之長度相等,而其各軸之坐標單位則視情況而定。所謂散佈圖即為各(X、Y)值資料點之散佈情況,這些點之散佈情況顯示出兩變項相關的基本特性。如果我們能畫一條直線盡量穿過或接近各點,則這些特性會更清楚,這條線可稱為迴歸線(regressionline)。從散佈圖,我們可以先大致看出兩變項相關是否存在、相關的強弱,以及相關的方向。我們也可大致判斷,這兩變項的相關是否2為直線性的(therelationshipoflinearity)。散佈圖也可用來從一個案在一個變項的分數來預測其在另一變項的分數為何。如果X和Y兩變項有相關的話,則Y之值應隨X值做變化,而散佈圖中每一X值上方之點,即可視為Y值之條件分配(conditionaldistribution),即在此X值之情況下,Y值之分配為何。而X及Y無相關時,Y值並不會隨X值變化,在此無相關之情況下,其點之散佈會如P.396之圖15.2之C圖。無相關時,迴歸線會與X軸平行。至於說相關之強度,則可視資料點散佈之範圍大小而定,若是散佈之範圍愈小,或是愈接近迴歸線,則相關程度愈強,自然要是有一直線能穿過所有之點,自是完全相關之情況,如圖15.2之A,B皆是。而相關之方向則視迴歸線與X軸之角度及點之散佈方向而定,要是X分數愈高,Y值亦愈高,自是正相關,反之則為負相關。散佈圖中,點之分佈情況並不一定是能用一直線來接近各點,有時,以曲線來接近各點或許更好。在前者之情況所顯示的是為兩變項間有一直線性關係(alinearrelationship),而後者則為非直線性或曲線性關係(anon-linearorcurvilinearrelationship)。在此,只介紹適合直線性關係之相關量數,如果發現曲線關係,一個解決的方法是將interval-ratio變項視為等級變項,然後計算相關量數(參考P.397之圖16.3)。參、迴歸及預測利用散佈圖及迴歸線,我們也可做預測之工作,所謂預測(prediction),是猜測不在資料中之X值會對應什麼樣的Y值,此預測之Y值,是以Y′來表示,此值正是透過迴歸線來找。找的方法是先看該(不在資料中之)X值在X軸上是那一點,然後畫一垂直線與迴歸線相交,相交那一點再畫一與X軸平行之線,與Y軸相交之點,即為Y′。現在,最重要的問題是,這條迴歸線要怎麼畫,當然,最簡單的方法是用目測,找一條直線儘量接近各點,自然,我們有更好的方法。如果我們想要找一條直線儘量靠近各點的話,也就是要找一條線能使各點和此線之距離最短。這條線的找法和以前談過所有分數與其平均數之差的平方和為最小有關,即Σ(Xi-X)2=minimum3而先前也曾提過每一個X軸上之X值上方之Y值,可看成是Y之條件性分配,換言之,每一X值之情況下之Y值之分配可有一平均數,這X值下之條件性平均數(conditionalmean)自與在此X值下之Y值之差的平方和為最小。如果我們找出各不同X值情況下之各條件性之Y的平均數,再將這些(Xi,Yi)的點連成一直線,就必然是一極佳的與各點距離最近的直線了。但天下事通常沒這麼簡單的。這些(Xi,Yi)點常不能連成一直線。我們要再退而求其次,要找的是與所有conditionalmeansofY之點距離最近之直線,這條直線可以下列公式表示,即Y=a+bX─────Y=依變項之分數a=在Y軸上之截距(theYintercept)b=迴歸線之斜率(slope),亦即當X之一個單位改變時,所產生之Y值的改變。X=自變項之分數這個公式中之b=2)())((XXYYXX────,而a=Y-bX─────這些公式所求出之迴歸線,是用所謂Theleast-squaresmethod(最小平方法)所求得的。※這b之求法和X及Y之variances有何關聯(請將分子和與分母各除以N)?而a之求法表示出迴歸線及(X,Y)之關係為何?而b之求法,如用筆算可用下列公式:b=22)())((XXNYXXYN由此公式可看出,如X與Y之相關甚大,則X之一個單位的變化,可以增加(或減少)相當大的Y值,即X對Y之影響很大,此外,b之值是正還是負,則代表相關之方向。4求得了Y=a+bX之最小平方的迴歸線(Theleast-squaresregressionline)後,即可從各種X值來預測Y′值,因為Y′=a+bX′(X′為不在原來資料中之X值)要注意的是此種預測是一種educatedguesses,換言之,除非X與Y有完全相關,不然透過此迴歸線找到之Y值是最好的預測,而且若X及Y之相關愈強,則我們可做愈準確之猜測。肆、相關係數(Thecorrelationcoefficient–Pearson’sr)雖然由b可看出X對Y之影響力及兩變項間相關之一些情況,但是b(迴歸係數),並非是在0及±1間變化,因此要測量X及Y兩等距變項關係之弱強,通常是用一量數叫Pearson’sr。此量數是在0及±1間變化,而r=])(][)([))((22YYXXYYXX分子與求b之公式相同,代表X與Y之共變(covariation),若用筆算,r之計算為r=])(][[))((2222YYNXXNYXXYNr雖然有在0及±1間變化之好處,但是其0及±1間之值的意義卻是只有相對之意義,但是若將r平方得r2,則此係數為一coefficientofdetermination,並且有PRE之意義。在此PRE之邏輯是,當我們並不知道X之變化時,對Y值做最佳之猜測,然後再利用X值之消息來猜Y值。當不知X值時,對Y值之最佳猜測,在等距變項之情況下,自是以猜Y為最佳,因為Σ(Y-Y)2=minimum,亦即猜每一Y值皆為Y時,可以得到最少之猜測錯誤,Σ(Y-Y)2即為Y值之totalvariation,p.406之圖15.6中之黑直線即表示以Y值來猜各Y值之點所犯之錯誤,此圖中與X軸平行之線即為代表Y之線,因先不考慮X之變化對Y的影響,故此圖即可當成一個變項Y之次數分配圖。而當我們利用X值之消息來再度猜Y值,且利用最小平方迴歸線之方程式來猜測時,所猜測之Y值為Y′=a+bX,以此法所得之5猜測錯誤以Σ(Y-Y′)2來表示,此Σ(Y-Y′)2應是最小的,此即最小平方法所得之結果。換言之,如X與Y無相關,則此Y′=Y(why?)。而X與Y有相關時,則Σ(Y-Y′)2比Σ(Y-Y)2還小。如果你將在P.406之圖15.6與P.407之圖15.7重疊,你可看出222YYYYYY換言之Σ(Y-Y)2此一totalvariation由兩部分組成。其第一部分Σ(Y′-Y)2即為得知X後減少猜測錯誤之部分,習稱explainedvariation,而Σ(Y-Y′)2即為在得知X後仍無法解釋之部分,亦即unexplainedvariation,而r2=22)()(YYYY=variationTotalvariationExplained因此r2乘上100,即為知道X後,totalvariation中能歸諸於知道X之部分(或是為X所解釋)之比例。伍、Pearson’sr之假設測定當我們由樣本中求得一Pearson’sr時,需進一步求此樣本之相關係數是否達到統計上之顯著水準,即測定此相關關係是否也存在於得此樣本之母群中。Pearson’sr之假設測定的基本假定如下:步驟一:Model:RandomSamplingLevelofmeasurementisinterval-ratioBivariatenormaldistributionsLinearrelationshipHomoscedasticitySamplingdistributionisnormal上述之基本假定,有幾項是較特別的。其中bivariatenormaldistribution是說兩變項之共同分配是常態的(見圖一,取自)。6(圖一)雙變項常態分配其次,我們必須要假設兩變項間之關係是直線性的。第三個特別之假定是「等分散性」(homoscedasticity),等分散性是說在每一X值下之Y的變異量(variance)是相同的。也就是說Y離散之分配在整條迴歸線上面是相當一致的,不會隨著X值的大小變化,而有不同程度的離散或變異。譬如說,如果X值愈大(或愈小),則Y的變異量愈大,則此情況就沒有等分散性。另外有注意的是,Pearson’sr之假設測定只要求samplingdistribution是常態的,因其假設測定之基礎是t-分配。步驟二:H0:=0.0(H1:≠0.0)(rho)為Pearson’sr在母群之母數的符號步驟三:Samplingdistribution=tdistributionα=0.5df=N-2t(critical)=?7步驟四:t(obtained)=r212rN步驟五:決策
本文标题:第十六章两等距比值尺度变项间的相关
链接地址:https://www.777doc.com/doc-2164365 .html