您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > Rasch-model-and-analysis
637國立政治大學「教育與心理研究」2004年12月,27卷4期,頁637-694Rasch測量理論與其在教育和心理之應用**王文中*摘要本文闡述Rasch模式(Rasch,1960)之基本原理、發展、應用、網路資源。首先,利用牛頓第二運動定律,說明Rasch模式中的量尺具有客觀等距的特性。接著比較Rasch模式與多參數試題反應模式之異同,和評論Rasch模式在測驗實務上的影響。從六大趨勢中,勾勒出Rasch模式近年來之發展。透過數個實證資料分析,具體說明Rasch模式之應用。最後,本文簡單條列國內學者近五年在此一領域之期刊論文、國內外相關的書籍、期刊、學術研討會、電腦軟體及網站等資源。關鍵字:心理測量、客觀測量、等距量尺、試題反應理論、古典測驗理論*王文中:中正大學心理學系教授**2004年度專題論文邀稿電子郵件:psywcw@ccu.edu.tw638JournalofEducation&PsychologyDecember,2004,Vol.27No.4,pp.637-694RaschMeasurementTheoryandApplicationinEducationandPsychologyWen-ChungWang*AbstractThispaperdescribesthefoundations,developments,applicationsandresourcesoftheRaschmodel(Rasch,1960).UsingNewton’sSecondLawofMotion,IshowhowthescaleoftheRaschmodelisobjectiveandinterval.ThesimilarityanddifferencebetweentheRaschmodelandmulti-parameterlogisticmodelsareaddressed.ImpactsoftheRaschmodelontestingpracticearecommented.SixmajortrendsinthedevelopmentsoftheRaschmodelareoutlined.ApplicationsofthefamilyofRaschmodelsareillustratedthroughseveralempiricalexamples.Finally,academicjournalpapersofdomesticresearchersinrecentfiveyearsonthetopicsoftheRaschmodelanditemresponsetheoryarelisted.Relevanttextbooks,journals,conferences,computerprograms,andwebsitesarebrieflyintroduced.Keywords:psychologicalmeasurement,objectivemeasurement,intervalscale,itemresponsetheory,classicaltesttheory*Wen-ChungWang:Professor,DepartmentofPsychology,NationalChungChengUniversityE-mail:psywcw@ccu.edu.twRasch測量理論與其在教育和心理之應用639壹、緒論在社會科學的研究裡,常會使用客觀的能力測驗或主觀的自陳量表(含問卷)來測量人的能力、態度、意見、人格特質等。在分數報告方面,則通常使用原始分數(或其線性轉換,如T分數)。例如答對多少考題,就得多少分數(每題1分)。又如使用李克特氏量尺(Likert-typescale)或評等量尺(ratingscale),常將點數視為等距分數,如非常不同意(1分)、有點不同意(2分)、普通(3分)、有點同意(4分)、非常同意(5分)。然後將所有題目的得分加總,代表受試者的程度。有了總分之後,就可以比較個別差異(例如張三的程度比李四來得高10分),或評估改變(張三比過去進步5分),還可以進行團體比較(如女生的平均數比男生高3分)。這些做法都有個基本的假定:這些分數屬於等距量尺。但仔細一想,這些分數並沒有等距的證據,頂多只能說是順序量尺而已。果真如此,以上的這些做法都是有問題的。舉例而言,張三比李四多答對10題,因此差距10分。我們用10分來代表他們之間的差異。如果命題者可以在他們的程度之間,出很多的考題,而且這些考題難度基本上都是張三可以答對,但李四會答錯,那麼他們之間的差異分數可以變得非常之大,我們就會認為他們兩人的差異非常之大。反之,如果這樣的題目很少,那麼他們分數的差異會變得很小,甚至沒有差異。因此用答對題數來表示個別差異顯然是有問題的。又如用答對題數的差異(如5分),來表示張三的進步情形,也是有問題的。假設命題者可以在張三前後的變化程度之間,出很多的考題,而且都是張三前測時,不會作答,後測時都會答對的題目。那麼張三的進步分數可以變得非常大。反之,如果這類的題目很少,張三的進步分數變得很少,甚至沒有變化。同理可以說明用原始分數來表示團體間的差異或進步,也是有問題的。傳統的做法用測驗的得分來定義受試者的程度,用答對率(或同意的比率)來定義題目的難度(閾值)。如果測驗很簡單,受試者的得分就高,因此程度很好。反之,如果測驗很困難,受試者的得分就低,因此程度很差。到底受試者的程度是好是差,取決於測驗的特性,因此是測驗依賴(testdepend-ent)。同理,在判斷題目難度時,如果受試者的程度很差,答對率就低,因此該題難度就很高。反之,如果受試者程度很好,答對率就高,該題目就變得很簡單。到底題目是難是易,取決於受試者樣本的特性,因此是樣本依賴(sam-ple-dependent)。總而言之,受試者的能力估計和題目的難度估計是彼此干擾,沒有「客觀」可言,當然也就得不640教育與心理研究27卷4期到等距的量尺。當以上這些問題無法有效解決時,所得到的測驗分數也沒有多大的價值,後續的分析恐怕都是有問題的。自然科學裡的量尺會這樣互相干擾,沒有客觀和等距特性嗎?現以牛頓第二運動定律為例,說明要如何才能達到客觀等距的境界。牛頓第二運動定律說:力是質量和加速度的乘積。即:F=ma(1)其中F是力,m是質量,a是加速度。假設有兩力F1和F2施於同一物體,則:F1=ma1(2)F2=ma2(3)兩力相除,得到:111222==FmaaFmaa(4)不管該物體的質量是什麼(鉛球或籃球),兩個力的比值都等於兩個加速度的比值。也就是說,力的測量不會受到物體質量的干擾,亦即是客觀測量(objectivemeasurement)。此外,不管當初F1和F2是非常大的力(來自兩個大力士),還是很小的力(來自兩位小孩),F1和F2的比率都是a1/a2。也就是說,力的量尺是比率量尺(ratioscale)。如果力的測量受到物體質量的干擾,將會是怎樣的情形。例如推鉛球時,張三的加速度是李四的兩倍。但是用同樣的力推籃球時,張三的加速度卻是李四的三倍。用同樣的力推足球時,張三的加速度是李四的四分之一倍,那麼要如何說明張三的力是李四的幾倍呢?此時,只能說無法量化張三和李四的力,或者說對他們的測量失敗。現將公式(1)取自然對數log,則:loglogloglog()=()=()+()Fmama(5)⇒=+F'm'a'同樣的,有兩力1'F和2'F施於同一物體,則:11=+'''Fma(6)22=+'''Fma(7)兩力相減,得到:''''''''121212−=(+)−(+)=−FFmamaaa(8)亦即'F的測量與物體特性無關,屬於客觀測量。而且不管當初1'F和2'F是非常大的力還是很小的力,1'F和2'F的差異都是12−''aa。也就是說,'F的量尺是等距量尺(intervalscale)。等距量尺和比率量尺的區分,其實並無多大意義。又或者可以說,所有的等距量尺其實都是比率量尺,因為要產生等距必須要有個參照點,關鍵在於這個參照點(或謂零點)。有人說溫度沒有自然的零點,身高則有。但事實上,所謂自然的零點,一點都不自然,畢竟零不是自然數!只要大夥對於參照點有共識,那麼等距量尺就是比率量尺。例如從高雄起算,到臺北的距離就是到臺中的兩倍。如果沒有共識(從高雄起算),就不知道到臺北的距離是到Rasch測量理論與其在教育和心理之應用641臺中的幾倍。若同意以攝氏0度為參照點,那麼攝氏20度就是攝氏10度的兩倍。攝氏0度、10度、20度換算為華氏分別為32度、50度、68度。此時變為:「若以華氏32度為參照點,那麼華氏68度就是華氏50度的兩倍。」因此溫度是比率量尺。並不是所有自然科學的測量都可以達到客觀和等距的境界。以「硬度」而言,至今只能做到「順序量尺」。亦即只能比較甲物是否比乙物硬,乙物是否比丙物硬。雖然有所謂的「硬度計」,但其原理仍然只是將欲測量的物體,與既有的物體去做比較。因此所得到的數值,僅止於順序,無法詳細說明數值差距的意義。人類對於「硬度」的理解非常有限。硬度有怎樣的物體特性?是怎樣的特性構成硬度?如何增加和減少硬度?一旦人類對於這些問題有清楚的答案之後,對於硬度的測量就可以突破。反之,目前的硬度「測量」其實夠不上測量。社會科學的測量,能夠達到與自然科學測量相同的水準嗎?這一直以來都是社會科學的的夢魘。Stevens(1946,p.679)特別指出:「事實上,心理學家所經常使用的量尺是屬於順序量尺。嚴格來說,凡是會牽涉到平均數和標準差的統計方式,都不可以使用在順序量尺上,因為這類的統計分析對量尺的要求,不單只是順序就足夠。」可惜Stevens的警告似乎沒有喚起多少人的注意,所以在現實中,仍然普遍的將順序量尺直接當作等距量尺,以進行平均數和標準差等計算。當我們發明許多的測驗、量表、問卷的同時,卻發現原始分數沒有客觀和等距的意義。那麼接下來的做法就是:(1)漠視這個現象,還是將原始分數當作等距量尺來處理;(2)承認測量失敗;(3)重新發展出具有客觀等距的量尺以取代原始分數。第一種做法是目前大多數人的共同做法,但嚴格而言,似乎不智。而且已有研究證實,將原始分數視為等距量尺,恐會造成研究結論之不當。例如事實上沒有主要效果,但卻宣稱有主要效果;沒有交互作用效果卻宣稱有交互作用效果(Embretson,1996)。第二種做法,當然是研究者最忌諱的事。畢竟千辛萬苦蒐集資料,但到頭來卻必須承認測量失敗,豈不前功盡棄!第三種做法則是積極的作為。一方面我們認知到原始分數沒有等距的意義,另一方面積極的尋找等距量尺,以達到測量的目的。本文以下說明Rasch如何成功的解決這個困境,比較其他學者所提類似的做法,闡述近年來相關研究的拓展。透過實際的例子,解釋其應用。另外也蒐集了國內外相關的資源,以及介紹軟體。642教育與心理研究27卷4期貳、Rasch模式的特性一、客觀等距量尺GeorgRasch(1901-1980:音譯羅栩,丹麥數學家)提出了所謂的Rasch測量模式(Rasch,1960),就是希望透過受試者的作答反應,得到等距和客觀的量尺。假設受試者n的潛在特質的程度為'θn,試題i的特性(如難度或閾值)為δ'i,作答反應為二元計分(成功或失敗,同意或不同意),Pni1和Pni0分別表示受試者n在第i題得1分和0分的機率,而Pni1+Pni0=1。為方便溝通,本文常將潛在特質稱作能力,題目特性稱作難度,將受試者稱作考生。但這不意涵Rasch模式只能用於能力測驗。潛在特質其實就是測驗想要測量的建構(construct),它可以是能力,也可以人格特質、態度、興趣、價值觀等。現定義勝率(odds)為Pni1/Pnii0,則在Rasch模式裡,勝率為:10θ≡=δ'ninni'niiPoddsP(9)現說明'nθ具有客觀和等距特性如下。假設有張三和李四兩位考生作答同一試題,則:11'i'ioddsθ=δ(10)22'i'ioddsθ=δ(11)張三和李四能力的比值為:11122
本文标题:Rasch-model-and-analysis
链接地址:https://www.777doc.com/doc-6138781 .html