您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > IRT在量表(测验)编制上的应用
IRT在量表(測驗)編製上的應用陳柏熹台灣師大心輔系大綱IRT的概念與發展IRT在測驗編製上的應用IRT在電腦化適性測驗上的應用MIRT在多向度測驗上的應用一、IRT的概念與發展)()(1ijijbbijeePj為考生j的能力,bi是試題i的難度,Pij是受測者答對某個題目的機率試題反應理論(itemresponsetheory;IRT)的基本概念試題反應理論(IRT)與古典測驗理論(CTT)比較試題反應理論傳統測驗理論模式特性•試題的作答反應模式。•不同IRT模式適用不同測驗。•測驗總分的模式。•各種測驗都使用同一套模式。試題參數題目參數估計不變性。題目參數會受到受試者能力影響能力量尺•能力估計不變性。•根據概似函數估計程度,理論基礎強。•可直接參照題目或發展參照標準來解釋分數•可算出等距量尺。•受試者能力受到題目特性影響。•各題目配分直接加總,缺乏理論基礎•需發展參照標準才能解釋分數。•群體為常態分布才能算出等距量尺。信度測量精確度(訊息量)隨著受試者能力以及所接受的題目特性而不同。接受同一測驗的所有受試者其測量精確度(信度)都相同。應用編製測驗(量表)、分數等化,編製題庫、電腦化適性測驗、組合測驗編製測驗(量表)整體評估優點:能力估計不變性、具有題目參數估計不變性、測量精準度的概念較合理、應用層面較廣。缺點:不易理解、能力估計與試題參數估計較麻煩,須仰賴電腦軟體來分析優點:模式簡單易理解,能力與試題參數容易計算。缺點:等測量標準誤假設不合理、應用較狹隘,受試者程度受題目特性影響、題目參數受受試者特性影響。試題反應理論(IRT)與古典測驗理論(CTT)比較(續)二元計分模式Rasch模式常見的IRT模式0.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)答對機率b1=0b2=1b3=-1)()(1ijijbbijeeP二元計分模式二參數模式)()(1ijiijibabaijeeP0.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)答對機率b1=0,a1=1.5b2=0,a2=0.5二元計分模式三參數模式)()(1)1(ijiijibabaiiijeeccP0.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)答對機率b1=0,a1=1.5,c1=0.4b2=0,a2=0.5,c2=01-cc多元計分模式部份給分模式imrrjijxjijixP000])([exp)](exp[)()](3exp[)](2exp[]exp[1]exp[32112111iiiiiii0.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)得到m分的機率m=0m=1m=2m=31113120.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)得到m分的機率m=0m=1m=2m=3212322多元計分模式評定量尺模式lumda=-0.50.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)得到m分的機率m=0m=1m=2m=3lumda=0.50.00.20.40.60.81.0-3.0-2.0-1.00.01.02.03.0潛在特質(能力)得到m分的機率m=0m=1m=2m=3mrrjjixjjiixP000]})([{exp})]([exp{)(單向度測驗中的所有題目主要都是測量相同的某一項特質,或是受試者在測驗題目上的答題反應主要是受到單一項特質所影響。局部獨立性相同能力水準的受試者,在各個題目上的答對機率是互相獨立的。IRT的基本假設評量系統公司當代IRT的發展向度數量計分方式參數個數模式提出者適用軟體單向度二元計分單參數模式(Rasch模式)Rasch(1960)Bigstep,BILOG,BILOG-MG二參數模式Lord(1952)三參數模式Birnbaum(1968)多元計分類別反應模式(nominalresponsemodel)Bock(1972)MULTILOG,ConQuest等級反應模式(graderesponsemodel)Samejima(1969)部份給分模式(partialcreditmodel)Wright&Masters(1982)評定量尺模式(ratingscalemodel)Andrich(1978)多向度二元計分多向度二參數模式Mckinley&Reckase(1983)NOHARM,ConQuest多向度三參數模式Hattie(1981)多元計分多元計分模式Adams,Wilson&Wang,(1997)編製測驗(量表)測驗等化建立題庫組合測驗電腦化適性測驗IRT的應用二、IRT在測驗編製上的應用測驗(量表)設計原理優良測驗設計(BestTestDesign)(Wright&Stone,1979)測量的概念要具有可以測量的潛在特質欲測量的特質必須是單向度能設計出測量不同程度特質的題目,並適當安排受測者的答題反應必須是合理的分數量尺應該要符合等距的特性每天都有用不完的能量常做激烈運動還能活力十足身體功能正常,不影響日常生活從事簡單的活動(散步)後不會累沒有臥病在床休息與睡眠功能正常有辦法從事簡單的運動,如慢跑甲受試者乙受試者測量的單向度概念:甲受試者乙受試者甲受試者乙受試者甲受試者乙受試者低程度題目高程度題目高程度題目高程度題目低程度題目低程度題目0分8分4分5分2分5分選擇模式計分或估計能力時,是否要對題目進行加權?對量尺特性的要求。希望獲得的試題參數類型。根據量尺特性或測驗分析的目的來決定。資料與模式的符合度的比較。估計受試者程度值反應概似函數(likelihoodfunction)例如:在難度為(-1,-0.5,0,1,2)的題目答出[1,1,0,1,0]時尋找最佳解的方法:最大概似法(MaximumLikelihood;ML)貝氏最大後驗法(maximumaposteriori,MAP)貝氏期望後驗法(expectedaposteriori,EAP))1()1(54321PPPPPLkjniUiUiijiiiQPbUL111),|()11(1)11(11)2()2()1()1()0()0()]5.0([)]5.0([)]1([)]1([eeeeeeeeee尋找概似函數最佳解的方法:1.最大概似法(MaximumLikelihood;ML)找出能使受試者的反應概似函數最佳化的能力值,為了加速找到最佳解,通常使用牛頓-約佛森(Newton-Raphson)法進行疊代:2.貝氏最大後驗法(maximumaposteriori,MAP)以受試者的事前能力分布作為加權值,形成事後機率密度函數,並找出能使此事後機率密度函數最大化的能力值。3.貝氏期望後驗法(expectedaposteriori,EAP)與2.類似,但所尋找的能力值是事後機率密度函數的期望值(相當於平均數),而不是最大值(相當於眾數)。)()1()(jjj)|(ln)|(ln2)(uuLLj試題分析反應概似函數(likelihoodfunction)常見的試題參數估計法聯合最大概似法(jointmaximumlikelihood;JML)先假設試題參數已知(設定所有題目的難度為0),估計受試者的暫時程度值;再把題目難度設定為未知,利用暫時的能力估計值來估計題目參數邊際最大概似法(marginalmaximumlikelihood;MML)估計題目參數時,考慮受試者背後常模的分布型態條件最大概似法(conditionalmaximumlikelihood;CML)用答對題數來估計受試者能力值,接著再用受試者能力值來估計試題參數kjniUiUiijiiiQPbUL111),|(測驗訊息量與測量誤差題目訊息量(iteminformation):測驗訊息量為題目訊息量總和。測量誤差:iiiiQPPI2')()(1)(ISE0.00.20.40.60.81.01.21.4-3.0-2.0-1.00.01.02.03.0潛在特質(能力)訊息量Inf1Inf2Inf3Inf4Inf5Inf6Inf7Test-Inf檢視資料的符合性一、基本假設的檢定單向度:1.受試者反應型態的合理性2.計算內部一致性信度3.進行主成分分析4.使用線性或非線性的因素分析5.殘差值分析局部獨立性:依能力高低分成若干組別,分別在每個組別中算出各題得分的相關矩陣,看各題目得分是否有顯著相關二、模式符合度的檢驗題目符合度:ICC曲線、Bock(1972)的2值、多模式的概率比受試者符合度:能力估計誤差、受試者符合度指標以IRT編製測驗的範例(1)ㄧ、能力測驗的編製九十四年第一次國中基測驗數學科,共有33題。資料來源為作者向國中基本學力測驗推動工作委員會申請,該單位僅提供5000筆供研究用。此處僅使用其中500筆。ConQuest程式寫法:datafilemath941a.prn;formatresponse1-33;codesABCD;keyDDABCBCBBACDBBADCDBACDCCAABCADBAB!1;setconstraints=cases;modelitem;estimate!converge=0.01;itanalmath941.itn;showmath941.shw;showcases!estimates=mlemath941.mle;showcases!estimates=eapmath941.eap;reset;以IRT編製測驗的範例(2)二、人格與態度量表的編製作者自行發展的生活品質量表(陳柏熹,1999)。該量表主要測量受試者在身體、心理、獨立性、社交、環境、心靈等層面的生活品質感受,以及整體生活品質感受。每個題目都是以「非常像我」、「大致像我」、「不太像我」、「非常不像我」等四點計分。本節僅使用身體層面的生活品質感受題目為例進行分析。ConQuest程式寫法:datafilewhodata.dat;formatid1-11response12-23;score(1,2,3,4)(0,1,2,3);setconstraints=cases;modelitem+step;estimate!converge=0.01;itanalwhodata.itn;showwhodata.shw;reset;
本文标题:IRT在量表(测验)编制上的应用
链接地址:https://www.777doc.com/doc-3327503 .html