跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.91) 您好!臺灣時間:2025/02/19 20:21
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳雁芳
研究生(外文):Chen, Yen-Fang
論文名稱:等級反應模式下等化效果之探究
論文名稱(外文):An Investigation of Equating Effect Under the Graded Response Model
指導教授:郭伯臣郭伯臣引用關係
指導教授(外文):Kuo, Bor-Chen
學位類別:碩士
校院名稱:國立臺中教育大學
系所名稱:教育測驗統計研究所
學門:教育學門
學類:教育測驗評量學類
論文種類:學術論文
論文出版年:2006
畢業學年度:95
語文別:中文
論文頁數:101
中文關鍵詞:多元計分模式等級反應模式等化同時估計
外文關鍵詞:polytomous IRT modelgraded response modelequatingconcurrent estimation
相關次數:
  • 被引用被引用:3
  • 點閱點閱:830
  • 評分評分:
  • 下載下載:98
  • 收藏至我的研究室書目清單書目收藏:3
隨著要測量的概念日趨複雜,僅以二元計分試題施測已不敷所需,多分題、題組題等不同類型的試題也逐漸被廣泛使用。多元計分的試題已出現在許多真實測驗情境,包含大型測驗如美國的NAEP、我國的TASA-LN等。在大型測驗中,如果多個群體施測不同版本的測驗時,各群體的分數如要進行比較,便需進行等化的程序。由於在Kim & Cohen(2002)的研究指出,需將估計值量尺連結到真值的量尺上才算完成等化,但在許多實務情境中,參數真值並不可得,為了能於真實情境中實施,因此本研究透過模擬資料,以等級反應模式(graded response model, GRM)作為多元計分試題等化程序的分析模式,並探討在等級反應模式下,水平等化及垂直等化兩種情境中,以新的等化步驟—估計值標準化—進行等化時,不同獨變項對等化效果之影響。
研究結果發現在水平等化時,測驗長度愈長、施測人數愈多,則參數估計愈精準,且選用同時估計法進行等化的效果略優於分開估計法;垂直等化時,測驗長度愈長,參數估計愈精準,選用分開估計法且兩群體的樣本數相當來進行等化,可得到較理想的參數估計值。
依據本研究的結果發現,測驗長度為影響等化效果之主因,若施測的兩群體之樣本數相等,則進行垂直等化時將提高能力值的估計誤差。定錨題比例的增加能降低估計誤差,但在水平等化時的影響甚微。以估計法而言,水平等化時以同時估計法略優,垂直等化時則以分開估計法較佳。
As the concepts that being measured become more complicated, different type of items were being used in real test situation. Polytomous items were used in large-scale test, such as NAEP, TASA-LN, for a long time. To compare scores of different groups of examinees on large-scale test, the procedures of equating should be carried out. From simulation data, this study investigates the effect of the new equating procedure, estimates standardized, on parameter estimation under graded response model.

Four independent factors were manipulated: (1) sample sizes; (2) test lengths; (3) percent of anchor items, and (4) estimation methods.

In the horizontal equating, the RMSE was smaller when the test length or sample size was increased. The accuracy of parameter estimates will be higher under concurrent estimation, even when the percentage of anchor items in the test was onle 10%. In the vertical equating, on the other hand, the RMSE was smaller when the test length increased. If separate estimation was adopted, lower RMSE will be obtained if the sample sizes of two groups are equivalent.
It was shown that the test length is the main factor that affects the results of equating. When the sample sizes of the base and target group were equivalent under vertical equating, the RMSE will decrease if the percentage of anchor items of the test increases. However, this is not hold under horizontal equating. To sum up, the concurrent estimation shows better performance under horizontal equating, whereas the separate estimation performs better under vertical equating.
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的與問題 4
第三節 名詞解釋 5
第二章 文獻探討 7
第一節 測驗理論 7
第二節 測驗等化理論 12
第三節 GRM模式等化的相關研究 23
第三章 研究方法 25
第一節 研究設計 25
第二節 研究流程圖 29
第三節 模擬資料產生 30
第四節 定錨題分配及參數估計 35
第五節 評鑑等化效果之效標 36
第六節 研究軟體 38
第四章 研究結果 39
第一節 「估計值標準化」的等化步驟 39
第二節 「估計值標準化」方法下水平等化之估計結果 41
第三節 「估計值標準化」方法下垂直等化之估計結果 68
第五章 結論與建議 95
第一節 結論 95
第二節 後續研究建議 98
參考文獻 99
中文部分 99
英文部分 100
表 次
表2-1 隨機組設計 15
表2-2 單一組設計 15
表2-3 平衡對抗單一組設計 16
表2-4 定錨題不等組設計 17
表3-1 模擬產生之試題參數值 31
表4-1 水平等化時,同時估計在各個情境下各參數RMSE的平均數與標準差 42
表4-2 水平等化時,分開估計在各個情境下各參數RMSE的平均數與標準差 43
表4-3 水平等化時,RMSE(θb)與RMSE(θt)在不同人數分配下的表現 46
表4-4 水平等化時,RMSE(a)在不同人數分配下的表現 47
表4-5 水平等化時,同時估計法的RMSE(bk)在不同人數分配下的表現 48
表4-6 水平等化時,分開估計法的RMSE(bk)在不同人數分配下的表現 49
表4-7 水平等化時,RMSE(θb)與RMSE(θt)在不同測驗長度下的表現 52
表4-8 水平等化時,RMSE(a)在不同測驗長度下的表現 53
表4-9 水平等化時,同時估計法的RMSE(bk)在不同測驗長度下的表現 54
表4-10 水平等化時,分開估計法的RMSE(bk)在不同測驗長度下的表現 55
表4-11 水平等化時,RMSE(θb)與RMSE(θt)在不同定錨題比例下的表現 58
表4-12 水平等化時,RMSE(a)在不同定錨題比例下的表現 59
表4-13 水平等化時,同時估計法的RMSE(bk)在不同定錨題比例下的表現 60
表4-14 水平等化時,分開估計法的RMSE(bk)在不同定錨題比例下的表現 61
表4-15 垂直等化時,同時估計在各個情境下各參數RMSE的平均數與標準差 69
表4-16 垂直等化時,分開估計在各個情境下各參數RMSE的平均數與標準差 70
表4-17 垂直等化時,RMSE(θb)與RMSE(θt)在不同人數分配下的表現 73
表4-18 垂直等化時,RMSE(a)在不同人數分配下的表現 74
表4-19 垂直等化時,同時估計法的RMSE(bk)在不同人數分配下的表現 75
表4-20 垂直等化時,分開估計法的RMSE(bk)在不同人數分配下的表現 76
表4-21 垂直等化時,RMSE(θb)與RMSE(θt)在不同測驗長度下的表現 79
表4-22 垂直等化時,RMSE(a)在不同測驗長度下的表現 80
表4-23 垂直等化時,同時估計法的RMSE(bk)在不同測驗長度下的表現 81
表4-24 垂直等化時,分開估計法的RMSE(bk)在不同測驗長度下的表現 82
表4-25 垂直等化時,RMSE(θb)與RMSE(θt)在不同定錨題比例下的表現 85
表4-26 垂直等化時,RMSE(a)在不同定錨題比例下的表現 86
表4-27 垂直等化時,同時估計法的RMSE(bk)在不同測驗長度下的表現 87
表4-28 垂直等化時,分開估計法的RMSE(bk)在不同測驗長度下的表現 88
表5-1 水平等化時,獨變項對各參數估計及等化效果優劣之比較 96
表5-2 垂直等化時,獨變項對各參數估計及等化效果優劣之比較 97

圖 次
圖2-1 GRM模式下試題i的類別反應函數的機率分佈圖 11
圖3-1 研究流程圖 29
圖3-2 基準群受試者500人~N(0,1)的能力分佈圖 32
圖3-3 目標群受試者1000人~N(0,1)的能力分佈圖 32
圖3-4 基準群受試者2000人~N(-0.5,1)的能力分佈圖 33
圖3-5 目標群受試者1000人~N(0.5,1)的能力分佈圖 33
圖4-1 水平等化時,RMSE(θb)與RMSE(θt)在同時估計法與分開估計法下的表現 64
圖4-2 水平等化時,RMSE(a)在同時估計法與分開估計法下的表現 65
圖4-3 水平等化時,同時估計法與分開估計法的RMSE(b1)在不同情境下的表現 66
圖4-4 水平等化時,同時估計法與分開估計法的RMSE(b2)在不同情境下的表現 66
圖4-5 水平等化時,同時估計法與分開估計法的RMSE(b3)在不同情境下的表現 67
圖4-6 水平等化時,同時估計法與分開估計法的RMSE(b4)在不同情境下的表現 67
圖4-7 垂直等化時,RMSE(θb)與RMSE(θt)在同時估計法與分開估計法下的表現 91
圖4-8 垂直等化時,RMSE(a)在同時估計法與分開估計法下的表現 92
圖4-9 垂直等化時,同時估計法與分開估計法的RMSE(b1)在不同情境下的表現 93
圖4-10 垂直等化時,同時估計法與分開估計法的RMSE(b2)在不同情境下的表現 93
圖4-11 垂直等化時,同時估計法與分開估計法的RMSE(b3)在不同情境下的表現 94
圖4-12 垂直等化時,同時估計法與分開估計法的RMSE(b4)在不同情境下的表現 94
中文部分
王寶墉(1995):現代測驗理論。臺北市:心理出版社。
余民寧(1992a):試題反應理論的介紹(一)–測驗理論的發展趨勢。研習資訊8(6),13-18。
余民寧(1992b):試題反應理論的介紹(二)–測驗理論的發展趨勢。研習資訊9(1),5-9。
余民寧(1992c):試題反應理論的介紹(三)-試題反應模式及其特性。研習資訊9(2),6-10。
余民寧(1993a):試題反應理論的介紹(九)-測驗分數的等化(上)。研習資訊10(2),6-11。
余民寧(1993b):試題反應理論的介紹(十)-測驗分數的等化(下)。研習資訊10(3),11-16。
黃志傑(1994)。定錨試題分佈對測驗等化之影響。國立台中師範學院教育測驗統計研究所碩士論文,未出版。

英文部分
Andersen, E. B. (1977). Sufficient statistics and latent trait models. Psychometrika, 42, 69-81.
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573.
Baker, F. B. (1992). Equating tests under the graded response model. Applied Psychological Measurement, 16, 87-96.
Baker, F. B. (1993). EQUATE 2.0: A computer program for the characteristic curve method of IRT equating. Applied Psychological Measurement, 17, 20.
Baker, F. B. (1997). Emprirical sampling distributions of equating coefficients for graded and nominal response instruments. Applied Psychological Measurement, 21, 157-172.
Baker, F. B., & Al-Karni, A. (1991). A comparison of two procedures for computing IRT equating coefficients. Journal of Educational Measurement, 28, 147-162.
Cohen, A. S., & Kim, S. H. (1998). An investigation of linking methods under the graded response model. Applied Psychological Measurement, 22(2), 116-130.
Hanson, B. A. &. Béguin, A. A. (2002). Obtaining a Common Scale for Item Response Theory Item Parameters Using Separate Versus Concurrent Estimation in the Common-Item Equating Design. Applied Psychological Measurement, 26(1), 3-24.
Kim, S. H., & Cohen, A. S. (1995). A minimum method for equating tests under the graded response model. Applied Psychological Measurement, 19, 167-176.
Kim, S. H., & Cohen, A. S. (1998). A comparison of linking and concurrent calibration under item response theory. Applied Psychological Measurement, 22(2), 131-143.
Kim, S. H., & Cohen, A. S. (2002). A comparison of linking and concurrent calibration under the graded response model. Applied Psychological Measurement, 26(1), 25-40.
Kolen, M. J. & Brennan, R. L. (1995). Test equating: methods and practices. New York: Springer-Verlag.
Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking: methods and practices (2nd ed.). New York: Springer-Verlag.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum.
Loyd, B. H., & Hoover, H. D. (1980). Vertical equating using the Rasch model. Journal of Educational Measurement, 17, 169-194.
Linn, R. L., Levine, M. V., Hastings, C. N., & Wardrop, J. L. (1981). Item bias in a test of reading comprehension. Applied Psychological Measurement, 5, 159-173.
Marco, G. L. (1977). Item characteristic curve solutions to three intractable testing problems. Journal of Educational Measurement, 14, 139-160.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47,149-174.
Reise, S.P., & Yu, J. (1990). Parameter recovery in the graded response model using MULTILOG. Journal of Educational Measurement, 27, 133-144.
Stocking, M. L.,& Lord, F. M. (1983). Developing a common metric in item response theory. Applied Psychological Measurement, 7, 201-210.
Samejima, F. (1969). Estimation of a latent ability using a response pattern of graded scores. Psychometrika Monograph Supplement, 17.
Samejima, F. (1972). A general model for free response data. Psychometrika Monograph Supplement, 18.
Thissen, D. (1991). MULTILOG user’s guide: Multiple, categorical item analysis and test scoring using item response theory [Computer program]. Chicago: Scientific Software International.
Vale, C. D. (1986). Linking item parameters onto a common scale. Applied Psychological Measurement, 10, 333-344.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 試題反應理論三參數模式下等化效果之探究
2. 國小數學領域四年級幾何能力指標之電腦適性測驗編製及動畫補救教學之應用
3. 國小六年級學童分數乘除概念與運算錯誤類型之研究
4. 以a-鄰近法為選題策略之電腦化適性測驗模擬研究
5. 以能力指標結構為基礎的電腦適性測驗編製及動畫補救教學之應用—以國小數學領域五年級分數、小數相關議題(含數線與比率)與時間計算能力指標為例以能力指標結構為基礎的電腦適性測驗編製及動畫補救教學之應用—以國小數學領域五年級分數、小數相關議題(含數線與比率)與時間計算能力指標為例以能力指標結構為基礎的電腦適性測驗編製及動畫補救教學之應用
6. 國小數學領域五年級量與實測能力指標之電腦適性測驗編製及動畫補救教學之應用
7. 國小四、五、六年級學童周長迷思概念之探討
8. 國小五年級數學領域數與量能力指標之電腦適性測驗編製及動畫補救教學應用
9. 宿題評量在國小數學科之應用—以二年級學童二位數加減法為例—
10. 中文字型種類以及字距與行距對國小六年級學童閱讀速度之影響
11. 適用於高維度資料分類之階層式辨識系統
12. 教師智慧表現量表之研發及相關研究的探討
13. TIMSS數學實作評量試題在台灣試行施測結果之分析比較
14. 死亡教育課程對國小低年級學童死亡概念及態度影響之研究
15. 國小數學領域基本能力測驗編製與分析研究