跳到主要內容

臺灣博碩士論文加值系統

(3.236.124.56) 您好!臺灣時間:2021/08/02 07:01
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:黃珮璇
研究生(外文):Huang Pei-Shuan
論文名稱:BIB、PBIB與NEAT設計於多元計分測驗之連結效果比較
論文名稱(外文):the linking performances of BIB, PBIB, and NEAT designs for the assessments composed by polytomous items
指導教授:郭伯臣郭伯臣引用關係
指導教授(外文):Kuo Bor-Chen
學位類別:碩士
校院名稱:國立臺中教育大學
系所名稱:教育測驗統計研究所
學門:教育學門
學類:教育測驗評量學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:72
中文關鍵詞:測驗等化平衡不完全區塊設計部分平衡不完全區塊設計定錨題不等組設計
外文關鍵詞:test equatingbalanced incomplete block designpartially balanced incomplete block designnon-equivalent groups with anchor test design
相關次數:
  • 被引用被引用:2
  • 點閱點閱:351
  • 評分評分:
  • 下載下載:47
  • 收藏至我的研究室書目清單書目收藏:0
本研究是應用試題反應理論(item response theory, IRT)中的等級反應模式(graded response model, GRM),以模擬實驗方式探討平衡不完全區塊設計(balanced incomplete block design, BIB)、定錨題不等組設計(non-equivalent groups with anchor test design, NEAT)與部分平衡不完全區塊設計(partially balanced incomplete block design, PBIB)於多元計分測驗下,以共同估計法進行水平等化之連結成效。研究中藉由估計的能力值誤差與試題參數值誤差比較三設計之連結效果,並提出相關建議,以作為日後研究者進行多元計分測驗之連結設計的參考,是故本研究之目的為探究BIB、NEAT與PBIB設計於不同施測人數、不同試題區塊數、不同之題本配置方式下之多元計分測驗之連結效果。

本研究的結果發現:
一、增加施測人數能降低試題鑑別度與選項閾值參數的估計誤差,但是對於受試者能力參數估計並無太大影響。
二、各參數估計誤差隨著題庫中之總試題數增加而增大。
三、在受試者能力參數估計方面,以NEAT設計最佳,且PBIB和BIB設計對於受試者能力參數之估計誤差差距甚小。
四、在試題參數估計方面,以BIB設計為佳。
The purpose of this study is to investigate the linking performances of the balanced incomplete block design (BIB), partially balanced incomplete block design (PBIB), and non-equivalent groups with anchor test design (NEAT) designs for the assessments composed by polytomous items. The simulation data are generated for the comparison experiments. Three independent factors are considered in this study: (1) the numbers of examinees; (2) administrated items; (3) test lengths.
The results show that:
(1) The root mean square differences (RMSE) of the item parameters decreases as the number of examinees increases;
(2) The RMSE of the parameters increases as the number of blocks in the booklet increases;
(3) NEAT outperforms BIB and PBIB in estimating abilities of examinees;
(4) BIB outperforms NEAT and PBIB in estimating item parameters.
第一章 緒論 1
第一節 研究動機與目的 1
第二節 名詞釋義 4
第二章 文獻探討 6
第一節 寫作評量之設計 6
第二節 試題反應理論 10
第三節 測驗等化之意義與種類 13
第四節 等化連結設計 15
第三章 研究方法 20
第一節 研究步驟 20
第二節 連結設計之變項設定 22
第三節 BIB設計 27
第四節 NEAT設計 30
第五節 PBIB設計 32
第六節 研究軟體 35
第四章 研究結果 36
第一節 BIB設計之估計結果 36
第二節 PBIB設計之估計結果 43
第三節 NEAT設計之估計結果 47
第四節 BIB、PBIB與NEAT設計之綜合估計結果 51
第五章 結論與建議 55
第一節 結論 55
第二節 後續研究建議 57
參考文獻 58
中文部份
王寶墉(1995)。現代測驗理論。臺北市:心理出版社。
余民寧(1992a)。試題反應理論的介紹(三)- 試題反應模式及其特性。研習資訊9(2),6-10。
余民寧(1992b):試題反應理論的介紹(九)-測驗分數的等化(上)。研習資訊10(2),6-11。
李源煌、楊玉女(2000)。建立學科評量量尺之理論基礎。中國測驗學會測驗年刊,47輯,1期,頁95-116。
吳裕益(1991)。IRT等化法在題庫建立之應用。初等教育學報,第四輯,pp.319-365。國立臺南師範學院初等教育學系。
洪碧霞、吳裕益、陳英豪(1991)。IRT參數量尺化系列研究:考生人數及能力特質,共同試題題數及難度特質,及連結方法等因素對連結效益影響之探討。國科會報告,NSC 80-0301-H-024-01。
曾玉琳、王暄博、郭伯臣、許天維(2006)。不同BIB設計對測驗等化的影響。測驗統計年刊,第十三輯下期,頁209-229。台中市:國立台中教育大學。
王暄博(2006)。BIB與NEAT設計之水平及垂直等化效果比較。國立台中師範學院教育測驗統計研究所碩士論文。
黃美芳(2006)。試題反應理論三參數模式下等化效果之探究。國立台中師範學院教育測驗統計研究所碩士論文。
陳雁芳(2006)。等級反應模式下等化效果之探究。國立台中師範學院教育測驗統計研究所教學碩士論文。
劉穎蓁(2006)。項目反應理論應用在不同期測驗之等化分析。國立台北大學統計學系碩士論文。


英文部份
Allen, N.L., Donoghue, J.R., & Schoeps, T.L. (2001). The NAEP 1998 technical report, (NCES 2001-509 ). Washington, DC: National Center for Educational Statistics.
Bose R. C. & Nair K. R. (1939). Partially balanced incomplete block designs, Sankhya 4, 337-372.
Evaluation of National and State Assessments of Evaluation. Board on Educational Testing and Assessment. Washington, DC: National Academy Press.
Kim, S.H. & Cohen, A.S. (1998). A Comparison of Linking and Concurrent Calibration Under Item Response Theory. Applied Psychological Measurement, 22, 131-143.
Kim, S. H., & Cohen, A. S. (2002). A comparison of linking and concurrent calibration under the graded response model. Applied Psychological Measurement, 26(1), 25-40.
Kolen, M.J. & Brennan, R.J. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag.
Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking: methods and practices (2nd ed.). New York: Springer-Verlag.
Klein, L. W., & Jarjoura, D. (1985). The importance of content representation for common-item equating with non-random groups. Journal of Educational Measurement, 22, 197-206.
Kolen, M. J. (2000). Issues in Combing State NAEP and Main NAEP. In J. W. Pellegrino, L. R. Jones, & K. J. Mitchell, (Eds.), Grading the Nation’s Reportcard: Research from the Evaluation of NAEP.
Kuehl, R. O. (2000). Design of Experiments: Statistical Principles of Research Design and Analysis. CA: Duxbury Press.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale, NJ: Lawrence Erlbaum.
Matthias von Davier & Alina A. von Davier (2004). A Unified Approach to IRT Scale Linking and Scale Transformations. (ETS RR-04-09). Princeton, NJ: ETS.
Mislevy, R. J. & Bock R. D. (1990). BILOG-3 (2nd ed.): Item analysis and test scoring with binary logistic models. Mooresvilk: Scientific Software.
Mislevy, R. J. & Bock R. D. (1982). Implementation of the EM algorithm in the estimation of item parameters: The BILOG computer program. In: Item Response Theory and Computerized Adaptive Testing Conference Proceedings (Wayzata, MN).
Muraki, E. (1992). A generalized partial credit model: application of an EM Algorithm. Applied Psychological Measurement, 16, 159-176.
Nancy, L. A., John, R. D., & Terry L. S. (2001). The NAEP 1998 Technical Report (NCES 2001-509). National Assessment Governing Board, U.S. Department of Education.
Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization. New York: John Wiley.
Reise, S.P., & Yu, J. (1990). Parameter recovery in the graded response model using MULTILOG. Journal of Educational Measurement, 27, 133-144.
Rust, K.F & Johnson, E.G. (1992). Sampling and weighting in the national assessment. Journal of Educational Measurement, 17, 111-129.
Samejima, F. (1969). Estimation of a latent ability using a response pattern of graded scores. Psychometrika Monograph Supplement, 17.
Thissen, D. (1991). MULTILOG user’s guide: Multiple, categorical item analysis and test scoring using item response theory [Computer program]. Chicago: Scientific Software International.
van der Linden, W.J., & Veldkamp, B.P.,& Carlson, J.E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments. Applied Psychological Measurement, 28, 317-331.
von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The kernel method of test equating. New York: Springer.
Yates, F. (1936). A new method of arranging variety trials involving a large number of varieties. J. Agric. Sci. 26, 424-455.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top