跳到主要內容

臺灣博碩士論文加值系統

(34.204.176.71) 您好!臺灣時間:2024/11/10 19:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:張雅玲
研究生(外文):Chang, Ya-Ling
論文名稱:題組題與單選題混合測驗之BIB設計效果探究
指導教授:曾建銘曾建銘引用關係陳桂霞陳桂霞引用關係
學位類別:碩士
校院名稱:國立臺中教育大學
系所名稱:教育測驗統計研究所
學門:教育學門
學類:教育測驗評量學類
論文種類:學術論文
論文出版年:2010
畢業學年度:99
語文別:中文
論文頁數:105
中文關鍵詞:平衡不完全區塊設計題組
外文關鍵詞:BIBtestlet
相關次數:
  • 被引用被引用:0
  • 點閱點閱:195
  • 評分評分:
  • 下載下載:12
  • 收藏至我的研究室書目清單書目收藏:0
摘要
本研究是利用電腦模擬資料,探討題組與單題混合測驗,在平衡不完全區塊設計(balanced incomplete block design, BIB)下,設定當受試者能力分布為常態或雙峰時,控制不同的施測人數、施測題數、題組題數比例、題組效果變異數此四種變項,比較BILOG-MG、SCORIGHT此二種軟體估計受試者能力參數及試題參數的精準度。研究中主要變項為:(一)施測人數為5460人和7566人﹔(二) 測驗題數為27題和45題﹔(三) 題組比例分別佔總題數的1/3和2/3(四) 題組效果變異數分別為0、0.5和1。
研究結果發現:
1.受試者能力分布為常態時,不論用何者軟體估計參數的誤差值,都顯示出人數越多或是題數越多估計越精準。
2.受試者能力分布為雙峰時,不論用何者軟體估計參數的誤差值,都顯示出人數越少或是題數越多估計越精準。
3.受試者能力分布為常態時,比較兩種軟體估計參數的結果,均以SCORIGHT此軟體估計能力參數、試題鑑別度和難度參數得到較低的估計誤差值,估計較為精準。但試題參數中的猜測度較無規律性。
4.受試者能力分布為雙峰時,比較兩種軟體估計參數的結果,均以BILOG-MG此軟體估計試題參數中的難度與猜測度得到較低的估計誤差值,估計較為精準。但受試者能力值與試題參數中的鑑別度較無規律性。


關鍵詞:平衡不完全區塊設計、題組
Abstract
This research is to estimate the root mean square error (RMSE) of ability parameters and item parameters by BILOG-MG and SCORIGHT when the ability distribution is normal or bimodal in balanced incomplete block design(BIB). The factors taken into consideration include the following: the sample sizes (5460 and 7566), the number of examinees (27 and 45), the proportion of the testlet items (1/3 and 2/3) and the variances of the testlet effects (0, 0.5 and 1).

The results of this research show that:
1.The RMSE decreases as the sample size or the number of examinees increase when the ability distribution is normal.
2.The RMSE decreases as the sample size decrease or the number of examinees increase when the ability distribution is bimodal.
3.When the ability distribution is normal, compare with BILOG-MG and SCORIGHT simulation, the RMSE of the ability, the item discrimination and difficulty parameters are smaller under SCORIGHT simulation, but the RMSE of the pseudo-chance parameter is random.
4.When the ability distribution is bimodal, compare with BILOG-MG and SCORIGHT simulation, the RMSE of the pseudo-chance and the item difficulty parameters are smaller under BILOG-MG simulation, but the RMSE of the ability parameters and the item discrimination are random.

Key word:BIB、testlet
目錄
第一章 緒論01
第一節 研究動機01
第二節 研究目的與問題03
第三節 名詞解釋04

第二章 文獻探討07
第一節 試題反應理論07
第二節 題組反應理論09
第三節 BIB設計簡介11
第四節 估計參數的軟體介紹13

第三章 研究方法17
第一節 研究架構17
第二節 研究工具20
第三節 BIB設計21

第四章 研究結果與討論24
第一節 BIB設計下BILOG-MG參數估計結果24
第二節 BIB設計下SCORIGHT參數估計結果29
第三節 BILOG-MG和SCORIGHT參數估計結果比較34

第五章 結論與建議62
第一節 結論62
第二節 改進建議64

參考文獻66
中文部分66
英文部分67

附錄一、常態與雙峰下,不同變項對BILOG參數估計之影響70
附錄二、常態與雙峰下,不同變項對BILOG參數估計之影響76
附錄三、常態與雙峰下,兩種軟體在不同變項的參數估計結果82
參考文獻
中文部份
TASA臺灣學生學習成就評量資料庫(2004)。臺北縣:國家教育研究院籌備處。
王暄博(2006)。BIB與NEAT設計之水平及垂直等化效果比較。國立臺中教育大學
教育測驗統計研究所碩士論文。
余民寧(1992a)。試題反應理論的介紹(一)基本概念與假設。研習資訊,9(1),頁5-9。
余民寧(1992b)。試題反應理論的介紹(三) ── 試題反應模式及其特性。研習資訊,9 (2),頁6-10。
許思雯(2008)。題組測驗在三種IRT計分模式能力估計精確性之比較。國立台南大學測驗統計研究所碩士論文。
曾玉琳、王暄博、郭伯臣、許天維(2006)。不同BIB 設計對測驗等化的影響。測
驗統計年刊,第十三輯下期,頁209-229。台中市:國立台中教育大學。
彭森明(2003,7月)。如何建置全國性教育資料庫,使其發揮最大價值與功能。文
教新潮,8 (3),37-44 。
楊孟麗、譚康榮、黃敏雄(2003)。心理計量報告:TEPS 2001 分析能力測驗。2009年11月10日,取自http://www.teps.sinica.edu.tw/TestingReport2004-2-10.htm
趙素珍(1997)。BILOG-MG之簡介。測驗統計簡訊雙月刊,18,頁33-54。
趙素珍(1998)。IRT軟體估計精準度之比較。國立台中師範學院國民教育研究所
碩士論文。
顏秀聿(2009)。題組測驗等化效果於不同等化設計之比較。國立臺中教育大學
教育測驗統計研究所碩士論文。



英文部分
Allen, N.L., Donoghue, J.R., & Schoeps, T.L. (2001). The NAEP 1998 technical report. Washington, DC: National Center for Educational Statistics.
Allen S., &Sudweeks R.R.(2001). Identifying and managing local item Dependence in
context-dependent item sets. Paper presented at the annual meeting of the
American Educational Research Association, Seattle, WA.
Baker, F. B. (1992). Item Response Theory: Parameter Estimation Techniques. New
York: Marcel Dekker. Inc.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee•s
ability. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores(pp. 397-479). Reading, MA: Addison-Wesley.
Bradlow,E. T.,Wainer H., & Wang X. (1999). A Bayesian random effects model for
testlets. Psychometrika, 64(2),153-168.
Cureton, E.E.(1965). Reliability and validity: Basic assumptions and experimental
designs. Educational and Psychological Measurement,25,326-346
Ebel,R.L.(1951).Writing the testing item. In E.F. Lindquist(Ed.), Educational
Measurement(pp.185-249).Washington,DC:American Council on Education.
Haladyna T. M.(1992).Context-Dependent Item Sets. Educational Measurement:
Issues and Practice,11(4),21-25.
Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory: Principles
and Application. Boston, MA:Kivwer-Nijhoff.
Hambleton, R. K., Zaal, N. J., & Pieters, J. P. M. (1991). Computerized Adaptive Testing: Theory, Applications, and Standards. In R. K. Hambleton & N. J. Zaal (Eds.), Advances in Educational and Psychological Testing.
Lee G, Brennan R.L., &Frisbie D. A.(2000). Incorporating the testlet concept in test
score analyses. Educational Measurement:Issues and Practice,19(4),9-15.
Mislevy, R. J. & Bock R. D. (1990). BILOG-3 (2nd ed.): Item analysis and test
scoring with binary logistic models. Mooresvilk: Scientific Software.
Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.
New York: John Wiley.
van der Linden, W.J., & Veldkamp, B.P.,& Carlson, J.E. (2004).Optimizing Balanced Incomplete Block Designs for Educational Assessments. Applied Psychological Measurement, 28, 317-331.
Wainer,H.,& Lewis,C.(1990).Toward a psychametrics for testlets.Journal of
Educational Measurement,27(1),1-14
Wainer, H., & Lukhele, R. (1997). How reliable are TOEFL scores? Educational and
Psychological Measurement, 57, 749-766.
Wainer,H., & Kiely,G.L.(1987).Item clusters and computerized adaptive testing: A
case for testlets. Journal of Educational Measurement,24(3),185-201.
Wainer, H., & Thissen, D. (1996). How is reliability related to the quality of test
scores? What is the effect of local dependence on reliability? Educational
Measurement: Issues and Practice, 15(1), 22-29.
Wainer, H., & Wang, X. (2000). Using a new statistical model for testlets to score
TOEFL. Journal of Educational Measurement, 37(3), 203-220.
Wainer, H., Bradlow, E. T., & Du, Z. (2000). Testlet response theory: An analog for the 3PL model using in testlet-based adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.), Computerized adaptive testing: Theory and Practice (pp. 245-269). Dordrecht, Netherlands: Kluwer.
Wainer, H., Sireci, S. G., & Thissen, D. (1991). Differential testlet functioning:
Definition and detecting. Journal of Educational Measurement, 28, 197-219.
Wang, W.-C., & Wilson, M. (2005). Exploring local item dependence using a
random-effects facet model. Applied Psychological Measurement, 29, 296-318.
Wang, X., Bradlow, E. T., & Wainer, H. (2005). A user’s guide for SCORIGHT (verson 3.0): A computer program for scoring tests built of testlets including a module for covariate analysis (ETS Technical Report RR-04-49). Princeton, NJ: Educational Testing Service.
Wainer H., Bradlow E. T., & Wang, X. (2007). Testlet response theory and its applications. New Yorks Cambridge University Press.
Weiss, D.J., & Yoes, M.E. (1991). Item response theory. In R.K. Hambleton & J. N.
Zaal (eds.), Advances in educational and psychological testing. Boston: Kluwer
Academic Publishers.
Yen,W.M. (1993). Scaling performance assessment: Strategies for managing local
item dependence. Journal of Educational Measurement, 30(3), 187-213
Zimowski, M. F., Muraki, E. ,Mislevy, R. J., & Bock, R. D. (2003). BILOG-MG for
Windows (version 3). Chicago, IL: Scientific Software International, Inc.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top