×

一个贝叶斯随机效应测试模型。 (英语) Zbl 1365.62451号

小结:标准项目反应理论(IRT)模型适用于二分法考试反应,忽略了一个事实,即一组项目(小测验)通常来自一个共同的刺激(例如阅读理解文章)。在这种情况下,给考生的所有项目都不太可能是有条件独立的(考虑到考生的熟练程度)。假设条件独立的模型会高估考生熟练程度的测量精度。对准确性的过度陈述可能会导致不准确的推论,例如提前结束一项考试,其中停止规则基于考生熟练程度的估计标准误差(例如,适应性测试)。为了对可能是独立项目和测试集的混合测试进行建模,我们修改了一个标准IRT模型,以包括嵌套在同一测试集中的项目的额外随机效应。我们使用贝叶斯框架来通过数据增强吉布斯采样器(DAGS[M.A.Tanner先生W·H·王《美国统计协会期刊》第82卷第528页至第541页(1987年;Zbl 0619.62029号)]). 修改后的IRT模型和标准IRT模型均应用于SAT公开形式的数据集。我们还提供了仿真结果,表明精度偏差的程度是testlet效应的可变性以及testlet设计的函数。

MSC公司:

第62页,共15页 统计学在心理学中的应用
62英尺15英寸 贝叶斯推断

软件:

BILOG公司
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Albert,J.H.(1992)。使用吉布斯抽样对正常卵形响应曲线的贝叶斯估计,《教育统计杂志》,17,251-269·doi:10.307/1165149
[2] Albert,J.H.和;Chib,S.(1993)。二进制和多光子响应数据的贝叶斯分析,美国统计协会杂志,88,669-679·Zbl 0774.62031号 ·doi:10.1080/01621459.1993.10476321
[3] 布拉德洛,E.T.,&;Zaslavsky,A.M.(1997)。贝叶斯推理中的案例影响分析,计算与图形统计杂志,6,3,314–331。
[4] 布拉德洛,E.T.,&;Zaslavsky,A.M.(1999)。具有“无答案”回答的有序客户满意度调查数据的层次潜在变量模型,《美国统计协会杂志》,94(445),43–52。
[5] Gelfand,A.E.和;Smith,A.F.M.(1990)。基于抽样的边缘密度计算方法,《美国统计协会杂志》,85,398-409·Zbl 0702.62020号 ·网址:10.1080/01621459.1990.10476213
[6] Gelman,A.和;Rubin,D.B.(1992)。使用多序列的迭代模拟推断,《统计科学》,第7457–511页·Zbl 1386.65060号 ·doi:10.1214/ss/117701136
[7] Hulin,C.L.,Drasgow,F.和;Parsons,L.K.(1983年)。项目反应理论。伊利诺伊州霍姆伍德:道琼斯-埃尔文。
[8] Lord,F.M.和;Novick,M.R.(1968年)。心理测试成绩的统计理论。宾夕法尼亚州雷丁:Addison-Wesley·Zbl 0186.53701号
[9] McDonald,R.P.(1981)。测试和项目的维度,英国数学与统计心理学杂志,34100-117·doi:10.1111/j.2044-8317.1981.tb00621.x
[10] 麦克唐纳,R.P.(1982)。项目反应理论中的线性与非线性模型。应用心理测量,6379–396·doi:10.1177/014662168200600402
[11] Mislevy,R.J.和;Bock,R.D.(1983年)。BILOG:使用二进制逻辑模型[计算机程序]进行项目和测试评分。印第安纳州穆尔斯维尔:科学软件。
[12] Rosenbaum,P.R.(1988年)。项目捆绑包。《心理测量学》,53349-359·Zbl 0718.62262号 ·doi:10.1007/BF02294217
[13] Sireci,S.G.、Wainer,H.和;Thissen,D.(1991)。基于测试的测试的可靠性。《教育测量杂志》,28,237–247·doi:10.1111/j.1745-3984.1991.tb00356.x
[14] Stout,W.F.(1987)。评估潜在特质维度的非参数方法,《心理测量学》,52,589-617·兹比尔0718.62089 ·doi:10.1007/BF02294821
[15] Stout,W.F.(1990)。《一种新的项目反应理论建模方法及其在一维评估和能力评估中的应用》,《心理测量学》,55,293–326·Zbl 0746.62103号 ·doi:10.1007/BF02295289
[16] Stout,W.、Habing,B.、Douglas,J.、Kim,H.R.、Roussos,L.和;张杰(1996)。基于条件协方差的非参数多维评估,应用心理测量,20,331-354·doi:10.1177/014662169602000403
[17] 医学硕士Tanner;Wong,W.H.(1987)。通过数据增强计算后验分布,《美国统计协会杂志》,82528-540·Zbl 0619.62029号 ·doi:10.1080/01621459.1987.10478458
[18] Wainer,H.(1995)。基于测试的精确性和差异项目功能:以1991年法学院入学考试为例,《教育中的应用测量》,8(2),157-187·doi:10.1207/s15324818ame0802_4
[19] Wainer,H.和;Kiely,G.(1987年)。项目集群和计算机化适应性测试:测试用例。《教育测量杂志》,24185-202·doi:10.1111/j.1745-3984.1987.tb00274.x
[20] Wainer,H.和;Thissen,D.(1996)。可靠性与考试成绩的质量有什么关系?局部依赖对可靠性的影响是什么?教育测量:问题与实践,15(1),22–29·doi:10.1111/j.1745-392.1996.tb00803.x
[21] Yen,W.(1993)。缩放性能评估:管理本地项目依赖性的策略。《教育测量杂志》,30187-213·doi:10.1111/j.1745-3984.1993.tb00423.x
[22] 张杰(1996)。项目反应理论中的一些基本问题及其应用。伊利诺伊大学香槟分校未发表博士论文。
[23] Zhang,J.和;Stout,W.F.(1999)。广义补偿性多维项目的条件协方差结构,《心理测量学》,64,129-152·兹比尔1291.62253 ·doi:10.1007/BF022945332
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。