×

多维计算机化自适应测试的可变长度停止规则。 (英语) Zbl 1431.62566号

摘要:在计算机自适应测试(CAT)中,可变长度停止规则是指在满足预先规定的测量精度标准后结束项目管理。目标是为所有考生提供同等的测量精度,而不管他们的真实潜在特征水平如何。在一维CAT中提出了几种停止规则,如最小信息规则或最大标准误差规则。这些规则也被扩展到多维CAT和认知诊断CAT,它们在监测测量误差方面都有相同的想法。在[“计算机化自适应测试中的终止标准:可变长度CAT是否提供有效和高效的测量?”中,J.Compute.Adapt.Test.1,No.1,1-18(2012;doi:10.7333/1212-01001)],B.巴布科克D.维斯提出了一个“θ绝对变化”(CT)规则,当一个项目库中的一个或多个特征连续体范围内的所有好项目都已穷尽时,该规则非常有用。在[“计算机化适应性测试的新停止规则”中,《教育心理学测量》第71卷第1期,第37–53页(2011年;doi:10.1177/0013164410387338)],崔顺实等还认为,当标准误差不变时,CAT应该停止,这意味着项目库可能已耗尽。尽管在不同的模拟研究中对这些停止规则进行了评估和比较,但各种规则之间的关系仍不清楚,因此对于何时使用哪种规则缺乏明确的指导。本文给出了分析结果,以显示一维和多维CAT中各种停止规则之间的联系。特别是,有人认为,仅CT-rule就可能是不稳定的,它可能会过早地结束测试。然而,CT-rule可以作为一个有用的二级规则来监控收益减少的点。为了进一步提供实证证据,使用2PL模型和多维分级响应模型进行了三项模拟研究。

MSC公司:

第62页,共15页 统计学在心理学中的应用
62升15 统计中的最优停止
60克40 停车时间;最优停车问题;赌博理论

软件:

柔性MIRT
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson,T.W.(1984)。多元统计分析导论(第二版)。纽约:Wiley·Zbl 0651.62041号
[2] Babcock,B.和Weiss,D.(2012年)。计算机化自适应测试中的终止标准:可变长度CAT是否提供有效的测量?计算机自适应测试杂志。https://doi.org/10.7333/1212-01001
[3] 博伊德,AM;多德,BG;Choi,西南;In Nering,ML(编辑);Ostini,R.(编辑),计算机自适应测试中的Polytomous模型,229-255(2010),纽约-纽约
[4] Cai,L.(2015)。flexMIRT第3版:灵活的多层次多维项目分析和测试评分[计算机软件]。北卡罗来纳州教堂山:向量心理测量组。
[5] Chang,H.H.,&Ying,Z.L.(2008)。称量还是不称量?平衡适应性测试中初始项目的影响。《心理测量学》,73(3),441-450·Zbl 1301.62119号 ·doi:10.1007/s11336-007-9047-7
[6] Cheng,Y.、Guo,F.、Chang,H.和Douglas,J.(2009)。具有非统计约束的计算机化自适应测试的约束加权a-分层:平衡测量效率和暴露控制。教育和心理测量,69,35-49·doi:10.1177/0013164408322030
[7] Choi,S.W.、Grady,M.W.和Dodd,B.G.(2010年)。计算机自适应测试的新停止规则。教育和心理测量,70,1-17。
[8] MH丹尼尔;Embretson,SE(编辑);Hershberger,SL(编辑),《幕后:在DAS和KAIT上使用新的测量方法》,37-63(1999),新泽西州马华
[9] Dodd,B.G.、Koch,W.R.和De Ayala,R.J.(1989年)。使用分级响应模型的自适应测试程序的操作特性。应用心理测量,13,129-143·doi:10.1177/014662168901300202
[10] Dodd,B.G.、Koch,W.R.和De Ayala,R.J.(1993)。使用部分学分模型的计算机自适应测试:项目库特征和不同停止规则的影响。教育和心理测量,53,61-77·doi:10.1177/0013164493053001005
[11] Fayers,P.M.(2007)。应用项目反应理论和计算机适应性测试:健康结果评估的挑战。生活质量研究,16187-194·doi:10.1007/s11136-007-9197-1
[12] Gardner,W.、Shear,K.、Kelleher,K.Pajer,K.,Mammen,O.、Buysse,D.等人(2004年)。抑郁症的计算机自适应测量:一项模拟研究。BMC精神病学,4(13),1-11。
[13] Gershon,R.C.(2017)。FastCAT—定制CAT管理规则以提高响应效率。在日本新泻举行的第六届计算机化自适应测试国际会议上提交的论文。
[14] Gibbons,R.D.、Weiss,D.J.、Kupfer,D.J.、Frank,E.、Fagiolini,A.、Grochocinski,V.J.等人(2008年)。使用计算机自适应测试来减轻心理健康评估的负担。精神病服务,59,49-58·doi:10.1176/ps.2008.59.4.361
[15] Hart,D.L.、Cook,K.F.、Mioduski,J.E.、Teal,C.R.和Crane,P.K.(2006)。对肩部损伤患者进行计算机模拟适应性测试是有效的,并产生有效的功能测量。临床流行病学杂志,59290-298·doi:10.1016/j.jclinepi.2005.08.006
[16] Hart,D.L.、Mioduski,J.E.和Stratford,P.W.(2005)。在髋关节、膝关节或足/踝关节损伤的患者中,用于测量功能状态的模拟计算机自适应测试是有效的,具有良好的判别效度。临床流行病学杂志,58629-638·doi:10.1016/j.jclinepi.2004.12.004
[17] Xieh,C.-A.、von Eye,A.A.和Maier,K.S.(2010年)。使用多元多层次多体项目反应理论模型研究平行变化过程:国家青年调查中青少年社会隔离与与犯罪同龄人交往之间的动态关联。多元行为研究,45(3),508-552·数字对象标识代码:10.1080/00273171.2010.483387
[18] Jiang,S.,Wang,C.,&Weiss,D.J.(2016)。多维分级反应模型中项目参数估计的样本量要求。心理学前沿(定量心理学与测量)。https://doi.org/10.3389/fpsyg.2016.00109
[19] Lord,F.M.和Novick,M.R.(1968年)。心理测试成绩的统计理论。马萨诸塞州雷丁:Addison-Wesley·兹比尔0186.53701
[20] Makransky,G.和Glas,C.A.W.(2013年)。组织评估中认知能力测量的多维计算机化适应性测试的适用性。国际测试杂志,13,123-139·网址:10.1080/15305058.2012.672352
[21] Maurelli,V.和Weiss,D.J.(1981年)。影响测试电池适应性测试策略的心理测量特征的因素(研究报告第81-4号)。明尼阿波利斯:明尼苏达大学心理学系,心理测量方法项目,计算机自适应测试实验室。检索自https://eric.ed.gov/?id=ED212676。
[22] Michel,P.、Baumstarck,K.、Ghattas,B.、Pelletier,J.、Loundou,A.、Boucekine,M.等人(2016)。针对多发性硬化症编制并验证的多维计算机自适应短期生活质量问卷。MusiQoL-MCAT。医学,95(14),文章,e3068·doi:10.1097/MD.0000000000003068
[23] Mulder,J.和van der Linden,W.J.(2009)。具有最佳设计标准的多维自适应测试用于项目选择。《心理测量学》,74(2),273-296·兹比尔1243.62144 ·doi:10.1007/s11336-008-9097-5
[24] Nering,M.L.和Ostini,R.(2010年)。多元项目反应理论模型手册。纽约:泰勒和弗朗西斯。
[25] Nikolaus,S.、Bode,C.、Taal,E.、Vonkeman,H.E.、Glas,C.A.W.和van der Laar,M.A.F.J.(2015)。类风湿关节炎疲劳多维计算机自适应测试的工作机制。健康质量生命结果,13,23·doi:10.1186/s12955-015-0215-7
[26] Samejima,F.(1969年)。使用分级分数的反应模式估计潜在特征能力。《心理测量学专著》。第17号。
[27] Segall,D.O.(1996年)。多维自适应测试。《心理测量学》,61(2),331-354·Zbl 0863.62087号 ·doi:10.1007/BF02294343
[28] 蒂森,D。;Mislevy,RJ;Wainer,H.(编辑),《测试算法》,101-133(2000),新泽西州希尔斯代尔
[29] Veldkamp,B.P.和van der Linden,W.J.(2002)。具有测试内容约束的多维自适应测试。《心理测量学》,67(4),575-588·Zbl 1297.62243号 ·doi:10.1007/BF02295132
[30] Wang,C.(2014)。利用自适应测试提高层次潜在性状的测量精度。《教育与行为统计杂志》,39,452-477·doi:10.3102/1076998614559419
[31] Wang,C.(2015)。多维补偿性项目反应模型中的潜在特质估计。《心理测量学》,80,428-449·Zbl 1322.62342号 ·doi:10.1007/s11336-013-9399-0
[32] Wang,C.和Chang,H.(2011年)。多维计算机自适应测试中的项目选择:从不同角度获取信息。《心理测量学》,76363-384·Zbl 1284.62760号 ·doi:10.1007/s11336-011-9215-7
[33] Wang,C.、Chang,H.和Boughton,K.(2011年)。Kullback-Leibler信息及其在多维自适应测试中的应用。《心理测量学》,76,13-39·Zbl 1208.62196号 ·doi:10.1007/s11336-010-9186-0
[34] Wang,C.、Chang,H.和Boughton,K.(2013)。推导多维计算机化自适应测试的停止规则。应用心理测量,37,99-122·doi:10.1177/01466216124622
[35] Wang,C.、Chang,H.和Douglas,J.(2012)。将CAT与认知诊断相结合:一种加权项目选择方法。行为研究方法,44,95-109·doi:10.3758/s13428-011-0143-3
[36] Wang,C.,Su,S.,&Weiss,D.J.(2018年)。多维分级响应模型中参数估计对正态假设的稳健性。多元行为研究,53(3),403-418·doi:10.1080/00273171.2018.1455572
[37] Weiss,D.J.和Kingsbury,G.G.(1984年)。计算机化适应性测试在教育问题中的应用。教育测量杂志,21361-375·doi:10.1111/j.1745-3984.1984.tb01040.x
[38] Weiss,D.J.(2011)。使用计算机自适应测试从更好的测量中获得更好的数据。《社会科学方法与测量杂志》,2,1-27·doi:10.2458/jmm.v2i1.12351
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。