×

比较评估混合项目类型多维模型能力的方法。 (英语) Zbl 1390.62330号

摘要:最大似然法(MLE)、加权最大似然(WMLE)和最大后验概率(MAP或BMLE)被广泛用于项目反应理论(IRT)中的能力参数估计,并对其精度和偏差进行了研究和比较。多维IRT(MIRT)已被证明在纸笔和计算机自适应测试中都能提供更好的子核心估计;因此,对MIRT模型进行准确的分数估计非常重要。本文的目的是比较MIRT框架中的三种估计方法在混合项目类型测试中的性能,混合项目类型既有二分项目又有多分项目,以及混合结构项目(简单结构和复杂结构)的测试。结果表明,这三种方法在所有条件下都表现良好。对于所研究的所有模型(一维、二维、三维和四维模型),WMLE具有较小的BIAS和较高的可靠性,但较大的RMSE和SE。WMLE和MLE比BMLE更接近彼此。然而,对于更高的维度,建议使用BMLE,尤其是当维度之间存在相关性时。

MSC公司:

第62页,共15页 统计学在心理学中的应用

软件:

BMIRT工具包
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bock,R.D.,Aitkin,M.(1981年)。项目参数的边际最大似然估计:EM算法的应用。《心理测量学》46:443-459。
[2] de la Torre,J.,Patz,R.J.(2005)。充分利用我们所拥有的:多维IRT在考试评分中的实际应用。《教育与行为统计杂志》30:295-311。
[3] Dwyer,A.,Boughton,K.A.,Yao,L.,Steffen,M.,Lewis,D.(2006年4月)。使用经验数据对分量表得分增加方法的比较。在加利福尼亚州旧金山举行的国家教育计量委员会会议上提交的论文。
[4] Haberman,J.S.,Sinharay,S.(2010年)。使用多维项目反应理论报告分项得分。《心理测量学》75:331-354·Zbl 1272.62118号
[5] Khokan,M.R.,Bari,W.,Khan,J.A.(2013年)。鲁棒估计的加权最大似然方法:威布尔模型。达卡大学科学杂志61(2):153-156。
[6] Lord,F.M.(1980)。项目反应理论在实际测试问题中的应用。新泽西州希尔斯代尔:劳伦斯·埃尔鲍姆。
[7] Lord,F.M.(1984)。项目反应理论中的最大似然和贝叶斯参数估计。研究报告编号:RR-84-30-ONR。新泽西州普林斯顿:教育测试服务。
[8] Owen,R.J.(1975年)。自适应心理测试中定量反应的贝叶斯序贯程序。美国统计协会杂志70:351-356·Zbl 0324.62061号
[9] Penfield,D.R.,Bergeron,M.J.(2005年)。将加权最大似然潜在特征估计应用于广义部分信用模型。应用心理测量29(3):218-233。
[10] Reckase,M.D.(1997年)。多维项目反应理论的过去和未来。应用心理测量21:25-36。
[11] Reckase,M.D.(2009年)。多维项目反应理论。纽约:斯普林格·Zbl 1291.62023号
[12] Reckase,M.D.,Luo,X.(2015)。另一个名字的悖论是很好的估计。职务:Millsap R.、Bolt D.、van der Ark L.、Wang WC。(编辑)。定量心理学研究。《施普林格数学与统计学报》,第89卷。查姆:斯普林格。
[13] Samejima,F.(1980年)。贝叶斯估计适用于估计个人能力吗。研究报告80-3。田纳西州诺克斯维尔:田纳西大学心理学系。
[14] Segall,D.O.(2001)。一般能力测量:多维项目反应理论的应用。《心理测量学》66:79-97·Zbl 1293.62254号
[15] Stocking,M.L.,Lord,F.M.(1983年)。开发项目反应理论中的通用指标。应用心理学测量7:201-210。
[16] Sun,S.、Tao,J.、Chang,H.、Shi,N.(2012)。由二元和多元项目组成的测试中的加权最大后验估计。应用心理测量369(4):271-290。
[17] Tam,S.S.(1992年)。多维性状自适应估计方法的比较。未发表的博士论文。纽约州纽约市:哥伦比亚大学。
[18] Tate,R.L.(2004)。多维性对总分和次核心绩效的影响。教育中的应用测量17(2):89-112。
[19] Tseng,F.L.,Hsu,T.C.(2001年4月)。使用加权似然估计的多维自适应测试:估计方法的比较。在华盛顿州西雅图年会上提交的论文。
[20] Wang,C.(2015)。多维补偿性项目反应模型中的潜在特质估计。《心理学》80(2):428-449·Zbl 1322.62342号
[21] Wang,S.,Wang,T.(2001)。计算机自适应测试中Warm对多模模型能力的加权似然估计的精度。应用心理测量25:317-331。
[22] Wang,W.,Chen,P.,Cheng,Y.(2004)。使用多维项目响应模型提高测试电池的测量精度。心理学方法9:116-136。
[23] 温暖,A.T.(1989)。项目反应理论中能力的加权似然估计。《心理学》54(3):427-450。
[24] Yao,L.(2003)。BMIRT:贝叶斯多元项目反应理论[计算机软件]。加利福尼亚州蒙特里:DMDC。
[25] Yao,L.(2010)。报告有效性和可靠性的总体得分和领域得分。教育测量杂志47:339-360。
[26] Yao,L.(2012)。领域分数和综合分数的多维CAT项目选择方法:理论和应用。《心理测量学》77(3):495-523·Zbl 1272.62139号
[27] Yao,L.,Boughton,K.A.(2007年)。一种用于改进分量表熟练程度估计和分类的多维项目反应建模方法。应用心理测量31:83-105。
[28] Yao,L.,Schwartz,R.(2006)。具有相关项目和测试统计信息的多维部分学分模型:混合格式测试的应用程序。应用心理测量30:469-492。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。