×

通过过程数据进行准确评估。 (英语) Zbl 1514.62310号

小结:准确评估学生的能力是考试的关键任务。以最终答复为基础的评估是标准。随着基础设施的发展,可以观察到更多的信息。其中一个例子是由基于计算机的交互项目收集的过程数据,其中包含学生的详细交互过程。在本文中,我们从理论上以及通过模拟和实证数据表明,在评估中适当地包含这些信息将大大提高相关的评估精度。

MSC公司:

第62页,共15页 统计学在心理学中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AERA、APA和NCME。(2014). 教育和心理测试标准。美国教育研究协会美国心理学协会。
[2] Attali,Y.和Burstein,J.(2006)。电子评分器V.2自动评分。技术、学习和评估杂志,4(3)。检索自https://ejournals.bc.edu/index.php/jtla/article/view/1650
[3] Bejar,I.I.、Mislevy,R.J.和Zhang,M.(2016)。考虑到有效性的自动评分。A.A.Rupp和J.P.Leighton(编辑),《威利认知与评估手册》(第226-246页)。数字对象标识代码:10.1002/9781118956588.ch10
[4] Birnbaum,A.(1968年)。一些潜在特征模型及其在推断考生能力中的应用。F.M.Lord和M.R.Novick(编辑),《心理测试分数的统计理论》(第397-479页)。艾迪森·韦斯利。
[5] Blackwell,D.(1947)。条件期望和无偏序列估计。《数理统计年鉴》,18(1),105-110·Zbl 0033.07603号
[6] 博尔西诺娃,M。;Tijmstra,J.,《提高能力评估的准确性:从响应时间中获得更多信息》,《英国数学与统计心理学杂志》,71,1,13-38(2018)·Zbl 1460.62175号 ·doi:10.1111/bmsp.11204
[7] Casella,G.和Berger,R.L.(2002年)。统计推断(第2卷)。达克斯伯里·Zbl 0699.62001号
[8] 比利时克劳瑟;哈里克·P。;Clyman,SG,使用计算机自动评分系统评分的绩效评估分数的通用性,《教育测量杂志》,37,3,245-261(2000)·doi:10.1111/j.1745-3984.2000.tb01085.x
[9] Evanini,K。;海尔曼,M。;王,X。;布兰查德,D.,托福初级®综合写作和口语考试的自动评分,ETS研究报告系列,2015,1,1-11(2015)·doi:10.1002/ets2.12052
[10] Fife,JH,《公共核心时代数学任务的自动评分:对m-rater的增强以支持数学和公共核心评估》,ETS研究报告系列,2013,2,i-35(2013)·doi:10.1002/j.2333-8504.2013.tb02333.x
[11] Foltz,P.W.、Laham,D.和Landauer,T.K.(1999)。自动论文评分:教育技术的应用。B.Collis&R.Oliver(编辑),《教育媒体+创新学习学报》,1999年(第939-944页)。教育计算促进协会(AACE)。
[12] 弗雷,A。;斯波登,C。;Goldhammer,F。;Wenzel,SFC,基于响应时间的计算机测试中遗漏响应的处理,Behaviormetrica,45,2,505-526(2018)·doi:10.1007/s41237-018-0073-9
[13] 何,Q。;英国石油公司维尔德坎普;加利福尼亚州格拉斯;de Vries,T.,使用自然语言处理和文本挖掘对创伤后应激障碍筛查患者自我叙述的自动评估,评估,24,2,157-172(2017)·数字对象标识代码:10.1177/107319115602551
[14] 何,Q。;英国石油公司Veldkamp;加利福尼亚州格拉斯;Van Den Berg,SM,结合长构式反应的文本挖掘和基于项目的测量:筛选创伤后应激障碍(ptsd)的混合测试设计,心理学前沿,102358(2019)·doi:10.3389/fpsyg.2019.02358
[15] He,Q.和von Davier,M.(2016)。使用N-grams分析问题解决项目的过程数据:基于计算机的大规模评估的见解。Y.Rosen、S.Ferrara和M.Mosharraf(编辑),《现实世界技能发展技术工具研究手册》(第750-777页)。IGI全球。doi:10.4018/978-1-4666-9441-5.ch029
[16] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,1,55-67(1970)·Zbl 0202.17205号 ·doi:10.1080/0401706.1970.10488634
[17] Kendall,MG,等级相关性的一种新测量方法,生物统计学,30,1-2,81-93(1938)·Zbl 0019.13001号 ·doi:10.2307/2332226
[18] 金,JK;Nicewander,WA,《传统测试的能力评估》,《心理测量学》,58,4,587-599(1993)·Zbl 0825.62929号 ·doi:10.1007/BF02294829
[19] LaMar,MM,马尔可夫决策过程测量模型,《心理测量学》,83,1,67-88(2018)·Zbl 1402.62312号 ·doi:10.1007/s11336-017-9570-0
[20] Lehmann,E.L.和Romano,J.P.(2005)。测试统计假设(第三版)。斯普林格·2018年6月17日
[21] 刘,H。;刘,Y。;Li,M.,《2012年pisa基于计算机的问题解决过程数据分析:改进的多级混合irt模型的应用》,《心理学前沿》,9,1372(2018)·doi:10.3389/fpsyg.2018.01372
[22] Lord,F.M.(1980)。项目反应理论在实际测试问题中的应用。劳特利奇。
[23] 梅西克,S.,《测试验证的意义和价值:评估的科学和伦理》,教育研究者,18,2,5-11(1989)·doi:10.3102/0013189X018002005
[24] Muraki,E.,《广义部分信用模型:em算法的应用》,ETS研究报告系列,1992,1,i-30(1992)
[25] 经合组织。(2012). 技术丰富环境中的识字、算术和问题解决:经合组织成人技能调查框架。经合组织出版。
[26] 佩奇,EB,《计算机评分论文的迫在眉睫》,《Phi Delta Kappan》,第47、5、238-243页(1966年)
[27] 乔,X。;Jiao,H.,《过程数据分析中的数据挖掘技术:教学法》,《心理学前沿》,9,2231(2018)·doi:10.3389/fpsyg.2018.02231
[28] Rasch,G.(1960年)。一些智力和成绩测试的概率模型。丹麦教育研究所。
[29] Rose,N。;冯·达维尔,M。;Nagengast,B.,《irt模型中的建模省略和未述项目》,《心理测量学》,82,3,795-819(2017)·Zbl 1402.62326号 ·doi:10.1007/s11336-016-9544-7
[30] Rudner,L.M.、Garcia,V.和Welch,C.(2006)。对论文评分系统的评估。《技术、学习与评估杂志》,4(4)。检索自https://ejournals.bc.edu/index.php/jtla/article/view/1651
[31] Rupp,AA,《设计、评估和部署考虑有效性的自动评分系统:方法设计决策》,《教育中的应用测量》,31,3,191-214(2018)·doi:10.1080/08957347.2018.1464448
[32] Rupp,A.A.、Templin,J.和Henson,R.A.(2010年)。诊断测量:理论、方法和应用。吉尔福德出版社。
[33] Schleicher,A.,Piaac:评估成人能力的新战略,《国际教育评论》,54,5-6,627-650(2008)·doi:10.1007/s11159-008-9105-0
[34] Tang,X.,Wang,Z.,Liu,J.,&Ying,Z.(2021a)。通过动作序列自动编码器对过程数据的潜在结构进行探索性分析。英国数学与统计心理学杂志,74(1),1-33。
[35] Tang,X.,Zhang,S.,Wang,Z.,Liu,J.,&Ying,Z.(2021b)。Procdata:用于过程数据分析的R包。《心理测量学》,86(4),1058-1083·Zbl 1478.62365号
[36] Tang,X.,Wang,Z.,He,Q.,Liu,J.,&Ying,Z.(2020年)。通过多维缩放对过程数据进行潜在特征提取。《心理测量学》,85(2),378-397·Zbl 1458.62279号
[37] Tikhonov,A.N.和Arsenin,V.Y.(1977年)。不适定问题的解决方案(第1-30页)。纽约·Zbl 0354.65028号
[38] Ulittsch,大肠杆菌。;冯·戴维尔,M。;Pohl,S.,根据猜测和项目级无反应推断考生参与度的层次潜在反应模型,英国数学与统计心理学杂志,73,83-112(2020)·doi:10.1111/bmsp.12188
[39] 范德林登,WJ,《测试项目建模速度和准确性的层次结构框架》,《心理测量学》,72,3,287(2007)·Zbl 1286.62112号 ·doi:10.1007/s11336-006-1478-z
[40] 冯·戴维尔,M。;辛哈拉伊,S。;Oranje,A。;Beaton,A.,32《国家教育进展评估中使用的统计程序:近期发展和未来方向》,《统计手册》,26,1039-1055(2006)·doi:10.1016/S0169-7161(06)26032-2
[41] Wainer,H.、Dorans,N.J.、Flaugher,R.、Green,B.F.和Mislevy,R.J.(2000)。计算机自适应测试:初级。劳特利奇。
[42] Xu,H.、Fang,G.、Chen,Y.、Liu,J.和Ying,Z.(2018)。问题解决项目中重复事件的潜在类分析。应用心理测量,0146621617748325。
[43] Zumbo,B.D.和Hubley,A.M.(2017年)。理解和调查验证研究中的响应过程(第26卷)。斯普林格。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。