×

人工智能中的项目反应理论:分析实例级的机器学习分类器。 (英语) Zbl 1478.68295号

总结:人工智能系统通常根据一系列问题实例进行评估,并与使用不同策略的其他人工智能系统进行比较。这些实例很少是独立的。机器学习,特别是监督学习,就是一个很好的例子。给定一个机器学习模型,它对单个实例的行为不能孤立地理解,而是与其他数据分布或数据集相关。以双重方式,一个实例的机器学习模型的结果可以与其他模型进行比较分析。虽然此分析相对的对于模型的总体或分布,它可以提供比孤立分析更多的见解。项目反应理论(IRT)结合了这两者之间的二元性项目受访者提取项目的潜在变量(如歧视或困难)和被调查者的潜变量(如能力)。IRT可以适用于机器学习实验的分析(并扩展到任何其他人工智能实验)。在本文中,我们发现IRT非常适合分类任务,其中实例对应项目,分类器对应应答者。我们使用一系列数据集和分类方法进行了一系列实验,以充分了解IRT参数(例如识别、难度和猜测)对分类实例的意义(及其与实例硬度度量的关系)以及如何使用估计的分类器能力通过分类器特征曲线以不同的方式比较分类器性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Embretson,S.E。;Reise,S.P.,《心理学家项目反应理论》(2000年),L.Erlbaum
[2] (Thissen,D.;Wainer,H.,《测试评分》(2001),劳伦斯·埃尔鲍姆联合出版社)
[3] De Ayala,R.J.,项目反应理论的理论与实践(2009),吉尔福德出版社
[4] M.R.史密斯。;马丁内斯,T。;Giraud-Carrier,C.,数据复杂性的实例级分析,马赫。学习。,95, 2, 225-256 (2014) ·兹比尔1469.62290
[5] 普鲁登西奥,R.B。;Castor,C.,实例硬度的成本敏感衡量标准,(ECML 2014年第一次多背景学习国际研讨会。2014年9月19日在法国南希举行的ECML 2014第一届多情境学习国际研讨会(2014年)
[6] 马丁内斯·普拉姆(Martínez-Plumed),F。;Hernández-Orallo,J.,《Atari 2600比赛的Ai结果:使用IRT的难度和歧视》,(第二届通用人工智能评估国际研讨会。第二届国际通用人工智能评价研讨会,2017年,澳大利亚墨尔本,EGPAI(2017))
[7] 普鲁登西奥,R.B。;Hernández-Orallo,J。;Martínez-Usó,A.,《使用项目反应理论分析机器学习中的实例硬度》,(ECML 2015年第二届多语境学习国际研讨会)。2015年ECML第二届多情境学习国际研讨会,葡萄牙波尔图,2015年9月11日(2015))
[8] 马丁内斯·普拉姆(Martínez-Plumed),F。;普鲁登西奥,R.B。;Martínez-Usó,A。;Hernández-Orallo,J.,《理解机器学习中的项目反应理论》,(欧洲人工智能会议,欧洲人工智能大会,ECAI(2016)),1140-1148
[9] 拉洛尔,J。;Wu,H。;Yu,H.,《超越多数投票:使用项目反应理论生成评估量表》(2016年自然语言处理实证方法会议论文集,计算语言学协会),648-657
[10] J.拉勒。;Wu,H。;Munkhdalai,T。;Yu,H.,机器学习智能分析,CoRR
[11] Brundage,M.,《人工智能建模进展》(AAAI 2016人工智能、道德与社会研讨会(2016))
[12] Hernández-Orallo,J.,《衡量所有心智:评估自然和人工智能》(2017),剑桥大学出版社
[13] Hernández-Orallo,J.,《人工智能评估:从任务导向到能力导向的测量》,Artif。智力。版次:48、3、397-447(2017)
[14] (Braddil,P.;Giraud-Carrier,C.;Soares,C.;Villata,R.,《元学习-数据挖掘应用》(2009),Springer)·Zbl 1173.68625号
[15] 费里,C。;Hernández-Orallo,J。;Modroiu,R.,分类性能度量的实验比较,模式识别。莱特。,30, 1, 27-38 (2009)
[16] Vanschoren,J。;van Rijn,J.N。;Bischl,B。;Torgo,L.,OpenML:机器学习中的网络科学,ACM SIGKDD Explor。新闻。,15, 2, 49-60 (2014)
[17] 北马西阿。;Bernadó-Mansilla,E.,《走向UCI+:一种谨慎的存储库设计》,《信息科学》。,261, 237-262 (2014)
[18] 霍奇,V.J。;Austin,J.,《离群值检测方法的调查》,Artif。智力。修订版,22,2,85-126(2004)·Zbl 1101.68023号
[19] 刘,F.T。;Ting,K.M。;Zhou,Z.-H.,孤立森林,(2008年第八届IEEE国际数据挖掘会议论文集。2008年第八届IEEE国际数据挖掘会议论文集,ICDM'08(2008),IEEE计算机学会),413-422
[20] Birnbaum,A.,《一些潜在特征模型及其在推断考生能力中的应用》,(心理测试成绩统计理论(1968),Addison-Wesley:Addison-Whesley Reading,MA)
[21] Lichman,M.,加州大学欧文分校信息与计算机科学学院UCI机器学习库(2013)
[22] Rizopoulos,D.,ltm:潜在变量建模和项目反应理论分析的r包,J.Stat.Softw。,17, 5, 1-25 (2006)
[23] Chalmers,R.P.,mirt:R环境的多维项目反应理论包,J.Stat.Softw。,48, 6, 1-29 (2012)
[24] Y.Zhao,R.Hambleton,《IRT分析软件:描述和特征》,教育评估研究报告中心(652)。;Y.Zhao,R.Hambleton,《IRT分析软件:描述和特征》,教育评估研究报告中心(652)。
[25] Greene,J.,《使用桑顿可分性指数的特征子集选择及其对一些稀疏近邻分类器的适用性》(南非模式识别协会第十二届年度研讨会论文集(2001))
[26] 桑顿,C.,《来自垃圾的真相:学习如何有意义》(2002),麻省理工学院出版社
[27] Blum,A.L。;Langley,P.,《机器学习中相关特征和示例的选择》,Artif。智力。,97,1245-271(1997年)·Zbl 0904.68142号
[28] 刘,H。;Motoda,H.,《数据挖掘的实例选择和构建》,第608卷(2013),Springer Science&Business Media
[29] Olvera-López,J.A。;Carrasco-Ochoa,J.A。;马丁内斯·特立尼达,J.F。;Kittler,J.,实例选择方法综述,Artif。智力。版本:34、2、133-143(2010年)
[30] 戈麦斯,C.P。;Selman,B.,算法组合,Artif。智力。,126, 1, 43-62 (2001) ·Zbl 0969.68047号
[31] 徐,L。;Hutter,F。;胡斯,H.H。;Leyton-Brown,K.,Satzilla:基于投资组合的sat算法选择,J.Artif。智力。决议,32,565-606(2008)·Zbl 1182.68272号
[32] Visweswaran,S。;Cooper,G.F.,《学习实例特定预测模型》,J.Mach。学习。第11号决议,3333-3369(2010年)·Zbl 1242.68257号
[33] Hernández-Orallo,J。;Martínez-Usó,A。;普鲁登西奥,R.B。;Kull,M。;弗拉奇,P。;Farhan Ahmed,C。;Lachiche,N.,《上下文中的重构:机器学习中模型重用的系统方法》,AI Commun。,29, 5, 551-566 (2016)
[34] Settles,B.,《主动学习文献调查》,第52卷(55-66),第11卷(2010),威斯康星大学,麦迪逊
[35] 范德林登,W.J。;Glas,C.A.,《计算机自适应测试:理论与实践》(2000年),Springer
[36] Wainer,H。;新泽西州多兰斯。;弗劳格,R。;格林,B.F。;Mislevy,R.J.,《计算机自适应测试:入门》(2000年),劳特利奇出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。