CEUR-WS.org/Vol-3169-2022年超越指标的人工智能评估研讨会

评估体育分析模型：挑战、方法和经验教训
杰西·戴维斯,洛特·布兰森,劳伦斯·德沃斯,Wannes Meert公司,彼得·罗布雷赫茨,简·范·哈伦,马艾克·范罗伊
使用动物-人工智能环境评估具体化代理中的对象永久性
康斯坦蒂诺斯·沃杜利斯,尼尔·唐纳利,Danaja Rutar公司,瑞恩·伯内尔,约翰·伯顿,何塞·埃尔南德斯·奥拉洛,露西·切克
人工智能评估工具分类框架
安东尼·科恩,何塞·埃尔南德斯·奥拉洛,朱利叶斯·塞昌·姆博利,Yael Moros-Daval公司,志良香,周乐新
跑步前拒绝：小评估师预测大语言模型（短文）
周乐信（Lexin Zhou）,费尔南多·马丁内斯（Fernando Martínez-Plumed）,何塞·埃尔南德斯·奥拉洛,塞萨尔·费里,沃特·谢勒特
机器学习中非人类错误的相关性（短文）
里卡多·贝扎·耶茨,玛丽娜·埃斯特韦兹·阿尔梅扎尔
基于实例级IRT难度的机器学习族鲁棒性测试
Raül Fabra-Boluda公司,塞萨尔·费里,费尔南多·马丁内斯（Fernando Martínez）,玛丽亚·何塞·拉米雷斯-金塔纳
项目反应理论评价语音合成：超越合成语音难度（短文）
查娜·奥利维拉,里卡多·普鲁德安西奥
评估对概念抽象基准的理解
维克多·维克拉姆·奥多瓦尔,麦莱尼亚·密契尔
关于幼儿的探索，啊哈！自我调节问题求解建模中的矩和解释
维基·查里斯,纳塔莉亚·迪亚斯·罗德里格斯,芭芭拉·马文,路易斯·梅里诺
FERM：用于改进模型评估的F特征空间表示方法
Yeu-Shin Fu先生,文博阁,乔·普列斯特德

EBeM 2022年
2022年AI评估超越指标

超越指标的人工智能评估研讨会会议记录
与第31届国际人工智能联合会议合办(IJCAI-ECAI 2022年)

奥地利维也纳，2022年7月24日.

何塞·埃尔南德斯·奥拉洛1,2,5
露西·切克1
约书亚·特南鲍姆三
托默·厄尔曼4
费尔南多·马丁内斯（Fernando Martínez-Plumed）1
达纳贾·鲁塔尔2
约翰·伯顿2,5
瑞恩·伯内尔2
沃特·谢勒特1

目录

EBeM 2022年 2022年AI评估超越指标

超越指标的人工智能评估研讨会会议记录与第31届国际人工智能联合会议合办(IJCAI-ECAI 2022年)

奥地利维也纳，2022年7月24日.

何塞·埃尔南德斯·奥拉洛1,2,5 露西·切克1 约书亚·特南鲍姆三 托默·厄尔曼4 费尔南多·马丁内斯（Fernando Martínez-Plumed）1 达纳贾·鲁塔尔2 约翰·伯顿2,5 瑞恩·伯内尔2 沃特·谢勒特1

目录

EBeM 2022年
2022年AI评估超越指标

超越指标的人工智能评估研讨会会议记录
与第31届国际人工智能联合会议合办(IJCAI-ECAI 2022年)

何塞·埃尔南德斯·奥拉洛1,2,5
露西·切克1
约书亚·特南鲍姆三
托默·厄尔曼4
费尔南多·马丁内斯（Fernando Martínez-Plumed）1
达纳贾·鲁塔尔2
约翰·伯顿2,5
瑞恩·伯内尔2
沃特·谢勒特1