Re-evaluating evaluation

Balduzzi, David; Tuyls, Karl; Perolat, Julien; Graepel, Thore

重新评估评估

的一部分神经信息处理系统进展31（NeurIPS 2018）

Biptex公司元数据纸类评论补充的

作者

David Balduzzi、Karl Tuyls、Julien Perolat、Thore Graepel

摘要

机器学习的进展是通过仔细评估共同感兴趣的突出问题来衡量的。然而，基准套件和环境的激增、对抗性攻击以及其他复杂因素已经通过让研究人员无法选择来冲淡了基本评估模型。有意或意外采摘樱桃的可能性越来越大，设计平衡的评估套件需要付出更多的努力。在本文中，我们后退一步，提出了纳什平均法。该方法建立在对两种基本场景中的评估代数结构的详细分析基础上：代理对代理和代理对任务。纳什平均法的关键优势在于它能自动适应评估数据中的冗余，因此结果不会因简单任务或弱代理的加入而产生偏差。因此，纳什平均值鼓励最大程度地进行包容性评估——因为包含所有可用任务和代理不会带来任何危害（计算成本除外）。

重新评估评估

作者

摘要

名称更改策略