不要相信你的眼睛:关于特征可视化的可靠性
Robert Geirhos、Roland S.Zimmermann、Blair Bilodeau、Wieland Brendel、Been Kim[arxiv公司]
基于概念的紧急多智能体行为理解
Niko Grupen、Natasha Jaques、Been Kim、Shayegan Omidshavieie[arxiv公司]
跨越人与人之间的知识鸿沟:AlphaZero中的概念发现和转移
TL;博士:通过开发可解释性工具向人类传授新知识,推动人类知识的前沿。这项工作提供了定量证据,证明从只有机器知道的东西(M-H空间)中学习是可能的。我们从AlphaZero中发现了超人的象棋策略,并将其传授给四位了不起的大师。定量证据:我们衡量特级大师在激发这一概念的职位上的基线表现。教学后(显示AZ动作),他们可以在看不见的位置更好地解决难题。
Lisa Schut、Nenad Tomasev、Tom McGrath、Demis Hassabis、Ulrich Paquet、Been Kim[arxiv 2023年]
特征属性的不可能性定理
TL;DR:我们可以从理论上证明,仅仅因为流行的属性方法告诉您某个功能存在X属性,并不意味着您可以对实际模型的行为得出任何结论。
Blair Bilodeau、Natasha Jaques、Pang Wei Koh、Been Kim[《美国国家科学院院刊》2023]
向人类学习并帮助人类学习的社会智能机器
TL;DR:我们需要能够考虑人类思维的人工智能系统,以便他们能够更有效地向人类学习(如学习者),甚至帮助人类学习(作为教师)。
Hyowon Gweon、Judith Fan和Been Kim[《皇家学会哲学学报A:2023年数学、物理和工程科学》]
极端风险的模型评估
TL;DR:模型评估对于解决极端风险至关重要。
Toby Shevlane、Sebastian Farquhar、Ben Garfinkel、Mary Phuong、Jess Whittlestone、Jade Leung、Daniel Kokotajlo、Nahema Marchal、Markus Anderljung、Noam Kolt、Lewis Ho、Divya Siddarth、Shahar Avin、Will Hawkins、Been Kim、Iason Gabriel、Vijay Bolina、Jack Clark、Yoshua Bengio、Paul Christiano、Allan Dafoe[arxiv公司]
用于不确定探测的高斯过程探测器(GPP)
TL;DR:一种探测方法,也可以提供关于其探测的认知和任性不确定性。
Zi Wang、Alexander Ku、Jason Baldridge、Thomas L.Griffiths、Been Kim[纽里普斯2023]
状态2解释:基于概念的解释有利于Agent学习和用户理解
TL;博士:ProtégéEffect:使用联合嵌入模型1)告知RL奖励形成,2)为用户提供提高任务性能的解释。
Devleena Das、Sonia Chernova、Been Kim[纽里普斯2023]
本地化是否通知编辑?语言模型中基于因果关系的本地化与知识编辑的惊人差异
TL;DR:令人惊讶的是,LLM中的本地化(存储事实的地方)与编辑成功无关。
彼得·哈斯(Peter Hase)、莫希特·班萨尔(Mohit Bansal)、比恩·金(Been Kim)、阿斯玛·甘德哈里昂(Asma Ghandharioun)[纽里普斯2023]
从因果关系看解释与预测的关系
TL;DR:没有太多。
埃米尔·侯赛因·卡里米、克里卡莫尔·穆安德特、西蒙·科恩布利特、伯恩哈德·舍尔科夫、比恩·金[ICML 2023年]
基于子目标的不可靠智能决策支持系统解释
TL;DR:即使解释不完美,某些类型的解释(基于子目标)也有助于在复杂任务中训练人类。
Devleena Das、Been Kim、Sonia Chernova[IUI 2023年]
超越奖励:离线多智能体行为分析的层次视角
TL;DR:把神经网络当作野外的一个新物种来对待。进行观察研究,了解多智能体RL系统的紧急行为。
Shayegan Omidshafeei、Andrei Kapishnikov、Yannick Assogba、Lucas Dixon、Been Kim[纽里普斯2022]
情绪板搜索和CAV摄像头
TL;DR:与艺术家、设计师和ML专家一起,我们尝试机器学习可以激发创造力的方法,尤其是在摄影方面。我们开源了后端,并发布了一个Android应用程序。
事后解释可能对检测未知伪相关无效
TL;DR:如果你知道你的模型可能有什么类型的虚假相关性,你可以使用现有的方法来测试它们。但如果你不知道它们是什么,你就无法测试它们。许多现有的可解释性方法也帮不了你。
朱利叶斯·阿德巴约(Julius Adeboyo)、迈克尔·梅利(Michael Muelly)、哈尔·阿贝尔森(Hal Abelson)、比恩·金(Been Kim)[ICLR 2022年]
DISSECT:通过概念遍历进行分离的同时解释
TL;DR:我们能否自动学习与预测相关的概念(例如,色素沉着),并生成遵循概念轨迹的新图像集(或多或少的概念)?对。
Asma Ghandharioun、Been Kim、Chun-Liang Li、Brendan Jou、Brian Eoff、Rosalind W.Picard[ICLR 2022年]
在AlphaZero中获取国际象棋知识
TL;DR:超人自学国际象棋游戏机AlphaZero是如何学习下棋的,我们可以从中学习到什么?我们调查了AlphaZero中人类概念的出现及其通过训练的演变。
托马斯·麦格拉思、安德烈·卡皮什尼科夫、内纳德·托马舍夫、亚当·皮尔斯、黛米斯·哈萨比斯、比恩·金、乌尔里希·帕奎特、弗拉基米尔·克拉姆尼克[美国国家科学院][可视化]
问责制的机器学习技术
TL;DR:问责方法的利弊
Been Kim,Finale Doshi-Velez[PDF格式]
神经网络显示格式塔现象吗?封闭规律探析
TL;DR:确实如此。这可能与NN如何泛化有关。
Been Kim、Emily Reif、Martin Wattenberg、Samy Bengio[arxiv链路][计算大脑与行为2021][麻省理工学院技术评论]
深度神经网络中基于完备性软件概念的解释
TL;DR:让我们找到一组“足以”解释预测的概念。
Chih-Kuan Yeh、Been Kim、Sercan O.Arik、Chun-Liang Li、Tomas Pfister、Pradeep Ravikumar[纽里普斯20]
调试模型解释测试
TL;DR:卫生检查2。
朱利叶斯·阿德巴约、迈克尔·穆利、伊拉里亚·利卡迪、比恩·金[纽里普斯20]
Concept瓶颈模型
TL;DR:构建一个内置概念的模型,以便您可以控制有影响力的概念。
庞伟高、陶阮、杨兆棠、斯蒂芬·马斯曼、艾玛·皮尔森、比恩·金、珀西·梁[国际资本市场协会20][谷歌研究评论2020专题]
用因果概念效应(CaCE)解释分类器
TL;DR:使TCAV成为因果关系。
亚什·戈亚尔(Yash Goyal)、阿米尔·费德(Amir Feder)、乌里·沙利特(Uri Shalit)、比恩·金(Been Kim)[arxiv公司]
走向基于概念的自动解释
TL;DR:自动发现解释模型预测的高级概念。
阿米拉塔·古尔巴尼、詹姆斯·韦克斯勒、詹姆斯·邹、比恩·金[纽里普斯19][代码]
BIM:基于基本事实的可解释性方法定量评估
TL;DR:数据集、模型和指标,用基本事实定量评估您的可解释性方法。我们比较了许多广泛使用的方法并报告了它们的排名。
Sharry Yang、Been Kim[arxiv公司][代码]
BERT几何形状的可视化和测量
TL;DR:研究BERT的几何结构,以深入了解其令人印象深刻的性能。
安迪·科宁、艾米丽·雷夫、安·袁、比恩·金、亚当·皮尔斯、费尔南达·维加斯、马丁·瓦滕伯格[纽里普斯19][博客帖子]
评估功能重要性估计
TL;DR:评估归因方法的一个想法。
Sara Hooker、Dumitru Erhan、Pieter-Jan Kindermans、Been Kim[纽里普斯19]
人类对可解释性模型的评估
TL;DR:哪些解释因素对更好的解释性很重要?在什么环境下?回答这个问题的大规模研究。
Isaac Lage、Emily Chen、Jeffrey He、Menaka Narayanan、Been Kim、Samuel Gershman和Finale Doshi-Velez[HCOMP第19页](最佳论文荣誉奖)
医疗决策中处理不完善算法的人性化工具
TL;DR:帮助医生使用医学相关相似物导航医学图像的工具。这项工作使用了TCAV公司用概念对图像进行排序的想法。
Carrie J.Cai、Emily Reif、Narayan Hegde、Jason Hipp、Been Kim、Daniel Smilkov、Martin Wattenberg、Fernanda Viegas、Greg S.Corrado、Martin C.Stumpe、Michael Terry
CHI 2019年(最佳论文荣誉奖)[pdf格式]
使用Fisher核解释黑盒预测
TL;DR:回答“哪些训练示例对给定的一组预测最负责?”MMD评论家[NeurIPS 16]。不同的是,现在我们选择的示例是由分类器如何看待它们而得到的!
Rajiv Khanna、Been Kim、Joydep Ghosh、Oluwasanmi Koyejo[2019年AISTATS]
信任或不信任分类器
TL;DR:一个非常简单的方法,告诉你是否相信你的预测,这碰巧也有很好的理论性质!
Heinrich Jiang、Been Kim、Melody Guan、Maya Gupta[纽里普斯2018][代码]
人在回路中的可解释性优先
TL;DR:在模型培训期间,询问人类哪些模型更容易理解。这为最终任务提供了一个更易于理解的模型。
Isaac Lage、Andrew Slavin Ross、Been Kim、Samuel J.Gershman、Finale Doshi-Velez[纽里普斯2018]
显著性地图的健全性检查
TL;DR:显著性图是一种流行的训练后可解释性方法,声称可以显示预测的“证据”。但事实证明,它们与模型的预测几乎没有关系!一些由训练网络和随机网络(带有随机预测)生成的显著图在视觉上无法区分。
朱利叶斯·阿德巴约、贾斯汀·吉尔默、伊恩·古德费罗、莫里茨·哈德、比恩·金[纽里普斯18]
超越特征属性的可解释性:用概念激活向量(TCAV)进行定量测试
TL;DR:我们可以学习在已经训练好的神经网络的任何层中表示人类概念。然后我们可以问这些概念对于预测有多重要。
Been Kim、Martin Wattenberg、Justin Gilmer、Carrie Cai、James Wexler、Fernanda Viegas、Rory Sayres[ICML 18号][代码][围巾][幻灯片]
Sundar Pichai公司(谷歌首席执行官)在2019年谷歌I/O大会上发表主题演讲,将TCAV作为构建人工智能的工具[视频]
显著性方法的(Un)可靠性
TL;DR:现有显著性方法可能不可靠;我们可以通过简单地在输入中引入恒定的移位来让它们显示我们想要的任何内容(甚至不是对抗性的!)。
彼得·扬·金德曼(Pieter-Jan Kindermans)、萨拉·胡克(Sara Hooker)、朱利叶斯·阿德巴约(Julius Adeboyo)、马克西米利安·阿尔伯(Maximilian Alber)、克里斯托夫·舒特(Kristof T.Schütt)、斯文·达赫内(Sven Dähne[2017年NIPS深度学习解释与可视化研讨会][围巾]
SmoothGrad:通过添加噪波移除噪波
Daniel Smilkov、Nikhil Thorat、Been Kim、Fernanda Viégas、Martin Wattenberg[2017年ICML深度学习可视化研讨会][代码]
QSAnglyzer:问答系统评估棱镜分析的可视化分析
走向可解释机器学习的严格科学
Finale Doshi-Velez和Been Kim
Springer机器学习挑战系列:“计算机视觉和机器学习中的可解释模型”[pdf格式]
榜样不够,学会批评!对可解释性的批评
Been Kim、Rajiv Khanna和Sanmi Koyejo
[NIPS 16][NIPS口腔幻灯片][谈话视频][代码]
留心差距:一种可解释特征选择和提取的生成方法
Been Kim、Finale Doshi-Velez和Julie Shah[NIPS 15][详细的变分推理]
iBCM:交互式贝叶斯案例模型通过直观交互赋予人类力量
Been Kim、Elena Glassman、Brittney Johnson和Julie Shah[论文第十章][演示视频]
贝叶斯案例模型:
基于事例推理和原型分类的生成方法
Been Kim、Cynthia Rudin和Julie Shah
[NIPS 14][海报]这部作品曾在麻省理工学院新闻和麻省理工学院头版聚光灯.
可扩展和可解释的数据表示
高维复杂数据
Been Kim、Kayur Patel、Afshin Rostamizadeh和Julie Shah
[AAAI 15]
基于逻辑先验的贝叶斯生成模型
Been Kim、Caleb Chacha和Julie Shah[人工智能研究杂志(JAIR)2014]
了解会议
Been Kim和Cynthia Rudin
[数据挖掘与知识发现期刊2014]该作品曾在《华尔街日报》.
从人类团队会议推断机器人任务计划:
基于逻辑先验的生成性建模方法
Been Kim、Caleb Chacha和Julie Shah
[AAAI第13页][视频] 这项工作的特点是:Barbara J.Grosz在哈佛大学开设的“人工智能导论”课程(COMPSCI180:计算机科学182)。[课程网站]Kartik Talamadupula和Subbarao Kambhampati在AAAI15上的“人在回路中的规划和决策支持”教程。[幻灯片来自教程]<
博士论文:人机协作的交互式可解释机器学习模型
Been Kim(金)
[2015年博士论文][幻灯片]
鲁棒协同映射的多相对位姿图
Been Kim、Michael Kaess、Luke Fletcher、John Leonard、Abraham Bachrach、Nicholas Roy和Seth Teller
[ICRA 2010][视频]