Been Kim（金）

高级职员研究科学家

在谷歌DeepMind

beenkim在csail dot mit dot edu

我有兴趣帮助人类与复杂的机器学习模型通信：不仅由构建工具（以及批评工具），但也研究他们的本性与人类相比。Quanta杂志约翰·帕夫卢斯（John Pavlus）对我的工作和原因进行了很好的描述。

我相信语言人与机器的沟通必须以人为中心--更高层次的人性化概念--这样才有意义每个人，不管他们对ML了解多少。

我在上发表了主题演讲ICLR 2022年,ECML 2020年和在2018年G20阿根廷会议。我的一份作品TCAV收到联合国教科文组织Netexplo奖，曾在谷歌I/O 19'和中布莱恩·克里斯蒂安的书对准问题.

我帮助的内容：
ICLR板
2024年ICLR总主席
2023年ICLR高级项目主席
2019年ICLR研讨会主席
高级地区主席/地区主席/高级计划委员会NeurIPS 2017-now，ICML 2019-now，ILR 2020-now，AISTATS 2020-nown
指导委员会和地区主席FAccT会议
前执行委员会成员和副总裁机器学习中的女性.
ICML（WHI）人类可解释性多年度研讨会联合组织者2020 2018 2017 2016,和NIPS 2016复杂系统可解释机器学习的Worshop.

可解释性教程：
机器学习暑期学校MLSS 2021(幻灯片,视频)
2018年多伦多大学向量学院深度学习暑期学校(幻灯片,视频)
2018年CVPR(幻灯片和视频)
2017年ICML可解释机器学习教程(幻灯片,视频).

博客

ICLR 2022主题
谈话视频

博客帖子（仅涵盖演讲的介绍部分）

出版物

带我进去谷歌学者

不要相信你的眼睛：关于特征可视化的可靠性

Robert Geirhos、Roland S.Zimmermann、Blair Bilodeau、Wieland Brendel、Been Kim
[arxiv公司]

基于概念的紧急多智能体行为理解

Niko Grupen、Natasha Jaques、Been Kim、Shayegan Omidshavieie
[arxiv公司]

跨越人与人之间的知识鸿沟：AlphaZero中的概念发现和转移

TL；博士：通过开发可解释性工具向人类传授新知识，推动人类知识的前沿。这项工作提供了定量证据，证明从只有机器知道的东西（M-H空间）中学习是可能的。我们从AlphaZero中发现了超人的象棋策略，并将其传授给四位了不起的大师。定量证据：我们衡量特级大师在激发这一概念的职位上的基线表现。教学后（显示AZ动作），他们可以在看不见的位置更好地解决难题。

Lisa Schut、Nenad Tomasev、Tom McGrath、Demis Hassabis、Ulrich Paquet、Been Kim
[arxiv 2023年]

特征属性的不可能性定理

TL；DR：我们可以从理论上证明，仅仅因为流行的属性方法告诉您某个功能存在X属性，并不意味着您可以对实际模型的行为得出任何结论。

Blair Bilodeau、Natasha Jaques、Pang Wei Koh、Been Kim
[《美国国家科学院院刊》2023]

向人类学习并帮助人类学习的社会智能机器

TL；DR：我们需要能够考虑人类思维的人工智能系统，以便他们能够更有效地向人类学习（如学习者），甚至帮助人类学习（作为教师）。

Hyowon Gweon、Judith Fan和Been Kim
[《皇家学会哲学学报A：2023年数学、物理和工程科学》]

极端风险的模型评估

TL；DR：模型评估对于解决极端风险至关重要。

Toby Shevlane、Sebastian Farquhar、Ben Garfinkel、Mary Phuong、Jess Whittlestone、Jade Leung、Daniel Kokotajlo、Nahema Marchal、Markus Anderljung、Noam Kolt、Lewis Ho、Divya Siddarth、Shahar Avin、Will Hawkins、Been Kim、Iason Gabriel、Vijay Bolina、Jack Clark、Yoshua Bengio、Paul Christiano、Allan Dafoe
[arxiv公司]

用于不确定探测的高斯过程探测器（GPP）

TL；DR：一种探测方法，也可以提供关于其探测的认知和任性不确定性。

Zi Wang、Alexander Ku、Jason Baldridge、Thomas L.Griffiths、Been Kim
[纽里普斯2023]

状态2解释：基于概念的解释有利于Agent学习和用户理解

TL；博士：ProtégéEffect：使用联合嵌入模型1）告知RL奖励形成，2）为用户提供提高任务性能的解释。

Devleena Das、Sonia Chernova、Been Kim
[纽里普斯2023]

本地化是否通知编辑？语言模型中基于因果关系的本地化与知识编辑的惊人差异

TL；DR：令人惊讶的是，LLM中的本地化（存储事实的地方）与编辑成功无关。

彼得·哈斯（Peter Hase）、莫希特·班萨尔（Mohit Bansal）、比恩·金（Been Kim）、阿斯玛·甘德哈里昂（Asma Ghandharioun）
[纽里普斯2023]

从因果关系看解释与预测的关系

TL；DR：没有太多。

埃米尔·侯赛因·卡里米、克里卡莫尔·穆安德特、西蒙·科恩布利特、伯恩哈德·舍尔科夫、比恩·金
[ICML 2023年]

基于子目标的不可靠智能决策支持系统解释

TL；DR：即使解释不完美，某些类型的解释（基于子目标）也有助于在复杂任务中训练人类。

Devleena Das、Been Kim、Sonia Chernova
[IUI 2023年]

超越奖励：离线多智能体行为分析的层次视角

TL；DR：把神经网络当作野外的一个新物种来对待。进行观察研究，了解多智能体RL系统的紧急行为。

Shayegan Omidshafeei、Andrei Kapishnikov、Yannick Assogba、Lucas Dixon、Been Kim
[纽里普斯2022]

情绪板搜索和CAV摄像头

TL；DR：与艺术家、设计师和ML专家一起，我们尝试机器学习可以激发创造力的方法，尤其是在摄影方面。我们开源了后端，并发布了一个Android应用程序。

谷歌人工智能博客帖子：使用概念激活向量实现创造性表达
情绪板搜索：AI实验页面/github
CAV摄像头：AI实验页面/播放商店

事后解释可能对检测未知伪相关无效

TL；DR：如果你知道你的模型可能有什么类型的虚假相关性，你可以使用现有的方法来测试它们。但如果你不知道它们是什么，你就无法测试它们。许多现有的可解释性方法也帮不了你。

朱利叶斯·阿德巴约（Julius Adeboyo）、迈克尔·梅利（Michael Muelly）、哈尔·阿贝尔森（Hal Abelson）、比恩·金（Been Kim）
[ICLR 2022年]

DISSECT：通过概念遍历进行分离的同时解释

TL；DR：我们能否自动学习与预测相关的概念（例如，色素沉着），并生成遵循概念轨迹的新图像集（或多或少的概念）？对。

Asma Ghandharioun、Been Kim、Chun-Liang Li、Brendan Jou、Brian Eoff、Rosalind W.Picard
[ICLR 2022年]

在AlphaZero中获取国际象棋知识

TL；DR：超人自学国际象棋游戏机AlphaZero是如何学习下棋的，我们可以从中学习到什么？我们调查了AlphaZero中人类概念的出现及其通过训练的演变。

托马斯·麦格拉思、安德烈·卡皮什尼科夫、内纳德·托马舍夫、亚当·皮尔斯、黛米斯·哈萨比斯、比恩·金、乌尔里希·帕奎特、弗拉基米尔·克拉姆尼克
[美国国家科学院][可视化]

问责制的机器学习技术

TL；DR：问责方法的利弊

Been Kim，Finale Doshi-Velez
[PDF格式]

神经网络显示格式塔现象吗？封闭规律探析

TL；DR：确实如此。这可能与NN如何泛化有关。

Been Kim、Emily Reif、Martin Wattenberg、Samy Bengio
[arxiv链路][计算大脑与行为2021]
[麻省理工学院技术评论]

深度神经网络中基于完备性软件概念的解释

TL；DR：让我们找到一组“足以”解释预测的概念。

Chih-Kuan Yeh、Been Kim、Sercan O.Arik、Chun-Liang Li、Tomas Pfister、Pradeep Ravikumar
[纽里普斯20]

调试模型解释测试

TL；DR：卫生检查2。

朱利叶斯·阿德巴约、迈克尔·穆利、伊拉里亚·利卡迪、比恩·金
[纽里普斯20]

Concept瓶颈模型

TL；DR：构建一个内置概念的模型，以便您可以控制有影响力的概念。

庞伟高、陶阮、杨兆棠、斯蒂芬·马斯曼、艾玛·皮尔森、比恩·金、珀西·梁
[国际资本市场协会20][谷歌研究评论2020专题]

用因果概念效应（CaCE）解释分类器

TL；DR：使TCAV成为因果关系。

亚什·戈亚尔（Yash Goyal）、阿米尔·费德（Amir Feder）、乌里·沙利特（Uri Shalit）、比恩·金（Been Kim）
[arxiv公司]

走向基于概念的自动解释

TL；DR：自动发现解释模型预测的高级概念。

阿米拉塔·古尔巴尼、詹姆斯·韦克斯勒、詹姆斯·邹、比恩·金
[纽里普斯19][代码]

BIM：基于基本事实的可解释性方法定量评估

TL；DR：数据集、模型和指标，用基本事实定量评估您的可解释性方法。我们比较了许多广泛使用的方法并报告了它们的排名。

Sharry Yang、Been Kim
[arxiv公司][代码]

BERT几何形状的可视化和测量

TL；DR：研究BERT的几何结构，以深入了解其令人印象深刻的性能。

安迪·科宁、艾米丽·雷夫、安·袁、比恩·金、亚当·皮尔斯、费尔南达·维加斯、马丁·瓦滕伯格
[纽里普斯19][博客帖子]

评估功能重要性估计

TL；DR：评估归因方法的一个想法。

Sara Hooker、Dumitru Erhan、Pieter-Jan Kindermans、Been Kim
[纽里普斯19]

人类对可解释性模型的评估

TL；DR：哪些解释因素对更好的解释性很重要？在什么环境下？回答这个问题的大规模研究。

Isaac Lage、Emily Chen、Jeffrey He、Menaka Narayanan、Been Kim、Samuel Gershman和Finale Doshi-Velez
[HCOMP第19页]（最佳论文荣誉奖）

医疗决策中处理不完善算法的人性化工具

TL；DR：帮助医生使用医学相关相似物导航医学图像的工具。这项工作使用了TCAV公司用概念对图像进行排序的想法。

Carrie J.Cai、Emily Reif、Narayan Hegde、Jason Hipp、Been Kim、Daniel Smilkov、Martin Wattenberg、Fernanda Viegas、Greg S.Corrado、Martin C.Stumpe、Michael Terry
CHI 2019年（最佳论文荣誉奖）
[pdf格式]

使用Fisher核解释黑盒预测

TL；DR：回答“哪些训练示例对给定的一组预测最负责？”MMD评论家[NeurIPS 16]。不同的是，现在我们选择的示例是由分类器如何看待它们而得到的！

Rajiv Khanna、Been Kim、Joydep Ghosh、Oluwasanmi Koyejo
[2019年AISTATS]

信任或不信任分类器

TL；DR：一个非常简单的方法，告诉你是否相信你的预测，这碰巧也有很好的理论性质！

Heinrich Jiang、Been Kim、Melody Guan、Maya Gupta
[纽里普斯2018][代码]

人在回路中的可解释性优先

TL；DR：在模型培训期间，询问人类哪些模型更容易理解。这为最终任务提供了一个更易于理解的模型。

Isaac Lage、Andrew Slavin Ross、Been Kim、Samuel J.Gershman、Finale Doshi-Velez
[纽里普斯2018]

显著性地图的健全性检查

TL；DR：显著性图是一种流行的训练后可解释性方法，声称可以显示预测的“证据”。但事实证明，它们与模型的预测几乎没有关系！一些由训练网络和随机网络（带有随机预测）生成的显著图在视觉上无法区分。

朱利叶斯·阿德巴约、贾斯汀·吉尔默、伊恩·古德费罗、莫里茨·哈德、比恩·金
[纽里普斯18]

超越特征属性的可解释性：用概念激活向量（TCAV）进行定量测试

TL；DR：我们可以学习在已经训练好的神经网络的任何层中表示人类概念。然后我们可以问这些概念对于预测有多重要。

Been Kim、Martin Wattenberg、Justin Gilmer、Carrie Cai、James Wexler、Fernanda Viegas、Rory Sayres
[ICML 18号][代码][围巾][幻灯片]

Sundar Pichai公司（谷歌首席执行官）在2019年谷歌I/O大会上发表主题演讲，将TCAV作为构建人工智能的工具[视频]

显著性方法的（Un）可靠性

TL；DR：现有显著性方法可能不可靠；我们可以通过简单地在输入中引入恒定的移位来让它们显示我们想要的任何内容（甚至不是对抗性的！）。

彼得·扬·金德曼（Pieter-Jan Kindermans）、萨拉·胡克（Sara Hooker）、朱利叶斯·阿德巴约（Julius Adeboyo）、马克西米利安·阿尔伯（Maximilian Alber）、克里斯托夫·舒特（Kristof T.Schütt）、斯文·达赫内（Sven Dähne
[2017年NIPS深度学习解释与可视化研讨会][围巾]

SmoothGrad:通过添加噪波移除噪波

Daniel Smilkov、Nikhil Thorat、Been Kim、Fernanda Viégas、Martin Wattenberg
[2017年ICML深度学习可视化研讨会][代码]

QSAnglyzer：问答系统评估棱镜分析的可视化分析

陈楠岑和金碧

[2017年VAST]

走向可解释机器学习的严格科学

Finale Doshi-Velez和Been Kim

Springer机器学习挑战系列：“计算机视觉和机器学习中的可解释模型”[pdf格式]

榜样不够，学会批评！对可解释性的批评

Been Kim、Rajiv Khanna和Sanmi Koyejo

[NIPS 16][NIPS口腔幻灯片][谈话视频][代码]

留心差距：一种可解释特征选择和提取的生成方法

Been Kim、Finale Doshi-Velez和Julie Shah
[NIPS 15][详细的变分推理]

iBCM：交互式贝叶斯案例模型通过直观交互赋予人类力量

Been Kim、Elena Glassman、Brittney Johnson和Julie Shah
[论文第十章][演示视频]

贝叶斯案例模型：
基于事例推理和原型分类的生成方法

Been Kim、Cynthia Rudin和Julie Shah

[NIPS 14][海报]这部作品曾在麻省理工学院新闻和麻省理工学院头版聚光灯.

可扩展和可解释的数据表示
高维复杂数据

Been Kim、Kayur Patel、Afshin Rostamizadeh和Julie Shah

[AAAI 15]

基于逻辑先验的贝叶斯生成模型

Been Kim、Caleb Chacha和Julie Shah
[人工智能研究杂志（JAIR）2014]

了解会议

Been Kim和Cynthia Rudin

[数据挖掘与知识发现期刊2014]该作品曾在《华尔街日报》.

从人类团队会议推断机器人任务计划：
基于逻辑先验的生成性建模方法

Been Kim、Caleb Chacha和Julie Shah

[AAAI第13页][视频] 这项工作的特点是：
Barbara J.Grosz在哈佛大学开设的“人工智能导论”课程（COMPSCI180:计算机科学182）。
[课程网站]
Kartik Talamadupula和Subbarao Kambhampati在AAAI15上的“人在回路中的规划和决策支持”教程。
[幻灯片来自教程]<

博士论文：人机协作的交互式可解释机器学习模型

Been Kim（金）

[2015年博士论文][幻灯片]

鲁棒协同映射的多相对位姿图

Been Kim、Michael Kaess、Luke Fletcher、John Leonard、Abraham Bachrach、Nicholas Roy和Seth Teller

[ICRA 2010][视频]

会谈

这个列表已经过时了。->我通常会做很多演讲。

受邀演讲国家科学、工程和医学院的应用和理论统计（CATS）
受邀演讲ACL 2022 Repl4NLP研讨会
受邀演讲CVPR 2022车间XAI4CV
邀请基调在2022年医疗保健机器学习
ICML 2022首次演讲医疗保健中的可解释机器学习车间
邀请基调在ICLR 2022年
受邀演讲布朗大学深度学习课程
受邀在KAIST人工智能与未来社会国际研讨会
受邀演讲2021年三星AI论坛
受邀的座谈会通知2021年会议
受邀在ICCV 2021神经架构研讨会：过去、现在和未来
受邀发表主题演讲MICCAI 2021“医学图像计算中机器智能的可解释性”研讨会
Neurips 2021研讨会基于因果性和稳健性的算法公平性
受邀教程位于2021年度机器学习暑期学校
受邀演讲ICML 2021算法追索权研讨会
受邀演讲CVPR SAIAD 2021：自动驾驶的安全人工智能
邀请时间：ICAPS 2021可解释人工智能规划国际研讨会（XAIP）
2021年机器学习夏令营受邀演讲MLSS公司
KAIST CS774 AI&Ethics客座讲座
受邀演讲ICLR-21负责任人工智能研讨会
受邀演讲杰出演讲者：计算机科学领域的牛津女性
麻省理工学院职业论坛：学术vs工业？2021
受邀演讲CMU AI研讨会
邀请基调 2021年美联储AI研讨会
受邀小组人工智能研讨会中的AAAI 2021解释机构
受邀演讲杰出演讲者：计算机科学领域的牛津女性
受邀演讲牛津大学稳健机器学习小组，2021年
嘉宾讲座斯坦福CS81SI 2020级
邀请基调在ECML 2020年
…2020年产假一段时间！。。。
受邀演讲脸谱网
受邀参加论坛人工智能的人类，斯坦福2020
受邀演讲2020年斯坦福大学数据科学领域的女性
受邀演讲IAS优化、统计和机器学习新方向2020年4月15日至17日
受邀采访谷歌技术人员
邀请基调在HCOMP 2019年
邀请基调在2019年数据科学可视化（VDS）
受邀演讲Neurips Expo 19，谷歌扬声器
受邀演讲纽里普斯19号以人为中心的ML（HCML）研讨会
受邀小组Neurips Gap研讨会19
受邀小组科学与工程深度学习研讨会Neurips 19
受邀演讲ML研讨会ICML 19中的安全和隐私
受邀演讲可解释AI CVPR研讨会19
受邀演讲自动驾驶CVPR 19的安全人工智能
受邀演讲2019年KDD XAI研讨会
受邀演讲2019年斯坦福黎明研讨会
受邀演讲威斯康辛大学CSE AI研讨会
受邀在加州大学伯克利分校深度学习专题研讨会
受邀教程位于2019年劳伦斯伯克利国家实验室科学院深度学习
受邀教程位于2019年Dagstuhl“机器学习遇到可视化，使人工智能变得可解释”
受邀在Simon在加州大学伯克利分校举办的深度学习基础研讨会：深度学习中的新挑战
受邀演讲西蒙在加州大学伯克利分校举办的深度学习基础研讨会：深度学习的前沿
受邀采访解析科学播客：旨在为非专业人士解释科学。
G20会议2019年在阿根廷
受邀演讲NIPS 2018机器学习安全研讨会
受邀演讲麻省理工学院数据系统与社会统计与数据科学会议（SDSCon）
受邀演讲BBC AI会议
受邀演讲2018年ML会议
受邀演讲2018年斯坦福法学院CodeX FutureLaw会议
受邀演讲2018年计算机视觉CVPR的可解释机器学习
受邀教程位于2018年多伦多大学/向量研究所深度学习暑期学校
受邀发表主题演讲IEEE VISi 2018人工智能解释可视化
受邀演讲2017年人在环机器学习研讨会ICML
受邀演讲2017年ICML野外研讨会中的可靠ML
受邀教程位于2017年ICML 视频
受邀演讲解释、解释和可视化深度学习
受邀参加2017 SF返工大会
2017年受邀在IBM演讲“可解释和交互式机器学习”
2017年受邀在南方公园公共场所演讲

选定媒体报道

Quantas杂志理解机器思考方式的新方法
锌镍合金谷歌表示将利用TCAV技术解决人工智能、机器学习模型偏差问题
cnet网络谷歌致力于解决人工智能偏见问题
解析科学算法幕后——Been Kim
Anlytics洞察力谷歌首席执行官表示，TCAV技术将消除AI/ML模型偏见
数字信息世界谷歌将推出两种新工具来终结人工智能中的偏见
洋红谷歌研究员如何使人工智能更容易理解，品红
硅角谷歌用开源技术与机器学习偏见作斗争
走向数据科学从人性化概念的角度概述GoogleAI的模型可解释性技术。
技术专家谷歌大脑构建了一个翻译程序，让AI可以解释自己
艾伦利用TCAV技术解决AI和ML偏差
BBN次利用TCAV技术解决人工智能和机器学习偏差
Kdnuggets公司这项新的谷歌技术帮助我们了解神经网络是如何思考的
2018年会说话的机器
麻省理工学院新闻以身作则的计算机
《华尔街日报》工作中：只需说“是的”
《福布斯》如何赢得同事和影响会议：使用这三个词
美国广播公司新闻研究人员发现说服的关键
星岛日报每次商务会议要说的5句重要话