你能让人工智能比法官更公平吗？玩我们的法庭算法游戏

美国刑事法律系统使用预测算法，试图减少司法程序的偏见。但还有一个更深层次的问题。

2019年10月17日

塞尔曼设计

作为一个孩子，你会发展出“公平”的含义。这是一个概念，当你与周围的世界达成和解时，你会很早就学会。有些事情要么感觉公平，要么感觉不公平。

但越来越多的算法开始为我们仲裁公平性。它们决定谁看到房屋广告，谁被雇佣或解雇，甚至谁被送进监狱。因此，创建他们的人——软件工程师——被要求阐明在他们的代码中公平意味着什么。这就是为什么世界各地的监管机构现在都在努力解决一个问题：如何用数学方法量化公平？

这个故事试图提供一个答案。为此，我们需要您的帮助。我们将通过一个真实的算法，一个用来决定谁会被送进监狱的算法，并要求你调整它的各种参数，使其结果更加公平。（不要担心，这不需要查看代码！）

我们正在研究的算法被称为COMPAS，它是美国刑事法律体系中使用的几种不同的“风险评估”工具之一。

从更高的层面上来说，COMPAS应该帮助法官决定被告是应该被监禁还是在等待审判期间被允许外出。它对历史被告数据进行培训，以找出诸如某人的年龄和历史等因素与刑事法律制度之间的相关性，以及此人是否再次被捕。然后，它使用这些相关性来预测被告在等待审判期间因新犯罪而被捕的可能性。¹

脚注

1.逮捕与定罪

这个过程非常不完善。这些工具使用逮捕作为犯罪的代理，但实际上两者之间存在很大差异，因为警方有过不成比例地逮捕少数民族和操纵数据的历史。此外，重审往往是针对技术违规行为，如未能出庭，而不是针对重复的犯罪活动。在这个故事中，我们过于简化了对如果逮捕与实际犯罪相符会发生什么的审查。

这一预测被称为被告的“风险评分”，它的意思是建议：“高风险”被告应被监禁，以防止他们对社会造成潜在危害；“低风险”被告应在审判前获释。（实际上，法官不要总是跟着这些建议，但风险评估仍然具有影响力。）

风险评估工具的支持者认为，它们使刑事法律体系更加公平。他们用看似更“客观”的评估取代了法官的直觉和偏见，尤其是种族偏见。他们也可以取代取保候审的做法在美国，要求被告为释放他们支付一笔钱。保释制度歧视美国穷人，对黑人被告的影响不成比例，黑人被告在刑事法律体系中的比例过高。

脚注

2.ProPublica的方法

对于在审判前入狱的被告，ProPublica研究了他们是否在获释后两年内再次被捕。然后，它用这一数字来估计如果被告没有入狱，他们是否会在审前再次被捕。

根据法律规定，COMPAS在计算风险评分时不包括种族因素。然而，在2016年ProPublica调查认为该工具仍然对黑人有偏见。ProPublica发现，在从未再次被捕的被告中，黑人被告被COMAS认定为高风险被告的可能性是白人被告的两倍。²

因此，我们现在的任务是努力改进COMPAS。准备好了吗？

让我们从相同的数据集ProPublica在其分析中使用的。它包括2013年至2014年佛罗里达州布劳沃德县通过COMPAS算法得分的每个被告。总共有7200多份个人资料，其中包括每个人的姓名、年龄、种族和COMPAS风险评分，并注明此人最终是在获释后还是在审前入狱后被重新逮捕。

为了使数据更容易可视化，我们从全套样本中随机抽取了500名黑人和白人被告。

我们把每个被告都当作一个点来代表。

记住：所有这些点都是被指控（但未被定罪）犯罪的人。一些人将被审前监禁；其他人将立即获释。一些人在获释后会再次被捕；其他人不会。我们想比较两件事：预测（哪些被告获得“高”与“低”风险分数）和实际结果（哪些被告事实上被释放后再次被捕）。

COMPAS对被告进行了1到10分的评分，其中1分大致相当于10%的再次休息机会，2到20%，以此类推。

让我们看看COMPAS是如何给每个人打分的。

脚注

3.COMPAS得分

COMPAS旨在对具有相似特征的人群进行总体预测，而不是对特定个体进行预测。分数背后的方法和如何使用分数的建议比我们有空间展示的要复杂得多；你可以在上面的链接中阅读有关它们的信息。

虽然COMPAS只能提供被告在预审前再次被捕的统计概率，但法官当然必须做出全面或全无的决定：是否释放或拘留被告。在本故事中，我们将使用COMPAS的“高风险”阈值，即7分或更高的分数，来表示建议拘留被告。^三

从现在开始，你负责。你的任务是重新设计这个算法的最后阶段，找到一个更公平的地方来设置“高风险”阈值。

这就是您的阈值。尝试单击它并将其拖动。

因此，首先，让我们想象一下最好的情况：算法标记为高风险分数的所有被告都会再次被捕，而风险分数低的所有被告则不会。下面，我们的图形描述了这可能是什么样子。圈子里的人都是被重新逮捕的被告；空圆圈是那些没有空的圆圈。

现在移动阈值，使算法尽可能公平。

（换句话说，只有被重新逮捕的被告才应该被监禁。）

伟大的！这很容易。您的阈值应设置在6到7之间。没有人被不必要地拘留，也没有人被释放后再次被捕。

当然，这种理想的情况从来没有发生过。不可能完美地预测每个人的结果。这意味着填充点和空白点不能如此整齐地分开。

这就是真正被重新逮捕的人。

现在再次移动阈值，使算法尽可能公平。

（提示：您希望最大限度地提高其准确性。）

你会注意到，无论你把门槛放在哪里，它都不是完美的：我们总是监禁一些没有再次被捕的被告（门槛右侧的空白点），释放一些确实再次被捕的辩护人（门槛左侧的填充点）。这是我们的刑事法律系统一直在处理的一种权衡，当我们使用算法时也没有什么不同。

为了更清楚地说明这些权衡，让我们看看COMPAS在每侧而不仅仅是测量整体精度。现在，我们将能够明确地看到，我们的门槛是否有利于不必要地将人关进监狱或释放那些随后被重新逮捕的人。⁴请注意，COMPAS的默认阈值支持后者。

脚注

4.技术定义

这两个错误百分比也被称为“假阴性率”（我们称之为“获释但再次被捕”）和“假阳性率”（被我们称为“不必要的监禁”）。

我们应该如何平衡这种权衡？没有普遍的答案，但在17世纪60年代，英国法官威廉·布莱克斯通写道：“十个罪犯逃跑总比一个无辜者受苦好。”

黑石比率在今天的美国仍有很大影响力。因此，让我们用它来激发灵感。

将门槛移动到“获释但再次被捕”的百分比大约是“不必要的监禁”百分比的10倍。

你已经看到了两个问题使用COMPAS之类的算法。首先，更好的预测总是有助于全面降低错误率，但它永远无法完全消除错误。无论我们收集了多少数据，两个对算法看起来相同的人最终都会做出不同的选择。

第二个问题是，即使你一贯遵循COMPAS的建议，也必须有人首先决定“高风险”阈值应该位于何处，无论是使用黑石比率还是其他方法。这取决于各种考虑因素——政治、经济和社会。

现在我们来看第三个问题。这就是我们对公平的探索开始变得有趣的地方。不同组之间的错误率如何比较？是否有某些类型的人更有可能被不必要的拘留？

让我们看看当我们考虑被告的种族时，我们的数据是什么样子的。

现在移动每个阈值，看看它对黑人和白人被告的影响如何不同。

种族是美国受保护阶级的一个例子，这意味着基于种族的歧视是非法的。其他受保护的类别包括性别、年龄和残疾。

现在我们已经区分了黑人和白人被告，我们发现，尽管种族并没有用于计算COMAS风险分数，但这两组的分数有不同的错误率。按照COMPAS默认的7到8个门槛，16%没有再次被捕的黑人被告被不必要地监禁，而只有7%的白人被告被监禁。这看起来一点也不公平！这正是ProPublica突出显示的在调查中。

好吧，让我们解决这个问题。

移动每个门槛，让白人和黑人被告以大致相同的速度被不必要地监禁。

（有很多解决方案。我们已经选择了一个，但您可以尝试寻找其他解决方案。）

我们试图再次达到黑石的比率，因此我们得出了以下解决方案：白人被告的阈值在6到7之间，而黑人被告的阈值则在8到9之间。现在，大约有9%的黑人和白人被告没有再次被捕就被不必要地监禁，而75%的被告在没有入狱时间后再次被捕。干得好！你的算法现在看起来比COMPAS公平多了。

但等等，是吗？在匹配种族之间的错误率的过程中，我们失去了一些重要的东西：我们每个群体的阈值在不同的地方，所以我们的风险分数对白人和黑人被告来说意味着不同的事情。

白人被告以7分的风险分数入狱，而黑人被告以同样的分数获释。这再次显得不公平。两个风险评分相同的人再次被捕的概率相同，所以他们不应该接受相同的治疗吗？在美国，对不同种族使用不同的门槛也可能带来复杂的法律问题问题第十四条修正案是宪法中的平等保护条款。

因此，让我们用两个组之间共享的单个阈值再次尝试此操作。

再次提高门槛，让白人和黑人被告以同样的速度被不必要地监禁。

如果你感到沮丧，有很好的理由。没有解决方案。

我们给了你两个公平的定义：保持组间错误率的可比性，以相同的方式对待风险分数相同的人。这两个定义都是完全合理的！但同时满足两者是不可能的。

原因是黑人和白人被告被重新逮捕的比率不同。在我们的布劳沃德县数据中，52%的黑人被告再次被捕，而白人被告只有39%再次被捕。美国各地的许多司法管辖区也存在类似的差异，部分原因是该国警方历来不成比例地针对少数民族（正如我们之前提到的）。

预测反映了用于生成它们的数据，无论是否通过算法。如果黑人被告在现实世界中的被捕率高于白人被告，那么他们的预计被捕率也会更高。这意味着他们的平均风险分数也会更高，其中更大比例的人会被标记为高风险-正确和错误。这是真的不管是什么算法使用，只要它的设计使每个风险分数意味着同一件事，而不考虑种族。

公平定义的这种奇怪冲突不仅仅局限于刑事法律体系中的风险评估算法。同样的悖论也适用于信用评分、保险和雇佣算法。在任何情况下，如果自动决策系统必须在具有不同结果的多个群体之间分配资源或惩罚，那么对公平的不同定义将不可避免地相互排斥。

没有算法可以解决这个问题；这甚至不是算法真的有问题。人类法官是目前做出同样的被迫权衡&历史上一直如此。

但这里有一个算法有改变。虽然法官可能并不总是对他们如何在不同的公平观念之间进行选择保持透明，但人们可以对他们的决定提出质疑。相比之下，由私人公司Northpointe制造的COMPAS是一个无法公开审查或质询的商业秘密。被告不能再质疑其结果，政府机构也失去了审查决策过程的能力。没有更多的公共责任。

那么监管机构应该怎么做呢？这个拟议的2019年算法责任法案加州大学专门研究人工智能和法律的法学教授安德鲁·塞尔布斯特（Andrew Selbst）表示，这是一个良好开端的例子。该法案旨在规范自动决策系统中的偏见，有两个显著特点，可作为未来立法的模板。首先，它将要求公司在“影响评估”中审计其机器学习系统中的偏见和歧视。其次，它没有明确公平的定义。

塞尔布斯特说：“通过影响评估，你可以非常透明地了解公司如何处理公平问题。”。这将公众责任带回了辩论中。因为“公平在不同的背景下意味着不同的东西”，他补充道，避免一个特定的定义允许这种灵活性。

但是否应该首先使用算法来仲裁公平性是一个复杂的问题。普林斯顿大学（Princeton University）副教授鲁哈·本杰明（Ruha Benjamin）在她的书中写道，机器学习算法是根据“通过排斥和歧视历史产生的数据”进行训练的赛后技术风险评估工具也不例外。使用它们或任何用于对人进行排名的算法的更大问题是，它们是减少了现有的不平等，还是使不平等加剧了。

塞尔布斯特建议谨慎行事：“每当你将公平的哲学概念转化为数学表达式时，它们就会失去细微差别、灵活性和可塑性，”他说。“这并不是说这样做的一些效率最终将不值得。我只是怀疑。”

Karen Hao和Jonathan Stray编写的单词和代码。由Emily Luong和Emily Caulfield提供设计建议。尼尔·费斯和吉迪恩·利奇菲尔德编辑。特别感谢拉希达·理查森来自AI Now，穆塔勒·恩科德来自伯克曼·克莱恩中心，以及艾萨克来自DeepMind的审查和咨询。

更正：文章的前一个版本链接了与COMAS不同的风险评估工具的信息。为了避免混淆，已将其删除。

深度潜水

人工智能

为什么OpenAI的新模型如此重要

迄今为止，LLM的大部分进展都是由语言驱动的。这个新模型进入了复杂推理的领域，对物理、编码等都有影响。

奥唐纳存档页面

OpenAI发布了一个新的ChatGPT机器人，您可以与之交谈

如今，支持语音功能的聊天机器人将面向一小群人，并在秋季面向所有ChatGPT Plus用户。

梅丽莎·海基莱存档页面

Roblox正在推出一种生成性人工智能，可以快速构建3D环境

这将使在平台上构建新的游戏环境变得容易，即使你没有任何设计技能。

斯科特·穆利根存档页面

“人格证书”如何帮助证明你是一个网上人

麻省理工学院、OpenAI、微软和其他机构的研究人员提出的一个系统可以通过利用技术的弱点来遏制欺骗性AI的使用。

里安诺·威廉姆斯存档页面

保持联系

Rose Wong插图

从获取最新更新
麻省理工学院技术评论

发现特别优惠、热门故事、，即将举办的活动等等。

你能让人工智能比法官更公平吗？玩我们的法庭算法游戏