伯纳德·帕克(左)被评为高危人群;迪伦·福格特被评为低风险患者。(Josh Ritchie代表ProPublica)

机器偏差

全国各地都有预测未来罪犯的软件。它对黑人有偏见。

2014年春天的一个下午,布里莎·博登(Brisha Borden)在上学的时候迟到了,因为她发现了一辆未上锁的儿童蓝色哈菲(Huffy)自行车和一辆银色剃须刀(Razor)滑板车。博登和一位朋友抓起自行车和踏板车,试图在劳德代尔堡郊区珊瑚泉的街道上骑行。

正当18岁的女孩们意识到自己太大了,无法容纳一个6岁男孩的小交通工具时,一个女人跑过来跟她们说:“那是我孩子的东西。”波登和她的朋友立即放下自行车和滑板车,走开了。

但为时已晚,一位目击者已经报警。Borden和她的朋友被逮捕,并被指控盗窃和小偷小摸这些物品,总价值80美元。

将他们的罪行与类似的罪行进行比较:去年夏天,41岁的弗农·普拉特(Vernon Prater)因在附近的家得宝(Home Depot)商店偷取价值86.35美元的工具而被捕。

普拉特是一个经验丰富的罪犯。除了另一项持械抢劫指控外,他还被判武装抢劫和持械未遂,入狱五年。Borden也有记录,但这是她在青少年时期犯下的轻罪。

然而,当Borden和Prater被判入狱时,发生了一些奇怪的事情:一个计算机程序发出分数,预测他们各自未来犯罪的可能性。波登是黑人,被评为高危人群。普拉特是白人,被评为低风险人群。

两年后,我们知道计算机算法完全是倒退的。波登没有被指控犯有任何新的罪行。普拉特因随后闯入仓库并偷窃价值数千美元的电子产品而被判处八年监禁。

这样的分数,即风险评估,在全国各地的法庭上越来越常见。它们被用来决定谁可以在刑事司法系统的每一个阶段获得自由,从分配保证金(如劳德代尔堡的情况)到关于被告自由的更基本的决定。在亚利桑那州、科罗拉多州、特拉华州、肯塔基州、路易斯安那州、俄克拉荷马州、弗吉尼亚州、华盛顿州和威斯康星州,此类评估的结果在刑事判决期间提供给法官。

对被告未来犯罪风险的评估通常与对被告康复需求的评估相结合。司法部的国家惩戒研究所现在鼓励在刑事司法程序的每个阶段使用这种综合评估。这是一个里程碑式的判决改革法案目前尚待国会批准的法案将授权联邦监狱使用此类评估。

两起轻微盗窃案

弗农·普拉特
以前的犯罪 2起武装抢劫,1起武装抢劫未遂
风险
后续犯罪 1起盗窃案
布里沙·博登
以前的犯罪 4起青少年轻罪
风险 8
后续犯罪
Borden被评为未来犯罪的高危人群,因为她和一位朋友在外面拿走了一辆儿童自行车和滑板车。她没有再犯。

2014年,当时的美国司法部长埃里克·霍尔德(Eric Holder)警告称,风险评分可能会给法院带来偏见。他呼吁美国量刑委员会研究其使用情况。他说:“尽管这些措施是出于好意制定的,但我担心它们无意中破坏了我们确保个人和平等司法的努力,”并补充道,“它们可能会加剧在我们的刑事司法系统和社会中已经非常普遍的无理和不公正的差距。”

然而,量刑委员会并没有启动风险评分研究。ProPublica就是这样做的,这是对美国生活中算法强大且基本上是隐藏的影响进行的一次更大规模调查的一部分。

我们获得了2013年和2014年在佛罗里达州布劳沃德县被捕的7000多人的风险评分,并检查了未来两年内有多少人被控新的犯罪使用的基准相同算法的创建者。

事实证明,该分数在预测暴力犯罪方面非常不可靠:只有20%的被预测会犯下暴力犯罪的人会继续这样做。

当考虑到一系列犯罪行为时,包括驾驶执照过期等轻罪,该算法比掷硬币更准确。在那些被认为有可能再次被逮捕的人中,61%的人因两年内的任何后续犯罪而被捕。

正如霍尔德担心的那样,我们也发现了显著的种族差异。在预测谁会被拒绝时,该算法对黑人和白人被告的错误率大致相同,但方式截然不同。

  • 这个公式很可能会错误地将黑人被告标记为未来的罪犯,这样错误地将他们标记为白人被告的比率几乎是白人被告的两倍。
  • 白人被告被错误地贴上低风险标签的情况比黑人被告多。

这种差异可以用被告以前的犯罪行为或他们被捕的犯罪类型来解释吗?没有。我们进行了一项统计测试,将种族的影响与犯罪史和累犯以及被告的年龄和性别隔离开来。黑人被告仍有77%的可能性被认定为未来有更高的暴力犯罪风险,45%的可能性被预测为未来有任何形式的犯罪。(阅读我们的分析.)

用于创建佛罗里达风险评分的算法是一家盈利性公司Northpointe的产品。公司对我们的分析提出异议。

在一封信中,它批评了ProPublica的方法,并为其测试的准确性进行了辩护:“Northpointe不同意您的分析结果或基于该分析提出的主张是正确的,也不同意它们准确地反映了模型应用的结果。”

Northpointe的软件是该国使用最广泛的评估工具之一。该公司没有公开披露用于得出被告风险分数的计算结果,因此,无论是被告还是公众都不可能看到导致这种差异的原因。(周日,Northpointe向ProPublica提供了其未来犯罪公式的基础知识,其中包括教育水平、被告是否有工作等因素。它没有分享具体的计算结果,并表示这些计算结果是专有的。)

Northpointe的核心产品是一组从137个问题要么由被告回答,要么从犯罪记录中提取。种族不是问题之一。调查询问了被告这样的问题:“你的父母中有人被送进过监狱或监狱吗?”“你有多少朋友/熟人在非法吸食毒品?”“在学校时你多久打架一次?”调查问卷还要求人们同意或不同意诸如“饥饿的人有权偷窃”和“如果人们让我生气或发脾气,我会很危险。”

风险评分的吸引力显而易见:美国关押的人数远远超过任何其他国家,其中黑人人数不成比例。两个多世纪以来,从审前释放到判刑再到假释,法律程序中的关键决定一直掌握在人类本能和个人偏见的指导下。

如果计算机能够准确预测哪些被告可能会犯下新的罪行,那么刑事司法系统就可以更公平、更有选择性地确定谁将被监禁以及监禁多长时间。当然,诀窍是确保计算机正确运行。如果在一个方向上错了,危险的罪犯可能会被释放。如果在另一个方向上是错误的,可能会导致某人不公平地接受更严厉的判决或等待更长的假释时间。

2013年2月15日,保罗·齐利在威斯康星州巴伦县的法庭上,第一次听到自己的分数,并意识到这其中有多重要。齐利被判偷窃推式割草机和一些工具。检察官建议在县监狱服刑一年,并进行后续监督,以帮助齐利“走上正确的道路”。他的律师同意了认罪协议。

但詹姆斯·巴勒法官看到了齐利的分数。Northpointe的软件将Zilly评为未来暴力犯罪的高风险,普通累犯的中等风险。“当我看到风险评估时,”巴勒在法庭上说,“它可能是最糟糕的。”

随后,巴伯勒推翻了检方和辩方达成的认罪协议,并判处两年国家监狱和三年监管。


犯罪学家长期以来一直在尝试在决定是否释放罪犯之前,预测哪些罪犯更危险。据英国《每日邮报》报道,直到20世纪70年代左右,种族、国籍和肤色一直被用于做出此类预测,当时这在政治上变得不可接受风险评估工具综述哥伦比亚大学法学教授伯纳德·哈考特。

20世纪80年代,随着犯罪浪潮席卷全国,立法者使得法官和假释委员会在做出此类决定时更难行使自由裁量权。各州和联邦政府开始实行强制性判决,在某些情况下,废除了假释,使对个别罪犯的评估变得不那么重要。

但随着各州努力为不断膨胀的监狱和监狱人口买单,预测犯罪风险又卷土重来。

两起毒品走私案

迪伦·福格特
先前的进攻 1起盗窃未遂案
风险
后续犯罪 3毒品持有
伯纳德·帕克
先前的进攻 1无暴力拒捕
风险 10
后续犯罪
福格特因携带可卡因和大麻被捕,被评为低风险患者。此后,他因毒品指控被捕三次。

全国各地都在使用数十种风险评估方法,其中一些是由诺斯波因特等营利性公司创建的,另一些是由非营利组织创建的。(包括肯塔基州和亚利桑那州在内的州使用的一种工具称为公共安全评估,由劳拉和约翰·阿诺德基金会开发,该基金会也是ProPublica的资助者。)

很少有人对这些犯罪风险评估进行独立研究。2013年,研究人员Sarah Desmarais和Jay Singh研究了19种不同的风险方法在美国使用,并发现“在大多数情况下,有效性只在一两项研究中进行了检查”,“这些调查通常由开发该仪器的同一个人完成。”

Desmarais在一次采访中表示,他们对2012年的研究进行的分析发现,这些工具“在预测有效性方面充其量是适中的”。她也找不到在美国进行的任何实质性研究,以检查风险评分是否存在种族偏见。“数据不存在,”她说。

从那时起,人们开始尝试探索风险评分中的种族差异。一个2016年研究研究了一种风险评估工具的有效性,而不是Northpointe的,该工具用于为大约35000名联邦罪犯做出缓刑决定。研究人员,加州大学伯克利分校的詹妮弗·斯凯姆和美国法院行政办公室的克里斯托弗·洛温坎普发现,黑人的平均得分确实较高,但他们得出的结论是,这种差异不是由于偏见造成的。

风险评分的使用越来越多,这引起了争议,并得到了媒体的报道,包括美联社、和马歇尔计划和五三八去年。

大多数现代风险工具最初是为了让法官了解个人可能需要的治疗类型,从药物治疗到心理健康咨询。

辛辛那提大学(University of Cincinnati)教授爱德华·拉泰萨(Edward Latessa)是俄亥俄州和其他几个州使用的风险评估工具的作者,他说:“它告诉法官的是,如果我让你缓刑,我需要给你很多服务,否则你可能会失败。”。

但是,被判定不符合替代治疗的资格——特别是在判决听证会上——可能会被判入狱。被告很少有机会质疑他们的评估。结果通常会与被告律师分享,但将基本数据转化为分数的计算很少被披露。

范德比尔特法学院(Vanderbilt Law School)刑事司法项目主管克里斯托弗·斯洛博金(Christopher Slobogin)表示:“除非双方都能看到其中的所有数据,否则不允许进行风险评估。”。“这应该是一个公开、全面的对抗性诉讼。”

黑人被告的风险得分

白人被告的风险得分

这些图表显示,白人被告的得分倾向于低风险类别。黑人被告的得分则不然。(来源:佛罗里达州布劳沃德县ProPublica数据分析)

风险评分的支持者认为,风险评分可以用来降低监禁率。2002年,弗吉尼亚州成为首批开始在全州范围内使用风险评估工具对非暴力重罪犯进行量刑的州之一。根据一份州量刑委员会的报告,2014年,弗吉尼亚州法官使用该工具将将近一半的被告送去了监狱以外的地方。自2005年以来,该州监狱人口增长率已从过去十年的31%放缓至5%。

在加利福尼亚州纳帕县等一些司法管辖区,缓刑部门使用风险评估向法官建议对被判刑的个人实施适当的缓刑或治疗计划。纳帕县高级法院法官Mark Boessenecker表示,他认为这些建议很有帮助。他说:“我们缺乏良好的治疗方案,所以用不需要的人填补方案中的空白是愚蠢的。”。

然而,博塞内克(Boessenecker)在该州培训其他法官进行循证判刑,他警告他的同事们,分数不一定能揭示一个人是否危险或是否应该入狱。

博塞内克说:“一个一年来每天猥亵小孩的人,因为他可能有工作,所以风险仍然很低。”。“与此同时,一个喝醉了的家伙看起来很危险,因为他无家可归。这些风险因素并不能告诉你他是否应该入狱;风险因素告诉你更多关于缓刑条件的信息。”

“我很惊讶(我的风险评分)这么低。我在马萨诸塞州的州立监狱里呆了五年。”(Josh Ritchie代表ProPublica)

有时,即使对被告来说,分数也毫无意义。

詹姆斯·里维利(James Rivelli),54岁,佛罗里达州好莱坞人,两年前因在CVS药店偷取七盒佳洁士白条而被捕。尽管他的犯罪记录包括严重殴打、多次偷窃和贩毒重罪,但诺斯波因特算法将其归类为再次犯罪的风险较低。

当一名记者告诉里维利,他被评为10分中的3分时,他说:“我很惊讶这个数字这么低。”。“我在马萨诸塞州的州立监狱里呆了五年。但我想在布劳沃德县他们不算在内。”事实上,来自全国各地的犯罪记录应该包括在风险评估中。

不到一年后,他因在商店里偷窃家得宝价值约1000美元的工具而被指控两项重罪。他说,他的罪行是由毒瘾加剧的,现在他已经清醒了。


Northpointe成立1989年,由当时科罗拉多大学统计学教授蒂姆·布伦南(Tim Brennan)和当时在密歇根州特拉弗斯城(Traverse City)执行纠正计划的戴夫·威尔斯(Dave Wells)共同撰写。

威尔斯为他的监狱建立了囚犯分类系统。在ProPublica完成分析之前,Brennan在接受采访时表示:“这是一项漂亮的工作。”。布伦南和威尔斯都喜欢布伦南所说的“数量分类法”,即对智力、外向和内向等性格特征的测量。两人决定为惩戒行业建立风险评估分数。

Brennan希望改进加拿大开发的领先风险评估分数LSI或服务水平库存。布伦南说:“我发现LSI存在相当大的弱点。”。他想要一个工具来解决犯罪原因的主要理论。

Brennan和Wells将他们的产品命名为“替代制裁惩戒罪犯管理档案”(COMPAS)。它不仅评估了风险,还评估了与主要犯罪理论相关的近24种所谓“犯罪需求”,包括“犯罪人格”、“社会隔离”、“药物滥用”和“居住/稳定”。被告在每一类中的风险等级为低、中或高。

两起酒后驾车被捕事件

格雷戈里·卢戈
以前的犯罪 3个DUI,1个电池
风险 1
后续犯罪 1个家庭暴力电池
马洛里·威廉姆斯
以前的犯罪 2项轻罪
中等风险 6
后续犯罪
卢戈喝醉了酒,把他的林肯领航员撞上了丰田凯美瑞。尽管这至少是他第四次酒后驾车,但他被评为再次犯罪的风险很低。

与风险评估工具经常发生的情况一样,许多司法管辖区在严格测试Northpointe的软件是否有效之前都采用了该软件。例如,纽约州在2001年的一个试点项目中开始使用该工具来评估缓刑人员,并在2010年将其推广到该州除纽约市以外的其他缓刑部门。该州没有发布综合统计评价直到2012年。这项对16000多名缓刑犯的研究发现,该工具的准确率为71%,但没有评估种族差异。

纽约州刑事司法服务部门的一位发言人表示,这项研究没有研究种族问题,因为它只是试图测试该工具是否经过适当校准,以适应纽约的缓刑人口。她还说,几乎所有纽约州的法官都会在宣判期间接受被告的诺思波因特评估。

2009年,Brennan和两位同事发表了一项验证研究该研究发现,在2328人的样本中,诺思波因特的累犯风险评分准确率为68%。他们的研究还发现,黑人男性的得分预测力略低于白人男性,分别为67%和69%。除此之外,它没有研究种族差异,包括一些群体是否更容易被错误地贴上高风险标签。

布伦南说,很难构建一个不包括与种族相关的项目的分数,比如贫困、失业和社会边缘化。他说:“如果在风险评估中忽略了这些因素,那么准确性就会下降。”。

2011年,Brennan和Wells将Northpointe出售给Toronto联合星座软件金额不详。

威斯康星州一直是诺思波因特风险评估工具在判刑决策中最热心、最广泛的用户之一。2012年,威斯康星州惩教署在全州范围内启动了该软件的使用。从判刑到假释,它被用于监狱系统的每个步骤。

在2012年的报告中,惩戒官员Jared Hoy将该系统描述为“巨型修正弹球机“在其中,惩教官员可以在每个“决定点”使用分数。”

威斯康星州尚未完成该工具的统计验证研究,也未说明何时发布。州惩戒官员拒绝了对这篇文章发表评论的多次请求。

威斯康星州的一些县在逮捕时使用其他风险评估工具来确定被告是否太危险,不适合审前释放。霍伊介绍说,一旦被告在该州任何地方被判重罪,惩戒部就会将诺斯波因特的评估附在提交给法官的机密陈述报告中。

理论上,法官不应该对风险分数较高的被告判处更长的刑期。相反,他们应该主要利用这些测试来确定哪些被告有资格接受缓刑或治疗计划。

黑人被告的预测不同程度地失败

白色 非裔美国人
标记为高风险,但未再次违规 23.5% 44.9%
标记为低风险,但再次违规 47.7% 28.0%
总的来说,Northpointe的评估工具在61%的情况下正确预测了累犯。但黑人被贴上更高风险标签的可能性几乎是白人的两倍,但实际上他们并没有被拒之门外。这在白人中犯了相反的错误:他们比黑人更有可能被贴上低风险标签,但继续犯下其他罪行。(资料来源:ProPublica对佛罗里达州布劳沃德县数据的分析)

但法官在判决中引用了分数。2013年8月,威斯康星州拉克罗斯县的斯科特·霍恩法官宣布,被告埃里克·卢米斯“通过COMPAS评估,被认定为社区高危个人”。法官随后判处8年零6个月监禁。

卢米斯被控驾驶被盗车辆并逃离警方,他对在判刑时使用分数提出质疑,认为这侵犯了他的正当程序权利。该州为霍恩使用分数进行辩护,理由是法官除了考虑其他因素外,还可以考虑分数。在州最高法院对此案作出裁决之前,它也已停止在提交报告中列入分数。

威斯康星州助理总检察长克里斯汀·雷明顿(Christine Remington)上个月在州最高法院(state Supreme Court)就鲁米斯(Loomis)案进行辩论时表示:“单凭风险评分不应决定罪犯的判刑。”。“我们不希望法院说,我面前的这个人在COMPAS上的风险是10,因此我将对他处以最高刑期。”

这几乎就是齐利(Zilly)的遭遇。这位48岁的建筑工人因偷窃一台推式割草机和一些他打算以零件价格出售的工具而入狱。齐利长期以来一直在与冰毒习惯作斗争。2012年,在一位基督教牧师的帮助下,他一直在努力康复,当时他复发并犯下了盗窃罪。

在Zilly被判为暴力累犯的高风险并被送进监狱后,一名公设辩护人对判决提出上诉,并致电该乐谱的创作者Brennan作为证人。

布伦南作证说,他设计的软件并不是为了用于量刑。布伦南说:“我想远离法庭。”他解释说,他的重点是减少犯罪,而不是惩罚。“但随着时间的推移,我开始意识到法庭上有这么多决定。因此,我逐渐软化了这是否可以在法庭上使用。”

“并不是说我是无辜的,但我只是相信人们确实会改变。”(Stephen Maturen代表ProPublica)

尽管如此,布伦南作证说:“我不喜欢COMPAS是决策所依据的唯一证据。”

在布伦南作证后,巴勒法官将兹利的刑期从两年减至18个月。2013年11月14日,法官在上诉听证会上表示:“如果我没有COMPAS,我相信我可能会给一年或六个月的时间。”。

齐利说,分数没有考虑到他在生活中所做的所有改变——他皈依了基督教,他努力戒毒,以及他为儿子争取更多机会所做的努力。“并不是说我是无辜的,但我只是相信人们确实会改变。”


佛罗里达州布劳沃德县,布里沙·博登(Brisha Borden)偷走了哈菲(Huffy)自行车,并被评为高风险,但在判刑时没有使用风险评估。劳德代尔堡布劳沃德县治安办公室社区项目执行主任David Scharf表示:“我们认为[风险评估]因素与判决没有任何关系。”。

然而,布劳沃德县在审前听证会上采纳了这一分数,希望解决监狱人满为患的问题。自1994年以来,由于20世纪70年代囚犯提起的诉讼得到解决,一名法院指定的监督员一直在监督布劳沃德县的监狱。沙尔夫说,即使是几年后的今天,布劳沃德县监狱系统的囚犯人数也经常超过85%。

2008年,警长办公室决定不再建造另一座监狱,而是开始使用Northpointe的风险评分来帮助确定哪些被告风险较低,可以在等待审判期间保释。从那时起,几乎所有在布劳沃德被捕的人都在被记名后不久就被记分。(被控谋杀罪和其他死罪的人不计分,因为他们没有资格获得审前释放。)

分数提供给法官,由他们决定哪些被告可以出狱。沙夫说:“我的感觉是,如果他们不需要入狱,那就让他们离开监狱。”。

两起抢劫案

詹姆斯·里韦利
以前的犯罪 1起家庭暴力严重袭击、1起重大盗窃、1起小偷小摸、1起贩毒
风险
后续犯罪 1起盗窃案
罗伯特·坎农
先前的犯罪 1起小偷小摸
中等风险 6
后续犯罪
里维利从CVS偷东西,并在车内携带海洛因被抓获后,被评为低风险。他后来从一家家得宝商店偷了价值1000美元的工具。

谢尔夫说,该县之所以选择诺斯波因特的软件而不是其他工具,是因为它易于使用,并且制作了“简单但有效的图表和司法审查图表”。他说,该系统每年的成本约为22000美元。

2010年,佛罗里达州立大学(Florida State University)的研究人员对布劳沃德县(Broward County)Northpointe系统在12个月内的使用情况进行了调查,得出结论认为,在评估不同种族的被告时,该系统的预测准确度“相当”。和其他人一样,他们没有检查不同种族的低风险或高风险分类是否不同。

沙夫表示,该县将审查ProPublica的调查结果。他说:“我们会仔细看看。”。

布劳沃德县法官约翰·赫尔利(John Hurley)负责监督大多数审前释放听证会,他表示,当他还是一名新法官时,分数是有帮助的,但现在他有了经验,他更愿意依靠自己的判断。“我已经有几年没有依赖COMPAS了,”他说。

赫尔利说,他所依赖的因素包括一个人以前的犯罪记录、所犯罪行的类型、与社区的联系以及他们没有出庭的历史。

ProPublica的分析表明,诺思波因特分数较高与布劳沃德县审前监禁时间较长略有关联。但是,除了评委们被分数所左右之外,还有许多其他原因可能是正确的——例如,风险分数较高的人可能也比较穷,而且很难支付保证金。

大多数罪行都会以推荐的保证金金额提交给法官,但法官可以调整保证金金额。赫尔利说,他经常在没有任何约束的情况下释放初犯或低级罪犯。

然而,在Borden和她的朋友Sade Jones这两个十几岁的女孩偷了一辆儿童自行车和滑板车的案件中,Hurley将每个女孩的保证金从建议的0美元提高到了1000美元。

赫尔利说,他不记得这个案件,也不记得分数是否影响了他的决定。

此前从未被捕的萨德·琼斯被评为中等风险。(Josh Ritchie代表ProPublica)

女孩们在监狱里呆了两个晚上,然后被保释。

琼斯回忆道:“我们真的坐在那里哭了”,在他们坐牢的整个过程中。女孩们被关在同一间牢房里。否则,琼斯说,“我会发疯的。”博登拒绝了对这篇文章进行评论的多次请求。

琼斯之前从未被捕,被评为中等风险。她完成了缓刑,入室行窃重罪被减为轻罪侵入,但她仍在努力寻找工作。

她说:“我去了麦当劳和一美元店,因为我的背景,他们都拒绝了。”。“这有点困难,也没有必要。”


作者照片

盎格文是ProPublica的高级记者。从2000年到2013年,她是《华尔街日报》的一名记者,在那里她领导了一个隐私调查团队,该团队入围了2011年普利策解释性报道奖的决赛,并在2010年获得了杰拉尔德·勒布奖。

作者照片

杰夫·拉森是ProPublica的数据编辑器。他是2011年利文斯顿奖的获奖者重新划分选区:强大的利益是如何将你从投票中拉出来的可以找到Jeff的公钥在这里.

Lauren Kirchner是ProPublica的高级报道研究员。苏里亚·马图是一位有贡献的研究员。Rob Weychert和David Sleight设计和制作。


评论支持人Disqus餐厅