我们如何分析COMPAS累除数算法

作者：杰夫·拉尔森（Jeff Larson）、苏里亚·马图（Surya Mattu）、劳伦·基什内尔（Lauren Kirchner）和朱莉娅·安格温（Julia Angwin） 2016年5月23日

在全国各地，法官、缓刑和假释官员越来越多地使用算法来评估刑事被告成为累犯的可能性——这个词用来描述再次犯罪的罪犯。目前有数十种风险评估算法正在使用中。许多州都建立了自己的评估，一些学者也编写了工具。商业供应商还提供了两种全国领先的工具。

我们开始评估Northpoint，Inc.制造的一种商业工具，以发现其累犯算法的潜在准确性，并测试该算法是否对某些群体有偏见。

我们对Northpointe公司的工具COMPAS（即针对替代制裁的惩教罪犯管理分析）进行的分析发现，黑人被告比白人被告更容易被错误地判断为具有更高的累犯风险，而白人被告比黑人被告更容易被错误地标记为低风险。

我们对佛罗里达州布劳沃德县的10000多名刑事被告进行了调查，并将他们的预测累犯率与两年内实际发生的累犯率进行了比较。当大多数被告被判入狱时，他们会对COMAS调查问卷作出回应。他们的答案被输入到COMPAS软件中，以生成几个分数，包括“累犯风险”和“暴力累犯风险。”

我们将COMPAS工具预测的累犯风险类别与被告在评分后两年内的实际累犯率进行了比较，发现该评分在61%的时间内正确预测了罪犯的累犯，但仅在20%的时间内准确预测了暴力累犯。

在预测谁会被拒绝时，该算法正确地预测了黑人和白人被告的累犯率大致相同（白人被告为59%，黑人被告为63%），但错误的方式却大相径庭。在两年的随访期内，它对白人和黑人被告进行了不同的分类。

我们的分析发现：

黑人被告经常被预测为比实际情况更容易再次犯罪。我们的分析发现，与白人被告相比，两年内没有再次犯罪的黑人被告被错误分类的风险几乎是白人被告的两倍（45%对23%）。
白人被告通常被预测风险比他们低。我们的分析发现，在未来两年内重新辩护的白人被告被错误地贴上低风险标签的频率几乎是黑人被告的两倍（48%对28%）。
分析还表明，即使控制了先前的犯罪、未来的累犯、年龄和性别，黑人被告比白人被告更有可能获得更高的风险分数。
黑人被告被错误归类为暴力累犯风险更高的可能性是白人被告的两倍。与黑人暴力累犯相比，白人暴力累犯被误认为暴力累犯风险低的可能性高出63%。
暴力累犯分析还显示，即使在控制之前的犯罪、未来的累犯、年龄和性别时，黑人被告比白人被告更有可能获得更高的风险分数。

以前的工作

2013年，研究人员Sarah Desmarais和Jay Singh检查了美国正在使用的19种不同的累犯风险方法，发现“在大多数情况下，只有在美国进行的一两项研究中检查了有效性，而且这些调查往往是由开发该工具的同一个人完成的。”

Desmarais在一次采访中表示，他们对2013年3月之前发表的研究进行的分析发现，这些工具“在预测有效性方面充其量是中等的”。她也找不到在美国进行的任何实质性研究，以检查风险评分是否存在种族偏见。“数据不存在，”她说。

自那时以来，美国风险评估算法中最大的种族偏见检查是2016年论文由加州大学伯克利分校的詹妮弗·斯凯姆和美国法院行政办公室的克里斯托弗·洛温坎普撰写。他们检查了34000名联邦罪犯的数据，以测试定罪后风险评估联邦法院开发的工具，用于帮助缓刑和假释官员确定囚犯获释后所需的监管水平。

作者发现，黑人罪犯的平均风险分数高于白人罪犯，但这一结论表明，这种差异不是由偏见造成的。

2013年的一项研究分析了不同种族之间的预测有效性，得到另一个分数，称为服务水平调查表，这是Multi-Health Systems最流行的商业风险分数之一。该研究发现，“少数民族的LS得分高于非少数民族。”该研究的作者是加拿大人，他们指出，美国的种族差异比加拿大更为一致。他们写道：“一种可能是，司法系统内的系统性偏见可能会扭曲对‘真实’累犯的衡量。”。

2006年，一项针对532名工作释放计划男性居民的小型研究也发现，在服务水平清单修订中，“非裔美国人的分类错误倾向”。这项由救世军惩教服务项目的凯文·怀特阿克进行的研究发现，42.7%的非裔美国人被错误地归类为高危人群，而白人和西班牙裔分别为27.7%和25%。该研究敦促惩教机构使用我们在本研究后面采用的简单列联表方法，独立调查他们对分数的使用情况。

随着风险评分进一步成为刑事司法系统的主流，决策者呼吁进一步研究评分是否有偏差。

埃里克·霍尔德（Eric Holder）担任美国司法部长时，曾要求美国量刑委员会研究量刑测试中的潜在偏见。他说：“尽管这些措施是出于好意制定的，但我担心它们无意中破坏了我们确保个人和平等司法的努力，”并补充道，“它们可能会加剧在我们的刑事司法系统和社会中已经非常普遍的无理和不公正的差距。”量刑委员会表示，目前尚未对风险评估中的偏见进行分析。

因此，ProPublica进行了自己的分析。

我们如何获取数据

我们之所以选择检查COMPAS算法，是因为它是全国范围内使用最广泛的分数之一，并且越来越多地用于预审和量刑，即刑事司法系统的所谓“前端”。我们选择布劳沃德县是因为它是一个大的司法管辖区，在审前释放决定中使用COMPAS工具，并且佛罗里达州有强有力的公开记录法律。

通过公开记录请求，ProPublica从佛罗里达州布劳沃德县治安办公室获得了两年的COMPAS分数。我们收到了2013年和2014年所有18610人的数据。

由于布劳沃德县主要使用分数来决定是否在被告受审前释放或拘留被告，因此我们放弃了在假释、缓刑或刑事司法系统其他阶段评估的分数。这使我们有11757人在预审阶段接受了评估。

每个预审被告至少获得三个COMPAS评分：“累犯风险”、“暴力风险”和“未出庭风险”

每个被告的COMPAS得分从1分到10分不等，其中10分风险最高。COMPAS将分数1-4标记为“低”；5至7名被标记为“中等”；8到10个标记为“高”

从COMPAS评分数据库开始，我们建立了每个人在评分之前和之后的犯罪历史档案。我们从布劳沃德县办事员办公室网站至2016年4月1日。平均而言，我们数据集中的被告没有被监禁622.87天（标准偏差：329.19）。

我们使用一个人的名字、姓氏和出生日期将犯罪记录与COMPAS记录进行匹配。这与布劳沃德县COMPAS验证研究2010年由佛罗里达州立大学的研究人员进行。我们从布劳沃德县办事员办公室网站.

为了确定种族，我们使用了布劳沃德县治安官办公室使用的种族分类，将被告分为黑人、白人、西班牙裔、亚裔和美洲原住民。在343个案例中，比赛被标记为“其他”。

我们还汇编了每个人的监禁记录。2013年1月至2016年4月，我们从布劳沃德县治安办公室收到了监狱记录，并从佛罗里达州惩教部网站。

我们发现，有时人们的姓名或出生日期在某些记录中输入不正确，这导致个人的COMPAS分数与其犯罪记录不匹配。我们试图确定有多少记录受到影响。在400例病例的随机样本中，我们发现错误率为3.75%（CI:+/-1.8%）。

我们如何定义累犯

定义累犯是我们分析的关键。

在2009年的一项研究检验了COMPAS评分的预测能力Northpointe将累犯定义为“涉及指控和申请任何统一犯罪报告（UCR）法规的指头逮捕”。我们将其解释为导致入狱的刑事犯罪，发生在犯罪人被COMPAS评分后。

然而，并不总是清楚哪个刑事案件与个人的COMPAS分数有关。为了将COMPAS评分与相关案件相匹配，我们考虑了COMPAS评估后30天内逮捕日期或指控日期的案件。在某些情况下，我们找不到与COMPAS分数对应的任何费用。我们从分析中删除了这些案例。

接下来，我们试图确定一个人是否在接受COMPAS筛查后被指控犯有新的罪行。我们没有将交通罚单和一些违反市政条例的行为视为累犯。我们不把那些因未能出席法庭听证会而被捕的人，或后来被指控犯有COMPAS筛查之前发生的罪行的人算作累犯。

对于暴力累犯，我们使用FBI对暴力犯罪的定义这一类别包括谋杀、误杀、强暴、抢劫和严重袭击。

在我们的大多数分析中，我们将累犯定义为两年内的新逮捕。我们的这一决定基于诺思坡特的从业人员指南，该指南指出，其累犯分数旨在预测“自COMPAS管理之日起两年内出现新的轻罪或重罪”

此外最近对25000名联邦囚犯累犯的研究美国量刑委员会（U.S.Senting Commission）的调查结果显示，大多数累犯在获释后的头两年内再次犯罪（如果他们真的要犯罪的话）。

分析

我们分析了COMPAS评分中的“累犯风险”和“暴力累犯风险“。我们没有分析COMPAS得分中的“出庭失败风险”

我们从累犯风险评分开始。我们的初步分析着眼于COMPAS十分位分数在白人和黑人之间的简单分布。我们绘制了6172名被告的分数分布图，这些被告没有因新的犯罪行为被捕或在两年内再次犯罪。

这些直方图显示，白人被告的得分倾向于低风险类别，而黑人被告的得分分布均匀。在我们两年的样本中，有3175名黑人被告和2103名白人被告，其中1175名女性被告和4997名男性被告。在这个样本中，有2809名被告在两年内再次犯罪。

COMPAS的暴力风险评分直方图也显示了白人和黑人被告之间的评分分布差异。我们用来测试COMPAS暴力累犯分数的样本略低于一般累犯分数：4020名被告、1918名黑人被告和1459名白人被告。有652名暴力累犯。

虽然白人和黑人被告的COMPAS分数分布存在明显差异，但仅仅看分布并不能说明其他人口和行为因素。

为了测试其他因素在分数控制方面的种族差异，我们建立了一个考虑种族、年龄、犯罪史、未来累犯、指控程度、性别和年龄的逻辑回归模型。

**一般累犯风险Logistic模型**
	因变量：
	分数（低与中、高）
女性	0.221^***(0.080)
年龄：45岁以上	-1.356^***(0.099)
年龄：25岁以下	1.308^***(0.076)
黑色	0.477^***(0.069)
亚洲的	-0.254 (0.478)
西班牙裔	-0.428^***(0.128)
美洲原住民	1.394^*(0.766)
其他	-0.826^***(0.162)
优先股数量	0.269^***(0.011)
轻罪	-0.311^***(0.067)
两年累犯	0.686^***(0.064)
常量	-1.526^***(0.079)
观察	6,172
Akaike Inf.Crit公司。	6,192.402
注：^p<0.1；^p<0.05；^p<0.01

我们使用这些因素来模拟获得更高COMPAS分数的可能性。根据Northpointe的从业者指南COMPAS“中高分比低分更能引起监管机构的兴趣，因为低分表示一般累犯的风险很小”，所以我们认为分数高于“低”表示有累犯风险。

我们的logistic模型发现，年龄是风险评分较高的最预测因素。25岁以下的被告获得高分的可能性是中年罪犯的2.5倍，即使考虑到之前的犯罪、未来的犯罪行为、种族和性别。

比赛也预示着分数会更高。虽然黑人被告总体上的累犯率较高，但在考虑到这种差异和其他因素后，他们比白人获得更高分数的可能性高45%。

令人惊讶的是，考虑到女性被告的总体犯罪率较低，在相同因素的控制下，女性被告的得分比男性高19.4%。

**暴力累犯风险的Logistic模型**
	因变量：
	分数（低与中、高）
女性	-0.729^***(0.127)
年龄：45岁以上	-1.742^***(0.184)
年龄：25岁以下	3.146^***(0.115)
黑色	0.659^***(0.108)
亚洲的	-0.985 (0.705)
西班牙裔	-0.064 (0.191)
美洲原住民	0.448 (1.035)
其他	-0.205 (0.225)
优先股数量	0.138^***(0.012)
轻罪	-0.164^*(0.098)
两年累犯	0.934^***(0.115)
常量	-2.243^***(0.113)
观察	4,020
Akaike Inf.Crit公司。	3,022.779
注：^p<0.1；^p<0.05；^p<0.01

COMPAS软件还对暴力累犯风险进行了评分。我们分析了4020名在两年内（不包括入狱时间）因暴力累犯而被评分的人。我们对这些分数进行了类似的回归模型。

年龄更能预测暴力累犯的高分。我们的回归表明，在纠正犯罪历史、性别、种族和未来暴力累犯时，年轻被告获得更高分数的可能性是中年被告的6.4倍。

种族也是暴力累犯得分较高的预测因素。黑人被告比白人被告获得更高分数的可能性高77.3%，纠正了犯罪历史和未来的暴力累犯。

为了测试COMPAS的总体预测准确性，我们将Cox比例风险模型拟合到数据中——与Northpointe在其自己的验证研究中使用的技术相同。考克斯模型允许我们在控制时间的同时比较累犯率。因为我们没有控制其他因素，比如被告的犯罪行为，所以我们可以在这个考克斯模型中包括更多的人。在这项分析中，我们的样本量为10314名被告（3569名白人被告和5147名黑人被告）。

**一般累犯风险考克斯模型**
高风险	1.250^***(0.041)
中等风险	0.796^***(0.041)
观察	13,344
R（右）²	0.068
最大可能R²	0.990
Wald测试	954.820^***（df=2）
LR测试	942.824^***（df=2）
分数（Logrank）测试	1,054.767^***（df=2）
注：^p<0.1；^p<0.05；^p<0.01

我们认为数据集中的人从获得COMPAS评分的那一天起，到他们犯下新的罪行的那天，或2016年4月1日，以先到者为准，都处于“风险”之中。当人们被监禁时，我们将他们从风险集中排除。Cox模型中的自变量是COMPAS分类风险评分。

考克斯模型显示，得分高的人的复发概率是得分低（1-4分）的人的3.5倍。Northpointe的研究发现，得分高（8到10分）的人再次发作的可能性是普通人的5.6倍。两个结果都表明该评分具有预测价值。

卡普兰·迈耶生存曲线也显示了每个COMPAS评分水平之间的累犯率的明显差异。

总体而言，Cox回归的一致性得分为63.6%。这意味着，对于样本中随机选择的任何一对被告，COMPAS系统可以在63.6%的时间内准确地对其累犯风险进行排名（例如，如果一对被告中有一人累犯，如果该人的得分也较高，则该对被告将被视为成功匹配）。在研究中，Northpointe报告了略高的一致性：68%。

根据潜在风险评分（排名为1至10）而非低、中、高区间运行考克斯模型，得出的一致性略高，为66.4%。

这两个结果都低于Northpointe所描述的可靠性阈值。该公司在其研究中表示：“根据最近几篇文章的经验法则，0.70或更高的AUC通常表示令人满意的预测准确度，0.60到0.70之间的测量值表示低到中等的预测准确率。”。

COMPAS暴力累犯评分的一致性为65.1%。

COMPAS系统对性别间累犯的预测不均衡。根据Kaplan-Meier的估计，被评为高风险的女性在被评分后的两年内复发率为47.5%。但在同一时间段内，被评为高风险的男性再次发病率高达61.2%。这意味着，高风险女性再次发作的风险比高风险男性低得多，这一事实可能会被解读分数的执法人员忽视。

Northpointe确实为女性提供了一种定制测试，但在布劳沃德县没有使用。

在我们的研究中，COMPAS累犯评分的预测准确性在不同种族之间是一致的——白人被告为62.5%，黑人被告为62.3%。Northpointe研究的作者发现，不同种族的一致性得分略有不同：白人被告为69%，黑人被告为67%。

在所有风险类别中，黑人被告的再次犯罪率都较高。

**一般累犯风险Cox模型（带交互项）**
黑色	0.279^***(0.061)
亚洲的	-0.777 (0.502)
西班牙裔	-0.064 (0.097)
美洲原住民	-1.255 (1.001)
其他	0.014 (0.110)
高分	1.284^***(0.084)
中等分数	0.843^***(0.071)
黑色：高	-0.190^*（.100，p:0.0574）
亚洲人：高	1.316^*(0.768)
西班牙裔：高	-0.119 (0.198)
美洲原住民：高	1.956^*(.083)
其他：高	0.415 (0.259)
黑色：中等	-0.173^*（.091，p:0.0578）
亚洲人：中等	0.986 (0.711)
西班牙裔：中等	0.065 (0.164)
美洲原住民：中等	1.390 (1.120)
其他：中等	-0.334 (0.232)
观察	13,344
R（右）²	0.072
最大可能R²	0.990
对数可能性	-30,280.410
Wald测试	988.830^***（df=17）
LR测试	993.709^***（df=17）
分数（Logrank）测试	1,104.894^***（df=17）
注：^p<0.1；^p<0.05；^p<0.01

我们还向考克斯模型中添加了一个外消旋相互作用项。这一术语使我们能够考虑黑人被告和白人被告的高分和低分累犯之间的差异是否不同。

黑人被告的高分系数几乎具有统计学意义（0.0574）。高风险白人被告再次犯罪的可能性是低风险白人被告的3.61倍，而高风险黑人被告重新犯罪的可能性只有低风险黑人被告的2.99倍。中等风险被告与低风险被告的风险比率也因种族而异：白人被告为2.32，黑人被告为1.95。由于危险比之间存在差距，我们可以得出结论，不同种族亚组的得分表现不同。

我们对COMAS的暴力累犯分数进行了类似的分析，但我们没有发现类似的结果。在这里，我们发现种族和分数的交互作用项不显著，这意味着高风险和低风险黑人被告以及高风险和低风险白人被告的危险性没有显著差异。

总的来说，暴力累犯比普通累犯少得多，而且黑人和白人累犯的不同分数水平的危险率也没有明显差异。这些卡普兰·迈耶（Kaplan-Meier）的阴谋表明，暴力累犯率很低。

最后，我们调查了某些类型的错误（假阳性和假阴性）在种族间的分布是否不均衡。根据救世军2006年论文中概述的分析，我们使用列联表来确定这些相对利率。

我们从数据集中删除了那些我们有不到两年累犯信息的人。剩余人口为7214人，略大于上述逻辑模型中的样本，因为我们不需要被告的案件信息来进行分析。在逻辑回归分析中，我们将“低”以外的分数标记为高风险。下表显示了COMPAS累犯评分的表现：

**所有被告**
	低	高
幸存下来的	2681	1282
已重新分配	1216	2035
FP率：32.35
FN比率：37.40
PPV:0.61
净现值：0.69
LR+:1.94
LR-：0.55

**黑人被告**
	低	高
幸存下来的	990	805
重复的	532	1369
FP率：44.85
FN比率：27.99
PPV:0.63
净现值：0.65
左后+：1.61
LR-：0.51

**白人被告**
	低	高
幸存下来的	1139	349
重复的	461	505
FP率：23.45
FN比率：47.72
PPV:0.59
净现值：0.71
左后+：2.23
LR-：0.62

这些列联表显示，该算法更容易将黑人被告误认为风险高于白人被告。与白人被告相比，没有再次犯罪的黑人被告被COMPAS归类为高风险被告的可能性几乎是白人被告的两倍（45%对23%）。然而，得分较高的黑人被告再次犯罪的频率略高于白人被告（63%对59%）。

这项测试倾向于对白人犯相反的错误，这意味着与黑人被告相比，它更可能错误地预测白人如果获释不会犯更多罪行。COMPAS将白人再犯罪者归类为低风险者，比黑人再犯罪者多70.5%（48%对28%）。白人被告的似然比为2.23，略高于黑人被告的1.61。

我们还测试了是否将我们对高风险的定义限制为仅包括COMPAS的高分，而不是同时包括中高分，从而改变了我们的分析结果。在这种情况下，黑人被告被错误评定为高风险被告的可能性是白人被告的三倍（16%对5%）。

我们发现COMAS暴力累犯评分也有类似结果。如前所述，我们根据分数的表现计算了列联表：

**所有被告**
	低	高
幸存下来的	4121	1597
重复的	347	389
FP率：27.93
FN比率：47.15
平均值：0.20
净现值：0.92
左后+：1.89
LR-：0.65

**黑人被告**
	低	高
幸存下来的	1692	1043
已重新分配	170	273
FP率：38.14
FN比率：38.37
PPV:0.21
净现值：0.91
左后+：1.62
LR-：0.62

**白人被告**
	低	高
幸存下来的	1679	380
重复的	129	77
FP率：18.46
FN比率：62.62
PPV:0.17
净现值：0.93
左后+：2.03
LR-：0.77

黑人被告被错误归类为暴力累犯风险较高的可能性是白人被告的两倍，白人累犯被错误分类为低风险的可能性比黑人被告高63.2%。被归类为暴力累犯风险较高的黑人被告的累犯率略高于白人被告（21%对17%），白人被告的可能性比为2.03，高于黑人被告的1.62。

我们已经发布了此分析的计算结果和数据关于github.

← 阅读这个故事