算法正在构建种族主义的新基础设施吗鹦鹉螺

W公司我们不知道我们的客户长什么样，”亚马逊全球传播副总裁克雷格·伯曼（Craig Berman）对彭博新闻社2015年6月。伯曼回应了有关该公司同日送货服务歧视有色人种的指控。从字面意义上讲，伯曼的辩解是真实的：亚马逊根据成本和收益因素（如家庭收入和配送可达性）选择相同的配送区域。但这些因素是由邮政编码聚合而成的，这意味着它们还承载着其他影响，这些影响塑造并继续塑造着我们的文化地理。看看同一天的服务地图，很难发现与肤色的对应关系。

这些地图让人想起罗伯特·摩西（Robert Moses）这样的人，他是一位总规划师，几十年来，他塑造了现代纽约市及其周边郊区的大部分基础设施。臭名昭著的是，他不想让穷人，尤其是有色人种的穷人，使用他在长岛建造的新公园和海滩。尽管摩西努力通过了一项禁止在高速公路上乘坐公交车的法律，但他知道这项法律总有一天会被废除。因此，他建造了更为持久的东西：几十座立交桥太低，无法让公交车通过，这实际上是将歧视具体化了。这些决定以及数十项类似决定的影响是深远和持久的。几十年后，巴士法事实上已经被推翻，但高速公路沿线的城镇仍然保持着隔离。摩西说：“立法总是可以改变的。”。“桥一建成就很难拆掉。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

**社会工程师：**罗伯特·摩西（Robert Moses）站在纽约市布鲁克林电池桥（Brooklyn-Battery Bridge）模型旁边（该桥从未建成）。

今天，一组新的高速公路，由旧结构形成的数据建成，刷新了这些划分。虽然新基础设施的架构师可能没有同样的阴险意图，但他们也不能声称忽视了其影响。大数据从业者了解到，亚马逊和其他公司用于提供定制服务的大型、详细的数据集不可避免地包含受保护属性的指纹，如肤色、性别、性取向和政治取向。算法基于这些数据做出的决策可能会无形地开启这些属性，其方式既不可理解又不道德。

鹦鹉螺会员享受无广告体验。登录或立即加入.

被选择的通常是最容易量化的，而不是最公平的。

凯特·克劳福德（Kate Crawford）在微软研究院（Microsoft Research）调查算法偏见，并与他人共同创立了“AI Now”倡议，该倡议旨在研究当今使用的人工智能系统所带来的危险。她告诉我，算法公平性的一个基本问题是，算法能够在多大程度上理解它们使用的数据的社会和历史背景。克劳福德说：“你可以告诉操作员，要考虑到数据本身是人类历史的表现方式。”。“你是如何训练机器做到这一点的？”不能以这种方式理解上下文的机器充其量只能传递制度化的歧视，也就是所谓的“偏见输入，偏见输出”

纠正潜在偏见的不彻底努力可能会使情况变得更糟。克劳福德的同事、康奈尔大学的索伦·巴罗卡斯（Solon Barocas）观察到，最终用户可以“不加批判地接受供应商的说法”，即算法已经消除了偏见。对于司法系统这样的应用程序来说，情况尤其如此，在司法系统中，现状充满了偏见，并且对更客观的机器的承诺具有极大的吸引力。去除算法偏差还需要对公平的含义有一个主观的定义，并且选择的通常是最容易量化的，而不是最公平的。

然而，尽管存在所有的陷阱，但发现和消除数据和算法中的偏见也伴随着一小部分机会：它可以以新的方式显示偏见的轮廓。

鹦鹉螺会员享受无广告体验。登录或立即加入.

C类OMPAS是美国各地法院使用的一种软件。该项目根据被告对137个调查问题的回答来估计被告重新辩护的可能性。然后将该估计值用于通知保释决定。

COMPAS调查问卷没有询问肤色、传统甚至邮政编码。但它确实提出了一些问题，比如被告是否生活在“犯罪率高”的社区，以及他们是否在寻找“高于最低工资”的工作方面遇到了困难。这些问题更适合向社会而不是个人提出，强调了其中的偏见：答案与受保护的属性相关，包括种族，这意味着算法可以学会有效地“看到”数据中的这些属性。然而，COMPAS背后的公司Northpointe声称已经校准了COMPAS，因此其重新预测的准确性与肤色无关。

2015年，ProPublica的记者开始利用COMPAS的一位客户佛罗里达州布劳沃德县的公共记录来测试这一说法。他们发现，当COMPAS预测被告是高风险的，而被告当时实际上又被再次逮捕时，其预测实际上是最直接的色盲。但是，当COMPAS的预测不准确时（要么在没有再次发生的情况下预测再次发生，要么不预测实际的再次发生），它通常会低估白人累犯的概率，而高估黑人累犯的可能性。换句话说，它包含了一种偏见，这种偏见从一组统计数据的角度看是隐藏的，但在另一组统计数字中却是显而易见的。

鹦鹉螺会员享受无广告体验。登录或立即加入.

ProPublica在一篇文章中报道了这一发现，文章的副标题是“全国各地都有软件用于预测未来的罪犯。它对黑人有偏见。”Northpoint对他们的评估提出了质疑，并用统计数据进行了回应重新-分析他们的主张。Northpointe将争论从错误率的差异转移到了风险分数反映实际潜在流行率的事实上：更多的非裔美国人被告事实上会再次被逮捕。他们认为，这意味着，作为一个群体，他们的风险得分较高并不奇怪。

Northpointe的论点的中心是一个本质主义谬论：他们声称，由于被警方归类为非裔美国人的人在训练数据集中被再次逮捕的频率更高，COMAS有理由预测其他被警察归类为非裔美国人的人，即使在不同的城市、州和时间段，也更有可能再次被捕。分类到数据再回到分类的循环与W.E.B.Dubois 1923年的定义相呼应，“黑人是必须在乔治亚州骑Jim Crow的人。”

大数据时代的一大好处是，我们的决策逻辑可以以以前不可能的方式进行正式分析，并从数字上进行区分。

虽然这一集说明了算法决策的许多危险，但它也引发了大量学术研究，得出了一个令人惊讶的结论：给被告分配风险分数的想法本身就需要在“公平”这个词的两个不同且不兼容的定义之间进行权衡。此外，这种权衡是普遍的。康奈尔大学计算机科学教授Jon Kleinberg告诉我：“任何执行这一过程的系统都会面临这一挑战，无论是算法还是人类决策系统。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

Kleinberg和他的同事发表了一项研究，证明Northpointe和ProPublica使用的公平的两个定义在数学上是不相容的。从技术角度来看，他们所展示的是预测平价（风险评分对黑人和白人被告是否具有相同的总体准确性）和错误率平衡（风险评分是否以相同的方式，对不同的群体得出错误的结果）是互斥的。当结果测量的基准率重新出现时，如果COMPAS在任何两个组之间不同，则对两个组应用相同的标准必然会对基准率较高的组产生错误率偏差。“‘校准’是导致这个问题的原因，”克莱恩伯格说。这适用于任何使用风险评分的系统——无论是机器算法还是人类机构——无论它使用什么因素来生成风险评分。

值得注意的是，这种不兼容性以前从未出现过。它的发现指出了大数据时代的一大好处：我们的决策逻辑可以以以前不可能的方式进行正式分析，并从数字上进行区分。因此，法官现在知道在做出决定时要考虑到这些更广泛的不平衡。Kleinberg说：“ProPublica提出的问题实际上是关于我们如何看待预测，以及我们如何看待算法。”。

学术界还建议如何修复COMPAS。卡内基梅隆大学海因茨学院统计学和公共政策教授亚历山德拉·乔尔德科娃（Alexandra Chouldechova）表示，如果COMPAS的设计者允许它对非裔美国人的被告总体上更加不准确，他们可以确保算法对不同种族的错误率相同。她说：“这可能是你想要做出的权衡。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

G公司oogle Translate隐藏着性别歧视。要查看它，请尝试翻译短语“o bir桌面“和”o比尔·亨姆什伊雷“从土耳其语到英语。因为土耳其语短语使用中性代词“o（o），“谷歌翻译被迫自己选择性别代词。结果：它把第一个短语翻译成“他是医生”，第二个翻译成“她是护士”

2016年，波士顿大学的Tolga Bolukbasi及其同事发表了一篇论文，其中重点介绍了一种被称为单词嵌入的语言模型。这些模型用于支持翻译服务、搜索算法和自动完成功能，它们是根据收集到的自然语言（如谷歌新闻文章）进行训练的，通常不需要人类语言专家的太多干预。模型中的单词被映射为高维空间中的点，因此给定单词对之间的距离和方向表明它们在意义上的接近程度以及它们之间的语义关系。

**翻译中的性别歧视：**谷歌将土耳其中性代名词“o”在“是医生”之前翻译为“他”，在“是护士”之前翻译成“她”。这是计算机科学家艾琳·卡利斯卡恩首先指出的。

例如，“男人”和“女人”之间的距离大致相同，方向也相同，就像“国王”和“女王”之间的差距一样。单词嵌入模型也会使隐藏的偏见永久化，就像谷歌翻译中的那样。这个基础设施是数十年来在数字语料库中收集的数十亿文本，它开始以难以理解和改变的方式为我们的日常交流提供信息。但是，基础设施编码的许多偏见早于其数字化制度化。与COMPAS一样，研究算法中出现的这些偏见提供了一个新的机会。

鹦鹉螺会员享受无广告体验。登录或立即加入.

Bolukbasi和他的同事设计了一种通过在单词嵌入模型的空间内移动单词来“消除偏倚”语言的技术。想象一下，把单词“医生”、“护士”、“男人”和“女人”放在一个方形的点上，男人和女人在底部，医生和护士在顶部。连接医生和护士的线与男人和女人的线完全平行。因此，该系统将它们的关系视为类似关系。Bolukbasi的减肥策略将医生和护士都推到了顶部边缘的中点，这样“医生”和“护士”与“男人”和“女人”之间的距离就相等了。实际上，这个系统“忘记了”了这个类比；翻译可能使用的代词由系统设计者选择。

在最好的情况下，数据基础设施将迫使我们以没有它我们可能无法做到的方式公开和面对我们对公平和决策的定义。

单词之间关联的转换可能会产生相当大的影响。普林斯顿大学计算机科学教授Arvind Narayanan与同事Aylin Caliskan和Joanna Bryson开发了一种工具，用于测量机器学习模型中的偏见。三人组从一项名为内隐联想测试的经过大量研究的心理测试开始。在测试的一个常见变体中，受试者确认肯定词与反映社会类别的词之间的关联的速度越快，他们越容易进行这种关联。在许多这样的配对中，响应时间的平均差异通常为毫秒级，这是对隐含偏差程度的度量。Narayanan和他的同事用反应时间来交换单词之间的距离，创建了一个他们称之为单词嵌入关联测试的测试。单词嵌入关联测试在同一组单词上复制了内隐关联测试研究确定的同一组刻板印象。

20多年来，内隐关联测试暴露了各种各样的内隐偏见，从性别到国籍到种族，跨越人群，在许多不同的环境中。由于偏见是如此普遍，一些人推测人类的自然倾向，例如支配阶层，而群体内的认同是这些偏见的原因；在这种观点下，偏见是人性中不可避免的事实。单词嵌入联想测试论文的作者推测，他们的工作支持另一种可能性，尽管不是唯一的可能性：“仅仅接触语言就会导致我们头脑中的这些隐性偏见。”换句话说，如果偏见在语言本身的统计中得到反映并传播，那么，我们说话的方式不仅仅是沟通我们彼此的看法，而是构建它。如果像Bolukbasi这样的去偏倚项目能够奏效，我们就可以开始在规模上改变我们的偏见，并以以前不可能的方式：用软件。如果他们不这样做，我们将面临通过可能持续几代人的数字基础设施来强化和延续这些偏见的危险。

鹦鹉螺会员享受无广告体验。登录或立即加入.

T型纳拉亚南告诉我说：“他认为你能做到这一点很酷。”不过，他想知道这能走多远。他指出，Bolukbasi的论文假设性别是二元的，或者至少性别词之间的联系遵循一条直线。他警告说：“我认为（我们）不知道（debiasing）如何为一个可能稍微复杂一些的概念工作。”。他特别指出了种族陈规定型观念，其中类别的概念和定义它们的方法一样有问题。

当我问Bolukbasi这个问题时，他回答说，这种方法原则上可以处理任何数量的类别，尽管他承认它确实需要离散的类别先验的他使用从亚马逊的Mechanical Turk（一个被称为“人工人工智能”的服务）招募的众工来决定他性别工作中的类别。这些工人还评估了哪些类比有偏见，以及该项目在消除这些偏见方面的成功程度。换言之，关于什么是偏见以及消除偏见意味着什么的决定，仍然与中间的社会共识紧密相连，形成了民粹主义对进步的阻碍。

还有更令人担忧的问题。巴罗卡斯（Barocas）和克劳福德（Crawford）最近指出，大多数关于算法公平性的工作都集中在所谓的“分配危害”上，即资源分配，如同一天的服务，或判断，如风险评分。他们呼吁更多关注像钟形钩这样的批判种族学者所说的“代表性伤害”。例如，在谷歌图片中搜索“CEO”，会产生绝大多数白人男性的图片。纳拉亚南说，这些问题在讨论公平性时可能会被忽视，因为“在计算机科学中，这些问题更难用数学形式来表述，如果你不能从形式上研究某些东西，那么它的存在就不像你可以转化为方程或算法的东西那样合法。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

在最坏的情况下，我们在处理数据偏差方面的这些限制和其他限制将使我们正在构建的算法成为这一代人的具体桥梁，预测未来几年的现状。在最好的情况下，数据基础设施将迫使我们暴露和面对我们对公平和决策的定义，如果没有它，我们可能无法做到这一点。

这种紧张关系很难与我们通常的技术进步观念相协调。人们很容易认为技术比社会变化更快，软件可以通过快速编码新规范并将其与倒退或恶意行为体隔离开来，从而加强社会进步。量刑算法所造成的伤害比公然固执的法官小。但它也可能掩盖偏见的历史和背景，阻碍甚至阻碍进步。基础设施很困难，机会之窗正在缩小：未来技术可以改进，但我们正在决定要做出什么样的权衡现在。尚不清楚我们多久或是否有机会重新考虑这些权衡。

毕竟，算法越普及，被取代的可能性就越小。虽然我们可能每两年升级一次手机，但在更新核心软件基础设施方面存在很大障碍。想想有多少过时的技术已经渗透到我们的生活中——例如，空中交通控制系统主要运行于20世纪70年代的软件。最近的“WannaCry”蠕虫病毒使英国各地的医院系统瘫痪，它利用了这样一个事实，即这些系统运行在使用了十年的Windows版本上，而微软甚至懒得维护。嵌入到核心服务中的语言机器理解可能会在未来几年或几十年内将现有偏见发扬光大。用艺术家尼科尔·阿普特卡（Nicole Aptekar）的话来说，“基础设施胜过意图。”

新数字基础设施的最大危险不是它会衰败或易受攻击，而是它最糟糕的特性将持续存在。桥一建成就很难拆掉。

鹦鹉螺会员享受无广告体验。登录或立即加入.

Aaron M.Bornstein是普林斯顿神经科学研究所的研究员。他的研究调查了我们如何利用记忆来理解现在和规划未来。

原始销售线索图片：Dmitriy Domino/Shutterstock

获取Nautilus时事通讯

尖端科学，由最聪明的在世思想家揭开。

算法正在构建种族主义的新基础设施吗？

获取Nautilus时事通讯

聊天机器人可以进行有意义的对话吗？

人工智能如何拯救斑马

大型语言模型学习意外技能的速度有多快？

非法渔船如何隐藏

如何保证无人驾驶汽车的安全

算法正在构建种族主义的新基础设施吗？

获取Nautilus时事通讯

聊天机器人可以进行有意义的对话吗？

人工智能如何拯救斑马

大型语言模型学习意外技能的速度有多快？

非法渔船如何隐藏

如何保证无人驾驶汽车的安全

! 没有与该电子邮件地址关联的活动订阅。

已经是会员了吗？ 登录

加入继续阅读。

! 没有与该电子邮件地址关联的活动订阅。

已经是会员了吗？ 登录

这是你最后一篇免费文章。

已经是会员了吗？登录

已经是会员了吗？登录