揭开A.I.偏见问题的面纱

人工智能可以模仿和加强人类的决策，并放大人类的偏见。Big Tech能解决A.I.的歧视问题吗？

贾科莫·卡马尼奥拉插画；原始照片，雕像：Artneli/Alamay

TAY是什么时候向她致敬的2016年3月，微软对人工智能驱动的“社交聊天机器人”寄予厚望。就像许多人在电子商务网站和客户服务对话中已经遇到的基于文本的自动聊天程序一样，Tay可以回答书面问题；通过这样做推特以及其他社交媒体，她可以与大众接触。

但是，泰伊并不是简单地说出事实，而是被设计成以一种更复杂的方式交谈——一种具有情感维度的方式。她会表现出幽默感，像朋友一样与人开玩笑。她的创造者甚至让她说话像个俏皮的少女。当推特用户问Tay她的父母是谁时，她可能会回答：“哦，微软实验室的一组科学家，他们就是你所说的我父母。”如果有人问她今天过得怎么样，她可以打趣说：“天哪，我的手提袋都累坏了。”

最重要的是，随着越来越多的人与泰伊接触，泰伊应该会在说话和回应方面变得更好。正如她的宣传材料所说，“你和Tay聊天的次数越多，她就越聪明，所以这种体验对你来说就越个性化。”以低风险的形式，Tay应该展示真正的人工智能最重要的特征之一，即随着时间的推移变得更聪明、更有效、更有用的能力。

但没有人预测到巨魔的袭击。

意识到Tay会从她交往的人那里学习和模仿言论，网络上的恶意恶作剧者在她的推特上充斥着种族主义、恐同和其他攻击性的评论。几小时内，泰伊开始在推特上公开发表自己的卑鄙言论。泰伊在一条推特中表示：“瑞奇·杰维斯（Ricky gervais）从无神论的发明人阿道夫·希特勒（adolf hitler）那里学到了极权主义。”这条推特令人信服地模仿了推特最糟糕的诽谤性、虚假新闻精神。向她问一问当时的总统奥巴马，她会把他比作猴子。问她关于大屠杀的事，她会否认发生过。

在不到一天的时间里，泰伊的言辞从亲昵变为肮脏；在她首次亮相不到24小时后，微软让她下线，并为公众的失败道歉。

同样令人震惊的是，错误的转向让微软的研究部门措手不及。微软研究与人工智能总经理埃里克·霍维茨（Eric Horvitz）告诉我们：“当系统推出时，我们没有计划它在开放世界中的表现。”财富在最近的一次采访中。

泰伊垮台后，霍维茨立即要求负责“自然语言处理”（泰伊对话的核心功能）的高级团队找出问题所在。工作人员很快发现，与聊天机器人相关的基本最佳实践被忽视了。在比Tay更初级的程序中，通常会有将冒犯性词语列入黑名单的协议，但没有限制Tay吸收和建立的数据类型的保障措施。

霍维茨认为，今天，他可以“热爱Tay的榜样”，这是微软可以学习的谦逊时刻。微软现在在世界各地部署了更加复杂的社交聊天机器人，包括印度的Ruuh，日本和印尼的Rinna。在美国，Tay的继任者是社交机器人妹妹Zo。有些现在是基于语音的，就像苹果的Siri或亚马逊的Alexa一样。在中国，一个叫小冰的聊天机器人已经在“主持”电视节目，并向便利店的顾客发送聊天购物提示。

尽管如此，该公司仍在谨慎行事。霍维茨解释说，它缓慢推出机器人，并密切监控它们在扩展过程中与公众的行为。但我们清醒地认识到，尽管人工智能技术在这两年里有了成倍的进步，但监控机器人行为的工作从未停止过。该公司的员工不断监控对话，以了解其行为的任何变化。这些变化还在不断发生。例如，在最初的几个月里，Zo不得不在单独的事件中被反复调整，在这些事件中，Zo将微软旗舰Windows软件称为“间谍软件”，并将伊斯兰教的基础文本《古兰经》称为“非常暴力”

这家初创公司能打破大科技对A.I.的控制吗。？

可以肯定的是，Tay和Zo并不是我们未来的机器人霸主。它们是相对原始的程序，占据了研究领域中的客厅，是A.I.所能完成任务的卡通影子。但是，它们的缺陷突显了软件的威力和潜在的缺陷，即使是一点点人工智能也不例外。他们还举例说明了让技术人员夜不能寐的更隐秘的危险，即使商业世界准备将其更多的未来托付给这项革命性的新技术。

霍维茨说：“你的最佳实践已经到位，希望这些事情会越来越罕见。”。随着AI在每家公司的技术愿望列表中排名第一，找出这些做法变得前所未有的紧迫。

[fortune-brightcove视频ID=5801576614001]

很少有争议我们正处于企业a.I.淘金热的边缘。研究公司IDC预测，到2021年，各组织每年将在人工智能相关产品上花费522亿美元，经济学家和分析师相信，他们将从这项投资中实现更多数十亿美元的节约和收益。这些好处中的一部分来自人员减少，但更多的将来自产品与客户、药物与患者以及问题解决方案匹配方面的巨大效率。普华永道咨询公司（Consultancy PwC）估计，到2030年，AI对全球经济的贡献可能高达15.7万亿美元，超过目前中国和印度的总产出。

人工智能的复兴部分是由“深度学习”技术的进步推动的。通过深度学习，公司向其计算机网络提供大量信息，从而更快地识别模式，而人类的指导更少（最终可能没有指导）。脸谱网,谷歌、微软、，亚马逊、和国际商用机器公司这些巨头已经在产品中使用深度学习技术。例如，苹果的Siri和Google Assistant能够识别并回应你的声音，这是因为它的深度学习。亚马逊使用深度学习来帮助它直观地筛选通过其杂货服务交付的大量产品。

在不久的将来，各种规模的公司都希望使用深度学习的软件来挖掘他们的数据，并发现埋藏得太深，肉眼无法发现的宝石。他们设想使用人工智能驱动的系统，可以扫描数千张放射图像以更快地发现疾病，或者筛选大量简历以节省陷入困境的人力资源人员的时间。在技术专家的乌托邦中，企业可以利用人工智能筛选多年的数据，以便更好地预测下一次大销售，制药巨头可以缩短发现畅销药物所需的时间，汽车保险公司可以扫描数TB的车祸并自动理赔。

但是，尽管人工智能系统具有巨大的潜力，但它也有其黑暗的一面。他们的决定只与人类提供给他们的数据一样好。正如他们的建设者所了解的那样，用于训练深度学习系统的数据并不是中性的。它可以很容易地反映出组装它的人的偏见和无意识。有时数据可能会被历史所歪曲，编码出反映数百年来歧视的趋势和模式。一个复杂的算法可以扫描历史数据库并得出结论，白人最有可能成为CEO；直到最近，非白人很少有机会成为首席执行官。对偏见的盲目性是这项技术的一个根本缺陷，尽管高管和工程师只用最谨慎和外交的措辞来谈论它，但毫无疑问，这是他们的首要任务。

加州大学伯克利分校（University of California at Berkeley）研究技术伦理的副教授迪尔德雷·穆利根（Deirdre Mulligan）表示，目前使用的最强大的算法“还没有针对公平的任何定义进行过优化”。“他们已经被优化以完成任务。”人工智能以前所未有的速度将数据转化为决策，但穆利根说，科学家和伦理学家正在学习的是，在许多情况下，“数据是不公平的。”

更让人困惑的是，深度学习比传统算法要复杂得多，而传统算法是它的前身，这使得即使是最老练的程序员也更难准确理解A.I.系统如何做出任何给定的选择。与Tay一样，AI产品也可能会发生变化，以其创造者不打算也无法预料的方式运行。由于这些系统的创建者和用户虔诚地保护其数据和算法的隐私，并以对专有技术的竞争担忧为由，外部监管机构很难确定任何给定系统中可能存在的问题。

包括这些黑匣子谜团的技术正在被生产出来，并向公司和政府推销，这一事实引起了不少研究人员和活动家的深切关注。微软首席研究员、纽约大学AI now Institute联合主管凯特·克劳福德（Kate Crawford）表示：“这些系统不仅仅是可以购买并说‘哦，现在我可以在家做会计’的现成软件。”。“这些是非常先进的系统，将影响我们的核心社会机构。”

尽管他们可能别这么想，大多数人都熟悉至少一个人工智能分类：2016年美国总统大选前夕，脸书无处不在的新闻推送上的假新闻传播。

这家社交媒体巨头及其数据科学家并没有制造彻头彻尾的虚假故事。但新闻提要的算法并不是为了过滤“假”和“真”；它们旨在促进内容个性化，以满足用户的个人口味。虽然该公司没有透露太多关于其算法的信息（再次强调，这些算法是专有的），但它承认，演算涉及到识别其他具有类似品味的用户正在阅读和分享的故事。结果是：由于一系列无穷无尽的基本上是受欢迎程度的竞赛，数百万人的个人新闻订阅中充斥着虚假新闻，主要是因为他们的同龄人喜欢它。

虽然脸书提供了一个个人选择如何与人工智能产生有害影响的例子，但研究人员更担心深度学习如何读取和误读集体数据。Timnit Gebru是一名博士后研究员，曾在微软和其他地方研究过算法伦理。她说，她担心深度学习可能会对保险市场产生多大影响，在这个市场上，人工智能和数据的交互作用可能会使少数群体处于不利地位。例如，假设有一组关于汽车事故索赔的数据。数据显示，事故更有可能发生在市中心，那里人口稠密，为撞车者创造了更多机会。内陆城市的居民中往往有不成比例的少数民族。

微软的Timnit Gebru研究了A.I.误读或忽视少数群体信息的方式。科迪·奥拉夫林-《纽约时报》/Redux

一个深度学习项目，通过筛选嵌入这些相关性的数据，可以“了解”属于少数群体和发生车祸之间的关系，并可以将这一教训融入其对所有有色人种司机的假设中。本质上，保险业A.I.会产生种族偏见。举例来说，如果通过审查内城区事故的照片和视频来进一步“训练”该系统，这种偏见可能会变得更加严重。从理论上讲，A.I.更有可能得出结论，在涉及多名驾驶员的车祸中，少数驾驶人有过错。而且，它更有可能建议向少数族裔司机收取更高的保费，而不管她的记录如何。

应该注意的是，保险公司表示他们不会基于种族歧视或分配费率。但是，市中心的假设表明，似乎中性的数据（关于车祸发生地点的事实）如何被人工智能系统吸收和解释，从而产生新的劣势（根据种族向少数民族收取更高价格的算法，无论他们住在哪里）。

此外，Gebru指出，考虑到进入深度学习系统决策的层层数据，支持人工智能的软件可以在工程师不知道如何或为什么的情况下做出这样的决策。她说：“这些事情我们甚至都没有想过，因为我们刚刚开始发现最基本的算法中的偏差。”。

Littler Mendelson的劳工和就业律师Matt Scherer专门研究人工智能，他说，现代人工智能软件与前几代软件的区别在于，当今的系统“有能力自行做出具有法律意义的决定”。舍勒开始研究这一领域时，想到不让一个人参与其中，就关键成果打电话，这让他感到震惊。如果有缺陷的数据导致深度学习X光检查漏掉了超重男性的肿瘤，有人对此负责吗？“有人在研究这些事情的法律含义吗？”舍勒
他问自己。

随着大型科技公司的准备为了将深度学习技术嵌入到面向客户的商业软件中，类似这样的问题正从学术“如果……会怎么样？”领域转移到首要问题。2016年，也就是泰伊惨案发生的那一年，微软成立了一个名为Aether的内部组织，该组织代表AI和Ethics In Engineering and Research，由埃里克·霍维茨（Eric Horvitz）担任主席。这是一个跨学科的小组，吸引了来自工程、研究、政策和法律团队的代表，机器学习偏见是其最热门的讨论领域之一。霍维茨沉思着，描述了该小组正在讨论的一些主题，他说：“例如，微软对是否应该将人脸识别软件应用于刑事司法和警务等敏感领域有什么看法吗？”。“A.I.技术是否足够好，可以用于该领域，或者故障率是否足够高，必须对故障成本进行敏感、深入的考虑？

Joaquin Quiñonero Candela领导Facebook的应用机器学习小组，该小组负责创建公司的A.I.技术。在许多其他功能中，Facebook使用A.I.从人们的新闻提要中剔除垃圾邮件。它还利用这项技术帮助报道和贴子，以迎合他们的兴趣，使坎德拉的团队与虚假新闻危机为邻。坎德拉称A.I.为“历史的加速器”，因为这项技术“使我们能够建立令人惊叹的工具，增强我们的决策能力。”但正如他所承认的那样，“正是在决策过程中，许多道德问题发挥了作用。”

脸书（Facebook）与新闻订阅（News Feed）的斗争表明，一旦人工智能系统已经为产品提供了动力，解决道德问题将是多么困难。微软能够通过在黑名单中添加亵渎或种族绰号来调整像Tay这样相对简单的系统，而其算法应该忽略这些词。但当试图区分“假”与“真”时，这种方法是行不通的，因为涉及的判断太多了。脸书（Facebook）努力聘请人类主持人审查新闻故事，例如，将经常发布可核实虚假消息的来源中的文章排除在外，从而使公司面临审查指控。如今，脸书提出的一项补救措施是在新闻订阅中减少新闻内容，而是突出显示婴儿照片和毕业照片，这是一种取胜与退却的方法。

这就是挑战的核心所在：科技公司面临的困境与其说是调整算法或雇人照看它；相反，这是关于人性本身的。真正的问题不是技术问题，甚至不是管理问题，而是哲学问题。伯克利大学伦理学教授迪尔德雷·穆利根（Deirdre Mulligan）指出，计算机科学家很难将公平编入软件，因为公平对不同的人来说可能意味着不同的东西。穆利根还指出，随着时间的推移，社会的公平观念会发生变化。当涉及到一个广泛认同的公平理念时，即一个社会中的每个人都应该在该社会的决策中得到代表——历史数据尤其可能存在缺陷和不完整。

微软Aether小组的一项思想实验说明了这个难题。它涉及到人工智能技术，它通过筛选大量求职者来挑选最适合担任高管职位的人选。程序员可以指示A.I.软件扫描公司最佳表现者的特征。根据公司的历史，很可能会发现所有表现最好的人，当然也包括所有最高级别的执行官，都是白人男性。这可能忽略了这样一种可能性，即该公司过去只提拔白人男性（大多数公司是几代人都提拔的），或者有一种少数民族或女性感到不受欢迎并在崛起之前离开的文化。

任何了解公司历史的人都会认识到这些缺陷，但大多数算法都不会。霍维茨说，如果A.I.将工作推荐自动化，它总是有可能“放大社会中我们可能不引以为豪的偏见”

A.I.：华纳兄弟影业/摄影节；《大英雄6》，L3-37，《钢铁侠》：沃尔特[hotlink]迪士尼[/hotlink]Studios Motion Pictures/Courtesy Everett Collection；最大净空高度：Abc/Photofest；数据：派拉蒙图片/摄影节；C-3po:Lucasfilm Ltd./20世纪福克斯电影公司/Photofest；《西方世界》：约翰·约翰逊/科特西·埃弗雷特收藏；Ex Machina:a24/由Everett收藏提供；《太空堡垒卡拉狄加》：弗兰克·奥肯费尔斯·西菲/摄影节；《黑客帝国》：华纳兄弟/电影节；大都市：UFA/Photofest；Ultron:Walt[hotlink]Disney[/hotlink]电影制片厂/图片提供：Everett Collection

李飞飞，谷歌云计算部门A.I.首席科学家表示，技术偏见“与人类文明一样古老”，可以从一把低级剪刀中找到。她解释道：“几个世纪以来，剪刀都是由惯用右手的人设计的，大多数人都是用右手的。”。“需要有人认识到这种偏见，并认识到为左撇子创造剪刀的必要性。”世界上只有大约10%的人是左撇子，而占主导地位的大多数成员忽视其他群体的经历是人类的天性。

事实证明，同样的动态也出现在AI最近其他一些最显著的失误中。想想2016年俄罗斯科学家举办的人工智能选美比赛。全世界成千上万的人提交了自拍，参加一场比赛，电脑将根据他们脸的对称性等因素来评判他们的美丽。

但在机器选出的44名获胜者中，只有一名皮肤黝黑。随后发生了一场国际骚动，比赛的经营者后来将计算机明显的偏见归因于他们用来训练他们的数据集没有包含许多有色人种的照片。电脑基本上忽略了深色皮肤的人的照片，并认为浅肤色的人更“美丽”，因为他们代表了大多数人。

这种偏见在深度学习系统中尤为普遍，其中图像识别是训练过程的主要部分。麻省理工学院媒体实验室的研究员乔伊·布伦维尼（Joy Buolamwini）最近与微软的研究员格勃鲁（Gebru）合作，撰写了一篇论文，研究微软、IBM和中国的Megvii的性别识别技术。他们发现，这项技术对浅肤色男性照片中的受试者的识别始终比深肤色女性照片中的更准确。

在网上选美比赛中，这样的算法差距可能看起来微不足道，但Gebru指出，这样的技术可以用于更高风险的情况。Gebru说：“想象一下，一辆自动驾驶汽车在“看到”黑人时无法识别。”。“这可能会带来可怕的后果。”

Gebru-Boulamwini的论文（Buolamwini是主要作者）正在掀起波澜。微软和IBM均表示，他们已采取行动改进图像识别技术，以应对此次审计。虽然这两家公司拒绝具体说明他们正在采取的步骤，但其他正在解决这个问题的公司提供了一个技术可以做什么来减轻偏见的一瞥。

当亚马逊开始部署算法来剔除腐烂的水果时，它需要解决抽样偏差问题。视觉识别算法通常经过训练，通过研究庞大的图像数据库来找出草莓“应该”是什么样子。但是，正如你所料，腐烂浆果的照片与漂亮浆果的迷人照片相比相对罕见。与人类不同的是，人类的大脑往往会注意到“异常值”并对其做出强烈反应，而机器学习算法则倾向于忽视它们。

亚马逊人工智能主管拉尔夫·赫布里奇（Ralf Herbrich）解释说，为了进行调整，这家在线零售巨头正在测试一种称为过采样（oversampling）的计算机科学技术。机器学习工程师可以通过为未充分表示的数据分配更重的统计“权重”来指导算法的学习，在本例中是腐烂水果的图片。结果是，该算法最终被训练成更加关注变质的食物，而不是数据库中食物的流行程度。

Herbrich指出，过采样也可以应用于研究人类的算法（尽管他拒绝引用亚马逊的具体例子）。赫布里奇说：“年龄、性别、种族、民族——这些都是你必须专门测试抽样偏差的维度，以便随着时间的推移为算法提供信息。”。为了确保用于识别照片中人脸的算法不会歧视或忽视有色人种、老年人或超重人群，您可以为这些人的照片增加权重，以弥补数据集的不足。

AI收购热潮背后的9家公司

其他工程师正在进一步关注“上游”——确保用于训练算法的底层数据是包容性的，并且在部署之前没有偏见。例如，在图像识别中，用于训练深度学习系统的数百万图像在输入计算机之前需要进行检查和标记。Radha Basu是数据培训初创公司iMerit的首席执行官，其客户包括Getty Images和易趣网，解释说，该公司在全球拥有1400多名员工，他们接受过代表客户为照片贴标签的培训，以减轻偏见。

巴苏拒绝讨论在给人贴标签时会发生什么，但她提供了其他类比。iMerit在印度的员工可能认为咖喱菜是“温和的”，而该公司在新奥尔良的员工可能会将同一顿饭描述为“辛辣的”。iMerit会确保这两个词都出现在这道菜的照片标签上，因为将其标为只有一个或另一个将导致数据不准确。iMerit将收集有关婚礼的数据集，其中包括传统的西方白色压印和分层卡片图像，也包括印度或非洲精心制作、色彩更丰富的婚礼照片。

巴苏指出，iMerit的员工以不同的方式脱颖而出：它包括拥有博士学位的人，也包括与贫困作斗争的受教育程度较低的人，其中53%的员工是女性。这种混合可以确保数据标记过程中涉及尽可能多的视点。“良好的道德不仅涉及隐私和安全，”巴苏说。“这是关于偏见，这是关于，我们是否错过了一个观点？”追踪这个观点正成为更多科技公司战略议程的一部分。例如，谷歌在6月份宣布，将于今年晚些时候在加纳阿克拉开设一个人工智能研究中心。谷歌人工智能高级研究员杰夫·迪恩（Jeff Dean）和阿克拉人工智能中心（Accra A.I.center）负责人穆斯塔法·西塞（Moustapha Cisse）在一篇博文中写道：“人工智能有巨大的潜力对世界产生积极影响，如果全世界都能很好地参与到新人工智能技术的发展中，这种潜力就更大。”。

人工智能内部人士还认为，他们可以通过让美国的劳动力更加多样化来对抗偏见——这一直是大型科技公司的一个障碍。谷歌高管李飞飞最近与人共同创立了非营利组织AI4ALL，以在女孩、妇女和少数族裔社区推广人工智能技术和教育。该小组的活动包括一个暑期项目，在该项目中，露营者访问顶尖大学a.I.部门，与导师和榜样建立关系。AI4ALL执行董事苔丝·波斯纳（Tess Posner）表示，底线是：“如果你有更多的多样性，你将减少偏见的风险。”

几年前然而，这一代更加多元化的人工智能研究人员进入了就业市场，大型科技公司将进一步为其产品注入深度学习能力。尽管顶级研究人员越来越认识到该技术的缺陷，并承认他们无法预测这些缺陷将如何发挥作用，但他们认为，潜在的社会效益和财务效益证明了向前发展的合理性。

脸书高管坎德拉（Candela）表示：“我认为，人们对技术能做什么抱有一种天生的乐观态度。”。他说，几乎任何数字技术都可能被滥用，但他补充道，“我不想回到20世纪50年代的技术状态，说‘不，我们不要部署这些东西，因为它们可能被错误使用。’”

微软研究主管霍维茨（Horvitz）表示，他相信，像他的Aether团队这样的团队将帮助公司解决潜在的偏见问题，以免在公众面前制造麻烦。他说：“我认为没有人会急于运送那些还没有准备好使用的东西。”。他补充道，如果有什么不同的话，他更关心“不做某事的道德影响”。他援引了人工智能可以减少医院中可预防的医疗错误的可能性。霍维茨问道：“你是说你会担心我的系统偶尔会有点偏差？”。“当你本可以用X解决一个问题并挽救很多很多人的生命时，不做X的道德规范是什么？”

监管者的反应归结为：向我们展示你的工作。对进入AI黑盒系统的数据更加透明和公开，将有助于研究人员更快地发现偏见，更快地解决问题。麻省理工学院研究员Buolamwini表示，当一个不透明的算法可以确定一个人是否可以获得保险，或者该人是否会入狱时，“我们对这些系统进行严格的测试，这一点非常重要，因为它具有一定的透明度。”

事实上，这是一个进步的迹象，很少有人仍然相信人工智能是绝对正确的。提姆·黄（Tim Hwang）是谷歌前a.I.公共政策执行官，目前负责哈佛大学-麻省理工学院人工智能道德与治理项目，他指出，在网络发展的早期，科技公司可以说他们“只是一个代表数据的平台”。如今，“社会不再愿意接受这一点。”

这篇文章最初出现在2018年7月1日的《财富》杂志上。