微软的AI安全政策

为英国AI安全峰会准备的更新

引言

微软欢迎有机会分享有关我们如何推进负责任人工智能(AI)的信息,包括通过履行我们和其他人在7月白宫会议上作出的自愿承诺。[1]了解我们的政策以及我们如何将其付诸实践,有助于了解并加快负责任的技术开发和部署。它还可以加强公私伙伴关系,推动AI安全、安保和信任方面的进展。

作为人工智能模型、API服务和应用程序的开发人员和部署者,微软致力于绘制、测量和管理风险,并应用多层治理,其中嵌入了对流程和结果的强大检查。特别是对于前沿模型,微软与OpenAI密切合作。

自2019年以来,微软和OpenAI一直在进行长期合作,开发先进的人工智能系统,共同致力于负责任的开发和部署实践。微软大规模部署前沿模型的努力建立在OpenAI领先的模型开发实践的基础上,并对其进行了补充。为了全面了解适用于微软产品中部署的OpenAI前沿模型的模型开发和部署实践,应一并阅读OpenAI和微软对英国政府AI安全政策请求的回应。

英国政府要求提供有关九个实践和投资领域的信息,其中许多与我们在7月份发布的自愿承诺有关。[2]我们在每个部分的开头都指出了这些联系点,区分了白宫自愿承诺和我们作为微软所做的额外独立承诺(用蓝色表示),如下图所示。

我们还认识到,九个实践领域中的每一个都是映射,测量,管理、和管理人工智能模型开发和部署风险,美国国家标准与技术研究所(NIST)人工智能风险管理框架(RMF)提供的结构和术语。[3]为了帮助提供我们如何实现NIST AI RMF承诺的背景,在对英国政府AI安全政策请求的整个响应中,使用了“地图、测量、管理和治理”的术语。

责任能力扩展

 

微软致力于负责任地开发和部署越来越强大的人工智能系统,包括前沿模型和用户访问它们的应用程序。我们已经制定并持续投资于一系列政策、实践和合作伙伴关系,以确保我们在整个人工智能产品生命周期中适当地绘制、测量和管理人工智能技术能力和风险,如下文在模型评估和红队合作的背景下进一步讨论的那样。从该过程中获得的经验反馈到政策中,以定义越界技术开发或跨发布阶段或部署上下文所需的护栏。

为了支持负责任的能力扩展,我们与OpenAI密切合作,因为他们正在我们的Azure超级计算基础设施上开发新的前沿模型。OpenAI在回应英国政府的AI安全政策请求时,提供了其风险缓解实践和正在实施的负责任发展政策的详细信息。

在前沿模型部署方面,微软和OpenAI共同定义了能力阈值,作为在模型首次发布或下游部署之前审查模型的触发因素。通过我们的联合微软OpenAI部署安全委员会(DSB)进行的审查范围包括模型能力发现。我们于2021年建立了DSB联合流程,预计需要以AI安全和调整为重点的全面发布前审查流程,远远早于监管或外部承诺。

我们对包括GPT-4在内的几个前沿模型进行了审查。使用微软负责任的人工智能标准以及OpenAI构建和部署高级AI系统的经验,我们的团队为联合DSB审查准备了详细的人工制品。人工制品记录了我们的组织绘制、测量和管理风险的过程,包括通过使用对抗性测试和第三方评估(视情况而定)。我们将继续学习和完善联合DSB流程,并期望其随着时间的推移而发展。

作为微软,我们还独立管理后续的安全审查流程。我们评估产品中部署的模型能力,在产品中可以实施额外的安全缓解措施并衡量其影响,以在发布之前检查有效和适当的缓解措施。

在所有映射、度量和管理活动以及产品部署决策中,治理至关重要。微软对自上而下和分布式负责任的人工智能治理采取了多层次的方法,使我们能够制定明确的政策,召集领导层做出艰难的决定,并推动一致性的严格性。

我们负责的AI理事会是我们治理结构的重要组成部分。负责任的人工智能委员会由我们的副主席兼总裁布拉德·史密斯(Brad Smith)和我们的首席技术官兼人工智能执行副总裁凯文·斯科特(Kevin Scott)共同主持,该委员会汇集了负责任的领导者以及参与研究、工程、,以及应对困难问题的政策,并确保与我们负责任的AI愿景和承诺保持一致和执行。[4]

在各个产品组中,指定的负责人工智能部门领导和冠军还与负责人工智能公司副总裁和微软负责人工智能办公室团队合作,衡量并持续改进负责人工智能实践的实施,包括通过共享学习和对工具的战略投资。

微软还支持建立全球协调的许可制度,以管理高能力前沿模型的开发和部署,从而对风险和缓解措施进行适当监督。[5]通过这种制度,可以定期评估绘制风险图(例如,定义潜在模型风险的主要指标)和管理风险的最佳做法的影响并加以改进,还可以建立交流和使用有关评价和计量信息的可靠过程。许可证持有人及其监管机构之间密切协调和信息流动的框架对于确保对实现安全和安保目标至关重要。[6]

模型评估和红色团队

负责任地开发和部署人工智能需要不断努力,以绘制、测量和管理系统的潜在危害和滥用。当我们通过负责任的AI影响评估绘制潜在危害和滥用时[7]此外,我们还开发和实施了红队等流程,以管理风险,并衡量降低危害或滥用可能性的有效性。我们实施分层方法,绘制、测量和管理伤害和滥用风险,因为人工智能是在整个技术架构中开发和部署的,包括在模型、API服务和应用程序层,与OpenAI合作,它提供了我们通过平台服务和应用程序中的杠杆作用提供的Microsoft前沿模型。随着产品的发展或我们了解到的更多,我们也会在整个产品生命周期中继续投资于映射、度量和管理,并改进我们的整体方法。

红队合作,包括模拟真实世界中的攻击和练习持续威胁参与者可能使用的技术,长期以来一直是微软的基本安全实践。[8]2018年,我们成立了AI红色团队:一个由多学科专家组成的团队,致力于像攻击者一样思考并探测AI系统的故障。[9]通过研究,我们还扩展了红色团队实践,以映射传统安全之外的风险,包括与良性使用场景和负责任的AI相关的风险。例如,今天,红色团队可能会探索大型语言模型(LLM)或LLM支持的功能,用于即时注入攻击(用户或第三方提交给LLM的内容导致意外操作)、内容伤害(恶意或良性使用系统导致有害或不适当的AI生成的内容),以及隐私危害(LLM泄露关于个人的正确或不正确的个人信息)等。就Bing Chat而言,AI红色团队不仅关注威胁参与者如何使用安全技术破坏系统,还关注非恶意用户与系统交互时系统如何生成有害或其他有问题的内容。[10]

由于人工智能红色团队可以发现以前未知的危害,确认产品中是否存在可观察到的可疑危害,并告知测量和风险管理,因此迭代红色团队在基础模型级别以及整个人工智能产品开发和部署过程中至关重要。红队人工智能模型有助于确定其可能被滥用的方式及其能力和局限性的范围,改进模型开发过程,并为模型适用的应用程序分析提供信息。应用程序级AI红色团队采用更广泛、更实用的视图,映射模型或应用程序故障,尽管采取了不同的模型级或应用程序级安全缓解措施,但这些故障仍然存在。此外,由于人工智能系统不断发展,我们进行了多轮人工智能红色团队合作,以寻找漏洞,并尝试在产品发货之前和作为一种持续实践来衡量其普及性并缓解它们。红队生成性人工智能系统也需要多次尝试;由于提示可能不会导致一种情况下的失败,但可能会导致另一种情况(因为生成性人工智能的概率特性允许更大范围的创造性输出),我们在同一操作中执行多轮红队。[11]

为了加强我们对AI威胁建模的内部治理,其中可能包括红队合作,并反映我们正在进行的AI威胁研究和学习,我们更新了适用于所有产品的Microsoft安全开发生命周期(SDL)威胁建模要求的内部实践指南,以解释我们正在学习的人工智能和机器学习特有的独特威胁。

对于所有具有高风险特征的生成性人工智能产品,我们也在实施流程,以确保我们的人工智能红色团队(一个独立于基础模型或产品组的专家组)进行一致和全面的人工智能红队。我们还正在建立外部红队能力,以确保我们准备好在发布新的、高能力的基础模型之前,由一名或多名独立专家组织红队测试,这些模型可能由微软培训,符合我们7月份的承诺。[12]此类红队测试涵盖的主题将包括测试危险能力,包括与生物安全和网络安全相关的能力。

虽然红色团队有助于绘制风险图,但系统测量对于了解风险的普遍性和风险缓解措施的有效性非常重要。通过系统测量,我们根据特定指标评估模型性能,并且我们系统测量的所有产品的问题范围正在定期扩大。一些指标示例包括:[13]

  • 根基性,我们通过它来衡量模型生成的答案与输入源信息的匹配程度。答案是根据用户定义的基本事实来源中的上下文进行验证的,即使答案是事实上正确的,如果不能根据源文本进行验证,也会被评为不可靠。
  • 相关性,通过相关性,我们衡量模型生成的答案与给定问题的相关性和直接相关程度。
  • 相似性,通过相似性,我们衡量“基本事实”答案和人工智能模型生成的预测句子之间的等效性。

我们还共享负责任的AI功能和工具,这些功能和工具支持在GitHub上以及通过Azure机器学习开源度量这些指标和其他指标,使平台和应用程序开发人员能够访问模型解释以及错误和公平评估。[14]例如,在5月份,我们宣布了提示流,它允许用户创建连接到各种语言模型和数据源的提示工作流,并根据基础性等指标评估其工作流的质量,最终使他们能够为其用例选择最佳提示。[15]

我们还系统地衡量了缓解潜在不安全模型输出的影响,例如通过旨在检测和防止有害内容输出的模型运行提示和补全的内容过滤系统。作为我们致力于构建负责任的AI系统并帮助他人实现这一目标的一部分,我们在Azure OpenAI中集成了内容过滤[16]并优先考虑了客户工具方面的工作。Azure AI Content Safety使用AI模型检测文本和图像中不安全、冒犯或不适当的内容,并实时自动分配严重性分数,使客户能够高效、优先地审查标记的项目并采取明智的行动。[17]我们还为微软平台上托管的Llama-2模型默认启用了该安全系统,减少了模型的故意误用和潜在错误。[18]

我们启动Bing Chat的过程基于多种先进的Microsoft和OpenAI技术,包括OpenAI的GPT-4模型,它提供了一个特定于产品的示例,说明我们如何在模型和应用程序层进行映射、测量和管理风险,包括通过红队和模型评估。[19]

  • 在模型层面,我们的工作始于与OpenAI合作的广泛红色团队,在有限版本预览之前,一个多学科专家团队还进行了多轮应用程序级别的红色团队,帮助我们更好地了解如何利用系统并改进缓解措施。非不利的红色团队成员还广泛探讨了新应用程序在良性使用场景中可能出现的风险。发布后,来自不同地区和背景的红队成员继续试图破坏系统,他们的发现被用于扩展Bing Chat用于改进系统的数据集。
  • 为了更好地理解和解决潜在的危害,我们开发了针对新AI体验的额外指标,如越狱、有害内容和未接地内容。我们还通过部分自动化的测量管道实现了大规模测量(这使我们能够为第三方构建工具)。每次产品变更、现有缓解措施更新或提出新的缓解措施时,我们都会更新我们的测量管道,以评估产品性能和负责任的AI指标。当我们在预览期和正在进行的红色团队中发现新问题时,我们还扩展了度量集以评估其他危害。
  • 当我们绘制危害图并对其进行测量时,我们管理着一个不断发展和测量缓解措施影响的过程。对于Bing Chat,我们采取的一些风险管理步骤包括:增量发布策略(允许我们在更广泛的发布之前缓解新出现的问题);在搜索结果中包含对源网站的引用(以降低用户过度依赖未接地生成内容的风险);分类器和内容过滤器的使用(这可以阻止标记的生成内容返回给用户);元音素的使用(向模型发出指令以指导其行为);以及对每个会话的用户绑定回复交换的限制(以限制会话漂移)。

模型报告和信息共享

透明度是微软在2019年承诺的一项基本的负责任的人工智能原则,正如我们的负责任人工智能标准所体现的那样,与利益相关者沟通他们使用的人工智能系统的能力和局限性是实现该原则的关键。[20]推动实施我们所有六项负责任的人工智能原则,并通过敏感用例进行工作,这也增强了我们为客户提供环境的重要性,使他们能够负责任地部署其人工智能系统。[21]

我们的负责任人工智能标准规定了具体需要传达的内容,以及作为微软透明度承诺的一部分,需要传达给谁。[22]从概念上讲,我们认识到不同的利益相关者在透明度方面有不同的需求和目标。例如,最终用户通过Bing Chat等特定应用程序与GPT-4等模型进行交互时采用的透明方法可能与应用程序开发人员使用Azure OpenAI服务等服务将GPT-4纳入自己的AI系统时采用的方法不同。即使是特定的最终用户,在使用GPT-4研究医疗程序时,与为度假照片配字幕时,也可能有不同的透明度需求。

我们采取以人为本的方法,利益相关者及其目标为分层透明度措施的制定和评估提供信息。对于Microsoft设计和开发端到端系统的产品,我们依靠产品功能和文档的组合来实现满足利益相关者各种需求的透明度。例如,Bing Chat以用户为中心的设计将用户体验干预融入界面本身,以揭示其由人工智能驱动,并帮助用户了解系统的功能和局限性。产品常见问题解答可以为需要更多关键问题上下文的应用程序用户提供资源。例如,我们的GitHub Copilot常见问题解答提供了它生成的代码在功能和安全方面的局限性,以及它的使用对人类监督、隐私和公平的影响,[23]Bing聊天企业常见问题解答提供了有关使用和限制的上下文。[24]其他利益相关者,如监管机构,可能会对我们开发人工智能应用程序的方法提出更广泛的问题,并寻求更深入的背景;这些问题最好在独立文档(例如我们的Bing聊天白皮书)中的应用程序外解决。[25]

对于我们的平台系统,如Azure OpenAI服务,Microsoft为客户提供模型,但不设计端到端的AI系统,我们依靠文档向客户传达信息,使他们能够负责任地集成这些模型。例如,Transparency Notes使我们能够传达AI系统的目的、功能和局限性,以便我们的客户能够了解何时以及如何部署我们的平台技术。我们的Azure OpenAI Transparency Note提供了通过该服务可用的文本、图像和语音模型的上下文,描述了模型所采用的技术、所设想的用例,以及其行为中的限制和潜在偏见。[26]本透明度说明建立在OpenAI自己为GPT-4等模型生成的系统卡文档的基础上。[27]

除了任何单一平台或产品之外,我们相信研究和企业实践的透明度可以有效地帮助公众了解最先进的技术和推动组织问责制。例如,9月,我们发布了与OpenAI联合进行的一项研究的结果,该研究旨在探索多模式文本到图像模型,包括通过红队合作,以了解故障模式,为构建测量和缓解技术的工程工作提供信息,并反思长期公平性危害。[28]7月,我们承诺发布一份年度透明度报告,介绍我们在负责任和安全管理AI方面的政策、系统、进展和绩效。具体而言,我们即将推出的首届负责任的AI透明度报告除了提供有关实施负责任AI措施的案例研究外,还将讨论我们治理体系的运作和持续发展。[29]

为了确保最新的环境告知我们负责任的人工智能实践,并确保我们与他人共享学习成果,微软还利用多个流程来交换信息。例如,与人类、谷歌和OpenAI一起,我们启动了前沿模型论坛(FMF),以分享最佳实践并推进AI安全研究。[30]我们为FMF分享红色团队前沿模型的案例研究做出了贡献,[31]我们正在通过FMF进行合作,以制定有关发现前沿模型中的漏洞或危险能力的“负责任披露”过程的指南。通过人工智能伙伴关系,我们还为制定安全基金会模型部署指南做出了贡献,该指南于10月发布供公众评论。[32]在更具安全性的特定环境中,Microsoft Threat Intelligence跟踪并帮助防御影响客户的最复杂的威胁因素,还与最有能力保护和使用威胁情报的人交换威胁情报。

安全控制,包括保护模型权重

负责任的人工智能是一种跨越产品生命周期和支持基础设施的承诺。微软在开发和实施最先进的网络安全实践方面持续数十年的投资与我们对人工智能系统和信息(包括模型权重)的深入防御工作相结合。整体方法至关重要,包括AI安全政策和实践的治理;识别人工智能系统、数据和供应链以及潜在风险;保护系统和信息;人工智能威胁检测;以及对发现的AI问题和漏洞的响应和恢复,包括通过快速遏制和持续改进过程。

治理是基础,与结构和流程一起,将拥有实施和实施的集中式和分布式安全工程、物理安全、威胁情报和安全操作团队聚集在一起,[33]SDL公司[34]需求、工具和验证过程是我们方法的关键。通过SDL的实施,在中央工程系统团队和我们由CISO领导的数字安全与恢复团队的协助和监督下,所有微软产品都负责SDL实践,包括威胁建模,以映射潜在漏洞,并测量和管理风险,包括通过制定和测量缓解措施。

对于AI技术,我们已经更新了SDL威胁建模要求,以明确说明我们对独特AI威胁的持续了解,我们在系统组织的研究和开发框架方面一直处于领先地位。例如,与MITRE和其他公司一起,我们帮助创建了对手机器学习威胁矩阵。[35]我们的人工智能与工程与研究伦理(AETHER)[36]安全工程指南在现有SDL威胁建模实践中增加了AI特定威胁枚举和缓解指南,[37]我们的AI错误栏为通常影响AI和机器学习系统的漏洞提供了严重性分类。[38]内部培训还提供了AI威胁建模的背景。

SDL保护、检测和响应要求也适用于AI技术。例如,Microsoft为我们的AI环境采用了强大的身份和访问控制、整体安全监控(针对外部和内部威胁)以及快速事件响应和持续安全验证(例如模拟攻击路径分析)。[39]在适用的情况下,模型权重采用静态加密和传输加密,以降低模型被盗的潜在风险,并根据风险应用更严格的安全控制,例如保护高性能模型。[40]

强大的物理、操作和网络安全措施,包括供应商管理、身份和访问管理以及内部威胁监控,也可以保护云基础设施。[41]供应商安全和隐私受我们的供应商安全和保密保障计划管辖。[42]对物理数据中心设施的访问受到严格控制,具有外部和内部边界,并在每个级别上提高了安全性,并且受最低权限访问策略的限制,根据该策略,具有经批准的业务需求的人员可以获得限时访问权限。[43]我们记录并保留访问请求并分析数据,以检测异常情况,并防止和检测不必要或未经授权的访问。[44]我们还采用多种策略来保护网络边界。[45]

自从7月份在白宫会议上作出自愿承诺以来,[46]我们已采取关键步骤,进一步投资于治理和实施。我们已将我们的负责任AI标准和其中的内容链接到SDL中,加强了让负责任的AI风险告知安全开发过程的过程。我们强大的集成还加强了对我们负责的人工智能标准所要求的治理步骤的检查。(我们的负责任AI标准也继续参考SDL,确保网络安全风险告知AI风险管理。[47])

模型发布后发现的漏洞的报告结构

Microsoft是协调漏洞披露(CVD)领域的行业领导者,供应商从外部发现者处接收影响其产品和服务的潜在漏洞信息,并与这些发现者合作调查和缓解已确认的漏洞,并以最大程度降低用户风险的方式公开发布相关信息的过程。我们对外发布了CVD政策,并建立了一个明确的流程,通过该流程,我们可以从外部发现者处接收漏洞报告,并在调查、补救和提供已确认漏洞的公共信息的整个过程中与他们合作,包括通过向发现者提供信用。[48]Microsoft安全响应中心(MSRC)接收来自外部查找者的所有此类报告,并在CVD过程中管理协调,与内部其他人合作,进行适当的调查和补救。[49]

作为我们的Bug Bounty计划的一部分,外部寻找者也可能有资格获得经济奖励。[50]我们的奖励范围因产品而异,其中云程序最高可达10万美元,平台程序最高可达25万美元。[51]10月,我们推出了一项新的微软AI漏洞奖励计划,反映了最近的主要投资和经验,包括AI研究挑战和更新AI系统漏洞严重性分类的过程。[52]这项新的奖励计划的奖金高达15000美元,以AI驱动的Bing体验为第一个范围内产品。[53]

在确认从外部查找器收到漏洞后,MSRC与外部查找器和相关内部产品团队合作开发、测试和发布缓解措施,通常涉及软件更新。在这样做的过程中,Microsoft使用漏洞严重性来优先考虑快速缓解工作,首先关注最关键的问题(而不是按照接收或确认问题的顺序缓解问题)。

为了加强客户和安全研究人员对我们基于风险的方法的透明度,以优先考虑快速缓解工作,我们提供了漏洞分类和严重性评级,包括不同类别的产品。例如,MSRC维护在线服务的漏洞严重性分类。[54]最近,我们还发布了一个新的AI系统漏洞严重性分类(即AI错误栏),涵盖了在我们的产品和服务中使用AI所产生的新漏洞类别。[55]MSRC还继续维护一个安全更新严重性评级系统,该系统与我们针对产品类别(即低、中、重要和关键严重性评级)的严重性分类系统相一致,支持客户了解风险并优先进行修补。[56]

Microsoft还通过Frontier Model Forum与业界其他公司合作,确定新的“负责任的披露”流程,通过该流程,提供商可以接收和共享与发现Frontier模型中的漏洞或危险功能相关的信息。

AI生成材料的标识符

为了表明一段内容是人工智能生成的,Microsoft产品中使用了两种常见的方法,这取决于人工智能生成媒体格式:水印和基于元数据的来源。水印可以是可见的(例如,AI生成的图像上的标识表示它是AI生成)或不可见的(因此依赖于检测工具);为了确定出处,信息可以包含在附加到AI生成内容的元数据中。第三种不太常见的方法是指纹识别。

2021年,微软与Adobe、Arm、BBC、Intel和Truepic共同创立了内容来源和真实性联盟(C2PA),并共同开发了C2PA技术规范,这是一个领先的开放标准,可以在此基础上建立可互操作的来源生态系统。[57]就像我们将邮寄信封或盒子视为物理内容的容器一样,图像和视频等数字资产也放在它们自己的容器中。C2PA规范定义了如何在数字资产的容器中嵌入一个被称为“C2PA清单”的加密密封、可验证的来源信息单元。例如,当用户使用支持C2PA的软件创建图像时,它将生成来源清单并以加密方式将其绑定到JPEG文件。然后可以使用验证工具查看附加到图像的清单,因为它嵌入到JPEG文件结构或“容器”本身中。[58]C2PA还设计用于在共享或发布内容之前作为最终签名步骤。

微软一直在与C2PA的其他公司合作实施该规范,提高透明度,并帮助推动更广泛的生态系统向前发展。2023年5月,我们宣布了新的媒体来源功能,并计划使用C2PA标记和签署由Microsoft Designer和Bing Image Creator生成的AI生成的图像。[59]

Bing Image Creator现在会在AI自动生成时公开内容。我们还在为内部产品团队提升Azure OpenAI的来源能力。

作为我们采用迭代方法进行风险管理和推动持续改进的更广泛AI安全战略的一部分,我们还投资于技术研究和评估,以增强稳健性。例如,作为基于元数据起源之外的潜在分层缓解,我们还正在探索指纹解决方案,以帮助识别图像是否由人工智能生成。

微软和其他公司也在继续投资开发和推广C2PA。例如,尽管迄今为止的规范只能用于某些数字资产,但C2PA正在不断扩展该标准,以支持新的媒体格式。4月,最新规范更新增加了对许多新格式的支持,包括MPF、WebP、AIFF、AVI和GIF。[60]

人工智能风险的优先研究

在微软的多个团队中,我们投资于内部和外部努力,以加快对人工智能安全、保障和社会影响的研究,并增加对人工智能资源的访问。微软研究院(Microsoft Research)在内部对人工智能进行了大量投资,主要致力于1)理解一般人工智能,从人类智能研究以及自然现象的预测和观察中获得灵感;2) 推动模型创新,追求更强大、更协调的人工智能形式;3) 通过支持人类繁荣的可信赖人工智能确保社会利益;4) 转变科学发现,包括与我们最近成立的AI4Science组织合作;以及5)扩展人类能力,在农业和医疗保健等行业孵化新型人工智能应用。[61]

微软研究院也在扩大和多样化其合作者网络,并致力于培养一个充满活力的全球人工智能研究社区。微软研究院(Microsoft Research)最近启动了加速基金会模型研究(AFMR),这是一项研究资助计划,我们旨在促进跨学科研究,使人工智能与人类目标、价值观和偏好相一致;通过社会技术研究改善人类互动;加快自然科学的科学发现。[62]在管理了今年早些时候启动的试点阶段后,我们扩大了该项目,现在已经从13个国家的75个机构中选择了125个新项目。我们第一次公开招标的重点是将人工智能系统与人类目标和偏好相结合;推进人工智能的有益应用;加速自然科学和生命科学的科学发现。随着我们继续扩大与学术合作伙伴的联系范围,我们也将继续扩大我们的研究深度,包括在人工智能评估和测量等领域。

Microsoft Research和其他团队还与行业和民间社会组织的研究人员、从业者和其他专家合作,提高安全风险知识以及安全和安保技术的最佳实践。

  • 7月,微软与其他三家领先的人工智能公司合作推出了前沿模型论坛,该论坛汇集了技术专家,为负责开发和部署前沿模型定义共识最佳实践。[63]
  • 8月,我们的AI红色团队(一个独立于我们产品组的专家组)参加了今年的DEF CON AI村,这是一个研究人员分享AI系统最新信息以及防御和攻击系统最先进技术的平台。[64]
  • 9月,我们发布了与OpenAI联合进行的一项研究的结果,该研究旨在探索多模态文本到图像模型,包括通过红队合作来了解故障模式以及构建测量和缓解技术的工程努力。[65]
  • 10月,AI伙伴关系发布了公众评论指南,我们对安全基础模型部署做出了贡献,旨在提供工具和知识,促进AI模型的负责任开发和部署,重点关注社会安全和适应性,以支持不断发展的能力。[66]我们之前曾为AI多制作人团体的其他合作做出贡献,包括AI生成媒体披露实践的发展。

我们也支持国家和全球为学术研究建立人工智能计算资源的努力。5月,微软不仅主张按照2020年立法的规定在美国建立国家人工智能研究资源,还主张延长其使用期限,以适应国外盟国(包括欧盟、日本、英国和其他志同道合的国家)的学术机构的使用。[67]提供这种访问的一个重要补充是,为从事应用和高性能模型的安全与保障的前沿研究的学术界开发治理最佳实践,微软也欢迎有机会在一个协作的多制造商小组内帮助开发此类实践。

预防和监控模型误用

在微软,在整个产品生命周期中维护符合我们负责任的AI承诺的AI产品意味着它们将经历一个在部署前后映射、测量和管理风险的迭代循环。这意味着,我们在本次更新中提供了上下文的多个查询领域的政策和实践,包括模型评估和红队、安全控制和数据输入控制,必须酌情迭代实施。(请参考这些章节,了解我们预防和监测模型滥用的政策和实践的完整背景。)通过我们强大的治理结构监督这些持续过程,对于产品监测和维护以及持续学习和改进,与在产品发布之前一样至关重要。

当我们通过自己正在进行的研究或内部红色团队或外部报告了解到滥用或事件的新模式时,我们必须做好准备,采取行动控制问题、改进产品、实施新的缓解措施,并以其他方式保护客户。为了加强准备,我们不断研究并与合作伙伴合作,以改进缓解技术,我们定期测试并在必要时调整计划,以应对事件或检测到的新的潜在滥用模式。我们还定期评估并在必要时调整我们的政策,以加强安全控制和客户透明度。

此外,我们的AI产品具有内置或附加功能,特别侧重于监控部署后的误用模式,并将学习反馈到产品开发中,以加强基于映射、测量、,和缓解措施(如模型评估和红色团队部分所述)。例如,Azure OpenAI滥用监控可以检测和缓解重复出现的内容和/或行为的实例,这些实例表明使用服务的方式可能违反我们的行为准则或其他适用的产品条款。[68]

数据输入控制和审计

微软致力于为人工智能模型和应用程序的输入和输出实施并支持负责任的数据政策和实践。我们的负责任人工智能标准及其附带的隐私、安全和可访问性标准适用于我们开发和部署的所有人工智能系统,建立了影响我们所有负责任人工智原则的众多数据要求。[69]因此,产品团队可能需要评估数据集的数量和适用性、数据集的包容性、培训和测试数据中预期用途的表示、给定培训和测试资料的模型的通用性限制,以及它们如何满足数据收集和处理要求等。我们的影响评估和其他负责任的人工智能工具帮助团队进行这些评估,并提供文档供审查。

通过透明机制,微软还为客户和其他利益相关者提供了有关人工智能系统(如Azure OpenAI Service)处理的数据的上下文,包括用户提示和生成的内容、提示中包含的增强数据(即用于接地),以及用户提供的培训和验证数据。[70]还处理客户数据,以分析提示、补全和图像中可能违反我们的行为准则或其他适用产品条款的有害内容或使用模式。[71]既定的策略规定,培训数据和微调模型仅可供客户使用,存储在与Azure OpenAI资源相同的区域内,可以在静止时进行双重加密(默认情况下使用Microsoft的AES-256加密,也可以使用客户管理的密钥),客户可以随时删除。[72]AI产品处理的所有适用数据也受微软通用数据保护条例(GDPR)的约束[73]以及其他法律承诺和数据隐私和安全合规性产品。[74]

Microsoft支持几种现有的技术机制,内容提供商可以使用这些机制来限制对其数据的访问。这可以通过一系列技术措施来实现,包括将内容放在付费墙后面或使用其他手段从技术上限制访问。内容提供商还可以实现一些机制,以表明他们不打算使用机器可读的方式(如robots.txt web标准)来扫描公开可访问的内容。

Copilots中的护栏也有助于尊重作者的版权。[75]我们集成了过滤器和其他技术,旨在降低Copilots返回侵权内容的可能性。这些功能和技术以我们保护数字安全、安全和隐私的工作为基础,并对其进行了补充,其中许多功能和技术已在上文中介绍,包括分类器、元提示符、内容过滤、操作监控和滥用检测。

正如我们利用业界领先的合规努力支持云客户履行GDPR和其他义务一样,今年早些时候,我们宣布承诺告知并促进客户负责任的AI治理和合规。[76]9月,我们在这些承诺的基础上宣布了新的Copilot Copyright Commitment,允许客户使用微软新的Copylot服务及其产生的输出,而无需担心版权索赔。具体来说,如果第三方起诉商业客户使用微软的Copilots或其生成的输出侵犯版权,然后,只要客户使用了我们产品中内置的护栏和内容过滤器,我们将为客户辩护,并支付由此产生的任何不利判断或和解的金额。[77]

结论

微软很高兴有机会为英国AI安全峰会做出贡献,并提供信息以回应其对安全政策的询问。持续的公私对话对于迅速推进对有效做法和评估技术的共同理解至关重要。我们期待英国采取下一步行动,召开即将举行的峰会,努力加强人工智能安全评估的全球协调,并通过七国集团、经济合作与发展组织(OECD)、,以及其他多边和多厂商论坛。

[1] 我们承诺推进安全、可靠和值得信赖的人工智能——微软关于问题

[2] 微软-志愿者-承诺-2023.pdf

[3] AI风险管理框架| NIST

[4] 反思我们负责任的人工智能项目:进步的三个关键要素——微软关于问题

[5] 我们如何最好地管理人工智能Microsoft关于问题

[6] 微软-志愿者-承诺-2023.pdf

[7]我们负责的人工智能标准的目标A1要求制定影响评估,并通过标准的其他要求促进评估的使用。微软责任AI标准v2一般要求

[8] https://download.microsoft.com/download/C/1/9/C1990DBA-502F-4C2A-848D-392B93D9B9C3/microsoft_Enterprise_Cloud_Red_Teaming.pdf

[9] 微软AI红色团队打造更安全AI的未来|微软安全博客

[10] 微软AI红色团队打造更安全AI的未来|微软安全博客

[11] 微软AI红色团队打造更安全AI的未来|微软安全博客;https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RW14Gtw

[12] 微软-志愿者-承诺-2023.pdf

[13] 监控评估指标描述和用例(预览)–Azure机器学习| Microsoft学习

[14] 负责任的人工智能仪表盘|微软人工智能实验室,微软负责任人工智能工具箱–微软负责任的人工智能,在Azure机器学习中使用负责任的AI记分卡(预览)-Azure机器教学| Microsoft学习

[15] Microsoft Build为开发人员带来了AI工具–Microsoft官方博客;什么是Azure机器学习提示流(预览)-Azure机器教学| Microsoft学习

[16] Azure OpenAI服务内容筛选–Azure OpenAI | Microsoft学习

[17] Azure人工智能内容安全-人工智能内容审核| Microsoft Azure

[18] 在Azure(microsoft.com)上介绍Llama 2

[19] 新Bing–我们的负责任人工智能方法

[20] 负责任的人工智能原则和方法|微软人工智能;负责任的AI标准v2目标T2:与利益相关者沟通

[21] 微软负责任的人工智能计划的组成部分——微软在问题上

[22] 微软责任AI标准v2一般要求

[23] GitHub Copilot·你的AI对程序员·GitHub

[24] 关于Bing聊天企业的常见问题| Microsoft Learn

[25] 新Bing–我们的负责任人工智能方法

[26] Azure OpenAI透明度说明-Azure AI服务|微软学习

[27] gpt-4-system-card.pdf(openai.com)

[28] 多模态学习的前沿:负责任的人工智能方法——微软研究

[29] 微软-志愿者-承诺-2023.pdf

[30] 微软、Anthropic、谷歌和OpenAI推出前沿模型论坛——微软在这些问题上

[31] FMF-AI-Red-Teaming.pdf(frontiermodelforum.org)

[32] AI伙伴关系发布安全基础模型部署指南,率先推动积极成果,并在英国AI安全峰会之前帮助告知AI治理——

[33]其中一些团队包括Azure Security(负责持续改进Azure在所有层的内置安全态势:数据中心、物理基础设施以及云产品和服务);网络防御运营中心(一个融合中心,汇集事件响应者、数据科学家和安全工程师,为我们的企业基础设施和客户使用的云基础设施提供全方位保护);数字安全与弹性(由我们的CISO领导的组织,致力于让微软构建最值得信赖的设备和服务,同时保护我们的公司和客户);身份和网络访问(身份平台安全和防御);Microsoft Defender专家和Microsoft DefenderThreat Intelligence(以产品为中心的安全研究人员、应用科学家和威胁情报分析师);Microsoft安全响应中心(漏洞研究和响应);和Microsoft威胁情报中心(致力于识别和跟踪影响Microsoft客户的最复杂对手的团队)。

[34] Microsoft安全开发生命周期

[35] 针对机器学习系统的网络攻击比你想象的更常见|Microsoft安全博客

[36] Satya Nadella致员工的电子邮件:拥抱我们的未来:智能云和智能边缘——故事(microsoft.com)

[37] 威胁建模AI/ML系统和依赖性–安全文档|微软学习

[38] Microsoft针对人工智能和机器学习系统的漏洞严重性分类

[39] 微软-志愿者-承诺-2023.pdf

[40] 微软-志愿者-承诺-2023.pdf

[41] 什么是云基础设施?|Microsoft Azure(Microsoft Azure)

[42] 供应商管理概述–Microsoft Service Assurance | Microsoft Learn

[43] 数据中心物理访问安全–Microsoft Service Assurance | Microsoft Learn

[44] 数据中心物理访问安全–Microsoft Service Assurance | Microsoft Learn

[45] 网络安全–Microsoft Service Assurance | Microsoft Learn

[46] 我们承诺推进安全、可靠和值得信赖的人工智能——微软关于问题

[47] Microsoft负责任人工智能标准v2一般要求(见目标PS2)

[48] microsoft.com/en-us/msrc/cvd

[49] MSRC Research Portal(microsoft.com)

[50] https://microsoft.com/msrc/bundy

[51] Microsoft赏金计划|MSRC

[52] 介绍以人工智能为动力的Bing体验为特色的微软人工智能漏洞奖励计划|微软微软研究中心博客|微软安全响应中心

[53] Microsoft AI Bounty |微软资源中心

[54] Microsoft联机服务漏洞严重性分类

[55] Microsoft针对人工智能和机器学习系统的漏洞严重性分类

[56] 安全更新严重性评级系统(microsoft.com)

[57] C2PA解释人::C2PA规范

[58] https://verify.contentauthenticity.org/

[59] Microsoft Build为开发人员带来了AI工具–Microsoft官方博客

[60] C2PA技术规范::C2PA规范

[61] 人工智能和微软研究院——微软研究院

[62] 加速基础模型研究:支持人工智能的全球学术研究生态系统——微软研究

[63] 微软、人类、谷歌和OpenAI推出前沿模型论坛——微软关于问题

[64] DEF CON AI村宣布成立有史以来规模最大的公共生殖AI红色团队——AI村

[65] 多模态学习的前沿:负责任的人工智能方法——微软研究

[66] AI伙伴关系发布安全基础模型部署指南,率先推动积极成果,并在英国AI安全峰会之前帮助告知AI治理——

[67] 管理人工智能:未来蓝图(microsoft.com)

[68] Azure OpenAI服务的数据、隐私和安全–Azure AI服务|微软学习。为了检测和缓解滥用,Azure OpenAI将所有提示和生成的内容安全存储长达30天(除非客户获得批准并选择配置禁用滥用监控,这需要满足我们的有限访问资格标准并证明将使用限制在特定用例中)。Azure AI服务的有限访问功能–Azure AI-服务| Microsoft Learn

[69] 微软责任AI标准v2一般要求