跳到内容

通知

文档详细信息

发布在联邦公报.

文档统计信息
文档页面视图全天定期更新,是此文档的累积计数。计数将在全天进行采样、重新处理和修订(上调或下调)。
增强的内容

Regulations.gov中有关本文件的相关信息提供了更多上下文。此信息不是官方信息的一部分联邦公报文档。

已发布文档

本文档已在联邦公报。使用文档侧栏中链接的PDF作为官方电子格式。

开始前言

代理:

美国国会图书馆版权局。

行动:

询问通知和征求意见。

总结:

美国版权局正在对人工智能系统提出的版权法律和政策问题进行研究。为了告知该办公室的研究并帮助评估这一领域的立法或监管措施是否必要,该办公室寻求对这些问题发表评论,包括使用受版权保护的作品来训练人工智能模型的问题、使用受版权保护的作品的适当透明度和披露水平,AI生成输出的法律地位。

日期:

书面评论应于2023年10月18日(星期三)东部时间晚上11:59之前提交。书面回复意见应于2023年11月15日(星期三)东部时间晚上11:59之前提交。

地址:

出于政府效率的考虑,版权局正在使用regulations.gov公司在此诉讼中提交和发布公众评论的系统。所有意见应通过电子方式提交regulations.gov公司。有关提交评论的具体说明,请访问版权局网站:https://copyright.gov/版权所有政策/人工智能。如果无法以电子方式提交,请使用以下联系信息联系办公室,以获取特殊说明。

开始进一步信息

欲了解更多信息,请联系:

法律总顾问助理Rhea Efthimiadis通过电子邮件发送至或致电202-707-8350。

结束进一步信息 结束前言 开始补充信息

补充信息:

一、引言

去年,人工智能(“AI”)系统及其能力的快速增长吸引了大量媒体和公众的关注。一种类型的人工智能,即“生成性人工智能”技术,能够生成文本、图像、视频或音频(包括模拟人类声音)等输出,如果由人类作者创建,这些输出将被视为可受版权保护。[1]采用和使用起始打印页59943数百万美国人的生成性人工智能系统[2]-由此产生的人工智能材料数量引发了广泛的公众辩论,讨论这些系统对创意产业的未来意味着什么,并对版权制度提出了重大问题。[]

其中一些问题涉及到人工智能全部或部分生成的材料的版权主张中人类原创的范围和水平(如果有的话)。在过去几年里,办公室已经开始收到申请,要求注册包含人工智能生成材料的作品,其中一些将人工智能系统命名为作者或合著者。[4]与此同时,版权所有者根据生成性人工智能系统的培训过程和输出,向人工智能公司提出了侵权索赔。[5]随着担忧和不确定性的增加,许多利益相关者以不同的观点联系了国会和版权局。该办公室今年早些时候公开宣布了一项广泛的倡议,以探讨这些问题。本通知是该倡议的一部分,以办事处的研究、专门知识和先前工作以及利益攸关方向办事处提供的信息为基础。

二、。版权局过去在机器学习和人工智能方面的工作

版权局长期致力于机器学习和版权问题。1965年,该办公室的年度报告指出,计算机技术的发展已开始提出“作者身份的难题”,即“由计算机‘编写’的作品的作者身份问题。”[6]正如当时的版权登记官所观察到的:

关键的问题似乎是,“作品”基本上是人类的原创作品,而计算机只是一种辅助工具,还是作品中传统的原创元素(文学、艺术或音乐表达或选择、安排等元素)实际上不是由人而是由机器构思和执行的。[7]

由于答案取决于作品创作的环境,办公室审查部门(以及未来的登记处)负责人Barbara Ringer警告说,办公室不能“采取明确的立场,即仅仅因为创作作品时可能以某种方式使用了计算机,登记就会被拒绝。”[8]正如她所指出的那样,“打字机是用来创作手稿的机器[,]但这并不会导致手稿无法阅读。”[9]十年后,国家版权作品新技术使用委员会(“CONTU”)也赞同这一观点,[10]与办公室达成一致[11]但拒绝深入讨论这个问题,因为“这种‘人工智能’能力的发展尚未实现,事实上,有人向委员会建议,这种发展过于投机,目前无法考虑。”[12]在其间的几年里,随着人工智能走出投机领域,该办公室继续参与世界知识产权组织(“WIPO”)主办的1991年会议上关于人工智能问题的讨论[13]办事处与WIPO共同主办的最新活动[14]并与美国专利商标局合作。[15]

去年,在两个单独的版权登记事项中,该办公室公开解决了人工智能生成材料的版权问题。在第一个案例中,该办公室拒绝登记二维艺术品的索赔,该二维艺术品被描述为“由运行在机器上的计算机算法自动创建”[16]办公室的审查起始打印页59944董事会[17]解释说,该作品无法注册,因为它是“在没有人类作者任何创造性输入或干预的情况下”创作的,“法定文本、司法先例和长期的版权局惯例”都要求将人类作者身份作为版权保护的条件。[18]该办公室拒绝注册以及支持性法律分析最近在联邦地区法院得到确认。[19]

2022年提交的第二份注册申请涉及一份包含人类原创和生成性人工智能材料的作品。这部作品是一部图文并茂的小说,文字由人类申请人撰写,插图是通过使用Midtrivel(一种生成性人工智能系统)创作的。在向申请人征询有关作品创作过程的信息后,办公室确定版权既保护了人工创作的文本,也保护了人类对文本和图像的选择和安排,但不保护人工智能生成的图像本身。[20]该办公室解释说,如果人类作者对作品中人工智能生成的组件缺乏足够的创造性控制,那么出于版权目的,人类就不是这些组件的“作者”。[21]该办公室继续收到申请,要求注册包含人工智能生成材料的作品,涉及不同水平的人类贡献。[22]

三、 办公室的人工智能倡议

为了应对日益增长的国会[23]和公众利益,[24]该办公室于2023年初启动了一项全面的人工智能倡议。该倡议确定了办公室将采取的一些步骤,以进一步探讨围绕人工智能的版权政策问题,包括举办公众听证会和发布调查通知。[25]与此同时,该办公室创建了一个网站,www.copyright.gov/ai网站,提供有关倡议的信息,包括计划的活动和公众参与的机会。

a.2023年3月注册指南

在倡议开始时,办公室发布了一份政策声明,为包含人工智能生成材料的作品提供注册指导(“人工智能注册指导”)。[26]《人工智能注册指南》重申了美国版权保护需要人类署名的原则。该指南解释说,根据公认的判例法,“《宪法》和《版权法》中使用的“作者”一词不包括非人类。”[27]在生成性人工智能的背景下,这意味着“如果一件作品的传统创作元素是由机器生成的,那么该作品就缺乏人类的创作能力,并且办公室不会对其进行注册。”[28]该指南指导申请者注册包含以下内容的作品关于琐事的AI生成的材料,以披露作品中包含此类材料,并简要解释人类作者的贡献。[29]

b.公众聆听会议

2023年4月和5月,办公室举行了四次公众听证会,收集关于生成性人工智能提出的版权问题的意见。每一次听证会都集中于不同类别的创作作品:文学作品,包括印刷新闻和软件;视觉艺术作品;视听作品,包括视频游戏;音乐作品和录音。在四次听证会上,近90名代表艺术家个人、学术专家、法律从业人员、技术公司和行业协会的与会者与办事处分享了他们的观点。办公室网站上提供了每届会议的记录、录像和议程。[30]

c.教育网络研讨会

2023年6月和7月,该办公室举办了两次关于生成人工智能的公开网络研讨会,每次都吸引了近2000名观众。第一次网络研讨会侧重于包含人工智能生成材料的作品的注册。其中概述了办公室关于如何注册包含非申请人创建或拥有的材料的作品的一般规则,并举例说明了这些规则如何适用于包含人工智能生成材料的作品。[31]第二次网络研讨会召集了世界不同地区的专家,讨论生成性人工智能和版权法的国际发展。这些专家讨论了其他国家如何解决版权问题,包括作者身份、培训、例外和限制。他们概述了立法起始打印页59945事态发展,并强调了可能的趋同和分歧领域。[32]

d.与利益相关者的互动

除了上述公共活动外,该办公室还与广泛的利益相关者进行了交谈,与学者、贸易团体、个人创作者、科技公司和创意产业举行了数十次会议。[33]这些会议提供了有关生成性人工智能模型和系统的技术方面的宝贵信息,创作者如何使用生成性人工智,以及版权申请人对注册包含人工智能生成材料的作品的持续问题。

四、 当前查询

根据我们之前的人工智能倡议工作,包括与利益相关者的讨论,办公室已经确定了人工智能开发和使用过程中产生的一系列版权政策问题。这些问题涉及:(1)使用版权作品训练人工智能模型;(2) 使用人工智能系统生成的材料的版权;(3) 使用人工智能系统产生的侵权作品的潜在责任;(4)处理模仿人类艺术家身份或风格的生成性人工智能输出。该办公室就这些问题和相关问题征求公众意见。

关于第一个问题,办公室意识到,对于使用受版权保护的作品开发用于训练人工智能模型的数据集(在生成和非生成系统中)是否侵权或何时侵权,存在分歧。[34]本通知寻求有关人工智能数据集的收集和管理、这些数据集如何用于训练人工智能模型、训练中摄入的材料来源,以及在包括版权所有者的作品时是否需要或应该要求版权所有者的许可和/或补偿。如果评论员认为有必要获得此类许可和/或补偿,办公室将征求他们对哪种薪酬制度可行和有效的意见。该办公室还寻求有关保留必要记录以确定基本培训材料以及向版权所有者和其他人提供这些信息的信息。

关于第二个问题,办公室寻求就使用生成人工智能创作的材料的版权保护的适当范围发表评论。尽管我们认为法律明确规定,美国的版权保护仅限于人类原创作品,[35]关于在何处以及如何在人类创造和人工智能生成的内容之间划清界线的问题仍然存在。例如,在某些情况下,人类对生成性人工智能系统的使用可能涉及对技术的充分控制,例如通过选择培训材料和多次迭代指令(“提示”),以产生人工编写的输出?此问题的解决将影响未来的注册决定。虽然办公室正在单独更新其关于包含人工智能生成材料的作品的注册指南,[36]本通知探讨了与版权相关的更广泛的政策问题。

关于第三个问题,办公室对版权责任原则如何适用于生成性人工智能系统创建的材料感兴趣。[37]例如,如果发现输出与作为培训数据集一部分的受版权保护的作品基本相似,并且使用不符合公平标准,则应如何在其指令提示输出的用户与系统和数据集的开发人员之间分摊责任?

最后,在我们的听证会和其他外联活动中,办公室听取了艺术家和表演者对生成性人工智能系统模仿声音、相似性或风格的能力的关注。虽然这些个人属性一般不受版权法的保护,但其复制可能涉及不同的国家宣传权和不公平竞争法,也与各种国际条约义务有关。[38]

五、通知概述

本通知的目的是收集与生成性人工智能最新进展提出的版权法律和政策问题相关的事实信息和观点。办公室根据第17篇“开展研究”和“开展研究就与版权有关的国家和国际问题、本标题下产生的其他事项以及相关事项向国会提出建议。”[39]它打算利用这些信息为国会提供建议,对当前法律状况进行分析,确定未决问题,并评估国会行动的潜在领域。该办公室还将利用这一记录为其监管工作提供信息,并向公众、法院和其他考虑这些问题的政府实体提供信息和资源。

这些问题分为几个类别。本通知从几个一般性的高级别问题开始,然后询问人工智能培训,包括透明度和问责制问题;生成人工智能输出,包括版权、侵权以及此类输出的标签或标识问题;以及其他与版权相关的问题。由于在讨论这些问题时使用共享语言的重要性,为了本通知的目的,这些问题后面是关键术语的词汇表。办公室欢迎评论人士对定义提出意见。

六、 说明和问题

办公室并不期望选择回复本通知的每一方都能解决以下提出的每一个问题。这些问题旨在收集各方的意见。该办公室确实要求,在回答问题时,评论者明确指出每个问题起始打印页59946他们提交答复的问题,单独解决问题,并为答复提供事实、法律或政策依据。评论员应明确他们是以个人身份还是代表他们授权代表的组织或实体提交。特别鼓励评论员解释任何技术性的理解,以说明他们的法律和政策观点,以及他们的答案是否仅适用于某些行业、技术或受版权保护的作品类型。虽然有些问题寻求有关生成性人工智能系统的技术信息,但评论员不需要与技术实体有关联就可以回答这些问题。

一般问题

除了下面列出的具体主题外,办公室还有几个关于生成性人工智能的一般问题。我们鼓励评论员提出以下更详细的问题未引起的任何立场或观点。

1.如上所述,生成性人工智能系统能够生成由人类作者创作的受版权保护的材料。您对这项技术的潜在好处和风险有何看法?该技术的使用目前如何影响或可能影响创作者、版权所有者、技术开发人员、研究人员和公众?

2.与其他版权利益相关者相比,AI生成材料的日益使用或分发是否为您的部门或行业带来了任何独特的问题?

3.请指出您认为与本通知相关的任何论文或研究。例如,这些可以解决生成性人工智能对创意产业的经济影响,或者不同的许可制度如何运作,以酬劳版权所有者和/或创作者在培训人工智能模型时使用其作品。办公室要求评论员提供一个指向已确定论文的超链接。

4.其他国家是否已经采用或正在考虑与版权和人工智能相关的任何法律或监管方法,这些方法在美国应该考虑或避免?[40]跨国界在这一领域的国际一致性有多重要?

5.新立法是否有保证解决版权或与生成性人工智能相关的问题?如果是的话,需要什么?具体提案和立法文本并不必要,但办公室欢迎任何提案或文本供审查。

培训

如果您的评论仅适用于AI技术的特定子集,请明确说明。

6.哪些受版权保护的培训材料用于培训人工智能模型,这些材料是如何收集和管理的?

6.1. 人工智能模型的开发人员如何或在何处获得其模型培训所依据的材料或数据集?培训材料最初由第三方实体(如学术研究人员或私营公司)收集的程度如何?

6.2. 版权所有者在多大程度上许可版权作品用作培训材料?据您所知,目前正在提供和使用哪些许可模式?

6.3. 人工智能培训中使用的非版权材料(如公共领域作品)的程度如何?或者,人工智能模型开发人员在多大程度上创建或委托了培训材料?

6.4条。AI模型开发人员在培训完成后是否保留了部分或全部培训材料,目的是什么?请描述任何相关的存储和保留做法。

7.在一定程度上,请简要描述您对人工智能模型训练过程的个人知识。办事处特别感兴趣的是:

7.1. 培训人工智能模型时,如何使用和/或复制培训材料?请说明您对培训过程中发生的任何作品复制的性质和持续时间的理解,以及您对这些活动在多大程度上涉及版权所有者的专有权的看法。

7.2. 如何在人工智能模型中存储或表示从训练过程中获得的推理?

7.3. 人工智能模型是否有可能“忘却”它在特定训练材料上的训练所得推理?如果是,它在经济上可行吗?除了重新训练模型外,还有其他方法可以“忘却”训练中的推论吗?

7.4. 在无法访问底层数据集的情况下,是否有可能确定人工智能模型是否是在特定的训练材料上训练的?

8.在什么情况下,未经授权使用受版权保护的作品来训练人工智能模型会构成合理使用?请讨论您认为与此问题相关的任何判例法。

8.1. 根据最高法院最近在谷歌(v)。Oracle美国[41]安迪·沃霍尔基金会(v)。戈德史密斯,[42]如何评估使用版权作品训练人工智能模型的“目的和特征”?要分析的相关用途是什么?进行不同阶段的培训,如预培训和微调,[43]在第一个合理使用因素下提出不同的考虑?

8.2. 该分析应如何适用于收集和分发受版权保护的培训材料但可能自己不参与培训的实体?

8.3. 在训练数据集中使用受版权保护的材料或训练生成性人工智能模型可以用于非商业或研究目的。[44]如果人工智能模型或数据集后来被用于商业用途,那么合理使用分析应该如何应用?[45]如果这些非商业或研究用途的资金由AI系统的营利性开发人员提供,会有什么不同吗?

8.4条。生成性人工智能模型的开发人员在培训中使用了多少培训材料?用于训练人工智能模型的材料数量是否影响合理使用分析?如果是,如何?

8.5. 根据合理使用分析的第四个因素,用于培训人工智能的版权作品对潜在市场或价值的影响如何起始打印页59947模型是否需要测量?[46]问题应该是,包含该模型的人工智能系统的输出是否与特定的版权作品、同一作者的作品主体或该类作品的市场竞争?

9.版权所有人应该肯定地同意(选择加入)使用他们的作品作为培训材料,还是应该向他们提供反对(选择退出)的手段?

9.1. 培训人工智能模型的所有版权作品使用都需要版权所有者的同意,还是只需要商业使用?[47]

9.2. 如果采用“选择退出”的方法,那么对于反对将其作品用于培训的版权所有者来说,该过程如何运作?是否有可能促进这一过程的技术工具,例如技术标志或元数据,指示自动化服务不应收集和存储用于AI培训的作品?[48]

9.3. 建立或使用这种程序有哪些法律、技术或实际障碍?考虑到培训中使用的作品数量,提前获得版权所有者的同意是否可行?

9.4. 如果反对意见未被采纳,应采取哪些补救措施?现有的侵权补救措施是否适当,或者是否应该有单独的诉讼理由?

9.5. 例如,如果人类创造者不拥有版权,因为他们已经分配了版权,或者因为作品是为雇佣而制作的,那么他们是否有权反对人工智能模型在他们的作品上接受培训?如果是这样的话,这样的系统将如何运作?

10.如果训练生成性人工智能模型需要版权所有者的同意,那么如何或应该获得许可?

10.1。直接自愿许可在某些或所有创意部门可行吗?

10.2、。自愿集体许可计划是可行的还是可取的方法?[49]是否存在非常适合提供这些许可证的现有集体管理组织,是否存在法律或其他阻碍这些组织发挥这一作用的障碍?国会是否应该考虑法定变更或其他变更,例如反垄断例外,以促进集体许可证的谈判?

10.3. 国会是否应该考虑建立强制许可制度?[50]如果是这样,那么这样一个政权应该是什么样的?许可证应涵盖哪些活动,哪些作品将受到许可证的约束,版权所有者是否有权选择退出?应如何设定、分配、报告和分配特许权使用费费率和条款?

10.4. 是一个扩展的集体许可计划[51]可行或可取的方法?

10.5. 许可制度是否应根据所涉工作类型而有所不同?

11.在获得适当的培训许可证方面可能存在哪些法律、技术或实际问题?如果有人,谁应该负责保护它们(例如,当培训数据集的管理者、培训人工智能模型的开发人员以及在人工智能系统中使用该模型的公司是不同的实体,并且可能具有不同的商业或非商业角色时)?

12.确定特定工作对生成性人工智能系统特定输出的贡献程度是否可能或可行?请解释一下。

13.许可要求对生成性人工智能系统的开发和采用有何经济影响?

14.请描述您认为与培训人工智能模型的潜在版权责任相关的任何其他因素。

透明度和记录

15.为了让版权所有者确定他们的作品是否被使用,是否应该要求人工智能模型的开发人员收集、保留和披露用于训练模型的材料的记录?培训数据集的创建者是否也有类似的义务?

15.1. 需要什么程度的特异性?

15.2. 应向谁披露?

15.3. 人工智能系统的开发人员应该承担哪些义务(如果有的话)?

15.4. 这种记录保存系统对人工智能模型或系统的开发人员、创建者、消费者或其他相关方的成本或其他影响是什么?

16.如果有义务通知版权所有人他们的作品已被用于训练人工智能模型,应该有哪些义务?

17.除版权法外,是否有美国现行法律要求人工智能模型或系统的开发人员保留或披露他们用于培训的材料的记录?

生成AI输出

如果您的评论仅适用于生成性人工智能技术的特定子集,请明确说明。

版权

18.根据版权法,是否存在使用生成性人工智能系统的人应被视为该系统所生成材料的“作者”的情况?如果是,与该决定相关的因素是什么?例如,选择人工智能模型训练的材料和/或提供一系列迭代起始打印页59948文本命令或提示足以声明结果输出的作者身份?

19.是否有必要对《版权法》进行任何修订,以澄清人类原创要求或提供附加标准,以确定包括人工智能生成的材料在内的内容何时受到版权保护?

20.作为政策事项,对人工智能生成材料的法律保护是否可取?是否有必要对人工智能生成材料进行法律保护,以鼓励生成性人工智能技术和系统的发展?运行生成人工智能系统的计算机代码的现有版权保护是否提供了足够的激励?

20.1条。如果你认为保护是可取的,应该是一种版权形式还是一种单独的独特的正确的?如果是后者,AI生成的材料的保护在哪些方面与版权不同?

21.美国宪法中的版权条款是否允许对人工智能生成的材料进行版权保护?这种保护会“促进科学和有用艺术的进步”吗?[52]如果是,如何?

侵权

22.人工智能生成的输出是否会牵涉到已有版权作品的专有权,例如复制权或衍生作品权?如果是,在什么情况下?

23.实质相似性测试是否足以解决基于生成性人工智能系统输出的侵权索赔,或者其他标准是否合适或必要?

24.如果人工智能模型的开发人员没有维护或提供其使用的培训材料的可用记录,版权所有者如何证明复制的要素(例如通过展示对受版权保护的作品的访问)?现有的民事调查规则是否足以解决这种情况?

25.如果人工智能生成的材料被发现侵犯了受版权保护的作品,谁应该直接或间接负责——生成人工智能模型的开发人员、包含该模型的系统的开发人员,系统的最终用户,或其他方?

25.1. “开源”人工智能模型是否根据其输出对侵权提出了独特的考虑?[53]

26.如果生成性人工智能系统接受了包含版权管理信息的版权作品培训《美国法典》第17卷第1202(b)节应用于处理系统输出中的信息?

27.请描述您认为决策者在基于人工智能生成的输出的潜在版权责任方面应该考虑的任何其他问题。

标签或标识

28.法律是否应要求AI生成的材料贴上标签或以其他方式公开标识为AI生成?如果是这样,那么该需求应该在什么环境中应用,以及它应该如何工作?

28.1. 谁应该负责识别人工智能生成的作品?

28.2. 标签或标识要求是否存在技术或实际障碍?

28.3. 如果采用通知或标签要求,未能为特定作品贴标签或移除标签会产生什么后果?

29.现有或正在开发哪些工具来识别人工智能生成的材料,包括由标准制定机构提供的工具?这些工具的精度如何?他们的局限性是什么?

关于版权相关问题的其他问题

30.目前,哪些法律权利(如果有的话)适用于AI生成的具有特定人的姓名或相似性(包括发音相似性)的材料?

31.国会是否应该建立一项新的联邦权利,类似于州法律中的宣传权,适用于人工智能生成的材料?如果是这样,它应该优先于州法律,还是为州法律保护设定上限或下限?这样一个权利的轮廓应该是什么?

32.是否有或应该有保护措施防止人工智能系统产生模仿人类创造者艺术风格的输出(例如,人工智能系统以“特定艺术家”的风格”制作视觉作品)?谁有资格获得这种保护?应该采取什么形式?

33.关于录音,《版权法》第114(b)条与州法律,如州宣传权法有何关系?[54]在生成性人工智能的背景下,这个问题需要立法关注吗?

34.请确定版权局在进行本研究时应考虑的上述未提及的任何问题。

七、。关键术语词典

该办公室纳入了关键术语的定义,因为它们在本通知中用于澄清生成性人工智能系统所涉及的技术过程。以下定义仅用于本通知的目的;它们不一定反映政府对任何特定条款的法律立场。

人工智能(AI):自动系统的一般分类,用于执行通常与人类智能或认知功能相关的任务。[55]通常,人工智能技术可能会使用不同的技术来完成这些任务。本通知在更有限的意义上使用术语“AI”来指采用机器学习的技术,该技术在下文中进一步定义。

人工智能模型:设计用于完成指定任务的计算机代码和数值(或“权重”,定义如下)的组合。例如,可以设计人工智能模型来预测文本正文中的下一个单词或单词片段。人工智能模型的示例包括GPT-4、稳定扩散和LLaMA。

人工智能系统:实质上包含一个或多个AI模型并设计供最终用户使用的软件产品或服务。[56]人工智能系统可以由人工智能模型的开发人员创建,也可以包含由第三方开发的一个或多个人工智能模型。

生成性人工智能:人工智能的一种应用,用于以文本、图像、音频或视频等表现材料的形式生成输出。生成性人工智能系统可以接受命令或指令起始打印页59949人工智能系统的例子包括Midtrivel、OpenAI的ChatGPT和Google的Bard。

机器学习:一种构建人工智能系统的技术,其特点是能够根据数据或经验自动学习和改进,而无需依赖显式编程规则。[57]机器学习涉及摄取和分析定量数据或文本等材料,并获得关于这些材料质量的推断,并使用这些推断来完成特定任务。这些推论在人工智能模型的权重中表示。

培训数据集:编译和管理用于机器学习的培训材料集合(定义如下)。训练数据集的示例包括BookCorpus、ImageNet和LAION。

培训材料:用于训练人工智能模型的单个材料单位。它们可能包括文本、图像、音频或其他类别的表达材料的组合,以及描述材料的注释。培训材料的一个示例是单个图像和描述图像的相关文本“标签”。

重量:定义AI模型行为的数值集合。权重存储在人工智能模型中,并反映训练过程中的推断。

开始签名

日期:2023年8月24日。

苏珊娜·威尔逊,

版权总法律顾问和助理注册处。

玛丽亚·斯特朗,

版权助理登记处兼政策和国际事务主任。

结束签名 结束补充信息

脚注

1生成性人工智能技术根据现有的“学习”统计模式生成输出数据,其中可能包括受版权保护的作品。金·马蒂诺,什么是生成性人工智能?,IBM研究博客(2023年4月20日),网址:https://research.ibm.com/博客/what-is-generative-AI(“在较高层次上,生成模型对其训练数据进行了简化表示,并从中提取出与原始数据相似但不相同的新作品。”)。办公室在本通知末尾的词汇表中定义了“生成人工智能”和其他关键术语。

返回引文

2例如,请参阅Microsoft FY23第二季度盈利电话会议记录,微软(2023年1月24日),https://www.microsoft.com/en-us/投资者/活动/2023财年/2023-q2.aspx收入(微软首席执行官萨蒂亚·纳德拉(Satya Nadella)表示,“迄今为止,超过100万人使用过Copilot”);Krystal Hu,ChatGPT创下了增长最快的用户群分析记录,路透社(2023年2月2日),https://www.reuters.com/(路透社)技术/chatgpt-sets-record-fast-sgrowing-user-base-analysist-note-2023-02-01/.

返回引文

三。参见,例如。,詹姆斯·文森特,关于人工智能版权的可怕事实是,没有人知道接下来会发生什么,The Verge(2022年11月15日),网址:https://www.theverge.com/23444685/生成-版权-侵权-法律-空中-美国培训数据(讨论“关键[法律]问题,该主题的许多不确定性由此展开”);看见Kevin Roose和Cade Metz,如何成为人工智能专家。,《纽约时报》(2023年4月4日),https://www.nytimes.com/文章/ai-artificial-intelligence-chatbot.html;金·马蒂诺,什么是生成性人工智能?,IBM研究博客(2023年4月20日),https://research.ibm.com/网站博客/what-is-generative-AI哈佛在线,生成性人工智能的好处和局限性:哈佛专家回答你的问题,哈佛在线博客(2023年4月19日),https://www.harvardonline.harvard.edu/博客/利益-限制-生成-ai伊斯兰罗汉,生成性人工智能的历史:从GAN到GPT-4,Marktechpost(2023年3月21日),网址:https://www.marktechpost.com/2023/03/21/a-遗传历史-ai-from-gan-to-gpt-4/在电影和电视制作人联盟与美国作家协会和SAG-AFTRA(代表演员和其他媒体专业人士的协会)之间的劳资纠纷中,生成性人工智能也是一个争论点。请参见安德鲁·韦伯斯特,演员们说好莱坞工作室希望他们的人工智能复制永远免费,The Verge(2023年7月13日),网址:https://www.theverge.com/2023/7/13/23794224/sag-aftra-actors-strike-ai-image-rights.

返回引文

4请参见美国版权局审查委员会,确认拒绝登记最近进入天堂的决定2日(2022年2月14日),https://www.copyright.gov/版权所有rulings-filelings/review-board/docs/a-recent-entrance-to-paradise.pdf裁决(注意到提交的视觉作品将作者列为“创意机器”)。

返回引文

5参见,例如。,美国Compl。¶¶ 8, 61,盖蒂图片(美国)有限公司.v。Stability AI公司。,第1:23-cv-135号,ECF第13号(D.Del.2023年3月29日)(指控使用受版权保护的图像来训练生成性人工智能模型,以及该模型生成“与受版权保护图像高度相似和衍生”的图像的可能性)。

返回引文

6美国版权局,版权登记册截至1965年6月30日财年的第六十八次年度报告,第5页(1966年),https://www.copyright.gov/版权所有报告/年度/档案/ar-1965.pdf.

返回引文

7身份证件。

返回引文

8美国版权局,版权局审查部1965财年年度报告,第4页(1965年),https://copyright.gov/版权所有报告/年度/档案/ar审查1965.pdf.

返回引文

9身份证件。

返回引文

10CONTU成立的目的是“协助总统和国会制定国家政策,保护版权所有者的权利,并确保在计算机和机器复制系统中使用受版权保护的作品时,公众能够获得这些作品。”,国家版权作品新技术使用委员会最终报告第3页(1978年7月31日)(“CONTU最终报告”),其法定任务之一是研究“通过应用或干预[]自动系统或机器复制创造新作品”国家版权作品新技术使用委员会,《公法》93-573,第201(b)(2)节,88 Stat.1873(1974)。

返回引文

11CONTU最终报告第44-46页(建议采用“版权局今天在进行检查以确定计算机辅助创作作品的版权可注册性时所遵循的方法”)。

返回引文

12身份证件。第44页。

返回引文

13请参见美国版权局,截至1991年9月30日止之财年版权登记簿第94次年度报告,第2页(1991年),https://copyright.gov/版权所有报告/年度/档案/ar-1991.pdf.

返回引文

14参见人工智能时代的版权,美国版权局(2020年2月5日),https://www.copyright.gov/版权所有事件/人工智能/.

返回引文

15参见AI版权法和机器学习:我们在哪里,我们要去哪里?,美国专利商标局(2021年10月26日),https://www.uspto.gov/网站关于我们/事件/版权法和机器学习人工智能我们在哪里,我们要去哪里。美国专利商标局就人工智能对包括版权在内的知识产权政策的影响征求公众意见时,该局也支持美国专利商标局。请参见美国专利商标局,公众对人工智能和知识产权政策的看法(2020年10月),https://www.uspto.gov/网站sites/default/files/documents/USPTO_AI-Report_20200-10-07.pdf.

返回引文

16美国版权局审查委员会,确认拒绝登记最近进入天堂的决定2日(2022年2月14日),https://www.copyright.gov/版权所有rulings-filelings/review-board/docs/a-recent-entrance-to-paradise.pdf裁决.

返回引文

17审查委员会是一个由三名成员组成的机构,负责审理对版权登记决定的行政上诉。审查委员会的决定构成机构的最终行动,并接受司法审查。请参见37 CFR 202.5(f),(g).

返回引文

18美国版权局审查委员会,确认拒绝登记最近进入天堂的决定3日(2022年2月14日),https://www.copyright.gov/版权所有rulings-filelings/review-board/docs/a-recent-entrance-to-paradise.pdf裁决.

返回引文

19内存。操作。,泰勒(v)。珀尔穆特,第22-cv-1564号,ECF第24号(D.D.C.2023年8月18日)。

返回引文

20美国版权局,取消决定:黎明号Zarya(VAu001480196)1日(2023年2月21日),https://www.copyright.gov/版权所有docs/zarya-off-the-dawn.pdf文件(办公室给申请人的信,取消了原始证书,并颁发了一份新证书,仅涵盖申请人创建的表达材料)。

返回引文

21身份证件。在9。

返回引文

22除了注册之外,办公室还考虑了第1201节规则制定的监管背景下的人工智能。《版权法》第1201条规定了三年一次的诉讼程序,以解决法律禁止规避技术保护措施的可能例外情况,这些措施控制了对受版权保护作品的访问。请参见《美国法典》第17卷第1201(a)(1)(C)节(要求版权登记处就版权作品的特定用户从事非侵权使用的能力是否受到不利影响提出建议)。在最近的诉讼中,注册处被要求考虑将文本和数据挖掘活动作为分析的一部分,她得出结论认为,现有的版权案例法并不支持所有此类活动都是合理使用的结论。然而,在得出结论认为所描述的特定用途可能是公平的之后,登记册确实建议给予狭义的豁免,因为它仅限于“寻求调查需要检查大量作品的特定问题的研究人员或研究小组;”仅为验证研究结果的目的,研究人员才能获得全部作品;研究人员不会将作品“用于表达目的”。美国版权局,第1201节规则制定:第八个三年期程序,以确定对禁止规避的豁免,版权登记簿的建议107-13(2021年10月)。

返回引文

23请参见主席参议员克里斯·库恩斯(Chris Coons)和委员会高级成员参议员托姆·蒂利斯(Thom Tillis)的来信。关于智能。道具。致负责情报事务的商务部副部长凯西·维达尔(Kathi Vidal)。道具。以及美国专利和商标局局长、美国版权局版权登记处Shira Perlmutter(2022年10月27日)和商务部副部长Kathi Vidal的来信。道具。以及美国专利和商标局局长,以及版权登记处的希拉·帕尔穆特,致主席克里斯·库恩斯参议员和委员会高级成员汤姆·蒂利斯参议员。关于智能。道具。美国司法委员会(2022年12月12日),https://www.copyright.gov/版权所有法律/听证会/致USPTO-USCO-on-National-Commission-n-AI-1.pdf的信函(参议院的一封信要求办公室就未来关于生成性人工智能的法律应该是什么提供指导,办公室的回复解释说,除其他外,它打算就涉及版权和人工智能的问题发布调查通知)。

返回引文

24例如,请参阅由卡拉·奥尔蒂斯(Karla Ortiz)主持的虚拟人工智能市政厅(Virtual AI Townhall),概念艺术大会(2022年11月2日),https://www.conceptartassociation.com/日历/虚拟市政厅特色美国版权所有(该活动由办公室的两名高级律师参加)。

返回引文

25版权局推出新的人工智能计划,美国版权局(2023年3月16日),https://www.copyright.gov/版权所有新闻网/2023/1004.html.

返回引文

26版权注册指南:包含人工智能生成的材料的作品,《联邦公报》第88卷第16190页(2023年3月16日)。指南副本可在https://copyright.gov/版权所有ai/ai政策指南.pdf.

返回引文

27同上。第16191页。

返回引文

28身份证件。第16192页。

返回引文

29身份证件。第16193页。

返回引文

302023年春季人工智能听力课程,美国版权局,https://www.copyright.gov/版权所有ai/listening-sessions.html.

返回引文

31注册网络研讨会的成绩单和记录可在https://www.copyright.gov/版权所有事件/ai-应用程序进程/在未来几个月,该办公室打算为寻求注册包含人工智能生成材料的作品的版权申请人提供进一步的指导。

返回引文

32国际网络研讨会的记录和记录可在https://www.copyright.gov/版权所有活动/国际版权-维纳/.

返回引文

33此外,该办公室还向机械许可集体(“MLC”)提供了指导,解释说AI生成的音乐没有资格获得《版权法》第115条规定的法定机械一揽子许可,MLC不应支付此类音乐作品的版税。请参见美国版权局总法律顾问兼版权登记助理苏珊·威尔逊(Suzanne V.Wilson)致首席执行官克里斯·阿伦德(Kris Ahrend)的信。MLC官员,第2-3页(2023年4月20日),https://www.copyright.gov/版权所有ai/USCO-Guidance-Letter-to-The-MLC-Letter-on-ai-Created-Works.pdf.

返回引文

34在某些情况下,可能会根据受版权保护的材料训练非生成性人工智能模型。在其他情况下,相同的人工智能模型可能能够部署在生成型人工智能系统和非生成型人工智能系统中。该办公室对培训的考虑范围很广,以便涵盖这些情况和其他情况。

返回引文

35请参见内存。操作。,泰勒(v)。珀尔穆特,第22-cv-1564号,ECF第24号(D.D.C.2023年8月18日)(确认办公室拒绝注册AI生成的作品)。

返回引文

36例如,该办公室收到了关于如何应用申请人披露的超过关于琐事的工程中AI生成材料的数量。请参见AI注册指南,《联邦公报》第88卷第16193页(解释说,“AI生成的内容超出最低限度,应明确排除在申请之外”)。

返回引文

37其中一些问题目前正在法院审理,这些诉讼已经针对生成性人工智能系统提起。参见,例如J.L。(v)。Alphabet公司。,3:23-cv-03340(N.D.Cal.);卡德雷(v)。Meta Platforms公司。,3:23-cv-3417(北卡罗来纳州);西尔弗曼(v)。OpenAI公司。,4:23-cv-3416(北卡罗来纳州);特伦布雷(v)。OpenAI公司。,3:23-cv-3223(N.D.Cal.);盖蒂图片(美国)有限公司。(v)。Stability AI公司。,1:23-cv-0135(D.Del.);安徒生(v)。Stability AI有限公司。,3:23-cv-0201(N.D.Cal.);雌鹿(v)。GitHub公司。,4:22-cv-6823(N.D.Cal.)。

返回引文

38请参见美国版权局,作者、归因与诚信:美国道德权利研究112-116(2019年4月),https://www.copyright.gov/版权所有政策/道德权利/完整报告.pdf(讨论这些利益如何在国家宣传权法下得到普遍保护)。

返回引文

40例如,一些司法管辖区对文本和数据挖掘采用了版权例外,允许使用受版权保护的材料来训练人工智能系统。另外,欧洲议会于2023年6月14日通过了其版本的《人工智能法》,其中要求生成性人工智能系统的提供商发布“受版权法保护的训练数据使用的足够详细的摘要”请参见《人工智能法案》,修订版。399,第28b(4)(c)条,欧元部分文件。P9_TA(2023)0236(2023年),https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_ EN.html.

返回引文

41《美国法典》第141卷第1183页(2021年)。

返回引文

42《美国法典》第143卷第1258页(2023年)。

返回引文

43请参阅预训练、微调和基础模型,GenLaw:词汇表(2023年6月1日),网址:https://genlaw.github.io/词汇.html(解释说,预培训是一个相对缓慢和昂贵的过程,“产生通用模型或基础模型”,而微调“使用附加数据调整预培训模型检查点以执行所需任务”)。

返回引文

44例如,据报道,慕尼黑路德维希·马克西米利安大学(Ludwig Maximilian University of Munich)的研究人员部分开发了生成性人工智能模型“稳定扩散”(Stability Diffusion),但盈利公司Stability AI使用了该模型。请参见Kenrick Cai,AI图像生成器背后的创业公司稳定扩散正在谈判中,估值将升至10亿美元,《福布斯》(2022年9月7日),网址:https://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-difusion-text-to-image/?sh=31e11f5a24d6.

返回引文

46身份证件。第107(4)节。

返回引文

47例如,欧盟《数字单一市场版权指令》规定了文本和数据挖掘(可用于生成性人工智能系统的培训)的两个版权例外或限制:一个用于科学研究,另一个用于任何其他目的。后者仅在版权所有者未明确保留其在文本和数据挖掘中使用其作品的权利的情况下可用。请参见2019年4月17日欧洲议会和理事会关于数字单一市场版权和相关权利的第2019/790号指令,以及修订第96/9/EC号和第2001/29/EC号指令,2019 O.J.(L 130),https://eur-lex.europa.eu/eli/dir/2019/790/oj.

返回引文

48例如,据报道,一些人工智能公司已开始允许版权所有者将其作品标记为不可用于人工智能培训。请参见艾米莉亚·戴维,现在你可以阻止OpenAI的网络爬虫,The Verge(2023年8月7日),https://www.theverge.com/网址2023/8/7/23823046/openai-data-scrape-block-ai;梅丽莎·海基拉,艺术家现在可以选择退出下一版本的稳定扩散,麻省理工学院技术评论(2022年12月16日),网址:https://www.technologyreview.com/2022/12/16/1065247/艺人-现身-外接-稳定-扩散/.

返回引文

49集体许可是直接许可制度的一种替代方案,在这种制度中,版权所有者以个人身份谈判并签订私人协议。根据集体许可安排,权利由管理组织汇总和管理。管理组织就使用条款进行谈判,并向参与的版权所有者分配付款。请参见世界知识产权组织,WIPO CMO良好实践工具包第6天(2021年),https://www.wipo.int/网站publications/en/details.jsp?id=4561.

返回引文

50强制性或“法定”许可允许“未经版权所有人同意”使用受版权保护的作品,前提是该人遵守许可的规定,尤其是向版权所有人支付法定的版税。”音乐许可证改革:在委员会面前听证。关于智能。道具。美国司法委员会,第109届国会(2005年)(Marybeth Peters的声明,版权登记册),http://copyright.gov/版权所有docs/regstat071205.html.

返回引文

51“扩展集体授权计划是指授权相关授权机构在遵守某些保障措施的情况下,代表其所在行业的所有权利持有人(包括非成员),而不仅仅是给予特定许可的成员,授权特定版权作品。”扩展集体许可(ECL)方案定义,LexisNexis词汇表(2023),https://www.lexisnexis.co.uk/网址:法律/词汇表/扩展集体许可ecl计划另请参阅美国版权局代理版权登记处Karyn A.Temple致众议员Robert Goodlatte(主席)和众议员John Conyers(高级议员)关于司法的信函(2017年9月29日),https://www.copyright.gov/版权所有政策/大规模数字化/house-letter.pdf;美国版权局代理版权登记处Karyn A.Temple致主席Charles Grassley参议员和S.Comm高级成员Dianne Feinstein参议员关于司法的信函(2017年9月29日),https://www.copyright.gov/版权所有政策/大规模数字化/参议院信函.pdf.

返回引文

52美国宪法。第一条第8节第8条。

返回引文

53一些人工智能模型由其开发人员发布,供公众下载和使用。这种所谓的“开源”模式可能会限制如何通过许可协议的条款使用这些模式。例如,参见《Llama 2社区许可协议》,Meta AI(2023年7月18日),网址:https://ai.meta.com/骆驼/执照/(要求Llama 2 AI模型的用户包括归属通知,不包括在每月活跃用户超过7亿的服务中使用)。

返回引文

54低于《美国法典》第17卷第114(b)节,录音的复制和衍生作品权利“不延伸至完全由其他声音的独立录制组成的另一录音的制作或复制,即使这些声音模仿或模拟受版权保护的录音中的声音。”

返回引文

55参见《2019财年约翰·麦凯恩国防授权法案》,公法115-232第238(g)(2)节、132 Stat.1636、1697-98(2018)(将“人工智能”定义为包括“在计算机软件、物理硬件或其他环境中开发的系统,这些系统可以解决需要类似人类感知、认知、规划、学习、交流或物理行动的任务”)。

返回引文

56参见《2023财年詹姆斯·英霍夫国防授权法案》,公法117-263第7223(4)(A)节、136 Stat.2395、3669(2022)(将“人工智能系统”定义为“使用动态或静态机器学习算法或其他形式的人工智能整体或部分运行的任何数据系统、软件、应用程序、工具或实用程序”)。

返回引文

57参见《2020年国家人工智能倡议法案》,《美国法典》第15卷第9401(11)节.

返回引文

[FR文件。2023-18624提交日期:8-29-23;上午8:45]

账单代码1410-30-P