在实现、透明度和再现性之间的开源AI

的一部分深度潜水:AI网络研讨会系列

开源AI用词不当。人工智能,尤其是以机器学习(ML)的形式,不是为了执行任务而编程的,而是为了根据可用的数据学习任务。所学模型只是一种经过训练以执行特定任务的新算法,但它不是一个适当的计算机程序,不完全适合大多数开源软件许可证的可保护主题范围。因此,提供训练脚本或模型的“源代码”(例如,神经权重)并不能保证符合开放源码的OSI定义,因为AI是跨ML管道的数据制品集合。
ML管道由过程和工件组成,这些过程和工件专注于并反映从数十亿数据点中提取模式、趋势和相关性。与传统软件不同,传统软件的重点是源代码的无约束下游可用性,在ML中,这条管道的机制是透明的。
透明度有助于促进使用最大化和降低关闭风险,这是开放源码软件定义的基本原则。开源人工智能的定义应该关注“配方”,即制作可复制模型的过程,而不是关注单个计算人工制品(例如训练和测试数据集或机器学习模型)。开源人工智能应该对受源代码潜在版权保护的具体实现不那么感兴趣,而应该更多地参与促进公开披露“人工智能制造”过程的细节。
开源软件的定义很难应用于其他主题,因此,作为一种根本不同的软件形式,人工智能可能同样需要另一个定义,这并不奇怪。因此,我们认为,开源人工智能的任何定义都不应只关注发布神经网络权重、训练脚本源代码或训练数据(尽管它们可能很重要),而应关注整个管道的功能,以使过程变得可复制。为此,我们根据专利法中的书面描述和实现要求,提出了开源AI的定义。根据这一定义,要获得开源人工智能的资格,公开发布应该披露人工智能制造过程的细节,这些细节足够清晰和完整,以便由机器学习技术人员进行。
显然,根据可能必须发布的流程的特征(例如,模型架构、优化程序、培训数据等),该定义有待进一步发展和完善。其中一些文物可能受到独家知识产权(特别是版权)的保护,而另一些则可能不受保护。这对在单个软件包中授权AI带来了根本性的挑战。
解决这一难题的一种方法是采用欧洲视频游戏案例法(例如ECJ任天堂案例)中的统一方法,如果我们能够确定一个吸引版权保护(原创性)的表达元素,那么这个元素将允许我们将保护扩展到整个作品。或者,我们可以采用更实用和技术上更正确的方法来处理人工智能,将其作为嵌入异构人工制品集合的过程。在这种情况下,任何基于开源条款的发布,如果要确保启用、再现性和下游可用性,都必须采取混合许可的形式,该许可授予对代码、数据和文档的累积启用权限。
在这节课中,我们讨论了这些不同的方法,以及我们定义开源AI的方式和该定义所追求的目标如何预先确定应该应用哪种许可方法。

网络研讨会摘要

在这场由开源倡议主办的网络研讨会上,作为“深度探索:定义开源AI”系列的一部分,Ivo Emanuilov和Jutta Suksi讨论了开源AI及其组件,重点是了解AI开发所涉及的各个阶段和层次,尤其是版权问题。他们的演讲强调了人工智能的混合性质,混合了数据、软件和其他组件,导致了关于知识产权的复杂问题。它通过强调透明性、实现性和再现性作为关键原则,探索了为AI复制开源原则的想法。此外,Ivo和Jutta还检查了现有的AI许可证,以及它们对数据、限制、权重和数据组合、可执行模型和源代码的关注。本演示文稿强调了人工智能许可证的快速发展性质,以及在开发开源人工智能时考虑监管要求的重要性。

幻灯片

[发布press_authors_box]