常见问题#

路线图#

我在哪里可以找到SWH路线图?#

路线图可在开发文档.

立即保存代码#

现在保存代码支持哪些文件格式?#

保存代码现在公开用于带有git、mercurial或svn的代码库版本控制系统。对于具有角色大使的身份验证用户,可以现在就在zip或tarball上保存代码请求。

是否有许可证存在性检查(源代码中包含的检查)?#

不。

现在如何处理保存代码请求?#

立即保存代码对已知伪造品的请求对于原点,将尽快安排。未知的起源被放在一个适度的位置排队等待人工审查(大使或工作人员)。

现在保存代码支持哪些文件格式?#

“立即保存代码”支持git、mercurial或svn版本的公共代码库控制系统。然而,大使也可以为特定来源的倍数存款工件(拉链、柏油球)。

我的“立即保存代码”请求处于挂起状态。我该怎么办?#

如果您想要保存的存储库已经在授权列表中(例如GitLab,GitHub,…),存储库将在未经批准的情况下保存,因此这不会持续很久超过几个小时。如果不是这样,请求应该在几个小时内获得批准天(不包括法国银行假日),几个小时内即可加载。

如果您的存储库在此之后仍处于挂起状态,则很可能是一个错误。当选与我们联系检查无论我们是否意识到这一潜在问题或正在努力解决。

立即添加Forge#

您重新克隆项目的频率是多少?#

对于一系列复杂参数,它是可变的,但平均频率在几天到几周之间。

每个克隆都是完整的克隆,还是在初始克隆之后进行增量拉取?#

我们在第一次访问后进行增量拉取。

在反机器人保护系统中,我们应该将哪个IP地址范围标记为安全?#

我们的主要IP地址范围是128.93.166.0/26,尚未使用IPv6。

当你处理摄入时,我的锻造是否有请求过载的风险?#

现在添加锻造功能使用专用工人,配置为限制请求负载,这样即使在小型服务器上也可以承受负载。

我们的repo已经在SWH中存档,Add Forge请求不是多余的吗?#

现在添加锻造功能允许我们定期发现所有存储库在锻造上,这意味着我们将在创建新存储库时注意到并能够自动保存。

为什么伪造品需要在SWH中存档?#

Software Heritage是一个非盈利组织,由Inria(法语研究所),与联合国教科文组织合作。我们的使命是将软件源代码保存为人类知识的文化遗产促进开放科学。我们还捍卫强大的道德价值观关于存档数据的使用。

作为一个通用存档,我们致力于存档任何公开可用的源代码,尤其是在免费/开源环境下发布此代码时许可证。

如果您的锻造厂包含您不想公开的非FOSS项目存档或任何“野生”副本,我们建议您将其设置为私有。

事实上,任何人都可以使用“立即保存代码”功能(单个存储库的存档),因此我们无法保证即使我们不处理Add,也不会将其存档立即锻造请求。

SWH对AI培训和LLM的立场是什么?#

我们最近发布了一个解释我们对LLM的立场的声明:

我们的原则如下:

  1. 必须提供从软件遗产档案中获得的知识回归人性,而不是为了私利而垄断。产生的结果机器学习模型必须在适当的开放许可证下提供,以及使用它们所需的文档和工具。

  2. 从软件遗产档案中提取的初始培训数据必须通过发布相应的SWHID标识符<https://www.swhid.org/>(请注意,在软件遗产的背景,初始培训数据的公开可用性是已知的:任何人都可以从档案中获得它)。这将启用用例例如:研究偏见(公平),验证是否存在利益准则在培训数据中(透明度),并在以下情况下提供适当的归因生成的代码与训练数据(credit)等类似。

  3. 在可能的情况下,应建立机制,让作者排除在模型培训开始之前,他们从培训输入中存档了代码。

此外,我想提及的是,只要您的代码是公开的可用,它可能已经被私人LLM使用,无需征得同意和归因。软件遗产代表了一种道德选择努力帮助作者对其使用进行更多的控制和跟踪LLM的源代码。

此外,LLM使用限制的计算机可读标准(相当于robots.txt)应该在不久的将来出现,为这些问题带来全球答案担忧。

在这个阶段,确保代码不被任何LLM使用的唯一方法是将存储库设置为私有。