对于一系列复杂参数,它是可变的,但平均频率在几天到几周之间。
我们的主要IP地址范围是128.93.166.0/26,尚未使用IPv6。
现在添加锻造功能使用专用工人,配置为限制请求负载,这样即使在小型服务器上也可以承受负载。
现在添加锻造功能允许我们定期发现所有存储库在锻造上,这意味着我们将在创建新存储库时注意到并能够自动保存。
Software Heritage是一个非盈利组织,由Inria(法语研究所),与联合国教科文组织合作。我们的使命是将软件源代码保存为人类知识的文化遗产促进开放科学。我们还捍卫强大的道德价值观关于存档数据的使用。
作为一个通用存档,我们致力于存档任何公开可用的源代码,尤其是在免费/开源环境下发布此代码时许可证。
如果您的锻造厂包含您不想公开的非FOSS项目存档或任何“野生”副本,我们建议您将其设置为私有。
事实上,任何人都可以使用“立即保存代码”功能(单个存储库的存档),因此我们无法保证即使我们不处理Add,也不会将其存档立即锻造请求。
我们最近发布了一个解释我们对LLM的立场的声明:
我们的原则如下:
必须提供从软件遗产档案中获得的知识回归人性,而不是为了私利而垄断。产生的结果机器学习模型必须在适当的开放许可证下提供,以及使用它们所需的文档和工具。
从软件遗产档案中提取的初始培训数据必须通过发布相应的SWHID标识符<https://www.swhid.org/>(请注意,在软件遗产的背景,初始培训数据的公开可用性是已知的:任何人都可以从档案中获得它)。这将启用用例例如:研究偏见(公平),验证是否存在利益准则在培训数据中(透明度),并在以下情况下提供适当的归因生成的代码与训练数据(credit)等类似。
在可能的情况下,应建立机制,让作者排除在模型培训开始之前,他们从培训输入中存档了代码。
此外,我想提及的是,只要您的代码是公开的可用,它可能已经被私人LLM使用,无需征得同意和归因。软件遗产代表了一种道德选择努力帮助作者对其使用进行更多的控制和跟踪LLM的源代码。
此外,LLM使用限制的计算机可读标准(相当于robots.txt)应该在不久的将来出现,为这些问题带来全球答案担忧。
在这个阶段,确保代码不被任何LLM使用的唯一方法是将存储库设置为私有。