数字保存 自由软件 开源软件 源代码
软件遗产是最大的现有的软件源代码公共档案及其附带文件发展历史。软件遗产图数据集是一个完整的对Software Heritage存档的Merkle DAG表示进行了重复数据消除。数据集将文件内容标识符、源代码链接在一起目录,版本控制系统(VCS)提交跟踪时间,直至软件观察到的VCS存储库的完整状态定期爬行期间的遗产。数据集的内容来自主要开发伪造(包括GitHub和GitLab)、自由/开源软件发行版(例如。,Debian)和特定于语言的包管理器(例如,PyPI)。爬行还包括信息,提供有关何时何地发生所有事件的时间戳已经在野外观察到存档的源代码工件。
数据每年更新一次
知识共享署名4.0国际。通过访问数据集,您同意软件遗产伦理的档案使用章程数据和这个散装使用条款接近.
https://docs.softwareheritage.org/devel/swh-dataset/graph/athena.html
软件遗产
查看管理的所有数据集软件遗产.
aws@softwarehritage.org
在上访问了软件遗产图数据集日期来自https://registry.opendata.aws/software-heritage。
日期
arn:aws:s3:::softwareheritage
美国东部-1
aws s3 ls--no-sign-request s3://softwareheritage/
arn:aws:s3:::softwareheritage库存
aws s3 ls--无签名请求s3://softwareheritage-inventory/
在GitHub上编辑此数据集条目
告诉我们你的项目
主页