软件遗产图数据集
这是Software Heritage图形数据集:完全重复数据消除的Merkle软件遗产档案的DAG表示。数据集链接文件内容标识符、源代码目录、版本控制系统(VCS)承诺跟踪随时间变化的演变,直至Software Heritage观察到的VCS存储库的完整状态定期爬网。数据集的内容来自主要开发锻造(包括github和GitLab公司)、自由/开源软件分发(例如。,Debian公司),以及特定于语言的包管理器(例如。,PyPI公司). 还包括爬行信息,提供所有存档源代码的时间戳在野外观察到了人工制品。
Software Heritage图形数据集有多种格式,包括用于本地使用的关系Apache ORC文件,以及公共Amazon Athena交互式查询服务上的实例分析处理。
通过访问数据集,您同意软件遗产伦理的档案使用章程数据,和散装使用条款接近.
如果您将此数据集用于研究目的,请引用以下论文:
Antoine Pietri、Diomidis Spinellis、Stefano Zacchiroli。
软件遗产图数据集:一个屋檐下的公共软件开发。