软件遗产图数据集#

这是Software Heritage图形数据集:完全重复数据消除的Merkle软件遗产档案的DAG表示。数据集链接文件内容标识符、源代码目录、版本控制系统(VCS)承诺跟踪随时间变化的演变,直至Software Heritage观察到的VCS存储库的完整状态定期爬网。数据集的内容来自主要开发锻造(包括githubGitLab公司),FOSS分布(例如。,Debian公司),以及特定于语言的包管理器(例如。,PyPI公司). 还包括爬行信息,提供所有存档源代码的时间戳在野外观察到了人工制品。

Software Heritage图形数据集有多种格式,包括用于本地使用的关系Apache ORC文件,以及公共Amazon Athena交互式查询服务上的实例分析处理。

通过访问数据集,您同意软件遗产伦理的档案使用章程数据,散装使用条款接近.

如果您将此数据集用于研究目的,请引用以下论文:

  • Antoine Pietri、Diomidis Spinellis、Stefano Zacchiroli。
    软件遗产图数据集:一个屋檐下的公共软件开发。
    在诉讼中2019年MSR:第16届国际采矿软件库会议,2019年5月,加拿大蒙特利尔。与合作2019年ICSE.

索引和表格#