@收集{dicosmo-hal-03587026, title={代码源}, author={Roberto Di Cosmo}, url={ https://hal.inia.fr/hal-03587026 http://www.dicosmo.org/Articles/2022-02-code-source_EN.pdf }, 年份={2022}, 日期={2022-02-01}, urldate={2022-02-01}, booktitle={Dictionnaire du Numérique}, volume={2月}, series={Dictionnaire du Numérique}, 关键字={}, pubstate={published}, tppubtype={incollection} }
@正在进行{osec-2022_en, title={构建开放科学的软件支柱}, author={Roberto Di Cosmo}, url={ http://www.dicosmo.org/Articles/2022-osec-en.pdf }, doi={10.4000/books.oep.15829}, isbn={9791036545627}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={开放科学欧洲会议(OSEC 2022)}, 页数={183--193}, publisher={OpenEdition出版社}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@正在进行{dicosmo_tpdl2022, title={我们应该保护世界软件历史吗?}, author={Roberto Di Cosmo}, editor={吉安马利亚·西尔维洛(Gianmaria Silvello)、奥斯卡·科乔(Oscar Corcho)、保罗·曼吉(Paolo Manghi)、乔治奥·玛丽亚·迪·努齐奥(Giorgio Maria Di Nunzio)、科罗卡·戈卢布(Koraljka Golub)、尼古拉·费罗(Nicola Ferro)和安东内拉·波吉(Antone, url={ http://www.dicosmo.org/Articles/2022-TPDL.pdf }, doi={10.1007/978-3-031-16802-4-1}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={数字图书馆链接理论与实践-第26届国际 数字图书馆理论与实践会议,TPDL 2022, 意大利帕多瓦,2022年9月20日至23日,Proceedings}, 体积={13541}, 页数={3--7}, publisher={Springer}, series={计算机科学讲稿}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@正在进行{oss-2022-swh-scanner, title={开放源代码的有效事先发布标识}, 作者={丹尼尔·塞拉菲尼和斯特凡诺·扎奇罗利}, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/oss-2022-swh-scanner.pdf }, doi={10.1145/3555051.3555068}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={第18届开源系统国际会议(OSS2022)}, publisher={ACM}, abstract={自由/开源软件(FOSS) 允许大规模重用预先存在的软件组件。 主要缺点是软件供应链管理的复杂性增加。 控制这种复杂性的一种常见方法是自动化开放源码遵从性,它包括自动验证是否遵守有关许可证义务履行、漏洞跟踪、软件组合分析和附近关注点的各种开放源码管理最佳实践。 我们考虑审核源代码库以确定其哪些部分以前已发布的问题,这是自动化开放源码遵从性工具链的重要构建块。 事实上,如果据称在内部开发的源代码被确认为之前在其他地方发布过,则应发出警报,调查其来源以及是否需要在产品装运之前履行额外的义务。 我们提出了一种有效的先前出版物识别方法,该方法依赖于在全局Merkle直接无环图和专用发现协议中链接在一起的已知源代码工件的知识库。 我们引入了swh-scanner,这是一种源代码扫描程序,它在实践中实现了所建议的方法,并将其用作知识库软件遗产,这是最大的源代码工件公共存档。 我们通过实验验证了所提出的方法,在抽象(查询数)和具体术语(墙锁时间)方面都显示了其效率,并在16'845个大小不等的实际公共代码库上执行了基准测试。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@进行中{msr-2022-foss-地理学, title={《公共法典贡献中的地理多样性:50年来的探索性大规模研究》}, author={戴维德·罗西和斯特凡诺·扎奇罗利}, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/msr-2022-foss-geography.pdf }, doi={10.1145/3524842.3528471}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={2022年采矿软件存储库会议(MSR 2022)}, 页数={80-85}, publisher={ACM}, 抽象= {我们对50年来公开可用版本控制系统存储库的提交进行了探索性、大规模、纵向研究,以描述公共代码贡献者的地理多样性及其随时间的演变。我们分析了Software Heritage从1.6亿个项目中收集的总计22亿份提交 1971-2021年期间,共有4300万作者创作。 我们将开发人员定位到源自联合国地理方案的12个世界区域,并使用电子邮件顶级域、作者姓名与世界各地的姓名分布进行比较以及从提交元数据中挖掘的UTC偏移量作为信号。 我们发现了北美早期在开源软件领域占据主导地位的证据,后来欧洲也加入了这一行列。 此后,公共法规中的地域多样性不断增加。 我们还确定了与UNIX战争、中亚和南亚编码识字率提高以及殖民主义和国家间人口流动(移民/移民)等更广泛现象相关的历史变化。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@正在进行{msr-2022-foss-licenses, title={大型(开源)许可证文本变量数据集}, 作者={斯特凡诺·扎奇罗利}, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/msr-2022-foss-licenses.pdf }, doi={10.1145/3524842.3528491}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={2022年采矿软件存储库会议(MSR 2022)}, 页数={757-761}, publisher={ACM}, abstract={我们引入了一个自由/开源软件(FOSS)完整文本的大规模数据集 许可证变体。 为了组装它,我们从软件遗产档案中收集了所有版本的文件,这些文件的名称通常用于向软件用户和开发人员传达许可条款。 该数据集由650万个独特的许可文件组成,可用于对开源许可、自动许可分类器培训、法律文本的自然语言处理(NLP)分析以及自由/开源软件许可的历史和发展研究进行实证研究。 还提供了有关所提供的许可证文件的附加元数据,使数据集可以在各种上下文中使用; 它们包括:文件长度度量、检测的MIME类型、检测的SPDX许可证(使用ScanCode)、示例来源(例如GitHub存储库)、许可证出现的最早的公共提交。 该数据集作为开放数据发布,作为包含所有重复数据消除的许可证文件的存档文件,再加上几个用于元数据的便携式CSV文件,通过加密校验和引用文件。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@进行中{icse-seis-2022-性别, title={全球公共准则贡献中的性别差异(以及它们如何受到新冠肺炎疫情的影响)}, author={戴维德·罗西和斯特凡诺·扎奇罗利}, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/icse-seis-2022-gender.pdf }, doi={10.1109/ICSE-SEIS55304.2022.9794118}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, booktitle={第44届国际软件工程会议(ICSE 2022)-社会软件工程(SEIS)轨道}, 页码={172-183}, publisher={ACM}, 抽象= {性别不平衡是一个众所周知的现象,在整个科学界都观察到了这种现象,在软件开发和自由/开源软件社区中尤为严重。对于这种现象的地理位置,尤其是在考虑其时间和空间维度的大尺度时,我们知之甚少。我们用一个 对公开可用软件源代码贡献者群体的纵向研究。 我们分析了1.6亿个软件项目的开发历史,在50年的时间里,由4300万不同的作者贡献了总计22亿个提交。 我们使用基于电子邮件地址和时区的启发法,根据姓名频率和作者地理位置,按性别对作者姓名进行分类。 我们研究了不同性别和世界地区对公共准则贡献的时间演变。 就整个世界而言,我们证实了之前关于女性作者贡献率低但稳步增长的研究结果。 当按世界区域划分时,我们发现女性参与的长期增长是一个世界性的现象。 我们还观察到,在新冠肺炎疫情期间,女性参与率有所下降,这表明女性参与公共法规的能力比男性受到的阻碍更大。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{vldb-2022-rscas-swh条, title={健壮且可扩展的内容和结构索引}, author={Kevin Wellenzohn、Michael H.Böhlen、Sven Helmer、Antoine Pietri和Stefano Zacchiroli}, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/vldb-2022-rscas-swh.pdf }, doi={10.1007/s00778-022-00764-y}, issn={1066-8888}, 年份={2022}, 日期={2022-01-01}, urldate={2022-01-01}, 日志={VLDB日志}, publisher={Springer}, abstract={半结构化层次结构数据的频繁查询是内容与结构(Content-and-Structure,CAS)查询,它根据数据项在层次结构中的位置及其某些属性的值来过滤数据项 索引以有效地回答CAS对大型半结构化数据的查询。 为了获得一个对具有不同选择性的查询具有鲁棒性的索引,我们引入了一种新的动态交错,以平衡的方式合并复合键的路径和值维度。 我们将交错键存储在基于trie的RSCAS索引中,该索引有效地支持广泛的CAS查询,包括带有通配符和派生轴的查询。 我们将RSCAS实现为一个日志结构合并(LSM)树,以将其扩展到具有高插入率的数据密集型应用程序。 我们通过索引来自Software Heritage(SWH)存档的数据来说明RSCAS的健壮性和可扩展性,该存档是世界上最大的公开可用源代码存档。}, 关键字={}, pubstate={published}, tppubtype={article} }
@技术报告{gruenpeter:hal-03483982, title={里程碑式遗留代码的软件故事}, author={莫兰·格伦彼得(Morane Gruenpeter)、罗伯托·迪·科斯莫(Roberto Di Cosmo)、凯瑟琳·桑顿(Katherine Thornton)、肯尼思·西尔斯(Kenneth Seals-Nutt)、卡洛·蒙坦格罗(Carlo Montangero)和吉多·斯卡特纳, url={ https://hal.archives-ouvertes.fr/hal-03483982 }, 年份={2021}, 日期={2021-11-01}, 机构={Inria}, 关键字={}, pubstate={published}, tppubtype={techreport} }
@phdthesis{pietri:电话-03515795, title={组织大型采矿公共软件开发图表}, author={Antoine Pietri}, editor={巴黎城市大学}, url={ https://hal.science/tel-03515795 https://hal.science/tel-03515795v2/file/va_Pietri_Antoine.pdf }, 年份={2021}, 日期={2021-11-01}, urldate={2021-11-01}, 数字={2021UNIP7183}, 学校={巴黎城市大学}, 键={2021UNIP7183}, 关键字={}, pubstate={published}, tppubtype={phdthesis} }
@进行中{bussi:hal-03375572, title={使用软件遗产获取过程保存地标性遗产软件}, author={Laura Bussi和Roberto Di Cosmo以及Carlo Montangero和Guido Scatena}, url={ https://hal.archives-ouvertes.fr/hal-03375572 }, 年份={2021}, 日期={2021-10-01}, booktitle={iPres2021-第17届国际数字保护会议}, 地址={中国北京}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{ieee-sw-gender-swh条, title={《公共法典》贡献中的性别差异:一个50年的视角}, 作者={斯特凡诺·扎奇罗利}, url={ https://arxiv.org/abs/2011.08488 https://www.softwareheritage.org/wp-content/uploads/2021/03/iee-sw-gender-swh.pdf }, doi={10.1109/MS.2020.3038765}, issn={0740-7459}, 年份={2021}, 日期={2021-01-01}, 日志={IEEE软件}, publisher={IEEE计算机学会}, 抽象= {总体而言,信息技术中的性别不平衡,特别是自由/开源软件,是该领域众所周知的问题。然而,对于支撑这一现象的大规模程度和长期趋势,人们还知之甚少。我们通过对参与这一现象研究的人群进行纵向研究,为填补这一空白做出了贡献 公开可用的软件源代码。 我们分析了与1.2亿个项目的开发历史相对应的16亿个承诺,这些项目由3300万不同的作者在50年的时间内贡献。 我们按性别对作者姓名进行分类,并研究其随时间的演变。 我们表明,虽然女性作者的提交数量总体上仍然较低,但有证据表明,女性作者在所有贡献中的比例长期稳定增长,这为协作软件开发提供了一个更加平衡的未来希望。}, 关键字={}, pubstate={published}, tppubtype={article} }
@正在进行{swh-fuse-icse2021, title={The Software Heritage Filesystem(SwhFS):将源代码存档与开发集成}, author={Thibault Allançon和Antoine Pietri和Stefano Zacchiroli}, url={ https://arxiv.org/abs/1202.06390 https://www.softwareheritage.org/wp-content/uploads/2021/03/swh-fuse-icse2021.pdf }, doi={10.1109/ICSE-Companion52605.2021.00032}, 年份={2021}, 日期={2021-01-01}, urldate={2021-01-01}, booktitle={ICSE 2021:第43届国际软件工程会议}, 页数={45-48}, publisher={IEEE}, abstract={我们介绍了软件遗产文件系统(Software Heritage filesystem,SwhFS),这是一个用户空间文件系统,它集成了大规模开源软件存档和开发工作流。SwhFS提供了软件遗产的POSIX文件系统视图,这是软件源代码和版本控制系统(VCS)的最大公共存档 发展历史。 使用SwhFS,开发人员可以快速“签出”Software Heritage归档的20亿个提交中的任何一个,即使它们从以前的已知位置消失,也不会产生存储库克隆的性能成本。 SwhFS跨无关的存储库和不同的VCS技术工作。 由Software Heritage-individual源代码文件和树、版本和分支存档的其他源代码工件也可以使用通用编程工具和自定义脚本进行访问,就像它们在本地可用一样。 SwhFS的屏幕广播可在dx.doi.org/10.5281/zenodo.4531411.}上在线获得, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@技术报告{SCIDWG2020, title={持久性软件源代码标识的用例和标识符方案}, author={莫兰·格伦彼得(Morane Gruenpeter)、罗伯托·迪·科斯莫(Roberto Di Cosmo)、爱丽丝·艾伦(Alice Allen)、安妮塔·班德罗斯基(Anita Bandrowski)、彼得·陈(Peter Chan)、马丁·芬纳(Martin Fenner)、莱拉·加西亚(Leyla Garcia)、凯瑟琳·琼斯(Catherine M Jones), editor={莫兰·格伦彼得}, url={ https://doi.org/10.15497/RDA00053 }, doi={10.15497/RDA00053}, 年份={2020年}, 日期={2020-10-06}, publisher={Zenodo}, 注={研究数据联盟/FORCE11软件源代码识别工作组的输出}, 关键字={}, pubstate={published}, tppubtype={techreport} }
@杂项{gruenpeter_morane_2020_5472911, title={M2.15“软件公平性”评估报告}, author={莫兰·格伦彼得(Morane Gruenpeter)、罗伯特·迪·科斯莫(Roberto Di Cosmo)、海尔克·科尔斯(Hylke Koers)、帕特里夏·赫特里奇(Patricia Hertrich)、罗伯·霍夫特(Rob Hooft)、杰西卡·帕兰德·冯·埃森(Jessica Parland-von Essen)、乔, url={ https://www.softwareheritage.org/wp-content/uploads/2022/12/M2.15_FAIRsFAIR_Assessment_report_on_FAIRness_of_software_2020 1016_v1.1.pdf }, doi={10.5281/zenodo.5472911}, 年份={2020年}, 日期={2020-10-01}, urldate={2020-10-01}, publisher={Zenodo}, 关键字={}, pubstate={published}, tppubtype={misc} }
@正在处理{DBLP:conf/icms/Cosmo20, title={使用软件遗产存档和引用源代码}, author={Roberto Di Cosmo}, doi={10.1007/978-3-030-52200-1_36}, isbn={978-3-030-52200-1}, 年份={2020年}, 日期={2020-07-15}, booktitle={ICMS}, 体积={12097}, 页数={362--373}, publisher={Springer}, series={计算机科学讲稿}, 抽象= {软件,尤其是软件源代码,在现代研究中被广泛使用。为了建立一个稳定和持久的科学知识库,必须对其进行适当的存档、引用、描述和引用。在本文中,我们展示了软件遗产通用源代码存档是如何提供一种方法来全面解决第一个 我们关注的是,通过无缝存档所有公开可用的软件源代码,并通过提供内在的持久标识符,允许以方便有效的方式在不同粒度上引用它。
我们呼吁研究界广泛采用这种方法。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{条卢梭:2020年, title={按公共源代码规模跟踪软件起源}, author={纪尧姆·卢梭(Guillaume Rousseau)、罗伯特·迪·科斯莫(Roberto Di Cosmo)和斯特凡诺·扎奇罗利(Stefano Zacchiroli}, url={ https://hal.archives-ouvertes.fr/hal-02543794 }, doi={10.1007/s10664-020-09828-5}, issn={1573-7616}, 年份={2020年}, 日期={2020-05-29}, journal={经验软件工程}, 页数={1-30}, 抽象= {我们研究了在最大的可公开访问的公开源代码文库(software Heritage archive)中跟踪软件源代码工件起源的可能性,该文库拥有超过40亿个独特的源代码文件,10亿个提交捕获了5000万个软件项目的开发历史。我们执行了一个 对该语料库不同层的复制因子进行系统和通用的估计,分析相同工件(例如SLOC、文件或提交)在不同上下文(例如文件、提交或源代码存储库)中出现的程度。 我们观察到不同提交中相同源代码文件数量的组合爆炸。 为了讨论这些发现的含义,我们对不同的数据模型进行基准测试,以在这个尺度上捕获软件起源信息,并且我们根据等时子图的特性确定了一个可行的解决方案,即可部署在商品硬件上,是增量的,并且在可预见的未来似乎是可维护的。 使用这些属性,我们以以前从未达到的规模量化了原始(即以前从未见过的)源代码文件和提交的增长率,并发现在40多年的时间内其呈指数级增长。}, 关键字={}, pubstate={published}, tppubtype={article} }
@正在进行{msr-2020-拓扑, title={确定公共软件开发历史的内在结构}, author={安托万·皮埃特里(Antoine Pietri)、纪尧姆·卢梭(Guillaume Rousseau)和斯特凡诺·扎奇罗利(Stefano Zacchiroli)}, url={ https://arxiv.org/abs/2011.07914 https://www.softwareheritage.org/wp-content/uploads/2021/03/msr-2020-topology.pdf }, doi={10.1145/3379597.3387506}, 年份={2020年}, 日期={2020-05-01}, booktitle={MSR 2020:第17届国际采矿软件库会议}, 页码={602-605}, publisher={IEEE}, abstract={背景:协同软件开发产生了丰富的版本控制系统(VCS) 现在可以全面分析的数据。 对于作为互连图的整个公开VCS语料库的内在结构知之甚少。 需要了解其结构,以确定对其进行全面分析的最佳方法,并在进行分析时避免方法陷阱。目标:我们打算确定VCS捕获的公共软件开发历史的最显著网络拓扑属性。 我们将探索:度分布,确定它们是否无标度; 连接件尺寸分布; 最短路径长度的分布。 方法:我们将使用最大的公共VCS数据集Software Heritage,使用网络图压缩技术对其进行压缩,并使用经典图形算法在内存中对其进行分析。 将对完整图和相关子图进行分析。 局限性:该研究本质上是探索性的; 因此,目前没有对这些发现提出任何假设。 所选择的图形算法预计会扩展到语料库大小,但需要通过实验进行验证。 外部有效性将取决于软件遗产在软件公共领域的代表性。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@进行中{msr-2020-forks, title={无需单击即可分叉:关于如何识别软件存储库分叉}, author={安托万·皮埃特里(Antoine Pietri)、纪尧姆·卢梭(Guillaume Rousseau)和斯特凡诺·扎奇罗利(Stefano Zacchiroli)}, url={ https://arxiv.org/abs/2011.07821 https://www.softwareheritage.org/wp-content/uploads/2021/03/msr-2020-forks.pdf }, doi={10.1145/3379597.3387450}, 年份={2020年}, 日期={2020-05-01}, booktitle={MSR 2020:第17届国际采矿软件库会议}, 页码={277-287}, publisher={IEEE}, abstract={随着时间的推移,软件“fork”的概念已经从社区分歧的(消极)现象转变为使用分布式版本控制系统(VCS)的(积极)实践 存储库可以协同改进单个产品,而不必相互干涉。 在这两种情况下,参与fork的VCS存储库共享共同开发历史的一部分。 对软件分叉的研究通常依赖于托管平台元数据,例如GitHub,作为组成分叉的事实来源。然而,这些“伪造分叉”只能识别为在平台上创建的分叉存储库,例如通过单击平台用户界面上的“分叉”按钮。 代码托管平台(例如GitLab)的多样性增加,以及重要开发社区的习惯(例如Linux内核,它主要不托管在任何一个平台上),都对信任代码托管平台来识别分支的可靠性提出了质疑。 这样做可能会在实证研究中引入选择和方法偏差。 在本文中,我们探讨了“软件分叉”的各种定义,试图捕获现实世界中存在的分叉工作流。 根据不同的定义,我们量化了GitHub上被标识为fork的存储库数量的差异,确认了仅考虑forge fork就可以忽略相当多的存储库。 我们研究了分叉网络的结构和规模,观察它们如何受到拟议定义的影响,并讨论了对实证研究的潜在影响。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@正在进行{msr-2020-挑战, title={软件遗产图数据集:公共软件开发历史的大规模分析}, author={Antoine Pietri、Diomidis Spinellis和Stefano Zacchiroli}, url={ https://arxiv.org/abs/2011.07824 https://www.softwareheritage.org/wp-content/uploads/2021/03/msr-2020-challenge.pdf }, doi={10.1145/3379597.3387510}, 年份={2020年}, 日期={2020-05-01}, booktitle={MSR 2020:第17届国际采矿软件库会议}, 页数={1-5}, publisher={IEEE}, 抽象= {软件遗产(Software Heritage)是现有最大的软件源代码和相关开发历史公共档案。它涵盖了超过50亿个独特的源代码文件和10亿个独特提交,来自8000多万个软件项目。这些软件工件是从主要的协同开发平台检索的 (例如,GitHub、GitLab)和包存储库(例如,PyPI、Debian、NPM),并以统一的表示形式存储,将源代码文件、目录、提交和版本控制系统(VCS)存储库的完整快照链接在一起,如Software Heritage在定期爬网期间观察到的那样。 这个数据集在可访问性和规模方面是独一无二的,它允许探索公共软件开发长尾的许多研究问题,而不是像通常那样只关注“最星级”存储库。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{dicosmo-rescience-2020条, title={[Rp]复制OCamlP3l实验}, author={罗伯托·迪·科斯莫和马可·丹拉蒂托}, url={ https://www.softwareheritage.org/wp-content/uploads/2021/03/dicosmo-rescience-2020.pdf https://zenodo.org/record/3763416/files/article.pdf https://rescience.github.io/read/#volume -6-2020}, doi={10.5281/zenodo.3763416}, 年份={2020年}, 日期={2020-04-30}, 期刊={ReScience C}, 体积={6}, 数字={1}, abstract={这篇文章提供了一份完整的报告,介绍了为再现1998年撰写的“带骨架的并行函数编程:OCamlP3L实验”一文中所描述的工作所做的努力。 它介绍了OCamlP3L,一个用OCaml编程语言编写的并行编程系统。 事实证明,我们只在Software Heritage中找到了OCamlP3L系统的源代码:因为它与所有开发历史一起保存,所以我们可以进行这个复制实验。}, 关键字={}, pubstate={published}, tppubtype={article} }
@进行中{saner-2020-swh-graph, title={通过图形压缩进行超大规模存储库分析}, author={保罗·博尔迪(Paolo Boldi)、安托万·皮埃特里(Antoine Pietri)、塞巴斯蒂亚诺·维格纳(Sebastiano Vigna)和斯特凡诺·扎基罗利(Stefano Zacchiroli)}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/02/saner-2020-swh-graph.pdf https://upsilon.cc/ ~zack/research/publications/saner-2020-swh-graph.pdf}, doi={10.1109/SANER48275.2020.9054827}, 年份={2020年}, 日期={2020-02-21}, booktitle={SANER 2020:第27届IEEE软件分析、进化和重组国际会议}, 页数={184-194}, publisher={IEEE}, abstract={我们考虑挖掘现代版本控制系统捕获的开发历史的问题,即超大规模软件档案(例如,对应的数千万个软件存储库) 我们表明,图形压缩技术可以应用于该问题,大大减少了挖掘相似大小语料库所需的硬件资源。 作为一个具体的用例,我们压缩了完整的Software Heritage存档,其中包括50亿个唯一源代码文件和10亿个唯一提交,这些文件来自8000多万个软件项目,包括GitHub的完整镜像。 生成的压缩图只需不到100GB的RAM,相应的硬件成本不到300美元。 我们表明,可以以优异的性能访问完整语料库的压缩内存表示,边缘查找时间接近内存随机访问。 作为一个示例开发实验,我们表明压缩图可以用于在这个规模上进行克隆检测,这得益于主内存访问速度。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{2020Gt条声明, title={归属和引用(研究)软件:Inria的最佳实践和展望}, author={皮埃尔·阿利兹(Pierre Alliez)、罗伯托·迪·科斯莫(Roberto Di Cosmo)、本杰明·盖吉(Benjamin Guedj)、阿兰·吉拉尔(Alain Girault)、莫汉德·赛德·哈西德(Mohand-Said Hacid)、阿尔诺德·罗格朗(Arna, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/2020GtCitation.pdf https://hal.archives-ouvertes.fr/hal-02135891 }, doi={10.1109/MCSE.2019.2949413}, issn={1558-366X}, 年份={2020年}, 日期={2020-01-01}, journal={科学工程计算}, 体积={22}, 数字={1}, 页数={39-52}, 抽象= {软件是跨所有领域和学科的现代科学研究的基本支柱。然而,由于问题在作者、角色和学分方面的复杂性,缺乏足够的引用和参考软件的手段。当考虑到软件的生命周期时,这种复杂性会进一步增加 它可以跨越几十年。 基于法国数字科学研究所Inria的内部经验,我们在本文中为正在进行的工作做出了贡献,以便为软件引用和参考制定适当的指南和建议。 也就是说,我们建议:首先,用定性的尺度对软件贡献进行更丰富的分类; 第二,把人放在评价的核心; 第三,区分引用和引用。}, 关键字={}, pubstate={published}, tppubtype={article} }
@文章{cise-2020-doi, title={引用源代码工件:软件引用中的一个单独关注点}, author={罗伯托·迪·科斯莫(Roberto Di Cosmo)、莫兰·格伦彼得(Morane Gruenpeter)和斯特凡诺·扎奇罗利(Stefano Zacchiroli)}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/2020-CiSE-swhid-1.pdf http://www.dicosmo.org/Articles/2020-CiSE-swhid.pdf https://hal.archives-ouvertes.fr/hal-02446202 }, doi={10.1109/MCSE.2019.2963148}, issn={1521-9615}, 年份={2020年}, 日期={2020-01-01}, journal={科学与工程计算}, publisher={IEEE}, abstract={在涉及软件引用的实体中,软件 源代码需要特别注意,因为它的作用 在确保科学再现性方面发挥了作用。 参考 源代码我们需要的标识符不仅是唯一的 和持久性,但也支持完整性检查 本质上来说。 合适的标识符必须保证 表示的对象将始终保持不变,而不依赖于 外部第三方和行政程序。 我们 分析数字对象标识符(IDO)的作用, 其性质与, 对象的各种数字标识符(DIO) 它们是当今流行的软件和数据的构建块 引文工具链。 我们认为这两种 需要标识符并详细说明语法、语义、, 以及持久标识符的实际实现 软件遗产项目采用的(PID) 引用数十亿的软件源代码工件,例如 作为源代码文件、目录和提交。}, 关键字={}, pubstate={published}, tppubtype={article} }
@第{DiCosmo2020条, title={研究软件工件的固化存档:从法国开放档案馆(HAL)吸取的教训}, author={罗伯托·迪·科斯莫(Roberto Di Cosmo)、莫兰·格伦彼得(Morane Gruenpeter)、布鲁诺·马尔莫尔(Bruno Marmol)、阿兰·蒙蒂尔(Alain Monteil)、劳伦特·罗马利(Laurent Romary)和乔泽菲娜·萨, url={ https://doi.org/10.2218/ijdc.v15i1.698 }, doi={10.2218/ijdc.v15i1.698}, 年份={2020年}, 日期={2020-01-01}, journal={国际数字治疗杂志}, 体积={15}, 数字={1}, 页数={16}, publisher={爱丁堡大学图书馆}, 抽象= {软件已经成为技术和科学知识的不可分割的支持。保存这一普遍的知识体系与保存研究文章和数据集一样重要。为了使科学结果可复制,并将知识传递给后代,我们必须保留这三大支柱:研究 描述结果、使用或生成的数据集以及体现数据转换逻辑的软件的文章。
软件遗产(SWH)、, 法国计算机科学与自动化研究所(Inria)的直接科学通信中心(CCSD)和科学技术信息服务(IES)为存放在法国全球开放存取HAL中的研究软件工件制定了一个特定的管理和管理工作流程 存储库。 管理工作流程的开发是为了帮助数字图书馆员和档案管理员处理这种新的和特殊的人工制品——软件源代码。 在实施工作流的过程中,从挑战中产生了一套指导原则,并制定了相应的解决方案,以帮助流程中的所有参与者。}, 关键字={}, pubstate={published}, tppubtype={article} }
@第{DiCosmo2020b条, title={宣布biblatex-software}, author={Roberto Di Cosmo}, url={ https://hal.archives-ouvertes.fr/hal-02977711 }, doi={10.1145/3417564.3417570}, 年份={2020年}, 日期={2020-01-01}, journal={ACM SIGSOFT软件工程注释}, 体积={45}, 数字={4}, 页数={22--23}, publisher={计算机协会(ACM)}, 关键字={}, pubstate={published}, tppubtype={article} }
@书籍{SIRSReport2020, title={研究软件的学术基础设施}, 作者= {罗伯托·迪·科斯莫(Roberto Di Cosmo)、何塞·贝尼托·冈萨雷斯-洛佩兹(Jose Benito Gonzalez Lopez)、珍妮·弗兰索伊斯·阿布拉马蒂奇(Jean-François Abramatic)、凯·格拉夫(Kay Graf)、米盖尔·科罗姆(Miguel Colom)、保罗·曼吉(Paolo Manghi)、梅丽莎·哈里森(Melissa Harrison)、扬尼克·巴博里尼(Yannick Barborini)、维尔·特胡宁(Ville Tenhune 马丁·芬纳和埃里克·詹吉拉德, url={ https://data.europa.eu/doi/10.2777/28598 }, doi={10.2777/28598}, isbn={978-92-76-25568-0}, 年份={2020年}, 日期={2020-01-01}, publisher={欧盟委员会研究与创新总局}, 关键字={}, pubstate={published}, tppubtype={book} }
@正在进行{msr-2019-swh, title={The Software Heritage Graph Dataset:公共软件开发在同一屋檐下}, author={Antoine Pietri、Diomidis Spinellis和Stefano Zacchiroli}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/msr-2019-swh.pdf https://upsilon.cc/ ~zack/research/publications/msr-2019-swh.pdf}, doi={10.1109/MSR.2019.00030}, 年份={2019}, 日期={2019-05-27}, booktitle={第十六届国际采矿软件库会议论文集}, 页码={138-142}, publisher={IEEE出版社}, 系列={MSR’19}, 抽象= {软件遗产(Software Heritage)是现有最大的软件源代码和相关开发历史公共档案:它目前跨越了50多亿个唯一源代码文件和10亿个唯一提交,来自8000多万个软件项目。本文介绍了软件遗产图数据集:一个完全重复数据消除 d Merkle DAG表示软件遗产档案。 该数据集将文件内容标识符、源代码目录链接在一起,版本控制系统(VCS)提交跟踪随时间推移的演变,直至Software Heritage在定期爬网期间观察到的VCS存储库的完整状态。 数据集的内容来自主要的开发伪造品(包括GitHub和GitLab)、FOSS发行版(例如Debian)和特定于语言的包管理器(例如PyPI)。 还包括爬行信息,提供了关于何时何地在野外观察到所有存档源代码工件的时间戳。 Software Heritage图形数据集有多种格式,包括可下载的CSV转储和用于本地使用的Apache Parquet文件,以及Amazon Athena交互式查询服务上的公共实例,用于现成的强大分析处理。 源代码文件内容在图形叶子处交叉引用,可以使用Software Heritage存档API通过单个请求检索。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@在线{gplo-note-2020, title={鼓励更广泛地使用来自研究的软件}, author={梅兰妮·克莱门特·丰塔因(Mélanie Clément-Fontaine)、罗伯托·迪·科斯莫(Roberto Di Cosmo)、巴斯蒂恩·格雷(Bastien Guerry)、帕特里克·莫劳(Patrick Moreau)和弗朗索瓦·佩莱格里尼(Françoi, url={ https://hal.archives-ouvertes.fr/hal-02545142 }, 年份={2019}, 日期={2019-01-01}, institution={开放科学委员会自由软件和开源项目组}, 注={法国国家开放科学委员会软件工作组的立场文件}, 关键字={}, pubstate={published}, tppubtype={online} }
@进行中{benevol-2018-swh, title={走向通用软件演化分析}, author={Antoine Pietri和Stefano Zacchiroli}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/benevol-2018-swh.pdf https://upsilon.cc/ ~zack/research/publications/benevol-2018-swh.pdf}, issn={1613-0073}, 年份={2018年}, 日期={2018-12-01}, booktitle={BENEVOL 2018:第17届比利时-荷兰软件进化研讨会}, 体积={2361}, 页数={6-10}, series={CEUR研讨会记录(CEUR-WS)}, abstract={软件进化研究主要集中于单个软件产品,通常开发为自由/开源软件(FOSS) 项目,以及更节省的软件集合,如组件和包生态系统。 我们在本文中认为,这种有机规模扩展的下一步是通用软件演化分析,即在整个公开可用软件的规模上研究软件演化。 我们考虑了Software Heritage的情况,它是现有最大的公开可用软件源代码工件存档(存档的5 B多个唯一文件和1 B多个提交,来自8千多万个软件项目)。 我们提出了研究要求,允许利用软件遗产档案来研究通用软件演化。 我们讨论了需要克服的挑战,以满足这些要求,并概述了这样做的研究路线图。}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@第{cacm-2018-软件缺陷, title={建立源代码的通用档案}, author={Jean-François Abramatic和Roberto Di Cosmo和Stefano Zacchiroli}, 编辑器={ACM}, url={ https://cacm.acm.org/magazines/2018/10/231366 building-the-universal-archive-of-source-code/fulltext }, doi={10.1145/318558}, issn={0001-0782}, 年份={2018年}, 日期={2018-10-01}, 日志={ACM的通信}, 体积={61}, 数字={10}, 页数={29-31}, 关键字={}, pubstate={published}, tppubtype={article} }
@进行中{dicosmo:hal-01865790, title={数字对象标识符:软件源代码保存案例}, author={罗伯托·迪·科斯莫(Roberto Di Cosmo)、莫兰·格伦彼得(Morane Gruenpeter)和斯特凡诺·扎奇罗利(Stefano Zacchiroli)}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/ipres-2018-swh.pdf https://hal.archives-ouvertes.fr/hal-01865790 }, doi={10.17605/OSF.IO/KDE56}, 年份={2018年}, 日期={2018-09-01}, booktitle={iPRES 2018-第十五届国际数字保护会议}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }
@杂项{巴博里尼:hal-01738741, title={创建一种新型的科学矿床:软件}, author={Yannick Barborini、Roberto Di Cosmo、Antoine R.Dumont、Morane Gruenpeter、Bruno P.Marmol、Alain Monteil、Jozefina Sadowska和Stefano Zacchiroli}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/barborini-rda-poster.pdf https://hal.inia.fr/hal-01738741 }, 年份={2018年}, 日期={2018-03-21}, howpublished={RDA第十一届全体会议,德国柏林}, 注释={海报}, 关键字={}, pubstate={published}, tppubtype={misc} }
@杂项{巴博里尼:hal-01688726, title={科学新纪元-逻辑}, author={Yannick Barborini、Roberto Di Cosmo、Antoine R.Dumont、Morane Gruenpeter、Bruno P.Marmol、Alain Monteil、Jozefina Sadowska和Stefano Zacchiroli}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/barborini-jso2018-poster.pdf https://hal.inia.fr/hal-01688726 }, 年份={2018年}, 日期={2018-01-22}, howpublished={JSO 2018-7es Journalées Science Ouverte Couperin:100%开放访问:主动提供转型服务}, 注释={海报}, 关键字={}, pubstate={published}, tppubtype={misc} }
@进行中{dicosmo:hal-01590958, title={软件遗产:为什么以及如何保留软件源代码}, author={罗伯托·迪·科斯莫和斯特凡诺·扎奇罗利}, url={ https://www.softwareheritage.org/wp-content/uploads/2020/01/ipres-2017-swh.pdf https://hal.archives-ouvertes.fr/hal-01590958 }, 年份={2017年}, 日期={2017-09-25}, booktitle={iPRES 2017:第14届数字保存国际会议}, address={日本京都}, 关键字={}, pubstate={published}, tppubtype={inprocesdings} }