艺术品审查和徽章-当前

人工制品审查和徽章版本1.1-2020年8月24日

除非实验结果能够独立再现，否则无法完全确定。最近的各种研究，主要是生物医学领域的研究表明，由于草率的实验方法、有缺陷的统计分析，或者在罕见的情况下，由于欺诈，文献中发现的大量研究结果未能通过这项测试，这令人不安。出版商可以通过开发审查流程来提高结果独立复制和再现的可能性，从而促进研究生态系统的完整性。一种极端的做法是要求在裁判过程中完全独立地复制结果。一种中间方法是要求与工作相关的工件进行正式审计。我们所说的“人工制品”是指由作者创建的数字对象，用于研究或由实验本身生成。例如，工件可以是软件系统、用于运行实验的脚本、输入数据集、实验中收集的原始数据或用于分析结果的脚本。

如果研究成果本身是公开的，以便任何利益相关方可以审计，则会带来额外的好处。这也使得繁殖将要进行的实验，因为它们不可避免地是在略有不同的条件下进行的，用于验证原始结果的稳健性。也许更重要的是，格式良好且有文档记录的工件允许其他人通过重用和重新调整用途直接构建以前的工作。

许多ACM会议和期刊已经建立了工件审查的正式流程。在这里，我们为这些类型的审查过程提供了术语和标准，以促进基本的一致性，从而能够在选择采用此类做法的ACM出版物中标记成功审查的论文。

当然，在许多情况下，这种强化审查要么不可行，要么不可能。因此，鼓励开展此类审查过程，但对于ACM期刊和会议而言，此类审查过程仍然是完全可选的，并且在提供此类审查过程时，建议作者也可以选择参与。如果作者同意此类附加审查，并且其作品符合既定标准，则将在文章文本和ACM数字图书馆中显示的元数据中获得适当的标签。具体标签或徽章建议如下。

术语
许多研究团体已经接受了实验科学中再现性的目标。不幸的是，使用的术语并不统一。因此，我们发现有必要定义我们的术语。以下内容受到国际计量词汇（VIM）的启发；请参阅附录了解详细信息。

可重复性（相同的团队，相同的实验设置）
- 同一团队可以使用相同的测量程序、相同的测量系统，在相同的操作条件下，在同一位置进行多次试验，以规定的精度进行测量。对于计算实验，这意味着研究人员可以可靠地重复自己的计算。
再现性（不同的团队，相同的实验设置）*
- 不同的团队可以使用相同的测量程序、相同的测量系统，在相同的操作条件下，在相同或不同的位置进行多次试验，以规定的精度进行测量。对于计算实验，这意味着一个独立的小组可以使用作者自己的工件获得相同的结果。
可复制性（不同的团队，不同的实验设置）*
- 可以由不同的团队、不同的测量系统、在不同的位置进行多次试验，以规定的精度进行测量。对于计算实验，这意味着一个独立的小组可以使用他们完全独立开发的工件获得相同的结果。

*经过与国家信息标准组织（NISO）的讨论，建议ACM将其术语和定义与更广泛的科学研究界使用的术语和定义进行协调，ACM同意NISO的建议，即交换术语“再现性”和“复制”ACM使用的现有定义作为其工件审查和标记倡议的一部分。ACM采取行动更新所有之前的徽章，以确保一致性。

徽章
我们建议与ACM出版物中的研究文章相关的三个与工件审查相关的单独徽章：评估的工件、可用的工件和验证的结果。这些徽章被认为是独立的，根据期刊或会议制定的审查程序，任何一个、两个或全部三个徽章都可以应用于任何给定的论文。

评估的工件
此徽章适用于相关工件已成功完成独立审核的论文。此徽章无需公开文物。然而，它们确实需要提供给评审人员。区分了两个级别，在任何情况下都只能应用其中一个级别：

评估的工件–功能v1.1
与研究相关的工件被发现是有记录的、一致的、完整的、可操作的，并且包括适当的验证和确认证据。
- 笔记
  - 记录在案：至少应包括工件清单，并提供足够的描述，以便执行工件。
  - 一致：工件与相关论文相关，并以某种固有的方式生成其主要结果。
  - 完成：在可能的范围内，包括与所讨论论文相关的所有组件。（不需要包括专有工件。如果需要它们执行该包，则应将其记录在案，并说明如何获取它们。应包括专有数据的代理，以演示分析。）
  - 可行使的：可以成功执行用于在相关文件中生成结果的包含脚本和/或软件，并且可以访问和适当操作包含的数据。
评估的工件–可重用v1.1
与论文相关的工件的质量大大超过了最小功能。也就是说，它们具有评估的工件的所有质量——功能级别，但除此之外，它们都有非常仔细的文档记录和良好的结构，以便于重用和重新调整用途。特别是，严格遵守研究界对这类工件的规范和标准

可用工件
此徽章适用于相关工件永久可供检索的论文。

可用工件v1.1
与本文相关的作者创建的工件已放置在可公开访问的档案库中。提供了指向此存储库的DOI或链接以及对象的唯一标识符。
- 笔记
  - 我们不强制使用特定存储库。可以接受出版商存储库（如ACM数字图书馆）、机构存储库或开放商业存储库（例如无花果或Dryad）。在所有情况下，用于存档数据的存储库都应该有一个声明的计划来支持永久访问。个人网页不可用于此目的。
  - 工件不需要经过正式评估就可以获得此徽章。此外，它们不需要在上述意义上是完整的。它们只是需要与研究相关，并在文章的文本之外增加价值。这样的工件可以像绘制图形的数据一样简单，也可以像正在研究的完整软件系统一样复杂。

结果已验证
此徽章适用于除作者以外的个人或团队成功获得论文主要结果的论文。分为两个级别：

再现的结果1.1版论文的主要结果是由作者以外的个人或团队在随后的研究中获得的，部分使用了作者提供的人工制品。
复制的结果1.1版论文的主要结果是由作者以外的个人或团队在随后的研究中独立获得的，没有使用作者提供的工件。

在每种情况下，都不需要，甚至不需要精确复制或再现结果。相反，结果必须在给定类型实验可接受的公差范围内一致。特别是，结果的差异不应改变论文中的主要观点。

很容易看出，开发算法或软件系统的研究文章是如何被标记为如上所述的。在这里，工件可以是算法的实现或完整的软件系统，复制将涉及软件的使用，通常是由作者提供的软件。然而，我们希望这些徽章也适用于其他类型的研究。例如，与新型人机界面形式的人机主体研究相关的工件可能是收集的数据，以及为分析数据而开发的脚本。“复制”可能侧重于对实验方案的仔细检查，以及对收集到的数据的独立分析。

审查程序
上面提供的徽章说明没有具体说明审查过程本身的细节。例如：审查应该在论文被接受之前还是之后进行？应该有多少评论员？审稿人应该匿名，还是应该允许他们公开与作者互动？工件应该如何打包以供审查？应该使用哪些具体指标来评估质量？当前草根评估工件和正式测试可复制性的工作以不同的方式回答了这些问题。我们认为，为工件和可复制性审查建立更具体的指导方针还为时过早。事实上，计算领域的各个社区之间存在着足够的多样性，这可能根本不可取。我们相信，上述广泛的定义提供了一个框架，使徽章在社区之间具有普遍的可比性。

由于ACM出版场所之间的审查程序可能存在一些差异，因此PDF和ACM数字图书馆元数据中包含的徽章应与导致授予徽章的特定审查过程的简要说明相关联。

我们承认，上述可用工件和结果验证徽章是有意义的，即使它们是由发布后发生的操作引起的。如有必要，总编辑和会议指导委员会主席（如果会议没有现有的指导委员会，则为适当的SIG主席）将有权在出版后颁发这些徽章。对于结果验证，必须提交一份同行评审的出版物，报告复制或复制的情况，作为证据，如果授予，徽章将包含指向此论文的链接。

附录

国际计量词汇中的概念

物理测量术语的主要参考是

国际计量词汇-基本和一般概念及相关术语（VIM），第3版，JCGM 200:2012http://www.bipm.org/en/publications/guides/vim.html.

与实验计算机科学的联系是：实验的结果可以被认为是一种测量，尽管是一个虚拟物体。因此，以下VIM对重复性和再现性等概念的定义是可取的。

测量重复性：在一组重复性测量条件下的测量精度。