评估员指南

本文档是以下工件评估过程的指南评估人员。

如果您有一般性问题，请联系工件评估主席。如果您对特定工件有疑问，请参阅下面的说明询问作者。

作为评审员的目标

工件评估的目标是通过确保发布论文附有可重复使用的高质量工件由他人扩展。作者通过颁发徽章。

请记住，工件评估是一个协作过程。人工制品最初不符合徽章要求的人仍然可以获得徽章，如果作者及时做出必要的改进，评估人员应提供可操作的反馈以实现这一点。只有在以下情况下，人工制品才能“错过”徽章没有足够的时间合理地解决评估人员的担忧，或者如果作者反应迟钝或无理。

正在评估的论文已被技术方案接受委员会，所以你不需要评估他们的科学合理性。然而，如果你认为你在论文中发现了技术缺陷，请联系工件评估椅。

时间表

投标截止日期是一个重要的截止日期，因为它将允许主席以最大化评估人员专业知识和兴趣的方式分发工件。竞标可以最大限度地评估您所知领域中的工件并对其感兴趣。

“踢轮胎”阶段是指评估人员通过工件确保他们以后能够正确评估。重要的是这样，如果出现以下情况，作者就有足够的时间来解决重大问题需要。

在最终截止日期之前，有一些时间就徽章达成一致，以确保有时间讨论需要它的工件，并留出时间任何额外或延迟的评估。请记住就徽章达成一致是很严格的，因为会议的其余部分都取决于此。

与作者沟通

人工制品评估是单盲的，这意味着作者不知道也一定不知道你是谁，这样你可以坦诚地评估。为了实现这一点，所有作者和审稿人之间的沟通必须通过HotCRP进行，而不是通过其他方式，如电子邮件。

请确保在您的HotCRP配置文件中的“首选项”下，“发送”“对已编写或已审阅的提交内容的评论和评论”的邮箱是选中，以便您收到来自作者和同行评论员。

要在HotCRP上添加注释，请在工件页面的底部单击“添加评论”按钮显示表单，键入您的评论，然后选择右侧评论的可见性。与作者的讨论必须是“作者讨论”，而与评价者的讨论必须是“评审者讨论”。将第二个选项保留为“about:submission”。

您可以在HotCRP作者中用@-locate通知其他评估者讨论评论，就像在许多其他平台上一样。键入@并让HotCRP自动完成所需的名称。

在可能的情况下，避免让作者过多地提出问题和评论，特别是如果其他人已经问过或回答过类似的问题审阅者。在HotCRP上发布新评论之前，请确保在作者之前的评论中没有出现或其他审阅者。话虽如此，如果你遇到一个问题解决方案尚不明确，请尽快联系作者解决它。由于作者和审阅者可能跨越多个时区，因此必须迅速向作者提出阻塞问题。这将确保作者有足够的时间作出回应，提供解决方案，并更新他们的工件文档。

对于需要所有审阅者输入的问题，请使用“审阅者讨论”在与进行沟通之前与其他评估者同步的评论作者。例如，如果您必须向作者提供SSH密钥，以便他们可以让您访问他们的硬件，每个评估程序都可以在审阅者讨论消息，最后一个可以复制/粘贴所有消息一条单独的作者讨论消息。

评估设置

您可以按优先顺序评估各种设置上的工件：

你自己的机器，如果工件支持的话
- 即使工件需要特定的操作系统或多台机器，您也可以可以通过Docker在本地运行它（例如，请参阅这回购)或使用虚拟机，如使用VirtualBox
对于工件，您可以访问任何具有强大/特殊硬件的服务器可以从中受益
研究云，寻找需要更多硬件的工件可用；见本文件末尾
商业云，如AWS或Azure，但仅在绝对必要和作者愿意为此支付费用；在这种情况下，请同意协议的作者，在该协议中，您同意生成和拆除机器将不必要的成本降到最低。
工件作者的机器，通过SSH或类似方式访问，用于由于硬件依赖性，无法在其他任何地方运行

关于匿名化的说明：如果必须通过SSH连接到作者的计算机，请确保您的公共SSH密钥无法识别您的身份（删除user@host在结束）。如果您认为可以通过其他方式识别您的身份，例如由于您的IP地址，请联系主席。

初始“踢轮胎”阶段

一旦你被分配了工件，就会出现最初的“踢轮胎”期间。这段时间的目标是快速确定您是否全面审查所需的一切：工件本身，任何必要的硬件或其他依赖项，以及如何评估人工制品。如果不是这样，你必须和你的同伴讨论并让作者尽快了解任何问题，因此他们有足够的时间来解决问题。

作者在提交作品时要求的双勾徽章；您不需要评估未请求的徽章的工件（如果你认为一个工件已经满足了作者对徽章的要求没有要求，问作者；他们可能忘记了要求徽章）。

仔细阅读工件文档。尤其要检查软件以及硬件依赖性，以确保您拥有所需的一切。你被允许在做出决策时使用自己的判断，例如评估一些工件可能无法复制其所有文件的原因包含。

在评审员的讨论意见中与评估员同事进行讨论，以便你们都同意：

你是否拥有进行评估所需的一切，如果没有，是什么缺少，包括：
- 访问您、作者或学者拥有的必要硬件云
- 对于请求“功能”徽章、文档和完整中提到的源代码检查表,以及代码是否编译
- 对于请求“复制”徽章的工件，运行实验并生成中提到的图形这个检查表
关于在审查期间如何评估工件的计划：
- 列出将复制哪些结果以验证索赔
- 共享硬件时将运行实验的时间框架

一旦所有评估人员都有了这些要点，就发布一个作者讨论评论同意了。这是对作者的承诺，您只应如果你有很好的理由，以后再换。

检查工件

对于分配给您的每个工件，您将生成一个审查，解释你认为应该授予哪些徽章以及为什么或为什么不授予。你会工作的与作者一起撰写评论，因为这是一个合作的过程。作者是您可以使用的资源，如果您有工件有问题，或者如果您需要有关特定部分的更多详细信息人造物品。

本指南末尾有一个示例回顾。

首先，（重新）阅读徽章页面。清单特别重要：满足这些需求的工件应该得到相应的徽章，而不应该证明为什么或不获得徽章。如果工件不满足清单要求，但作者提供了一个有充分的理由说明为什么他们无论如何都应该获得徽章，根据你的判断关于徽章的定义。记住工件的功能和结果复制的徽章不仅需要运行代码，还需要审核以确保（对于工件功能）代码得到记录，并且可以理解，并且（对于Results Reproducted）代码实际上执行了该报称确实如此。仅复制与纸张类似的输出，例如性能指标还不够，工件必须实际执行它的操作你不应该理解每一行代码，但你应该确信，工件总体上与论文相符描述。

您的大部分时间应该花在审计工件上，而不是调试它们上.如果遇到缺少依赖性等问题，请尝试快速解决例如，通过找到包含您的操作系统，并让作者知道他们必须修复说明。然而，作者有责任工件可以工作，而不是你的。您无需花费数小时尝试调试和解决复杂问题；如果你遇到一个非平凡的错误，首先问问你的同伴如果评估人员也遇到了问题，或者他们知道如何解决问题，那么询问作者来修复它。

如果工件需要不合理的努力，可以拒绝徽章,尤其是如果可以通过自动化来避免这种努力。例如，如果复制声明需要50个数据点，而工件需要您可以手动编辑5个配置文件，然后在3台机器上运行4个命令每个数据点，您不需要实际执行数百个手动操作台阶；相反，请作者将其自动化，甚至编写一个脚本如果你有时间，你可以与作者分享。

完成工件评估后，填写评审表并提交它。你的审查必须详细解释为什么工件应该或不应获得作者要求的每个徽章。你也可以如果出现以下情况，请为作者提供其他建议以改进他们的工件你有。

注意，与大多数评审过程不同，工件评估评审是立即发送给作者，所以请确保您的评论在您之前经过润色提交。

请记住，工件评估过程是合作的，而不是对抗的。通过HotCRP评论讨论，让作者有机会解决问题在决定他们的神器不应该得到徽章之前。然而，你是允许在截止日期前编辑您的评论，因此如果作者没有反应或不合理，可以提前提交评审，拒绝标记并列出作者应该采取的可操作步骤，以获得徽章。

HotCRP允许您对同事的评价进行评分。如果你认为审查做得很好，请毫不犹豫地投赞成票！如果你认为评审可能需要改进，你可以投反对票和评审讨论评论解释你的想法。

关于学术云的信息

所有审查人员必须了解其工件，以确定它们自己的基础设施是否足够（如果有权使用类似硬件），或者如果没有，他们是否可以使用学术云服务，或者作为最后手段，他们是否需要作者提供硬件访问权限。

今年，SOSP’23 AEC与Cloudlab合作。访问学术云和作者拥有的硬件可能通过SSH或其他远程桌面软件。我们已经创建了一个Cloudlab项目供您在以下情况下使用您还没有访问一个：

云实验室

云实验室是一种提供无线接入的设施到5个位置的大约2000台服务器。用户具有完全的“root”访问权限，大多数基础设施是不共享的，这使得它成为实验的好选择需要对硬件和/或非共享环境进行低级访问可重复的性能。CloudLab上可用的处理器包括许多几代Intel、AMD、ARM和IBM POWER体系结构，以及各种GPU。网络包括以太网（高达100Gbit）和Inifiband公司。CloudLab硬件的完整列表在其手册中提供。

加入Cloudlab SOSP’23 AE项目
观看Cloudlab网络研讨会

示例审查

我们在这里提供了一个虚构工件/论文的示例审查。本次审查首先复制证卡清单中的每个点，然后修改适合工件的文本，并以其中之一开始每个点✔ （=是），❌（=否），或⚠ （=是的，但有问题）。对于“结果再现”徽章，如果结果与原始结果在任何方面都不同，很好地解释了如何，即使应该颁发徽章。请记住，在HotCRP上，您可以使用Markdown标题、列表、表格等。

可用工件

✔ 工件在公共GitHub存储库中可用
✔ 该工件有一个参考文件的“read me”文件
⚠ 工件没有允许用于比较的许可证目的；这不是必须的，但最好有

我建议颁发徽章。

工件功能

❌ 工件的“read me”文件缺少一些信息：
- ✔ 它有一个描述
- ✔ 它有编译和运行说明
- ✔ 它有运行实验的使用说明
- ❌ 它没有支持的环境列表
- ❌ 它没有配置说明来选择客户端和服务器IP
- ❌ 它没有“最小工作示例”的说明，仅用于12台机器上的完整实验
✔ 代码在模块和类级别都有很好的文档记录，干得好！
⚠ 工件包含论文中描述的所有主要部分；应该是的如果它包括论文中提到的额外实验，那就好了限制部分，但这不是强制性的

我希望作者能够解决上述问题，以便Artifact可以颁发功能徽章。

再现的结果

我根据工件附录考虑了3个索赔，除了中的索赔#3在与作者。所有实验都是使用作者的个人资料。我从工件的GitHub存储库中获得了所有软件，提交abc0定义。

✔ 该工件有一个“read me”文件，其中记录了：
- ✔ 作者使用的确切环境
- ✔ 从论文中复制每个声明所需的确切命令
- ⚠ 每个索赔所用的时间，但不是磁盘空间，这对表示，因为它是多个GB
- ✔ 复制声明的脚本有很好的文档记录，并且相互对应根据论文所述

对于权利要求2，我获得了工件的4400 ops/s和工件的3500 ops/s基线，这比论文所说的工件要低一些。然而，声明的关键部分是工件的速度至少与基线，而不是绝对性能数字，所以我认为这很好。我建议颁发徽章。