SOSP 2023人工制品评估主席的经验教训

2023年初,我们收到了SOSP PC主席的邀请,担任SOSP 2023的人工制品评估联合主席。这对我们所有人来说都是一个令人难以置信的激动人心的机会。作为系统社区的初级成员,能够在我们的旗舰会议上担任领导角色是一种荣誉和认可。然而,这也意味着责任——我们必须为即将到来的挑战做好准备,公平、系统地评估许多实质性系统研究工件。

在本文中,我们将分享我们作为SOSP的AE主席的经验。具体来说,我们分享了在这一过程中得到的帮助和支持,以及我们吸取的教训,这些教训可能对未来的主席和更广泛的社区有所帮助。请注意,这里表达的所有意见都是我们自己的,我们欢迎任何建设性的批评。

背景和动机

工件评估(AE)已成为系统研究界大多数会议的标准过程,如SOSP、OSDI、ATC、EuroSys、ASPLOS等。简单地说,AE评估会议论文的人工制品。评估基于工件的可用性、功能性和再现性,并授予相应的徽章,以表明其在推进学术研究方面的可靠性和稳健性。有一些关于AE的宝贵讨论,比如HotOS系统复制研究未来小组(和博客关于它)不良事件回顾等。我们试图从AE主席的角度分享我们的(希望是新的)见解。

显然,担任AE联合主席不是一件容易的任务。一方面,联合主席需要熟悉整个AE流程,另一方面,共同主席必须具备“领导技能”来帮助AE委员会成员。 

我们收到的帮助

当我们开始这项工作时,我们很快意识到有许多任务需要解决,例如招募AE委员会、发布工件调用、准备网站以及确定重要的截止日期等。我们面临的第一个挑战是制定一个结构合理的计划或时间表,以有效管理所有这些职责。幸运的是,我们得到了宝贵的帮助AE椅子指南Solal Pirelli(EPFL)和Anjo Vahldiek-Oberwagner(Intel Labs)。这本指南被证明是一份极其全面的资源,为我们制定自己的时间表提供了坚实的基础。我们遵循这些建议,为今年的AE制定了时间表,并将一张表作为我们的任务跟踪表(如下图所示),明确列出我们应该完成的任务、任务的状态和截止日期,以及指定的联合主席。

图:我们的“任务跟踪器”的一部分。整张表中有34项。

从这一过程中获得的一些经验教训:首先,我们发现AE联合主席从内部时间表中受益匪浅,该时间表比公开的作者和审稿人的“重要截止日期”更详细。这个内部时间表应该包括具体的任务,比如何时向作者和审稿人发送某些电子邮件,以避免任何潜在的混乱。第二,我们发现使用“任务跟踪器”管理我们作为联合主席的职责具有惊人的效果。通过将任务分配给特定的联合主席,并对即将到来的任务有一个清晰的概述,我们能够保持有序,并确保一切都得到妥善处理。

指南中提出的一个特别有益的建议是,与会场前几任主席联系,征求非正式反馈意见,特别是如果他们以前有AE的经验。

我们联系了Robert Ricci(犹他大学)和Dan Ports(华盛顿大学微软研究院),寻求他们的建议。他们非常友好,建议举行一次在线会议,以促进深入讨论。我们安排了一次Zoom会议来深入研究工件评估的准备工作,Rob和Dan分享了大量有价值的详细建议。

:与Rob和Dan的会议截图。Hannah Cohoon(犹他大学博士后)也分享了她的意见和建议。

以下是他们的一些建议示例,我们发现这些建议非常有用,我们相信对未来的椅子也会有好处:

  1. 广泛招募AEC成员,目标是每次提交5名评审员,每个评审员2名评审员。
  2. 要求电脑主席向社区成员及其学生发送与AEC相关的电子邮件,鼓励他们提交作品。
  3. 对于任何特殊的硬件要求,如GPU访问,都要小心并做好充分的准备。
  4. 利用HotCRP中的标记功能有效组织AEC工作流。
  5. 确保每个提交的文件都由至少一名经验丰富的审查员进行审查。
  6. 迅速回应询问和问题,优先考虑快速响应的沟通,因为这会促进AEC成员的积极性。
  7. 考虑到由于各种原因,一些AEC成员可能无法完成审查的可能性。
  8. 试着站在AEC成员和作者的一边(就个人而言,我认为这对于主席来说非常重要)。

我们非常感谢Rob和Dan提供的所有建议,因为它们为今年的SOSP AE奠定了坚实的基础。

丹也和我们分享了他的猫,它们绝对可爱!😊

在整个过程中,几乎所有SOSP'23组织者(Margo、Jason、Matthew和许多其他人!)都给予了支持。我们不会一一列举,但非常感谢他们的宝贵帮助!

我们没有预料到的挑战

评审员经验

主席必须支持初级AE评审员。作为AE委员会的一员,从评审员的角度为他们提供了宝贵的经验。今年,我们的许多AE审稿人都是学生,88人中有44人首次担任审稿人。虽然我们提供了《AE委员会指南》对于所有审阅者来说,我们后来在AE过程中发现,一些审阅者不熟悉HotCRP系统,他们遇到了各种问题,例如不知道审阅和讨论页面之间的区别以及如何在两者之间切换。此外,在某些情况下,审稿人可能过于严格,对论文中使用的技术提出质疑(不在AE范围内),或对结果提出质疑,即使差异很小。这里的关键差距在于,虽然高级研究人员了解AE,尤其是可复制徽章,评估论文是否可以在一定的公差内复制,但一些AE成员(通常是学生)可能没有相同的理解。当我们观察到这些问题的出现时,我们通过HotCRP或电子邮件联系了审核人员,以便及时解决这些问题。  

因此,作为AE主席,有必要在过程中定期审查对工件的评论和讨论,并在出现误解时提供帮助。指南中关于使用HotCRP等工具的更详细说明可能更有助于更好地解释AE的目标和目的,以便尽可能提前避免这些问题。

总的来说,AEC成员可能不是第一次参加,而且经常在繁忙的时间表下工作,这是一个持续的挑战。作为AE主席,我们需要做好准备,为他们提供相应的支持,并满足他们的需求。

硬件依赖性

虽然我们预计硬件依赖性会带来挑战,但我们并没有预料到困难的程度。在系统会议中,许多工作都依赖于特定的硬件配置,如NVM、GPU或大型集群,这是常见的情况。我们发现一个有效的策略是为作者提供必要的环境,并为评审人员提供远程连接和进行实验的手段。事实证明,这种方法特别有用,因为使用这种策略可以很容易地复制许多工件。还可以探索公共云或CloudLab等研究平台等替代资源。然而,仍然存在一些挑战。例如,在某些情况下,由于学校限制或公共云或CloudLab无法满足的依赖关系,作者可能无法允许审阅者远程访问他们的计算机。

感谢我们出色的评论员和作者的支持。经过彻底调查,我们确定了三名评审员(其中两人已经被分配到其他工件),他们拥有进行实验所需的资源。在他们的帮助下,我们将工件分配给能够执行实验的评审员。此外,作者迅速为其他无法使用真实硬件的审查人员准备了一个模拟环境,使他们能够评估工作的功能。

对于AE主席、评审员和作者来说,复制具有硬件依赖性的系统研究可能是一项艰难的任务。然而,它也突出了系统研究的魅力,因为它们代表了在真实硬件上运行的真实系统(尽管大多是原型)。未来的系统会议很可能会继续面临硬件依赖性挑战,从中吸取的一个宝贵教训是在这种情况下早期沟通的重要性。

最佳工艺品奖

我们在评选最佳艺术品奖的过程中得到了大力支持。Margo提出了一个有价值的建议:AE主席应该制定推荐的最佳工件提名标准。虽然这三个徽章的标准相对明确,但评估一个工件是否优于另一个工件则是一个更大的挑战。不同的评审员往往有稍微不同的标准

考虑到这一点,我们编制了标准列表(来自Margo和Jason的输入),其中包括诸如文档的清晰性和完整性、易执行性(某人可以多么容易地使用工件来运行与本文中所示不同的测试)等因素。尽管目前标准可能并不完美,我们相信,它们将成为一个很好的起点,未来的AE主席可以继续完善和提高它们。

结束

尽管存在诸多挑战,但组织工件评估是一项非常有意义的任务。我们再次感谢大家对我们的大力支持!在我们社区的坚定不移的支持下,我们对未来AE椅子能做得更好充满信心!

关于作者:Dong Du和Jiayi Meng是SOSP’23 AE联合主席。 董都是上海交通大学的助理教授,主要研究操作系统、软硬件协同设计和无服务器计算。 孟嘉怡是德克萨斯大学阿灵顿分校(UTA)的终身助理教授,致力于构建系统,通过5G以上的边缘计算支持下一代移动应用程序(例如VR、AR和MR)。

免责声明本博客中的任何观点或观点都是个人的,仅属于博客作者,并不代表ACM SIGOPS的观点或观点。

编辑器徐天音(伊利诺伊大学香槟分校)