APLAS 2022年
2022年12月10日星期一至星期六新西兰奥克兰
与位于同一位置飞溅2022

背景

同行评审的研究论文描述我们的研究成果远不止是描述它的一页纸。例如,作为我们研究的一部分,我们将撰写技术报告,其中包含对工作的完整描述、实现工作的软件、验证工作正确性的证据、封装思想的模型、,用于记录经验证据的测试套件和基准,等等研究人工制品与论文本身一样重要,甚至可能更重要。然而,我们的许多会议都没有提供正式的方式来提交和评估论文以外的任何东西。这应该改变!

人工制品评估[1]已经成为我们社区的常见现象。今年第20届亚洲程序设计语言与系统研讨会(APLAS’22)很高兴启动自己的工件评估流程,这将允许已接受论文的作者选择性地提交支持工件。工件评估的目标是双重的:进一步探讨论文中提出的主张和结果,并奖励那些不辞辛劳地创建有用工件来伴随论文中的工作的作者。虽然工件评估是可选的,但我们强烈鼓励已接受论文的作者参与这一过程。

工件的评估和传播提高了再现性,并使作者能够在彼此的工作之上进行构建。除了帮助社区外,工件的评估与传播还为作者自身带来了一些直接和间接的好处。

工件评估过程的理想结果是接受提交的每个工件,前提是它满足工件调用中提到的评估标准。我们将努力尽可能接近这一理想目标。然而,即使有些工件可能不合格,可能会被拒绝,我们也会认真评估,并尽最大努力遵循作者的评估说明。

[1]https://www.artifact-eval.org/

过程

为了保持论文和工件审查的分离,只有在论文被接受后,才会要求作者上传工件。计划提交工件评估的作者应提前做好工件准备,以确保有足够的时间进行打包和文档编制。

在整个工件评审期间,提交的评审将(大约)对作者持续可见。评审员将能够持续(匿名)与作者互动,以澄清、系统特定补丁和其他后勤帮助,使工件可评估。持续交互的目标是防止因小问题而拒绝工件,而不是与研究相关的问题,例如“错误的库版本”类型的问题。会议记录将包括对持续工件评估过程的讨论。

工件类型

工件评估将接受作者希望提交的广义工件。提交的工件可能是:

  • 软件
  • 机械化校样
  • 测试套件
  • 数据集
  • 硬件(如果绝对必要)
  • 使用中难以或不可能共享的系统的视频
  • 论文中描述的任何其他工件

如有疑问,鼓励作者联系AEC Co-chairs寻求指导。

人工制品评估委员会

根据设计,文物评估委员会(AEC)的成员代表了一个广泛的经验教会,从高年级研究生到研究助理,再到讲师和教授。欢迎大家!AEC的成立是通过公开呼吁,支持来自代表性不足和偏远群体的人加入APLAS社区。

一个广泛的教会是必要的,因为在研究人员中,经验丰富的研究生通常处于处理AEC将遇到的各种系统期望的最佳位置。此外,研究生代表着社区的未来,因此尽早让他们参与AEC进程将有助于推动这一进程。AEC主席非常重视指导和监督,帮助教育学生他们的责任和特权。

本文本改编自ESOP’22和PLDI’22 AEC的现有文本。

要求人工制品

APLAS 2022将进行纸质验收后自愿工件评估(2022年新增!)。欢迎已接受的作者在收到论文通知后提交作品进行评估。结果不会改变书面验收决定。

一旦接受论文的作者收到接受通知,我们将发布提交链接。

提交

请通过HotCRP提交您的工件:

https://aplas22ae.hotcrp.com/

一般信息

研究工件不仅仅是显示原始代码和原始数据。人工制品评估过程有助于可再生研究和研究成果保护。一个包装良好的工件是确保您的作品在未来几十年的寿命和使用的关键。因此,你应该把这些包装好的文物的读者想象成博物馆里有计划的历史爱好者,而不是正在挖掘答案的考古学家。  

它属于虚拟机(或容器)! 

我们强烈建议将您的工件打包到一个虚拟机或容器中,该虚拟机可以开箱即用,只需很少的系统特定配置。 

我们鼓励所有作者提供工件的工作安装,以及源代码和构建脚本,以促进工件的重新生成。 

提供预先构建的虚拟机和容器比提供构建它们的工具更好,因为这减轻了对外部依赖性的依赖。   

对于某些提交文件,例如FPGA相关研究,不可能提供对硬件本身的访问。 

因此,我们建议作者考虑如何让审稿人能够访问他们的作品,以及可能的作品内容(如果有的话)可以捆绑在虚拟机或容器中,以演示其研究结果。 

工件评估是私有的

工件的提交并不意味着自动允许公开其内容。 

AEC成员将被指示,在完成评估期间或之后,他们不得公开提交的工件的任何部分,并且在评估之后,他们不会保留任何工件的任何一部分。因此,您可以自由地在工件中包含模型、数据文件、专有二进制文件和类似项。 

工件评估是单盲的。 

请采取预防措施(例如关闭分析、日志记录),以帮助防止意外了解审阅者的身份。 

提交要求

您向HotCRP提交的内容应包括三个方面:

  1. 您接受的论文的最新版本(最好是照相/读取版本)(pdf格式)。 
  2. A类自述.md解释工件的文件(详细信息如下)。 
  3. Zenodo链接(详情如下)。  

我们将在下一节中详细介绍工件的包装要求。 

自述.md  

这个自述.md文件是否提供审阅者在评审过程中使用工件的显著信息。   

具体来说自述.md文件应详细说明:

  1. 工件本身,提供关于正在提交的内容以及与提交的论文如何相关的显著信息;
  2. 工件的大小。   

Zenodo链接

请创建Zenodo(网址:https://zenodo.org/)存储库。如果您打算发布工件,可以选择Open Access for License。请注意,这将生成一个永久公开的Zenodo DOI。另一方面,您可以通过选中“受限访问”来创建“私有”存储库,这需要您向想要访问存储库的人(在我们的示例中是AEC成员)授予权限。   

包装要求

为了确保AEC成员的一致性,我们要求所有工件遵守以下要求。  

  1. “工件”必须以已知的开放格式作为单个存档提交。 
  2. 该工件的预期受众是来自未来的感兴趣的研究人员,而不是评论员本身。 
  3. 工件必须包含:
  • A类自述.md提供以下信息的文件关于档案馆;一个研究论文链接截面;一个入门指南; 分步说明将您提交的工件连接到提交的研究论文。 
  • 工件本身、包装指南可以在下一节中找到; 
  • 工件中包含的任何源代码的副本。   

关于存档

这个自述.md将是读者遇到的工件的第一部分之一。 

请使用此空间提供有关正在提交的内容以及与所提交论文的关系的显著信息,以及读者对与工件交互的期望,以及读者如何最佳地与工件交互。 

此外,除了详细说明与所包含工件交互所需的最低软件要求,以及工件依赖的外部依赖性(如果有),还明确说明用户可能需要容器/虚拟机的其他有用软件,例如,有哪些编辑器支持会很有用。   

研究论文链接

这个研究论文链接第节将详细说明研究工件如何与研究论文相链接。 

明确列出:

  • 工件支持的论文中的声明,以及如何/为什么。 
  • 论文中的声明不受工件支持,以及如何/为什么。  

例如:性能声明不能在VM中复制,作者不允许重新发布特定基准等。然后,工件评审员可以围绕这些特定声明进行评审/评估。 

入门指南

这个入门指南应该包含设置说明(例如,包括指向VM播放器软件的指针、其版本、密码(如果需要)等)和工件的基本测试,您希望审阅者能够在30分钟内完成这些测试。 

审查人员将在初始启动阶段遵循指南中的所有步骤。 

这个入门指南应该尽可能简单,但它应该强调工件的关键元素。任何关注过入门指南您的工件的其余部分应该没有技术问题。   

分步说明

分步说明解释了如何重现支持论文结论的任何实验或其他活动。为那些对你的工作有浓厚兴趣并正在研究它以改进它或与之进行比较的读者写下这篇文章。如果你的工件运行了几分钟以上,请指出这一点并解释如何在较小的输入上运行它。  

在适当的情况下,包括对代表预期输出的文件(包括在档案中)的描述和链接(例如,预期由您的工具根据给定输入生成的日志文件);如果有可以安全忽略的警告,请说明是哪些警告。 

为什么提交代码的副本?  

我们需要源代码/文档的副本以及工件,因为有时容器并不包含查看源代码的最佳方式。将其视为提供的源代码是乐谱,而容器是它的实际录制

包含工件

在包装您的工件时,请记住:a)您使其他研究人员能够多容易地访问您的工件,以及b)AEC成员对每个工件进行评估的时间有限。 

您的工件应该有一个容器或一个可引导的虚拟机映像,其中安装了所有必要的库。  

我们强烈建议使用以下技术来包含工件:

  1. 码头工人(https://www.docker.com)
  2. 虚拟盒子(https://www.virtualbox.org)

作者可能认为有帮助的其他技术包括:

  1. 封隔器(https://www.packer.io网站)用于脚本编写、登台、容器/虚拟机创建。  

使用容器或虚拟机映像提供了一种创建易于复制的环境的方法,它不太容易受到位腐烂的影响。这也有助于AEC确信错误或其他问题不会对其机器造成损害。 

谨慎的做法是,要注意生成的容器/虚拟机的最终大小。大小大于1 GB的任何内容可以是为那些不在大学网络上的人提供了大量下载。有一些小的、更轻量级的Linux发行版,可以帮助将虚拟机/容器大小减少到几百兆字节,而不是几千兆字节。还可以将不必要的软件从虚拟机中剥离出来。关于如何做到这一点,有很多指南。此外,是否需要一个完整的GUI或一个纯粹的TUI就足以提交?

我们强调,作者应该考虑如何将工件的大小减少到只包含必要的组件。 

您应该将您的工件上传到Zenodo并提交Zenodo链接。请使用文档的开放格式。 

与审核人讨论

我们预计每个工件将接受3-4次审查。 

在整个审查期间,审查将提交给HotCRP,并且(大约)持续供作者查看。AEC审查人员将能够持续(匿名)与作者互动,以澄清、系统特定补丁和其他后勤,以帮助确保工件可以评估。持续交互的目标是防止因“错误的库版本”类型的问题而拒绝工件。 

杰出作品

根据AEC之间的审查和讨论,一个或多个工件将被选为杰出工件奖。 

注释本文本改编自ESOP’22和PLDI’22 AEC的现有文本。 

评估方法

提交给APLAS AEC 2022的工件将根据提交的工件与所提供文档中设定的期望值的符合程度以及论文声明的呈现程度进行判断。 

我们将使用的具体高级指导方法是:

与论文的一致性

伪影应尽可能重现与论文相同的结果,即模实验误差。然而,并非所有报告的工作都可以在孤立的虚拟环境中复制。例如:与封闭源代码软件、使用和出口有限制的软件或需要注册才能使用的软件进行比较或涉及这些软件的工作;在某些裸金属机器上进行性能研究和实验;以及需要不可复制(或可访问)的实验装置(如数据中心)的分布式系统研究。 

在这些情况下,我们要求作者合理的&诚信在制作工艺品时,努力提出他们论文的主张。  

对于依赖于无法获得/难以获得软件能够包括报告结果的不同方面。同时也提供了如何重现论文主要结果的信息。例如,在无法获得比较软件的情况下,该工具可以做什么。 

例如,通过性能研究(和分布式系统)能够包括记录论文主张的人工制品(使用相同的实验软件),但设置不同。 

如果作者有任何疑问或担忧,我们强调作者在提交截止日期之前联系AEC主席。 

完整性

工件应该重现论文报告的所有结果,并且应该包括这样做所需的一切(代码、工具、第三方库等)

话虽如此,根据先前标准的评论,一些研究将依赖于现在或将来不容易获得的软件。虽然现在可以访问此类软件,但将来可能无法访问。  

与前面的标准一样:作者必须合理的&诚信尽可能完整地打包工件。如果没有,应该有明确的理由说明原因。 

文件

工件应该有很好的文档记录,以便重现结果容易且透明。 

易于重用

工件提供了在原始工作基础上构建所需的一切,包括源文件以及可以重新创建所提供二进制文件的工作构建过程。 

注释这些人工制品将根据论文提交版本中的声明和演示进行评估,而不是根据相机可读版本进行评估。 

徽章

评估成功后,提交的工件APLAS AEC 2022将授予徽章,详细说明如何满足评估标准。 

这三个徽章分别是:

  • 无障碍工件是否已公开。 
  • 已证实的人工制品是否支持论文的说法。 
  • 可扩展这个人工制品能被其他人用作进一步研究的基础吗。 

给定一个或两个已证实的,功能可扩展徽章被视为已接受。 

在决定已证实的可扩展徽章已经制作完成,任何人工制品的作者(包括那些未经AEC审查的,以及那些已审查但未发现的已证实的在审查期间)可以获得一个额外的徽章,因为他们的工件是持久可用的。 

我们现在详细介绍徽章及其要求。 

无障碍

我们希望这将是所有提交工件的基线结果。     The无障碍如果神器在Zenodo上公开,徽章将自动颁发。我们强烈建议但不要求已证实的工件也是无障碍个。原因是并非所有工件都可以公开发布。我们要求,如果档案不能公开共享,则在工件提交中明确说明并记录理由。 

已验证

这个已证实的如果文物支架论文中提出的主张。 

这是证明工件支持所提交论文中的声明的程度的基线结果。 

在理想情况下,具有此名称的工件包括所有相关代码、依赖项、输入数据(例如基准),并且工件的文档足以让审阅者重现本文中描述的准确结果。 

如果工件声称在某些方面(例如,在时间或准确性方面)优于相关系统,而另一个系统用于为论文生成新的数字(例如,现有工具是在相应出版物未考虑的新基准上运行的),则工件应包括该相关系统的版本,以及复制用于比较的数字的说明。如果替代工具在输入子集上崩溃,只需注意此预期行为。 

如果有索赔不能被工件证实,无论出于何种原因,这种偏差必须明确记录充分证实

偏离这一理想必须有充分的理由。合理偏差的完整列表包括:

  • 一些基准代码受到许可或知识产权限制,无法合法地与审查人员共享(例如,SPEC等许可的基准套件,或者当工具应用于私有代码时)。 

在这种情况下,应包括所有可用的基准。 

如果论文中的所有基准数据都属于这种情况,那么应该提供替代数据:提供一个没有可供评估的有意义输入的工具不足以证明工件有效。 

  • 一些结果是性能数据,因此确切的数字取决于特定的硬件。 

在这种情况下,工件应该解释如何识别在其他硬件上的实验何时再现高级结果(例如,某个优化显示了特定的趋势,或者在特定类别的情况下比较两个工具中一个优于另一个)。   

  • 在某些情况下,重复评估可能需要很长时间。在这种情况下,评审员可能无法重现全部结果。 
  • 在某些情况下,工件可能需要专用硬件(例如,具有特定新功能的CPU,或特定类别的GPU,或GPU集群)。 

对于这种情况,作者应在第一轮通知后尽快联系工件评估主席,以确定如何使这些评估成为可能。 

过去几年的一个结果是,一个需要专用硬件的工件用硬件支付了云实例的费用,审查人员可以远程访问。 

可扩展

最终徽章只能授予被判定的工件已证实的

这个可扩展徽章颁发给评审员认为包装、记录、设计等特别好的工件,以支持可能基于工件的未来研究。例如,如果其他人似乎比较容易将其直接重用为后续项目的基础,AEC可能会授予可重用徽章。对于被视为可重用的二进制工件,其他人必须能够在自己的研究中直接使用二进制,例如一个JAR文件,其中包含非常高质量的客户机文档,供其他人将其用作自己项目的组件。 

可以考虑带有源的工件可扩展如果:

  • 它们可以被重新用作组件; 
  • 其他人可以从源代码中学习并将知识应用到其他地方(例如,学习在单独的代码库中使用的实现或证明/形式化技术);
  • 其他人可以直接修改和/或扩展系统来处理新的或扩展的用例。  

评估过程

为了保持论文和工件审查的分离,只有在论文被接受后,才会要求作者上传工件。计划提交工件评估的作者应提前做好工件准备,以确保有足够的时间进行打包和文档编制。 

在整个工件评审期间,提交的评审将(大约)对作者持续可见。 

审查人员将能够持续(匿名)与作者互动,以澄清、系统特定补丁和其他后勤帮助,使工件可审查。 

持续交互的目标是防止因小问题而拒绝工件,而不是与研究相关的问题,例如“错误的库版本”类型的问题。 

会议记录将包括对持续工件评估过程的讨论。  

所有通信都将使用APLAS’22 AEC HotCRP实例进行。 

审查过程将包括三个阶段:

  • 第1阶段“脚踢轮胎”
  • 第2阶段“全面审查”
  • 第3阶段“铁杆出线”

有关审核过程的更多详细信息,请参阅审阅者信息

评估标准

对于最初的两个阶段,评审员将被要求根据以下明确的标准对工件进行“评分”

“脚踢轮胎”

  1. 工件是否正确打包并符合提交要求? 
  2. 能否按照“入门指南”顺利完成? 
  3. 工件是否充分记录了论文支持和不支持的声明?在适当的情况下,这包括详细说明与该文件所作声明的任何偏差,以及此类声明已被充分记录和合理化?   

主要审查。 

授予已证实的徽章:

  1. 工件开箱即用; 
  2. 工件包括所有相关代码、依赖项、输入数据(例如,基准); 
  3. 这些文档足以运行和复制论文中现在和将来声称的结果; 
  4. 该工件是一个合理的&诚信努力提出论文主张; 

授予可扩展徽章:

  1. 审查人认为该艺术品的未来消费者正在策划巡演; 
  2. 工件记录了工件如何扩展; 
  3. 工件记录了论文中的证明/代码与工件中的证明或代码之间的对应关系; 
  4. 评审员相信该工件在未来可以很容易地重复使用,作为后续项目的基础; 
  5. 审查者相信工件在未来可以很容易地修改和/或扩展,以处理新的或扩展的用例。 

分级方案

我们将使用的分级方案是:

  1. 强烈反对
  2. 不同意
  3. 同意
  4. 强烈同意

这个第20届亚洲程序设计语言与系统研讨会(APLAS’22)将举行首次人工制品评估委员会(AEC)。工件评估过程旨在促进、共享和编目APLAS研究轨道所接受论文的研究工件。我们正在寻找所有学术阶段的积极研究人员(博士生、研究人员、讲师和教授)加入我们的首届APLAS’22 AEC。

提名表格。

自我提名表:

要提名同事,请使用此表格

作为委员会成员,你的主要职责是审查被接受论文的作者提交的工件,并确保工件是被接受论文结果的忠实代表。这将涉及与作者提供的一些工具进行交互,检查主要论文的结果是否与论文中的声明一致,以及是否可供未来的研究人员复制。APLAS将使用一个三阶段的工件审查过程:Kick-The-Tyres;审查工件;和Iron-out-the-Wrinkles。委员会成立后,将向选定的委员会成员发出指示。

我们将完成以下提名:

  • 2022年7月8日星期五(AOE)

并通知选定的委员会成员:

  • 2022年7月15日星期五(AOE)

重要日期(AOE)

  • 作者作品提交:2022年8月18日星期四。
  • 审查人首选项截止日期:2022年8月23日星期二
  • 审查过程:
    • 第1阶段“Kick-The-Thres”审查截止日期:2022年8月31日,星期三
    • 第2阶段“全面审查”截止日期:2022年9月12日,星期一
    • 第3阶段“铁杆出击”到期日:2022年9月19日星期一
  • 作者通知:2022年9月22日星期四。

我们预计大部分审查过程将在2022年8月22日至2022年9月19日期间进行。我们预计大部分审查过程将在2022年8月22日至2022年9月16日之间进行。我们预计每个工件需要大约八个小时来评审,我们将为每个评审员分配三到四个评审。对于每个工件,我们将指派一名首席评审员领导评审过程。

审查过程

我们预计每个工件平均需要八个小时来评审,我们将为每个评审员分配三到四个评审。对于每个工件,我们将指派一名首席评审员领导评审过程。

审查过程是高度互动的,你将与作者进行匿名交流,你将知道你的同行的身份。

所有通信都将使用APLAS’22 AEC HotCRP实例进行。

第1阶段“脚踢轮胎”

第一阶段的目的是确保工件已准备好进行评审。审查过程的第一阶段将要求审查人员检查他们是否能够:

  1. 使用提供的说明获取工件。
  2. 仔细阅读“入门指南”,以确保工件适合主评审。

每个评审员将被要求根据这些检查提交一份简短的评审。这些初步审查将立即提供给作者,他们将能够与审查人员沟通,以解决发现的任何问题。

第2阶段“全面审查”

第二阶段的目的是根据论文对工件进行彻底评估,并提交完整的评审,必要时扩展和扩展初始阶段1评审。和以前一样,这些评论将立即提供给作者,他们可以通过HotCRP与您沟通。

在此阶段,您将决定提交的工件是否满足徽章的主要标准。

第3阶段“铁杆出线”

我们预计,大多数评估将在最初的两个阶段之后完成。然而,第三个阶段是针对在第2阶段之后评审过程仍然存在问题的工件。这个额外的阶段将为作者和审阅者提供额外的时间来讨论和解决阻止工件被审阅的任何相关问题。

评估指南

SIGPLAN为审查实证评估提供了一些指导。

https://www.sigplan.org/Resources/EmpiricalEvaluation网站/

2018年ECOOP委员会制定了一些审查证据人工制品的指南:

https://proofartifacts.github.io/guidelines/ecoop_guidelines.html

关于证明工件的一些更通用的指导是:

https://proofartifacts.github.io/指南/

该呼吁改编自PLDI’22/ESOP’22 AEC审查员信息指南。