帮助评估研究可信度

项目概述

SMART：研究可信度的缩放机评估

开放科学中心（COS）及其合作者正在以DARPA资助的SCORE项目期间完成的工作为基础，该项目展示了使用算法有效评估大规模研究主张的潜力。这个SCORE计划补充了现有的研究评估方法，包括人类判断、证据聚合和系统复制。

通过罗伯特·伍德·约翰逊基金会（RWJF）的资助，COS与墨尔本大学和宾夕法尼亚州立大学的研究人员合作，开始了SMART项目，该项目旨在推进研究主张的自动化置信评估的发展(此处发布新闻稿). SMART将通过开展用户研究和生成额外数据来扩展SCORE项目启动的研究工作，以改进项目期间开发的算法和人类评估方法。

SMART的第一阶段将邀请研究人员作者自愿提交论文进行评估。论文将由我们的合作伙伴进行两种类型的评估：（1）人的评估和（2） AI评估这些评估将与论文作者分享，然后他们将有机会对评估提供反馈。

我们希望让研究界作为合作伙伴来探讨自动化研究评估的潜力。提交论文的作者不仅会收到对其研究可信度的两次单独评估，还将有机会就评估分数以及方法和过程提供反馈。重要的是，作者可以提供支持或反驳的证据来证明分数的质量和准确性，也可以指出他们的论文是如何被错误评估或误解的。总的来说，我们希望了解研究人员是如何看待研究可信度的自动评分的，以及这对研究界最有用的因素。

如果你感兴趣，可以考虑提交你的论文以纳入研究！注册前，请阅读“资格和流程”部分中的信息。

如何注册

从现在到2024年8月，我们将接受文件。

如果你想参加，请填写知情同意书。在提交表格之前，请务必附上符合我们资格标准的最新论文。

如果你同意你的论文被纳入这个项目，我们鼓励您向论文的任何合著者通报这项研究。

有关此项目的更多信息以及参与内容，请参阅下面的常见问题解答。如果您有任何其他问题，请通过联系我们smart_protoyping@cos.io。

本研究由罗伯特·伍德·约翰逊基金会（拨款编号79762）资助，并已获得弗吉尼亚大学社会和行为科学机构审查委员会（方案编号6226）的批准。

资格和流程

资格

要参加这项研究，你需要提交一份你是作者的合格论文。您必须年满18岁才能参加。

该文件应：

报告基于人类、社会或经济数据的定量实证研究
最近写过、上传过、提交过或发表过（最好是在过去12个月内）
包括一个积极的实证结果，以支持论文提出的重点主张（即支持作者主张的结果）

目前，我们主要感兴趣的是预印本来自心理学、教育学、社会学、营销学和犯罪学研究。我们还接受目前正在审查或修订的论文，最近被接受发表的论文，以及尚未提交给预印本服务器或期刊的论文。

如果您不确定您的论文是否符合资格，但希望参与，请填写知情同意书，并附上论文链接，我们将告知您论文是否符合条件。

过程

从现在到2024年8月，我们将接受文件。

智能图形

一旦您同意在本研究中使用您的论文，我们将首先确认它符合我们的资格标准。然后，我们将确定您论文的关键要求，这将是评估的重点，并将其发送给您，以便您有机会进行审查。我们将通过您随所选索赔提供的电子邮件联系您，或让您知道您的论文不合格，一周内从您提供同意开始。从那里开始，你会一周对所选索赔作出任何更正或建议。

之后，我们将把论文和索赔纳入我们的数据集，发送给我们的合作伙伴，他们将执行人工智能和人类评估。论文将分批（即每隔几个月）发送给我们的合作伙伴，因此您的论文将在一定时间内与其他一些论文一起进行评估，然后这批评估将返回给我们

评估完成后，我们将通过电子邮件与您共享评估报告。你可以期待收到你的评估报告大约4-8周内提交您的同意书。届时，我们还将要求您通过几个简短的调查（每个报告一个调查）提供有关评估的反馈。你会有大约3周完成调查（我们将发出一些提醒）。

稍后，将邀请对评估提供反馈的一小部分参与者参加用户研究访谈，了解他们对评估的体验，包括潜在用例、解释挑战、有效性和可靠性以及感知风险。如果您被选中参加用户研究面试，我们会主动通知您大约2-6周内收到您的调查答复。届时，我们将分享有关该流程的其他详细信息，以便您决定是否参与。

本研究由罗伯特·伍德·约翰逊基金会（拨款编号79762）资助，并已获得弗吉尼亚大学社会和行为科学机构审查委员会（方案编号6226）的批准。

背景

研究的可信度对于维持公众对科学的信任至关重要。评估研究主张的可信度是科学过程中一个核心、持续和艰巨的部分。评估策略从专家判断到汇总现有证据，再到系统的复制工作，都需要大量的时间和精力。如果我们可以创建在几秒钟内达到类似精度的自动化方法，该怎么办？如果可能的话，读者、研究人员、评论员、资助者和政策制定者可以利用这些信息将注意力引向高置信度索赔，并改进资源分配，以审查重要但不确定的索赔。随着新证据的出现，自动化方法可以使更新索赔可信度的方法更加容易访问和可扩展。改进快速信心评估将促进公众对研究的信任，并增加评估研究证据的机会和公平性。

有大量证据表明，已发表的研究结果在可信度和可复制性方面存在差异。2019年至2022年由DARPA资助的SCORE项目建立在人类和机器可以预测可复制性的初步证据基础上。SCORE以前所未有的规模和学科范围扩展了这些努力，包括了对索赔的评估，这是一篇研究论文中的一项具体断言，该论文发表于2009年至2018年，来自社会行为科学的62种期刊，如经济学、教育学、，和健康研究——有四种新颖的人工智能策略，以及1000多名研究人员提供的来自人类判断和经验复制、稳健性和再现性测试的验证证据。我们观察到证据表明，可扩展的置信度评估算法具有可行性，并为将这些工具转化为应用奠定了基础。例如，在最近的性能评估中，算法能够预测人类专家对索赔可信度得分的评估（即0-1区间的数值估计，表明索赔“成功”复制的概率），至少达到中等程度，三个算法团队中的每一个与人类判断的相关性都在0.33-0.40之间。

我们将邀请研究人员自愿提交论文，以便根据算法进行评分。我们还将与墨尔本大学的RepliCATS团队签订合同，进行结构化启发过程，他们在SCORE中使用该过程来获得相同论文的人类专家评分。提交论文的研究人员将收到算法和人类的评估，然后提供他们对工作流、界面和评估分数的反馈。特别令人感兴趣的是，作者提供支持或反驳的证据，证明分数的质量和准确性，并为他们提供一个论坛，表达他们的论文可能被错误评估或误解的原因。提交论文并代表一系列领域和对分数质量和准确性的看法的研究人员子集将被邀请参加用户研究访谈，了解他们对原型的体验，包括潜在用例、解释挑战、有效性和可靠性，和感知风险。原型将成为生成训练和测试数据的自然主义路径，以补充SCORE中更系统的方法。

本研究由罗伯特·伍德·约翰逊基金会（拨款编号79762）资助，并已获得弗吉尼亚大学社会和行为科学机构审查委员会（方案编号6226）的批准。

常见问题解答

一般流程

参与者会得到补偿吗？

目前，提交论文和完成调查没有任何金钱补偿。然而，作为您参与的一部分，您将收到对您的研究的新型人工智能和人类评估，您提供的任何输入都将有助于告知这些新型研究评估方法的持续发展及其在科学研究中的用途。

在稍后阶段，将邀请对评估提供反馈的一小部分参与者参加用户研究访谈，了解他们对评估的体验。面试结束后，参与者将获得50美元的礼品卡。

如果我不想再参加该怎么办？

您可以随时退出研究，不受处罚。如果您想从研究中删除，请告诉我们，这样我们就可以将您从我们的联系人列表中删除。本研究将使用截至退出时提供的所有数据。

在我收到评估并填写调查后，下一步是什么？

现在就到此为止！如果您被选中参加研究的面试部分，我们将在稍后时间与您联系。您也可以在2024年8月之前提交另一份论文。

提交论文

研究论文的合格标准是什么？

该文件应：

报告基于人类、社会或经济数据的定量实证研究
最近写过、上传过、提交过或发表过（最好是在过去12个月内）
包括一个积极的实证结果，以支持论文提出的重点主张（即，支持作者主张的结果）

要参加这项研究，你需要撰写一篇符合上述标准的论文。您必须年满18岁才能参加。

目前，我们主要感兴趣的是预印本来自心理学、教育学、社会学、营销学和犯罪学研究。我们还接受目前正在审查或修订的论文，最近被接受发表的论文，以及尚未提交给预印本服务器或期刊的论文。

如果您不确定您的论文是否符合资格，但希望参与，请填写知情同意书并附上您的论文，我们将告知您论文是否符合条件。

我的合著者呢？

如果您同意将您的论文纳入本项目，我们鼓励您将此研究告知论文的任何合著者，以便他们了解。您也可以通过共享此网站的链接邀请他们参与研究。

我可以提交多篇论文吗？

对！事实上，如果您有多篇合格的论文需要评估，我们鼓励您提交多篇论文。

如何从我的论文中选择索赔？

COS研究团队的一名训练有素的成员将从您的论文中确定重点要求，这将是评估的重点。在您提交论文后的一周内，我们将通过电子邮件与您共享确定的索赔。然后你会有7天在将识别的索赔纳入数据集之前，为其提供任何更正或建议，该数据集将与人工智能和人类评估团队共享。

如果我的论文不合格，但我仍然想参加该怎么办？

欢迎您再寄一份可能符合条件的论文给我们。

评估

评估研究的方法是什么？

人员评估将由复制团队遵循IDEA协议AI评估将由SCORE项目中的一个AI团队执行，方法如关于SCORE的预印本。

我何时以及如何收到评估报告？

人工智能和人类评估报告将通过电子邮件大致与您共享4-8周在你提交论文之后。

我可以与他人分享我的评估报告吗？

当然！我们只要求您提供本研究的背景（例如，通过链接到此网站），并赞扬生成报告的团队（在墨尔本大学或宾夕法尼亚州立大学复制）。

谁能看到我论文的评估报告？

评估报告将被视为机密；一旦生成，它们将只与您共享。在项目期间，以下团队将有权访问评估报告：

开放科学中心的研究团队
人类评估团队-墨尔本大学的副本
人工智能评估团队-宾夕法尼亚州立大学的研究人员

评估报告将保存在一个安全的谷歌驱动器中，只有研究人员才能通过IRB协议访问该驱动器。除非得到您的明确许可，否则我们不会公开分享评估报告。

在评估期间报告不会被分享，我们计划公开分享定量评估分数（有关更多详细信息，请参阅下面的问题）。

谁能看到我论文的评估分数？

定量人工智能和人类评估分数将与公共论文、一些基本论文元数据（例如标题、出版年份等）以及确定的索赔链接一起公开共享。这些输出将在OSF公司在项目结束时。请注意，这仅适用于公开论文——提交用于纳入本研究的任何非公开论文都不会公开共享。

调查

调查需要多长时间，需要什么？

当我们与您分享人类和人工智能评估报告时，您将被邀请参加两次简短的调查，以对每个评估提供反馈（每个评估一次调查）。每个调查大约需要5-10分钟才能完成。

我的调查回复会怎么样？

人工智能和人类评估调查的答案将完全匿名，并与您的论文和评估断开连接。已确认的调查答复将在OSF公司在项目结束时。

我们将与合作伙伴分享反馈，并提供关键信息，以便他们能够将反馈链接回评估报告。

用户研究访谈

用户研究访谈需要什么？

部分参与者还将被邀请参加一个简短的用户研究访谈，了解他们在论文的人工智能和人类评估方面的经验。在这些访谈中，将探讨有关潜在用例、解释挑战、有效性和可靠性以及感知风险的主题。我们的目标是确定来自不同领域、观点不同的研究人员参与这些访谈。

面试结束后，参与者将获得50美元的礼品卡作为补偿。

我的面试回应会怎么样？

原始面试回答不会公开分享；只有未经确认的引用或摘录才会被分享。面试回复将完全匿名，并将与你的论文和评估断开连接。未经确认的引用或摘录将在OSF公司在项目结束时。

帮助评估研究可信度

SMART：研究可信度的缩放机评估

如何注册

资格

过程

背景

常见问题解答

一般流程

提交论文

评估

调查

用户研究访谈

参与进来

如果您想参加，请填写知情同意书。在提交表格之前，请务必附上符合我们资格标准的最新论文。

从现在到2024年8月，我们将接受文件。

帮助评估研究可信度

hbspt.cta._relativeUrls=true;hbspt.cta.load(6723653, '9a00f894-ae4b-43c5-b749-6797b757a855', {"useNewLoader":"true","region":"na1"});

SMART：研究可信度的缩放机评估

如何注册

资格

过程

背景

常见问题解答

一般流程

提交论文

评估

调查

用户研究访谈

参与进来