研究论文

开放式访问

普通纸：通过自然语言处理使医疗保健消费者能够接近医学研究论文

作者:

安得烈头部，以及

文章编号：74页1-38

https://doi.org/10.1145/3589955

出版:2023年9月23日出版历史

PDF格式电子阅读器

摘要

当寻求患者友好型文档中未涵盖的信息时，医疗保健消费者可能会求助于研究文献。然而，阅读医学论文可能是一种挑战性的经历。为了提高对医学论文的访问，我们探索了自然语言处理的四个功能：不熟悉术语的定义、现场的纯语言章节摘要、引导读者回答文章的关键问题集合以及这些文章的纯语言摘要。我们将这些功能体现在原型系统中，普通纸张。我们评估普通纸张研究发现，与使用典型PDF阅读器的参与者相比，使用原型系统的参与者阅读研究论文更容易，而不会损失论文理解能力。总之，研究结果表明，引导读者阅读相关文章，并在原始论文内容的同时提供简明的语言摘要，可以使阅读医学论文更容易，并使读者更有信心接近这些论文。

1引言

一个强大的公共卫生系统依赖于及时向需要的人传播医学发现。大多数情况下，人们通过与医生的对话、印刷材料（如小册子）和在线资源（如MedlinePlus或医院网站）随时了解医疗发现[33,57,113]. 然而，这些资源并不涵盖所有医疗条件和治疗[12,92]尤其是新兴研究的重点[23,88]. 最新的医学知识通常只出现在医学研究文献中[35,39,84,103,115]. 对于医疗保健消费者，如患者、他们的家人和其他护理人员来说，了解最新研究可能意味着熟悉文献。用一个病人的话来说[5]:

我一直在通过PubMed和Google Scholar上的免费文章研究CLL[慢性淋巴细胞白血病]…阅读这些NIH论文使我能够与CLL专家进行明智的对话，最终导致我选择了一项临床试验。

对于上述患者，研究文章提供了对前沿医学发现和基础研究细微差别的认识。患者不需要完全理解文章就能获得一些有用的信息。从这些文章中，患者可能会发现并与他们的医疗服务提供者分享与治疗选择相关的信息[35,84,115].

然而，医疗保健消费者在理解医学文献方面的成功绝非十拿九稳。医疗保健消费者报告说，毫无疑问，医学论文很难阅读[35,83]. 这部分是由于被大量不熟悉的术语所淹没。这也是因为医疗保健消费者不习惯研究的进行方式和报告的结构[20,35]. 结果是，阅读医学论文可能是一种具有挑战性的经历，有时会让人泄气。

在这篇文章中，我们询问交互式信息界面如何使需要它的非专业医疗保健消费者能够接近医学研究文章，我们在本文中称他们为“读者”。特别是，我们研究如何为文章注入新的启示，以帮助读者导航和评估其内容。人机交互文献展示了阅读界面可以帮助读者的多种方式，包括帮助他们理解不熟悉的术语[8,47]，隐藏预测不相关的部分[17]，并回答用户编写的问题[114]. 以这项工作为灵感，我们询问需要什么样的启示组合来帮助弥合读者当前的生物医学研究知识与论文内容之间的巨大差距。考虑一下，这句话来自一篇关于系统性红斑狼疮的论文，链接自一个正在接受患者治疗的MedlinePlus页面[101]:

最显著的事件包括死亡细胞凋亡受损 I干扰素 （干扰素） 签名、T淋巴细胞和B淋巴细胞的非受控激活以及主要针对核酸或 核糖核蛋白类 （注册护士）.

这句话很难理解，不仅因为它包含技术术语，而且在组合中这些词构成了一个如此陌生的句子，以至于读者在没有从别处学习大量背景知识的情况下几乎没有机会理解它。读者不仅需要知道“自身抗体”和“核糖核蛋白”是什么意思，还需要知道一种抗体的产生如何意味着其病情的发展和对健康的风险。一篇医学论文包含的不是一个句子，而是数百个这样的句子，这使得读者很难找到，更不用说理解对他们来说重要的信息。交互式界面如何通过将普通语言与论文内容结合在一起，使医学论文更容易阅读？

本文探讨了未来的互动辅助工具如何超越其典型功能，帮助读者根据他们已经知道的语言了解在哪里可以找到论文中感兴趣的信息。我们首先对12位非专业读者进行形成性观察研究，以确定阅读医学研究论文的障碍。我们观察到，除了预期中普遍存在的理解充满未知术语的段落的困难外，读者还很难知道论文的哪些部分需要阅读，并且常常花费大量精力来理解对他们来说用处有限的章节。这些发现表明，阅读医学论文对我们想象中的读者来说是一项独特的挑战，因为他们缺乏领域知识，也不了解医学研究是如何传播的。这些读者的增强阅读界面需要超越以前定义术语的界面的功能[47]，提供摘要[45]或允许读者对论文提出问题[114]-并提供阅读体验，引导读者获得论文背景下的有用信息。

为了改善对医学论文的访问，我们探索了自然语言处理所支持的四个功能（如图1)并将它们体现在一个新颖的交互系统中，普通纸张通过迭代设计过程。第一，普通纸张通过提供“关键问题索引”，帮助读者在论文中找到与他们相关的信息，该索引列出了医疗保健消费者可能希望询问的有关医学研究的重要问题。其次，当读者点击其中一个问题时，他们会被带到论文中回答问题的一段，并附上“答案要点”，即该段的简明摘要。第三，普通纸张用“章节要点”传达术语密集段落的精髓，为论文的每一节提供现场简明语言摘要。最后，普通纸张通过允许读者通过单击术语来查找定义，帮助读者理解不熟悉的术语。关键问题索引和要点是研究论文阅读应用中的新特征；术语定义出现在之前的阅读系统中，并被纳入普通纸张作为构成整体阅读支持系统的组成部分之一。第节描述了系统的设计4.

图1。

我们设想普通纸张作为一个系统，有一天可以为任何医学研究论文启用。该系统借鉴了生物医学问答自然语言处理方面的积极研究[112]，纯语言生成[45]、和术语标识[82]. 当前文本生成功能的一个限制是生成实际错误或不一致的文本的风险，通常称为“幻觉”[75]在医疗环境中部署任何系统都需要算法改进和人工监督（例如，众包事实检查或专家审查）来检测实际错误的代[58,75]. 有关此领域当前自动化进展的示例，请参阅[41,62,71]. 在本文的背景下，我们对生成的文本进行了精心策划，以确保真实性和文本连贯性（更多详细信息请参阅第节5和附录C类). 这使我们能够专注于发展互动，使读者能够有意义地参与医学研究论文。章节5描述了普通纸张以及注册信息的人工管理，而8.3更深入地讨论了文本生成模型在我们的应用程序中的局限性。虽然到目前为止，我们的实现依赖于一些人工管理，但这个项目作为一个整体表明了阅读体验的潜力，例如普通纸张在科学文献上大规模部署。

评估如何普通纸张为了支持阅读体验，我们进行了一项24部分的参与者可用性研究，参与者阅读的论文有以下变体普通纸张或在定时阅读任务期间的典型PDF阅读器。研究表明普通纸张降低了参与者自我报告的阅读难度，增强了他们发现自己感兴趣的所有信息的信心。当被要求回答测试他们对论文理解程度的问题时，参与者回答问题的准确性既没有明显提高，也没有降低普通纸张.

最受欢迎的功能是关键问题索引和答案要点。参与者还使用并赞赏章节要点和术语定义，尽管当关键问题索引可用时，参与者倾向于不使用它们。总之，该研究表明，提供指导和简明语言总结的阅读界面确实可以引导读者发现论文比传统阅读工具更平易近人。

总之，本文贡献了：

(1)

描述读者阅读医学研究论文时面临的障碍。这些发现呼应并扩展了先前关于医疗信息消费障碍的研究结果[35,83,97]通过说明医疗保健消费者在医学论文中面临的障碍，重要的主题包括读者不确定在哪里可以找到论文中的相关信息，以及术语过多（第节三).

(2)

普通纸张这是一个生物医学论文的阅读界面，它将术语定义工具提示等已知启示与论文部分的现场简明语言摘要的新启示以及引导读者用配对简明语言回答文章的关键问题索引结合在一起（第节4).

(3)

来自可用性研究的证据表明，这些新的启示帮助读者在论文中快速找到对他们有用的段落。参与者使用普通纸张与典型的PDF阅读器相比，的关键问题索引和答案要点显示，阅读论文要容易得多，并且更有信心在回答论文问题时发现所有相关信息的正确性没有显著差异（第7).

2背景和相关工作

2.1医疗保健消费者阅读医学研究

对消费者健康信息寻求的研究表明，可信的在线健康信息可以增强医疗保健消费者的能力，改善医患互动，提高对医疗建议的遵守程度[22,33,52,102]. 基维茨[57]探讨了医疗保健消费者为什么在互联网上搜索医疗信息，发现搜索的动机包括帮助自己和填写临床医生缺失的信息。Cartright等人。[28]区分了两种类型的健康信息搜索行为：基于证据的，关注症状的细节；基于假设的，关注对特定诊断的理解。工作还研究了人们如何在网上搜索健康信息[33,86]，通过社交媒体分享[30]以及在线搜索如何提高医疗保健利用率[111].

虽然互联网是消费者健康信息的良好来源，但它也给搜索者带来了挑战[97,99]. 一项研究发现，与文献中的证据相比，排名靠前的搜索结果可能过于接近健康干预的效果[110]. 当搜索者遇到不相关的搜索结果、复杂的文本以及来自多个来源的相互矛盾的指导时，他们也可能会遇到信息过载的问题[12,53,97,99]. 搜索者不可能总是自己解决这些问题，相反，可能需要咨询他们的临床医生以理解他们发现的信息[97].

无论是通过网络搜索还是其他方式找到，医学文献在提供有关健康状况及其治疗的具体、详细、最新信息方面发挥着重要作用[115]. 因此，研究界和倡导团体都呼吁将文献提供给医疗保健消费者。2005年，NIH制定了一项开放获取政策，部分目的是鼓励医疗保健消费者与他们的护理团队协商，对自己的医疗保健和相关研究进行自我教育[84]. 近年来，公众越来越认识到，包括倡导团体和医疗保健消费者在内的公共利益相关者从使用初级医学研究成果中受益[35,39]. 今天，医学界开展了一项运动，让患者更多地参与研究过程，包括了解实验室报告[81]，审阅研究论文[89]和领先的研究成果[76,80]. 研究表明，这一开放获取政策对公众有益，其中一个好处是改善了医疗工作者和消费者对研究结果的获取[103].

与此同时，医学研究和更广泛的科学研究对缺乏研究专业知识的读者构成了独特的障碍[78]. 纳恩和品菲尔德[83]就获取医学文献的原因以及他们对为医学论文撰写的概述的回应，采访了医疗保健消费者。他们发现，读者们欣赏非专业的摘要，但通常还是想亲自阅读这篇文章。同时，其他研究发现，与期刊摘要相比，非专业摘要有助于提高读者的理解力[54]. Bromme和Goldman[21]强调了公众在阅读科学信息时面临的障碍，包括确定相关内容的能力以及缺乏领域专业知识。Day等人。[35]概述了通过医学研究进行搜索的其他障碍，如缺乏足够的科学素养、从研究结果中得出不准确结论的可能性，以及没有足够同行评审的虚假期刊。Britt等人。[20]认为科学素养是有效评估科学文本的能力，但由于复杂的论点和不熟悉的文本结构，这是一个挑战。我们的项目说明了交互式阅读界面如何通过一个新颖的交互式系统使医疗保健消费者能够访问医学研究论文。

2.2交互式阅读界面

普通纸张从以前使用术语定义的交互式阅读系统中获得灵感[47]，问题解答[29,114]和指导阅读[38]. 之前的工作通过围绕文档构建问题，为学生和研究人员制定了阅读指南。询问生物学[29]是一本生物教科书，增加了支持学生学习的功能。教科书允许学生查看概念定义，并就教科书中的信息提出开放式问题。如果学生不确定要问什么问题，教科书还根据突出显示的段落推荐可能的问题。在另一个学生资源中，Dzara和Frey-Vogel[38]介绍了一种新的进行阅读小组的方法，通过对论文的方法和发现提出问题来指导阅读讨论。赵和李[114]介绍了“与论文对话”，一个用于探索研究论文的自然语言问答系统。“与论文对话”允许用户查询带有自然语言问题的论文，并提供从中获取答案的段落。其他工作构建了用于在论文中导航概念的工具[8,51]在教科书中提供阅读指导[26,109]. 也有用于协作阅读研究论文的交互式系统，如费马图书馆[1]，为流行研究论文提供社区注释，以及Hypothes.is[2]，允许用户在任何网页上注释和共享注释。

工作还为文件添加了摘要和定义，以帮助阅读。在阅读研究论文的背景下，Head等人。[47]介绍了ScholarPhi，一个PDF阅读器，为论文中定义的术语（非标准词）提供位置感知定义，以及在论文中显示这些术语的功能。在一项可用性研究中，研究人员能够使用界面更容易地阅读论文。在临床背景下，UpToDate[4]为医疗保健提供者提供当前研究的专家撰写摘要。其他工作探索了自适应摘要的工具[17]和研究文献的评价[65,73],

与之前针对临床医生、研究人员或学生的研究论文的阅读界面不同，本项目侧重于互动，以使论文能够被医疗消费者理解。在一些关键方面，以前的设计无法支持这些预想的读者。医学研究文本非常复杂，读者必须花费大量精力学习背景知识才能理解它。以前的界面假设读者知道要问什么重要问题[114]，在哪里寻找答案[29]或者知道如何理解论文中的术语定义[47,51]对我们想象中的读者来说，阅读会变得非常困难。普通纸张超越了交互式读者的典型能力，而是帮助读者根据他们更可能知道的语言，了解在哪里可以找到论文中感兴趣的信息。为了做到这一点，该系统将普通语言与原始论文内容结合在一起。

2.3用于科学文本处理的人工智能

普通纸张利用进展自然语言处理(自然语言处理)开发这些信息是为了让公众，特别是医疗保健消费者更容易理解医疗信息[36,108]. 最相关的技术普通纸张自动定义或替换术语[105]，纯语言摘要[37]和消费者生物医学问答[7]. 与此相关的还有鼓励使用简单语言的写作工具[44]，因为为这些系统供电的底层技术与普通纸张（例如，生成简明语言）。普通纸在其实现中集成了这些进步，以展示这些方法如何在用户界面中支持医疗保健消费者，并指出在科学文献中扩展这种阅读体验的潜力。

工作引入了定义术语、简化文本和回答生物医学问题的自动化方法。Veyseh等人。[105]提出了一个基于网络的首字母缩写词识别系统，该系统适用于生物医学、科学和通用领域，Murthy等人。[79]探讨了如何用读者可以识别的术语来定义科学术语。Devaraj等人。[37]介绍了一个针对临床主题的医疗保健消费者摘要的新数据集，以及一个用于简化医学文本的经过训练的模型，Guo等人。[45]使用纯语言摘要训练生成生物医学文本摘要的模型。另一种让更广泛的公众可以使用医学语言的方法是为医疗保健消费者建立问答系统。阿巴查和德默尔·福什曼[7]从美国国立卫生研究院网站收集了消费者健康问题的数据集，并开发了自动回答这些问题的方法。Mrini等人。[77]介绍了改进长期复杂的消费者医疗问题答案回忆的方法。其他工作自动对医疗保健消费者提出的问题进行分类[91].

在写作工具方面，Gero等人。[44]使用生成模型帮助研究人员编写“推文”，这是一条线索推文，旨在向普通观众介绍推特上的科学概念[19]. 其他工作引入了写作工具来帮助记者[55]或者临床医生用更简单的术语书写[64,87,104]，通过将技术术语替换为更常用的术语来简化文本[14,61,85]，简化电子处方和医疗说明[27,66].

普通纸张利用这项积极的研究来改善对医学论文的访问。章节5深入讨论了使本研究为医疗保健消费者阅读医学研究论文提供有用输出所需的调整。

3非专业读者的观察

为了收集更多直接和全面的证据来证明这一人群的障碍，我们进行了一项有声阅读研究。之前关于障碍的工作重点是消费者健康信息[97]、其他领域的科学研究[78]，名学生[95]，或搜索医学文献[35]但对于阅读医学研究论文的非专业人士来说，这些障碍是如何表现出来的尚不清楚。

3.1形成性研究

我们希望观察医疗保健消费者在阅读医学研究时面临的障碍。然而，这些阅读片段的时间很难预测，因此很难观察到真实的阅读体验。作为一种折衷方案，我们根据对四位有阅读医学研究经验的医疗保健消费者和两位与患者讨论医学论文结果的医疗保健提供者的采访，制定了场景。参与者是通过我们的个人和专业网络以及推荐招募的。

根据这些访谈，我们设计了四种不同的场景，涵盖以下维度：诊断、人口统计学（即诊断中常见或不常见的情况）、与患者的关系（即患者与看护人的关系）和动机。每种情况都有两种可能的诊断：椎间盘突出或系统性红斑狼疮（SLE，也称为狼疮）。之所以选择这些诊断，是因为它们相对常见，对患者来说是严重的长期问题。动机是：学习背景特定信息，了解新出现的治疗方案，并比较治疗方案。一位熟悉消费者健康的医疗研究人员验证了这些场景的真实性。有关这些访谈和场景的更多详细信息，请参阅附录A类。根据这些情景的发展，我们招募了参与者，在一项有声阅读研究中演练这些情景。

3.2参与者和招聘

我们通过Upwork（一个用于雇佣自由职业者的群居网站）招募了那些在医学专业和从事研究方面没有经验的参与者。我们将我们的工作列在“编辑和校对”和“客户研究”（即工人参与用户调查）下，以吸引具有不同阅读和写作经验的广泛工人样本。所有参与者在为期一小时的研究中获得15美元的报酬。¹我们在第节中讨论了这种招聘策略的可能局限性以及付费定时任务的存在8.4共有12名参与者完成了研究（T1-12）。在这些参与者中，11人完成了大学学业，5人完成了专业或研究生学业。自高中以来，有11名参与者参加了3门或更少的STEM课程。

3.3程序

参与者被随机分配到第节描述的四种场景中的一种3.1。每个场景分配给相同数量的参与者。为了确保参与者在接触论文之前具备一些先验知识，他们首先阅读了一个消费者健康网页（MedlinePlus），了解他们场景中的医疗状况。这个MedlinePlu步骤旨在近似现实情况，参与者将从医生那里获得关于其诊断的信息。在阅读完MedlinePlus页面后，参与者浏览了一个列表，其中包含11篇研究文章，这些文章都是从MedlinePlu斯链接的PubMed文章中挑选出来的。MedlinePlus是一个面向患者的医疗信息资源，因此我们推断，从中链接的论文将代表那些读者首先会关注的内容。我们选择的论文是（1）综述文章或随机对照试验，以及（2）与场景相关的论文。在实际的健康信息搜索中，读者无疑会遇到不相关的信息[97]这项研究的重点是阅读论文的障碍，而不是搜索论文并确定其相关性。参与者选择要查阅的论文，这使我们能够了解论文内容如何影响参与者选择深入阅读。参与者有足够的时间阅读一两篇论文（要求所有人至少阅读一篇论文）。

参与者被要求阅读总共40分钟，分为MedlinePlus摘要页和他们选择阅读的论文。参与者在阅读时大声思考。如果他们还没有主动提供这些信息，他们还被要求每5分钟做一次笔记或大声说出遇到的任何障碍。在场的研究人员有时会要求参与者详细说明这些障碍。阅读后，研究人员采访了参与者，询问他们阅读研究文章的困难之处，以及他们认为智能阅读工具如何帮助他们更有效地阅读。访谈后，参与者填写了一份问卷，报告他们的医学素养和以往的研究经验。

为了分析读者面临的障碍，一种反身主题分析[15,18]根据有声思维和问卷数据进行。我们跟踪了布劳恩和克拉克[18]主题分析的六个阶段。一位作者通过重读抄本和重新观看访谈，记录读者面临的障碍，从而熟悉了访谈数据。该作者根据这些观察结果生成了屏障的初始代码，并与其他四位作者通过讨论（在会议上，以及在Google Docs上异步）迭代修改了屏障。作者回顾了每一个障碍和支持证据的强度。通过这些讨论，完善了障碍并指定了候选人姓名。在细化障碍之后，第一位作者重新访问了数据，并检查了障碍与研究观察结果之间的一致性。通过与第一作者和其他四位作者的讨论，进一步细化了障碍并指定了描述性名称。

3.4调查结果

我们的研究揭示了读者在阅读医学研究论文时面临的一系列障碍。表1列出了这些障碍。下面我们将说明这些障碍是如何体现在阅读医学论文的非专业人士身上的，并重点介绍为设计提供机会的具体实例。

表1。

屏障	描述	报价	读者
不熟悉的术语	读者不理解生物医学研究领域的个别术语和符号。	“这个词是什么意思？”	T1-3、5-8、10-12
极其密集的文本	读者很难理解包含过多技术术语的段落。	“我不会表现得像我理解这一切意味着什么。”	T1-8、11-12
不知道该读什么	读者不知道哪些章节值得他们关注，他们花费了大量精力阅读无信息的章节。	“为什么我要浪费那么多时间去理解那是什么？”	T1-3、5-12
难以找到答案	读者有一些他们想找到答案的具体问题，但缺乏在文本中何处找到答案的知识。	“它在哪里谈论如何治疗这种情况？”	T4、6、9–10、12
难以将调查结果与个人情况联系起来	读者无法找到文本中描述的预测和结果是否适用于他们的足够信息。	“我很想知道和我有相同人口统计学特征的人对这种治疗的反应”	T2，5，8-9，11

表1.读者在没有先前经验的情况下阅读医学研究论文时遇到的障碍

不熟悉的术语几乎所有参与者（T1-3、5-8、10-12）都提到，由于他们不知道医学术语或缩写词，他们很难理解论文中的信息。这些术语从仅出现在生物医学研究的某些领域（例如“治疗性肽”）到常用的医学术语（例如“共病”、“荟萃分析”）。仅有的两名参与者没有提到与特定医学术语的斗争（T4和9），他们说他们只是略读了这些术语，或者能够从上下文中推断出它们。有些术语的含义对于理解文章来说是不可或缺的。对这些术语的错误假设可能意味着误解文章（T6和10）。例如，T10不知道“体外”指的是临床前的非人类研究。他们只是在阅读了这篇文章的大部分内容后才意识到这一点，这极大地改变了他们对文章中所讨论的治疗方法有用性的看法。

虽然术语是学术交流中常见的障碍[74]，过去的互动为我们的阅读环境带来了额外的问题。过去的工作已经为研究人员解决了这个问题，在一篇论文中提供了基于早期参考文献的术语定义[47]. 然而，考虑到医学论文中几乎所有的文本都有技术术语，我们无法保证读者能够理解从原始论文中得出的定义。这个问题表明，需要一种不同的方法来为我们设想的读者定义术语。

极其密集的文本虽然参与者可以忽略个别术语，如T4和9，但句子中充满了这些术语，段落中也充满了这些句子，以至于参与者被密集的文本段落（T1-8、11-12）淹没了。正如T8所说，

坦白地说，阅读这篇文章……压倒性的是，我一开始就不知道有多少术语……我并不是完全不懂，只是很难理解，因为我不得不回头看，比如“哦，那个首字母缩写是什么意思？”（T8）

密集文本是每个读者在学习新语言或新领域阅读时遇到的障碍，也是文本简化研究的核心动机。在医学研究论文的背景下，这一障碍的细微差别在于，虽然读者确实经常希望阅读原始论文内容，但鉴于其他论文可能使用不同的语言，并且他们可能时间紧迫，因此他们可能对掌握特定论文的语言没有什么兴趣或能力。

不知道该读什么。虽然一些参与者阅读论文的导言以确定论文的用处，但许多参与者并不相信自己能够在没有详尽阅读的情况下知道论文的内容（T3，6-8）。例如，T6和8都怀疑某些论文在阅读摘要或引言后不会有用，但继续阅读这些论文，因为他们希望仍然能找到有用的东西。

在12名参与者中，11名（T1-3，5-12）很难知道论文是否包含相关信息，并投入阅读努力来确定这一点。他们自上而下地阅读论文，阅读大部分文本，花时间理解密集的结果部分，以及他们后来常常意识到的统计分析描述是不相关的（T2-3，5-8）。

其中一位参与者是T5，他报告说，他们很难读完他们选择的第一篇论文，因为他们想进行尽职调查，以了解结果，并决定该论文是否与他们相关。在进行讨论后，他们意识到该部分提供了一个可访问的结果概述。正如他们解释的那样，

在我看来，结果是我想去的第一个地方……技术性很强，我不知道这意味着什么……所以对结果进行一般性讨论会更有帮助……知道我现在知道什么，我可能会跳过结果部分。（T5）

正如这段引言所示，像T5这样的读者缺乏在论文中应该读什么和不应该读什么的知识，这导致他们需要花费更长的时间来学习论文的内容。其他参与者的经历与T5相似，但不一定确定他们在第一篇论文（T2–3，6–8）之后阅读的最佳段落。

有时，在导言或参与者想知道的摘要中确实没有出现信息，例如参与者人口统计的低层次细节。参与者可以投入精力来确定论文是否包含此信息。就T6而言，他们花了40分钟阅读一篇论文。在另一个案例中，T7报告称，他们怀疑论文中有有用的信息，但要找到这些信息需要花费太多时间。T3同样希望找到一种方法，准确地知道论文中首先要阅读的内容：

我很喜欢那种……千英尺的视野，这正是我一开始所需要的。减少为医生设计的[论文]，使其更便于患者阅读，这样您就不会一下子被所有信息淹没，也可以在较小的篇幅中进行搜索。（T3）

当被要求详细说明时，T3解释说，少量信息可以提供高水平的发现，如果他们感兴趣，可以跟进更多细节。值得注意的是，一些生物医学论文确实会首先对所有章节进行高层次的摘要，或者在论文开头包含文章重点，这可以帮助非专业读者以及科学家阅读这些论文。

难以找到答案。我们研究的参与者有他们试图在论文中找到的具体信息，但很难做到（T2，4，6，9–10，12）。与之前的障碍相比，参与者很难知道论文中要读什么，有时参与者知道自己想读什么，但在论文中找不到。这种障碍最常见的两个例子是搜索患者的人口统计数据和以前的治疗选择。T2试图在研究中找到有关特定人口统计学组的信息，以查看它们是否与他们的情景相符。他们必须通读整篇文章，找到一个包含患者人口统计学的表格，并在讨论部分中找到一句话，提及与他们最相关的患者组。摘要也没有报告研究人口统计学或当前治疗疾病的最佳实践。导言中通常会包含这一信息，但它被隐藏在背景段落中，或者在进入新颖的结果之前很快被提及。因此，参与者必须筛选标题和论文部分，同时试图确定每个句子是否相关。

难以将调查结果与个人情况联系起来一些参与者试图了解论文的发现是否与他们个人相关（T2，5，8-9，11）。T2和8希望更好地了解治疗对他们的影响，例如通过为论文中的治疗提供患者证明，或根据人口统计学为患者切片提供结果。例如，T2阅读了一篇论文，报告称手术后疼痛减轻了60%，但他们想知道患者是后悔还是会推荐手术。他们还希望得到一部分患者的结果，这部分患者与他们假设的情况最为相似，他们是一名20岁的男性吸烟者，但这篇论文只给出了所有患者的平均值。T5发现，当一篇文章提到不同治疗的金钱成本作为参考患者经验的方式时，这很有帮助，尽管这类信息只出现在一篇文章中。虽然这一个人相关信息通常不会出现在研究论文中，但参与者还是希望得到这一信息。

总之，非专业读者在阅读和理解生物医学研究论文时会遇到一些障碍。下面，我们将讨论新颖的阅读界面如何帮助非专业读者克服这些障碍。

4普通纸张：医学研究论文阅读支持

我们设计普通纸使医学论文更容易被非专业的医疗保健消费者所接受。与研究论文扩充阅读空间中的其他系统不同，普通纸张专注于解决非专业读者的障碍。为此，普通纸张将术语定义等已知功能与关键问题和答案等新功能相结合。

我们的设计解决了第节中讨论的五个障碍中的四个三：不熟悉的术语，极其密集的文本，不知道读什么，并且很难找到答案。这些是我们在形成性研究中发现的最常见的障碍。

我们遵循迭代设计过程来开发普通纸八名参与者使用了两个早期的原型普通纸张在初步可用性评估中。在我们的初步研究中，我们观察到参与者对生成的普通语言（gists）与原始文本进行双重检查。当被问及这样做的原因时，参与者提到生成的文本含糊不清，或者想要用原始论文确认信息。NLP系统不完善（例如，通过生成不一致的信息[75])这些观察结果突显了单纯依赖生成内容的风险。因此，在普通纸张的设计中，所有要点都尽可能靠近原文，没有重叠，要点内容是按需提供的，而不是最初与论文一起显示，以鼓励读者关注论文，只从要点中获取补充信息。我们在第节讨论了未来的设计，以鼓励阅读原文8.2迭代设计在附录中有更详细的描述B类.

普通纸张提供了四个主要功能：

(1)

术语定义–工具提示包含生物医学术语的定义。

(2)

分区注册表–各节内容的现场简明语言摘要。

(3)

关键问题索引–一个侧栏列出读者可能会有的问题，并链接到回答这些问题的文章段落。

(4)

回答要点–回答文章的简明摘要。

为了说明普通纸张，我们描述一个虚构的读者Sarah是如何利用普通纸从研究论文中了解新的治疗方案。

莎拉是一名25岁的女性（代名词：她/她），最近被诊断患有系统性红斑狼疮（SLE，也称为狼疮）。当莎拉与她的医生讨论治疗方案时，她想知道医生是否没有提到可能对莎拉有益的治疗方案。下班后的晚上，她寻找研究论文，了解新出现的治疗方法。莎拉发现了一篇关于可能的新治疗方案的研究论文，题为：“治疗系统性红斑狼疮的治疗肽：治疗中的一个位置。”[101]

读完标题后，莎拉想知道——这篇论文是关于什么的？ 什么是治疗肽？ 它们可能是治疗SLE的新方法吗？–并开始阅读。

术语定义帮助Sarah解决技术术语.普通纸张提供了论文上下文中不熟悉术语的定义，以便Sarah能够在阅读中融入新概念。在阅读导言时，萨拉读了一段充满技术术语的文章（图2). 她不知道什么是“治疗\（\dotuline{\rm军备}\）对于SLE来说，“意味着阻止她理解什么受到了“不良影响”。Sarah没有打开新的选项卡进行搜索，而是单击带下划线的术语，工具提示就会出现，其中包含从Wiktionary检索到的简短定义[6]解释说“医疗设备”是一种医疗设备。莎拉继续阅读，使用工具提示解决不熟悉的术语。

图2。

章节指南帮助莎拉决定是否投资阅读密集段落根据术语定义，Sarah从介绍中了解到肽确实是SLE的可能治疗方法，并希望了解更多信息。这篇特别的论文回顾了15种不同的肽，每种肽都有一个专门的部分，平均长度为一页；每一部分都包括对肽如何工作及其临床试验结果的描述。Sarah有动机对每一种可用的肽都有高水平的了解，但这需要阅读15页密集的文本。从介绍中，莎拉总结到，并不是每一种肽都能像治疗一样有效，而且每一种都可能在不同的情况下使用，因此她宁愿深入阅读与她轻度SLE相关的最有希望的肽。

普通纸张通过提供现场的简明语言摘要或“章节要点”，帮助Sarah确定哪些章节值得阅读。Sarah单击章节标题旁边的选项卡指示器，章节文本上方会出现要点（图三). 其要点包含简单的语言：与“SLE患者和动物模型的特点是产生对剪接体表位反应的自身抗体”这样的句子不同，该摘要解释说“SLE病人体内的抗体会攻击自己身体的部分。”，Sarah参考章节注册信息，从表面上了解肽章节。

图3。

关键问题索引和回答要点有助于Sarah专注于最重要的问题和相关段落。莎拉用章节指南读到了论文的末尾，只深入阅读了一些章节，但她担心自己可能错过了论文中的重要信息，因为她不知道要找它。Sarah使用章节信息对每个章节都有一个大致的了解，但她很好奇是否有概括总结可能没有出现的信息，尤其是在包含大量相关信息的较大章节中，如讨论或简介。此外，对于未来的论文，Sarah希望有一种快速的方法来为她第一次收集最相关的信息，而不需要扫描整篇论文。

作为评估与部门信息相关性的替代方法，普通纸张为Sarah提供与论文中的回答段落相关的关键问题，以及简明的语言答案，以引导Sarah了解重要信息。Sarah期待普通纸张的侧栏中，可以看到有关论文的问题，这些问题涵盖了关键信息，例如“论文做了什么？”和“论文发现了什么。Sarah看到了“论文发现了什么？”这个问题的超链接指向讨论中的段落（参见（1）图4). 她点击了第一个链接。普通纸张滚动页面，在讨论中突出显示一段，总结最有希望的治疗肽（参见（2）图4). 不幸的是，答案看起来很密集。Sarah注意到答案下面有一个工具提示，其中包含简单的语言摘要（“答案要点”）。这个答案要点是原始段落长度的四分之一，不包含任何不熟悉的术语（参见（3）图4). 虽然答案要点本身可能不包含Sarah想要的所有信息，但她可以阅读原始段落和答案要点，将复杂的措辞与平实的语言进行比较，并在不被技术术语淹没的情况下对段落有一个大致的理解。与章节要点类似，莎拉可以根据这种理解深入阅读原文，以获得更多细节。Sarah点击同一问题的其余链接，滚动到讨论中包含最重要发现和解释的各个段落。

图4。

关键问题让莎拉想起了她可能想问的关于论文的问题。由于问题的数量很少，所以可以查看大多数问题，而无需滚动（参见图中的（1）4). Sarah看到并点击了一个她没有想过要在论文中寻找的问题：“这些发现的局限性是什么？”普通纸张将她滚动到结论中的一段，说不仅治疗肽目前没有获得SLE临床使用许可（Sarah已经阅读过），但目前的许多临床试验疗效参差不齐，未来的临床试验可能会在不同的研究设计中显示出更多的希望（莎拉还没有读过）。Sarah证实并加深了她对论文局限性的理解。

Sarah只花了几分钟的时间就为她了解了关于这篇论文的最重要信息：这些不是她可以要求医生给她开的治疗方法，但Sarah可能会研究一些有前景的临床试验。

5实施

普通纸张（图5)通过将NLP技术应用于生物医学问答和纯语言摘要，提供增强的阅读体验。下面我们将讨论如何将这些技术纳入我们的原型普通纸张.在第节中8.3，我们描述了如何进一步开发此类技术以负责任地部署诸如普通纸张.

图5。

5.1术语定义

普通纸张使用命名实体识别(净入学率)识别医学术语和实体链接(EL公司)根据包含术语定义的外部知识库解析这些术语的模型。在我们的实现中，我们使用科学与社会的[82]NER模块用于识别术语。然后，我们将这些条款链接到统一医学语言系统(UMLS大学) [16]使用科学与社会的EL模块和Wiktionary[6]使用字符串匹配启发式。对于链接到这两个数据库的术语，我们优先考虑Wiktionary的定义。提取和匹配过程会产生许多术语，读者可能不希望看到这些术语的定义，因为它们在医学文献之外广为人知（例如，“专家”或“否定”等术语）。如果这些术语在一般文本语料库中足够常见，我们通过排除它们来过滤掉这些术语。对于Wiktionary和UMLS，我们根据词频保留了20%的词条。我们使用python包单词feq根据精致语料库确定词频[98]. 我们还删除了由30个或更多字符组成的所有术语，因为超过30个字符的术语通常格式不正确（例如，包含引文字符串或下一句的开头）。我们将所有Wiktionary定义筛选为至少带有以下标签之一的定义：“医学”、“有机体”、“病理学”、“生物化学”、“自身抗原”、“遗传学”、“细胞学”、《物理学》、《化学》、“有机化学”、《免疫学》、《药理学》、《解剖学》或《神经解剖学》

5.2章节要点

普通纸使用为论文中最低级别的小节生成小节注册表大型语言模型(有限责任经理). 在我们的实现中，我们将一节中每个段落的第一句连接起来，并使用GPT-3生成一个简单的语言摘要[24].²GPT-3是OpenAI发布的一个预处理大型语言模型，它使用一代人的不同提示在许多语言任务上获得了最先进的结果[24]并且越来越多地用于许多文本生成任务。我们的原型系统手动提取句子，但可以使用自动PDF解析软件自动提取[69,96]. 使用每个段落的前导句是总结的常见竞争基准[40]; 我们选择这种策略而不是输入完整的部分文本，因为在我们的测试中，GPT-3在给出完整的部分时，很容易一字不差地复制文本。我们从事即时工程，这是为大型生成模型实现流畅文本的常见实践[68]，以鼓励流畅而具体的简明语言总结。我们使用GPT-3提示，该提示改编自OpenAI为二年级学生提供的简化和总结文本的预设示例，^三我们对其进行了修改，为五年级学生量身定制文本。我们还测试了后来的分数，直到大学，但发现使用五年级提示生成的文本使用了我们想要的级别的普通语言，同时仍然提供了该部分的主要细节。有关GPT-3提示的更多详细信息，请参阅附录C类.

由于在生成的文本中存在幻觉（即事实不准确）的风险，我们为我们的研究策划了一些要点。如果主旨包含清晰的幻觉（例如，如果它错误地将肽称为外科手术），或包含无意义的文本（例如，反复重复相同的单词），我们将在不修改提示或参数的情况下再生多达五次。如果一个生成的要点在五次尝试之前是连贯的，并且事实上是准确的，我们就使用这个要点。通常，只需1-2代人就可以得出一个有效的要点；更多详细信息见附录C类我们在第节中讨论了幻觉的风险和负责任的技术开发愿景8.3.

5.3关键问题索引和答案要点

普通纸张需要以下内容：一组预定义的问题以形成关键问题索引回答问题(质量保证)模型从论文中提取每个问题的相关段落，并使用LLM简化答案。在我们的实现中，我们使用来自PICO框架的问题[90]针对临床问题和Cochrane编写简明语言摘要指南[三]. 这两种来源都侧重于与患者和护理人员相关的医学论文中的信息。我们从两个来源收集了8个问题；表中列出了这些5在附录中。对于每个问题，我们使用Yoon等人从论文中提取相关段落。[112]的提取质量保证系统经过培训，可以使用生物医学研究论文回答问题。我们遵循之前的工作，通过包含问题的语义等价变体，使QA模型更加健壮[43]（例如，本文发现了什么，本文的主要结果是什么？）。这个问答模型提取回答问题的单个单词或短语，而不是完整的段落。如果模型将段落中的单词或短语识别为回答给定问题，我们将该段落标记为“回答段落”。对于原型系统，我们手动标记回答段落的句子边界；这样的步骤可以通过诸如[96]. 最后，我们通过使用GPT-3简化提取的段落来创建答案注册表[24]以同样的提示和管理方式，我们用来简化章节要点。侧栏显示了每个问题第一个答案要点的前1-2句。

6可用性研究

我们进行了部分受试者可用性研究，以评估普通纸张的特点影响了非专业人士阅读医学论文的经验。

我们对以下研究问题感兴趣：

第1季度-参与者如何使用普通纸张阅读医学论文时的特征？

第二季度-如何普通纸影响参与者自我报告的阅读难度、理解力和识别相关信息的能力？

第3季度报告-使用时纸张理解是否有差异普通纸张?

6.1方法

6.1.1参与者。

我们使用与部门相同的招聘材料从Upwork招募参与者3.2我们再次从“编辑和校对”工作类别和“客户研究”中招募了大量具有不同阅读和写作经验的员工。所有参与者在为期一小时的远程研究中获得15美元的报酬。

共有24名Upworkers（9名男性，1名非二进制，14名女性）参与了这项研究。参与者的年龄从19岁到67岁不等(\（\mu=35.04\）,\（σ=13.47）). 所有参与者都完成了大学学业，三分之一的人完成了专业或研究生学业。自高中以来，19名参与者（79%）参加了3门或更少的STEM课程，22名参与者（92%）从未参与发表研究论文。没有参与者有专业医疗经验。

6.1.2程序。

可用性研究包括两个部分，每个部分对应于一个涉及特定诊断患者的场景-系统性红斑狼疮(SLE公司)或者是椎间盘突出症患者，他们有兴趣探索新的治疗方法。每篇论文的情景取自第节3.3。对于每个场景，我们都选择了一张纸来阅读([101]对于SLE和[10]对于突出的椎间盘），从我们在第节的阅读观察中最常见的论文中三.

每个参与者对每个场景都进行了一次以下研究程序。首先，参与者阅读场景描述，然后阅读关于诊断的MedlinePlus页面，然后阅读相关的研究论文。参与者阅读了场景描述，并有2分钟的时间阅读关于诊断的MedlinePlus页面。他们学习了一个关于普通纸张可供他们使用（如第节所述6.1.4)然后读10分钟。他们被告知何时还有5分钟，何时还有1分钟。每篇论文结束后，参与者填写关于论文的问题（第节6.1.3). 根据我们对形成性研究的观察，阅读任务的持续时间设置为10分钟（第三)初步研究表明，这是参与者完成论文初读的典型时间。研究结束时，参与者完成了一份问卷调查，报告了他们的人口统计学、教育和研究经历。然后，参与者报告了他们使用普通纸在问卷调查和简短访谈中确定他们认为最有用的特征。一名研究人员出席了整个研究。

6.1.3措施。

我们收集了评估功能使用情况的措施(第1季度)、自述阅读经历(第二季度)和理解(第3季度报告)，如下所述：

功能使用。衡量参与者如何使用普通纸张的功能(第1季度)我们记录了与普通纸张。我们测量了每个功能的使用频率，以及使用或谈论某个功能的参与者数量。

自述阅读体验。我们收集了自我报告数据，以了解参与者对支持的感受普通纸张提供了。参与者在每次阅读任务后都会回答以下问题，采用5点利克特风格量表（1=“一点也不”，5=“非常”）：

(1)

“你读报纸花了多少力气？”

(2)

“你觉得自己在多大程度上理解了这份报纸？”

(3)

“你对从报纸上获得所有相关信息的信心有多大？”

理解我们开发了多项选择题，以评估不同的界面如何影响参与者对论文具体细节的理解(RQ3型). 这些问题旨在评估对论文内容的理解，而不偏向于普通纸张; 因此，选择了无法直接从答案列表或关键问题边栏中回答的问题。表2显示了理解问题的示例和包含这些问题答案的论文段落。

表2。

问题	正确答案	纸上相关段落
什么是羟基氯喹？	这是一种常用于轻度到重度SLE患者的治疗方法	轻度受累的SLE患者可以通过低剂量口服类固醇（尽快停用）、羟基氯喹和对症药物轻松治疗。
治疗肽对SLE的最终用途是什么？	它们可以通过靶向特定器官（如肾脏）来减轻SLE症状	[来自多篇文章]治疗肽在SLE中的潜在用途是合理的，因为它们具有成本效益高的生产、靶点选择性、低不良事件发生率和整体免疫调节作用……此外，它们可以暂时用于治疗SLE发作。
开发治疗性肽的最大限制是什么？	目前还没有足够的证据表明肽对治疗SLE有效	虽然没有治疗性肽被许可用于SLE治疗……它们显示出良好的安全性，但尽管在一些SLE患者亚群中观察到阳性结果，但大多未能达到主要终点。

表2可用性研究中的多项选择题和答案示例

我们为每篇论文写了15到20个问题，并请两位未参与研究的执业医生就这些问题提供反馈。临床医生阅读论文时没有普通纸张，对所有问题进行反馈，并选择5-7个他们认为患者最感兴趣的问题。根据临床医生的反馈和两项初步研究，我们修改了任何不清楚的问题或答案的措辞。最后，我们选择了14个多项选择题，每篇论文7个。我们以正确回答问题的比例来衡量理解力。

6.1.4接口变量。

了解普通纸张的关于读者参与医学论文体验的新颖指导功能，我们评估了普通纸张有或没有这些功能。有三个版本的普通纸张和一个基线：

(1)

普通纸张–与关键问题索引、答案注册表、章节注册表和术语定义的完整接口。

(2)

问答–以指南为中心的变体，仅包含关键问题索引和回答要点。

(3)

章节和术语–无指导的变体，为读者提供章节指南和术语定义。

(4)

PDF基线–典型的PDF阅读器。

条件。利用四种界面变体和两篇论文，我们的研究测试了八种条件，每种条件由一对界面论文组成。每个参与者被分配了两个条件，即八种可能的界面-纸张组合中的两种。没有参与者体验过相同的界面或两次看到相同的论文。每个界面-纸张配置发生的次数与研究中的第一个或第二个任务相同。在所有研究阶段，所有八种配置都分配了相同数量的参与者。

6.1.5分析。

我们比较了读者的主观评分（阅读难度、理解力和相关性）以及界面变量中多项选择题的一些正确答案(普通纸张，问答，章节和术语，PDF基线）使用单独的混合效应线性模型[67]每次测量。论文类型和系统变量在模型中是固定效应，参与者是随机效应。我们首先进行了\（F\）-测试系统变体之间的任何显著差异，然后我们进行\（t\）-测试所有系统变异体对之间估计固定效应的差异。更多详细信息见附录D类.

我们注意到，使用阅读界面进行的可用性研究往往无法揭示读者在使用和不使用实验界面回答理解问题时的显著差异（例如，参见Head等人的最新研究[47]和Badam等人。[9]). 缺乏显著差异可归因于以下几个原因：可能存在不同条件下的类似理解，或者工具可能无法测量理解，或者可能数据太少，无法在高差异中观察到效果。理解微小差异的本质很重要，特别是如果界面可能会降低理解能力。在我们的语境中，朴素的语言可能过分简化科学发现，并可能导致读者误解材料[93,100]. 在这种情况下，理解力下降是不可取的。

因此，我们还进行了非劣效性测试[107]以确认普通纸张并没有降低论文的理解力。非劣效性测试评估实验条件不比对照差（即，零假设是实验条件明显比对照差）。它们被用于心理治疗研究，例如评估远程干预与住院干预的效果[63,70,106]. 非劣效性检验与传统假设检验类似，但该检验评估实验条件与对照条件之间的差异是否显著大于等效裕度\（\增量\）.

在我们的研究中，我们设置\（增量=1）因此，我们的非劣效性测试测量了Paper Plain和典型PDF阅读器对多项选择题的正确答案数量差异是否在1个正确答案范围内。我们使用下限\（t\）-测试statsmodels公司Python中的TTOST包[94]用于非劣效性测试。

对于定性研究结果，一位作者对研究会议的观察结果进行了主题分析，与第节中的研究结果类似三作者与其他四位作者讨论了研究结果，以完善主题。主题通过开放编码确定，并在与所有作者的三次每周会议上进行讨论。一位作者对所有采访进行了编码，而另一位作者在其中一次采访中验证了主题。

7结果

下面我们将报告我们在可用性研究中的发现，该研究按研究问题细分。

7.1参与者如何使用普通纸张的功能？

参与者通常与普通纸张他们可以使用。当参与者只能访问关键问题索引和回答要点（问答）时，他们至少点击一个关键问题并打开一个回答要点。通常，他们会点击更多：平均而言，使用此变体的参与者会点击15个关键问题和答案。在“章节和术语”变体的12名参与者中，有11人点击了至少一个章节要点和术语定义。平均而言，他们点击了18个部分注册表和5个术语定义。

当参与者能够访问所有功能时，他们通常会选择关键问题索引和答案。有权访问关键问题和答案的参与者平均点击了13次关键问题和14次答案，而不是部分信息和术语定义。相比之下，12名参与者中只有8人点击了章节主旨或术语定义。参与后一种功能的参与者也很少使用它们，平均只点击了7个章节要点和4个术语定义。图6打印每个功能的用法普通纸张并说明了当所有特征都存在时，关键问题索引的这种趋势。

图6。

参与者经常多次查阅问题索引中的相同问题和相同答案。虽然关键问题索引只列出了每个条件下的8个问题，但参与者平均点击问题超过10次(\（σ=7.48）)当索引可用时。参与者反复点击问题的一个原因是，参与者报告称使用索引作为导航支持来跳转到信息。

使用的参与者普通纸张的功能贯穿整个阅读任务，这意味着这些功能继续为阅读任务提供价值。请参见图7，它显示了在阅读任务过程中，读者在普通纸张条件。其他条件下的读者（例如，那些只能访问关键问题索引和答案注册表的读者）表现出类似的行为，当仅启用这些功能时，章节注册表和术语定义的使用率更高（参见图6). 值得注意的是，虽然每个功能都有一个轻微的“热身”期，通常在前两分钟，参与者较少使用这些功能，但在这个初始阶段之后，使用量增加了，并导致在剩余的任务时间内与这些功能持续互动。

图7。

当参与者普通纸张的功能与没有的功能相比。大多数使用基线PDF阅读器的参与者都是线性阅读论文，与我们在第节中观察到的情况类似三，在重要信息有限的密集区域（P2、5、6、10和22）花费了大量时间。例如，第22页没有提到其中一篇论文的结尾，因为它们主要集中在理解方法和背景部分。当被告知他们还有一分钟的时间时，除了一名参与者（第2页、第5页、第10页和第22页）之外，所有参与者都快速滚动到论文的末尾阅读那里的部分，这表明他们认为这些部分更重要，但没有足够的时间阅读。

所有参与者普通纸张到了论文的末尾；普通纸张的功能以不同的方式支持参与者这样做。参与者报告说，章节注释和术语定义帮助他们阅读密集文本（P1、3-5、7、15、18），而关键问题索引和答案注释使他们能够快速浏览论文（P2、4、7-10、13、18-20）。

具有章节编号和术语定义的参与者报告说，他们能够轻松理解密集段落（P1，3-5，7，15，18）。正如第18页所解释的那样，“它把非常复杂的医学文本分解成易于理解的术语，帮助我跟上文章的节奏，而不是跳过文本墙。”参与者还使用章节注释来决定他们是否想阅读一个章节，当他们决定阅读时，作为理解复杂文本的指南（第5、7页）。这种用法与我们的分区注册表目标一致。

参与者使用关键问题索引，通过跳转到与他们相关的信息（P2、4、7-10、13、18-20）来查找文本。例如，第10页通读了一篇论文的摘要和导言，然后选择使用关键问题跳过论文的不同部分。关键问题索引似乎支持非线性阅读策略。有索引的参与者（在任何情况下）在纸上来回跳跃（图7). 没有关键问题索引的参与者通常会从头到尾阅读论文（图8).

图8。

关键问题指数以几种可观察的方式影响阅读行为。首先，能够访问关键问题索引的读者在阅读时遇到的部分停留的时间要长得多。当读者能够访问关键问题索引时，他们在论文中任何一个位置的停留时间平均持续5.19秒(\（σ=7.72）)，而不是3.34秒(\（σ=10.99）)对于那些没有关键问题索引的人（成对样本\（t\）-测试，\（t{19}=4.14，p<0.001）).

第二，有关键问题索引的参与者倾向于零碎地和非线性地阅读论文，而没有该特征的参与者的线性阅读行为则相反。请参见图8可以观察到，拥有关键问题索引的读者经常在阅读环节中从论文的一部分跳到另一部分。根据参与者使用关键问题索引的次数，参与者平均每节课跳10次以上，通常在开始阅读任务后的几分钟内，如图所示，在研究的前2分钟内使用关键问题指数的读者人数7.

第三，关键问题索引的读者倾向于关注论文的开头和结尾，而不是中间部分。这些领域通常包含介绍和讨论部分。在我们的形成性研究中，参与者经常觉得这些部分包含了最重要的高层次内容。相比之下，没有关键问题索引的读者倾向于在论文中更均匀地分配注意力，在论文的中间部分花费了大量时间。当读者能够访问关键问题索引时，他们在包含摘要、介绍、讨论或结论的页面上花费的平均总时间为9分8.86秒（共10分钟）(\（σ=3）分钟和44.60秒），而6分钟和48.99秒(\（σ=3）分钟和6.44秒）。这种差异是显著的（配对样本\（t\）-测试，\（t{19}=4.84，p＜0.05）). 虽然我们不能说中间部分没有感兴趣的信息，但阅读模式表明，关键问题索引的出现导致了更具选择性的阅读，集中在许多包含对非专业读者重要信息的部分。

7.2如何普通纸张影响参与者自我报告的阅读难度、理解力和识别相关信息的能力？

图9显示了参与者在阅读难度、理解力以及与所有论文和界面变体的相关性方面的自我报告分数概览。我们的混合效应模型\（F\）-测试发现不同条件下的得分有显著差异(\（p\lt 0.001）Holm–Bonferroni之后的所有三次测量[49]修正）。固定效应系数见附录D类在这里，我们将在本节中讨论我们对结果的解释。我们报告中值（表示\（\波浪线{x}\）)针对每个主观评分，给出利克特量表数据的非正常性质。

图9。

主要区别如下（见表三对于接口变量对之间的所有差异和显著性值）。参与者普通纸张他们对从报纸上找到所有相关信息更加自信(\（波浪线{x}=4.00）,\（σ=0.87），5.00对应于最大置信度）与基本PDF阅读器相比(\（波浪线{x}=2.50）,\（σ=1.00）). 他们还报告说，他们更了解这些文件(\（波浪线{x}=3.50）,\（σ=0.69）与。\（波浪线{x}=2.00\）,\（σ=1.00）)阅读难度大大降低(\（波浪线{x}=2.00\）,\（σ=1.06）与。\（波浪线{x}=4.00）,\（σ=1.04）).

表3。

	\（PP-质量保证）	\（p\）	\（PP-SD\）	\（p\）	\（PP-PDF格式）	\（p\）
阅读困难（1-5）	–0.344	0.7481	–1.485	0.0011	–1.983	\（\ lt\）.0001
理解（1-5）	–0.104	0.9842	0.719	0.0866	1.177	0.0020
相关性（1-5）	–0.193	0.9133	0.752	0.0772	1.167	0.0030
	\（QA-SD\）	\（p\）	\（QA-PDF格式）	\（p\）	\（SD-PDF\）	\（p\）
阅读困难（1-5）	–1.141	0.0132	–1.639	0.0003	–0.498	0.4786
理解（1-5）	0.823	0.0401	1.281	0.0008	0.457	0.4106
相关性（1-5）	0.946	0.0183	1.361	0.0006	0.415	0.5093

表3.固定效应评估中成对差异的事后（双面）测试-比较界面

列显示了界面变量和Holm-Bonferroni校正的固定效应估计值之间的差异\（p\）-值[49]在混合效应模型下。显示了接口对的差异，包括普通纸张(\（PP\）)、关键问题索引和回答要点(\（质量保证\）)、章节摘要和术语定义(\（SD\）)和普通PDF阅读器基线(\（PDF格式）). 例如，列“”中的单元格\（PP-PDF格式）“和”阅读困难“行应解释为：普通纸张与PDF基线相比，在5分量表上的阅读难度降低了1.983分。统计意义重大\（p\）-值以粗体显示。有关该分析的详细信息，请参见本节和附录D类.

在这些功能中，关键问题索引和回答要点在降低自我报告难度方面似乎特别有用。只经历了关键问题索引和回答要点的读者对其阅读困难的评价明显较低(\（波浪线{x}=3.00\）,\（\西格玛=0.97\）)与基线PDF阅读器的参与者相比(\（波浪线{x}=4.00）,\（σ=1.04）)这一效应在只有部分信息和术语定义的参与者中没有观察到。拥有关键问题索引和答案的参与者也表示信心更高(\（波浪线{x}=4.00）,\（σ=0.94\）)和更好的理解(\（波浪线{x}=4.00）,\（σ=0.89）)与PDF基线相比(\（波浪线{x}=2.50）,\（σ=1.00） \（波浪线{x}=2.00\）,\（σ=1.00）).

根据我们的观察，似乎每个普通纸张的特点在降低阅读难度方面发挥了一定作用。例如，章节要点和术语定义似乎有助于许多参与者在不切换上下文的情况下寻求辅助信息（P2、6、7、11、16–17、19）。P19发现术语定义有助于理解论文提到的药物。P2发现章节注释有助于用更熟悉的语言理解论文文本。第17页描述道，章节要点“将复杂的医学文本分解为外行术语，这些术语易于理解，有助于跟上文章的发展。”

关键问题索引和答案提示似乎也有助于参与者更快、更容易地复习论文（P2-3、9-11、20）。用第9页的话来说，这些功能很有用，因为“有这么多样本大小、数量和信息要处理，所以总结一下有助于指导我的阅读和理解。”第20页还分享了简化的答案有助于他们快速理解论文的整体故事，因此，他们有更多的时间深入研究其细节。P3详细阐述了这些功能是“有益的，因为……我可以有一个预期的基线，我的大脑不必提取信息的许多随机部分，并且可以很容易地阻止我在阅读时只需要一些信息时不需要的东西。”这样，对于许多参与者来说，关键的问题索引和答案集似乎有助于他们在早期对论文有一个大致的理解，并集中精力阅读。

关键问题指数似乎是一个最受欢迎的特征：在至少一种情况下体验过关键问题指数的20名读者中，有18人选择该指数作为最终研究问卷中最有用的特征。参与者赞赏问题索引如何帮助他们快速找到并理解论文中的相关信息（P2、4、7-10、13、18-20）。用P7的话来说，问题索引“回答了如果场景中是我的话我会问的问题……它有助于直接突出文章，而不必筛选所有信息。”总之，普通纸张与普通PDF读者基线相比，减少了自我报告的难度，提高了自我报告信心和理解感，有证据支持关键问题索引在读者体验中的特殊作用。

7.3使用时理解是否有差异普通纸张?

在所有条件下，参与者平均回答3.73(\（σ=1.51）)正确回答7道选择题。在混合效应模型下，界面或论文对多项选择得分没有显著影响\（F\）-测试(\（F_{4,20}=1.38，p=0.2672）). 根据随访非劣效性\（t\）-测试中，参与者在多项选择题上的得分没有下降普通纸张(\（\mu=3.67，\sigma=1.78）)与PDF阅读器相比(\（\μ=3.50，\西格玛=1.31\）,\（t{28}=1.82）,\（p<0.05）). 图10比较多项选择工具上的分数，按界面变量分组。

图10。

事后分析表明，使用关键问题索引比不使用关键问题指数更容易正确回答一些多项选择题。虽然仅通过查看关键问题侧栏不可能找到问题的正确答案（请参阅第节6.1.3)，一些问题可以通过阅读通过点击问题索引中的问题突出显示的段落来回答（例如，表中的第一个和第三个问题2). 参与者在有关键问题索引的情况下正确回答这些问题的频率高于没有索引的情况(\（\mu=3.00，\sigma=1.48）与。\（\mu=2.50，\sigma=1.38）针对椎间盘突出症论文中的5个此类问题；\（\mu=2.17，\sigma=0.94\）与。\（\mu=1.58，\sigma=0.67）关于Lupus论文中的3个此类问题）。这一趋势如图所示11。这一趋势在统计学上并不显著（配对样本\（t\）-测试\（t_{26}=1.89，\，p=.07\）); 然而，它确实表明普通纸张可能会影响读者对论文不同部分的理解，这取决于他们如何与特征互动。

图11。

8讨论和未来工作

本文探讨了交互式信息界面如何使研究论文能够接近需要它的医疗保健消费者。下面，我们对我们的研究结果进行了评估，同时讨论了它们的局限性和指导未来阅读工具开发的潜力。

8.1结果总结

我们的形成性研究表明，非专业读者尽管有动机，但在阅读医学文献方面仍面临障碍，包括过于密集的文本，不知道读什么，以及很难找到问题的答案。我们对普通纸对我们关于其对阅读影响的研究问题提供了以下答案：

RQ1.参与者如何使用普通纸张的功能？参与者使用并发现每个普通纸张的功能。这些特点贯穿于阅读任务的始终。参与者将章节指南用作阅读密集段落的辅助工具，并使用关键问题索引快速查找与之相关的文本。关键问题索引和回答要点是一个非常受欢迎的功能。当参与者能够访问所有功能时，关键问题索引和答案注册表的使用频率高于章节注册表和术语定义。

RQ2.如何普通纸张影响参与者自我报告的阅读难度、理解力和识别相关信息的能力？使用的参与者普通纸张与那些使用基线PDF阅读器的人相比，他们发现与自己相关的所有信息的阅读难度显著降低，理解力更高，自信心更高。在研究过程中，参与者发现关键问题索引有助于他们阅读，他们认为该索引为论文提供了一个平易近人的概述，并提供了术语定义和章节要点，帮助他们理解文本中的困难段落。

RQ3.使用时理解是否有差异普通纸张?回答多项选择题的准确性与阅读普通纸张和基线PDF阅读器，根据我们的测试，没有明显的优势或劣势。如果通过与问题索引的互动突出显示这些问题的答案，则具有关键问题索引的参与者回答问题的频率会更高，这一趋势在统计学上不显著。

我们注意到，自我报告的理解显著增加，而多项选择准确性没有差异。造成这种差异的一个潜在原因可能是，这两种衡量标准对应于不同的现象：多选题倾向于评估论文中非常具体的事实（例如，文献研究论文的一个问题是候选研究的纳入标准），主观评分更多地与一个人对论文的整体理解感有关。我们提供了参与者认为的保守解释普通纸张帮助他们更好地理解论文的整体，而不会明显提高或降低他们回答论文特定问题的能力。

8.2设计含义

基于此研究，我们为相关系统的未来设计者提供以下指导：

介绍阅读指导我们相信互动阅读系统可以为引导非专业读者提供更积极的支持。专家们已经采用策略在论文中收集相关信息，而不进行深入阅读（例如略读）[95]. 相反，在我们的形成性研究中，读者缺乏阅读论文的策略，默认为详尽的线性阅读。这导致读者花时间阅读相关性或重要性不大的文章。

结合关键问题索引等功能可能会帮助缺乏合适阅读策略的非专业读者。在我们的可用性研究中，这样的索引帮助读者在阅读的最初几分钟内跳转到论文的相关部分。该功能也是参与者最喜欢的功能。我们注意到存在分散注意力的风险：在我们对该工具的初步研究中，索引分散了那些有自己阅读论文方法的读者的注意力；也就是说，我们的最终设计可能通过使索引可切换而达到了良好的平衡。

在原始文档中加入普通语言在可用性研究中，非专业读者经常使用Gist。每一个能够使用简单语言特征（答案或章节要点）的参与者都会在阅读任务中使用它们。我们建议，应以有助于理解原始文档而不是取代原始文档的方式纳入普通语言。当代生成模型的现实是，它们经常会产生不一致和不准确的地方[75]. 考虑到误导读者的风险，普通纸张尝试通过几种方式帮助读者将注意力集中在原始纸质文本上：读者请求gist内容，而不是默认显示它，gist直接显示在纸质内容旁边（但不遮挡），并且让读者意识到gist的生成。

8.3道德和社会影响

虽然帮助医疗保健消费者了解他们的护理显然是有益的，但诸如普通纸张可能会带来不希望的后果。首先，健康信息如果不被很好地理解，可能是危险的。一个不挑剔的读者可能不习惯科学过程中的重要规范，比如一篇论文如何不能代表科学共识。因此，读者可能会将论文中的发现或解释误认为是事实，从而导致他们对自己的护理做出错误的决定。虽然我们注意到读者已经开始通过阅读医学研究论文来冒这样的风险[35],普通纸张可能导致更多读者和更多论文面临这些风险。

此外，因为普通纸张合并了生成的文本，它面临着当代文本生成器的所有限制。医疗环境中最令人担忧的是文本生成器会产生事实上不一致或错误信息的幻觉[75]. 一方面，我们有理由乐观地认为，随着时间的推移，准确性会越来越好：自然语言生成领域正在通过衡量和鼓励真实性（例如，通过设定世代必须满足的逻辑约束[71]). 设计良好的人在环系统可能能够修复生成的输出，方法是让人们根据命令重新生成注册表，报告模糊或产生幻觉的内容，并为未来的读者留下注释，提醒他们可能出现幻觉（例如，使用Hypothes.is等社交注释工具[2]). 这种反馈可以同时改进模型，以供以后使用，同时鼓励读者在评估他们正在访问的信息时发挥作用。

也就是说，只要有不准确的地方，产生幻觉的风险就很严重。他们可能会导致患者基于误解做出治疗决定，或者，如果主旨对治疗过于乐观，当意识到现实情况时，会导致患者失去希望。鉴于这些风险，我们建议普通纸张要负责任地进行部署，它应该增加现有来源，以寻求可靠的医疗保健信息，并明确说明其局限性。医疗保健消费者从多种来源访问信息，包括面向消费者的网站[102,113]，在线社区[52]和研究论文[11].普通纸张不应取代这些来源，而应谨慎地融入其中。

展望未来，我们建议普通纸张应该发挥有限的作用：他们应该帮助人们找到与临床医生共享的信息，提供一个临床医生可以指导患者进行最新研究的地方，并支持患者社区对其病情的当代研究前景形成初步了解。在这些设置中，类似于普通纸张将是医疗保健消费者信息饮食的一个组成部分。在任何这些设置中，该工具都必须提供足够的消息传递来传递生成的内容，可能还需要使用指示器来传递可能的真实性（请参阅[42,71])同时明确指出读者应该与医疗服务提供者讨论他们的发现。

8.4限制

我们的发现在几个方面的可推广性有限。首先，在Upwork上招募参与者可能歪曲了我们关于障碍和结果设计的发现，因为参与者没有阅读与他们个人相关的医学论文。这些参与者可能不太注意论文的具体细节，或者有不同的负面发现或不清楚的结果。为了减轻这种局限性，我们设计了研究中的任务，使其与我们采访过的有阅读文献经验的医疗保健消费者的任务非常相似；然而，这样的任务设计只能走这么远。

可用性研究的结果在一定程度上受到阅读任务的时间性和简短性的限制。如果给参与者更多的时间，他们可能在多项选择题上得分不同，主观体验不同，界面使用也不同。时间对参与者体验影响的一个指标是，一些参与者报告说，如果他们有更多的时间，他们会再次阅读论文或寻找更多信息。据报道，对于一些参与者来说，时间限制会让他们更加焦虑，并影响他们记忆信息的能力。由于时间限制，参与者对关键问题索引和答案要点的依赖性可能会增加，因为他们在帮助读者获得论文概述方面很省钱，而且如果参与者在答案之外阅读，他们可能会更加依赖章节要点。这一限制应该通过未来放松时间限制的研究来缓解。

另一个限制是，我们研究的参与者主要是受过大学教育。我们的发现可能并不代表普通纸张面向非大学学历的读者。我们注意到，受过大学教育的成年人寻求更多的医疗信息，如果不幸的是不完整的话，就其本身而言，这是非常重要的。重要的是为那些没有受过大学教育的人开发和评估资源，他们往往是医疗系统中最边缘化的人之一，无法获得医学文献。未来的工作应该集中在障碍在这些群体中表现出来的方式，以及如何制作这样的工具普通纸张对于那些在医疗体系中处于边缘地位的人来说，这是非常有价值和容易获得的。

8.5未来方向

我们的系统和研究结果暗示了未来工作的几个有趣领域。

智能阅读接口随着人工智能技术的进步，集成该技术的新接口可以为用户提供巨大价值。本文提出了一种结合生物医学等技术的接口回答问题(质量保证) [112]和纯语言摘要[24]. 其他NLP技术，如机器翻译[56]，有毒语言检测[50,72]和新闻故事映射[60]类似地，也可以实现新型的阅读交互。

支持论文理解我们的结果表明，界面对理解的影响既不优也不劣。设计明显提高理解能力的阅读界面需要什么？为此目的设计和评估接口的一个挑战是，简化科学信息可能会过度膨胀读者的理解感，并减少他们对专家的依赖[93]. 需要牢记这一风险。此外，一个可能被证明有用的策略是，集中精力阻止医疗保健消费者在阅读医学文献时的常见误解（参见[35])通过帮助读者避开没有同行评议的掠夺性期刊，并寻求多篇论文证实的发现。

解决医疗保健消费者的其他障碍.扩展普通纸张可以帮助读者克服章节中的障碍三我们还没有提到，将研究结果与读者的个人情况联系起来。我们形成性研究的参与者对论文中与治疗相关的患者证词表示了兴趣，并希望了解与读者相似的患者对治疗的反应。未来的接口如普通纸张可以解决这一障碍。

帮助医疗保健提供者和患者权益倡导者。可以像这样的接口吗普通纸张除了患者和护理者之外，还有利于医学研究中的其他利益相关者吗？医疗服务提供者和患者倡导者阅读医学研究论文，将其发现应用于临床实践[25,46,88]. 这些群体面临的需求和障碍不同于医疗保健消费者，可能需要做出不同的努力来解决。举一个例子，提供者可能需要审查更多与更广泛的患者情况相关的研究论文。也许像这样的接口普通纸可以扩展到支持对论文集的审查，例如通过提取和总结论文中关键问题的答案。

支持其他领域的非专业读者医学研究是许多非专业读者阅读高度技术性文件的背景之一。普通纸张的设计可以激发人们在这些其他环境中解决相关障碍的努力。这些背景的某些方面值得进行新的设计工作。例如，法律合同或隐私声明的关键问题索引中出现的问题与医学论文中的问题不同。其他类型的文档，如软件教程，可能需要按照特定的顺序阅读才能变得合理，以至于新的索引功能可能会混淆读者。在这种情况下，关键问题索引需要与文档的原始结构保持一致。我们预计，如果能够根据预想读者熟悉的术语进行适当调整，那么现场章节指南和术语定义对于阅读许多其他领域的文档也同样有帮助。

9结论

在本文中，我们询问交互界面如何使医学研究论文更容易被需要它的医疗保健消费者所接受。我们的主要观点是，通过将纯语言摘要与原始论文内容结合起来，并提供阅读最重要段落的指导，可以使医学论文更容易接受。我们设计了一个新颖的界面，普通纸张，利用自然语言处理的最新发展，通过交互式功能提供阅读支持。在可用性研究中普通纸张，参与者使用普通纸张和使用典型PDF阅读器的人相比，阅读研究论文的难度更小。其中一个特别受欢迎的功能是关键问题索引，它支持基于问题的纸张导航。随着对设计、AI的进一步投资，以及对部署的仔细考虑，我们看到了如下工具普通纸张在帮助医疗保健消费者更好地了解医疗领域与他们相关的进步方面发挥了作用。

脚注

这高于研究时联邦最低工资7.25美元和州最低工资13.69美元。

当时可用的最佳模型是文本-davinci-002，我们在8月至9月之间进行了查询。2021

^三

https://beta.openai.com/examples/default-summarize.

⁴

https://beta.openai.com/examples/default-summarize.

⁵

我们还将相同的LMM与一个附加的交互项相匹配(\（x_1x_2）)但是\（F\）-在这三项指标中，这一术语的测试并不显著(\（p>0.67）,\（p>0.98）,\（p＞0.98）). 因此，我们在LMM中没有交互作用项的情况下继续进行分析。

对医疗保健消费者和提供者的采访

为了验证帮助读者理解医学研究论文的想法，我们采访了医疗保健消费者和提供者。我们采访了有阅读医学研究经验的医疗保健消费者（共4人，简称C1–4人），以及与患者讨论论文结果的医疗保健提供者（共2人，H1–2人）。受访者是通过我们的个人和专业网络以及其他受访者的推荐招募的。

这些访谈产生了一系列读者转向医学文献的场景。这些场景激发了我们界面的设计，并在这里提供，以激发未来的研究，帮助读者参与医学文献。

参与者阅读医学文献是因为他们想要更多的信息，而这些信息无法通过与医生的讨论或在线咨询传统的患者咨询资源来获得。这一核心动机表现在四个案例中：

—

了解有关诊断的更多信息：参与者表示希望了解更多信息，而不是患者手册或医生的简短预约，因为他们希望更深入地了解诊断结果（C1、C3）。

—

学习背景特定信息参与者之所以查阅医学文献，是因为与常见诊断相比，他们的情况有些独特（例如，影响到身体的不同部位或不同年龄）（C1、C2）。

—

意识到新出现的治疗方案：参与者提到，患有慢性病或没有治愈方法（例如严重过敏）的患者鼓励他们寻找新的临床试验和试验结果，作为寻找新治疗方案的一种方式。（C1、C4）

—

比较治疗方案：参与者描述了他们试图在医生推荐的不同治疗方法之间做出选择，或者只是想了解更多关于这些治疗方法的信息（例如，临床试验或替代治疗的结果）（C1）。

这些发现支持了之前关于消费者健康信息寻求动机的研究[97]并说明开放获取医学文献的好处[115]作为医疗保健消费者寻找重要信息的额外资源。我们采访过的一家医疗服务提供商也给出了类似的见解：他们的患者寻求医学研究论文作为信息来源，以补充与医生的现场讨论（H1）。

与参与者的对话表明，论文阅读会带来诸如不熟悉的术语、相关性评估和信息过载等问题。C1和C3提到许多论文标题已经太复杂了，或者他们需要在阅读时学习很多新的医学词汇。C4描述了通过多个令人沮丧的结果阅读时的情绪耗竭。C2提到很难评估研究是否值得信赖或与他们相关。所有参与者都提到，在筋疲力尽之前，他们只能花一两个小时阅读研究论文。为了更深入地了解这些挑战是如何在阅读过程中表现出来的，我们设计了第二个形成性研究，观察非专业人士在阅读医学论文时遇到这些挑战的情况。

B迭代设计

共有8名参与者（N1-8）使用了两个早期的原型普通纸张在定性可用性评估中。参与者是从我们的机构、我们的专业网络和Upwork中招募的。在这些评估中，参与者得到了第节中的修改场景3.3用普通纸张原型。这些评估每次持续一小时。

总体参与者报告称，使用普通纸原型帮助他们获得论文中的重要信息（N1–6，8）。参与者表示，这些功能有助于他们在阅读（N4）时集中注意力，并对论文（N1和3）进行了很好的概述。参与者都对现有的用于他们自己寻找健康信息的工具感到兴奋。可用性评估还说明了在这种阅读环境下有效交互辅助工具的重要设计目标，我们将其集成到普通纸张:

按需提供注册表。简明的语言不仅有助于帮助读者理解文本；它还可以帮助读者避免阅读大量密集的文本。在论文中提供通俗易懂的语言可以帮助读者选择不阅读的内容。N1使用了一个只有简单语言回答段落（“回答要点”）的原型，并报告说，只简化回答段落限制了他们自己探索论文的能力。N3希望得到一些注册信息，以便扫描论文中可能没有答案的其他部分。

使指导既可发现又不引人注目。读者通常不知道在哪里查找研究论文中的相关信息。导航可以将读者引导到相关的部分，这样可以节省他们的时间和精力，即使这样会降低他们的自主性。

关键问题索引提供了一篇论文的简单概述，但参与者通常在花了大量精力理解该论文之后才注意到侧栏的切换。例如，两名参与者（N1和N3）错过了切换关键问题索引侧边栏的按钮，只有在会话的稍后，当一名研究人员指出时才注意到这一点。在看到关键问题指数后，N1提到，他们希望早点看到它，因为它会在早期提供有帮助的高水平理解。

同时，侧边栏可能会干扰一些参与者。一位参与者（N5）报告称，侧边栏分散了他们的注意力，并屏蔽了他们想要访问的其他典型PDF阅读器功能，例如部分大纲。为了平衡提供直观指导的目标，而不与读者的其他阅读策略冲突，普通纸张的最后一个关键问题索引侧边栏在加载时打开，但可以切换到其他侧边栏并可以关闭。

补充而非替换文本文本至关重要；读者可以在这里找到总结或传统医疗保健消费者材料中无法获得的细微细节。功能应该使文本更容易理解，而不是取代它。此外，NLP系统是不完善的，仅仅依赖生成内容的读者可能会误解实际的论文。N1经常对原始文本进行双重检查，而N4则隐藏了注册表以阅读底层文本。我们希望确保该系统将读者集中在原始文本上，并将生成的文本作为补充，而不是替代。在原型中，要点有时与原文重叠，这使得参与者很难同时阅读这两篇文章。在最终设计中普通纸张，所有注解都尽可能靠近原文，没有重叠。此外，主旨内容是按需提供的，而不是最初与论文一起显示，以鼓励读者关注论文，并仅在必要时从主旨中提取补充内容。

C类普通纸张实施

C.1 GPT-3简化

我们根据OpenAI为二年级学生提供的一个预设示例改编了GPT-3提示和生成参数（例如，生成长度和温度）。⁴在观察到使用二年级学生导致模型输出过于笼统和模糊后，我们将提示改为针对五年级学生而非二年级学生进行总结。我们还测试了后来的成绩，直到大学，但发现使用五年级学生提示生成的文本是最一致的。我们对GPT-3的最后提示是：

我五年级的学生问我这段话的意思是什么：“”“[文字要简单]”“”“我为他改写了这段话，用一个五年级学生能理解的简单语言：

我们还更新了世代参数，特别是世代长度和温度（控制世代随机性的参数）。我们将世代长度设置为100个字符，温度设置为0.25到0.5的范围，具体取决于世代。

Gist策展.实施时普通纸，我们没有跟踪生成尝试获取可用要点的次数（除了少于五次）。为了评估要点策划的程度，我们进行了一次事后分析，其中我们重新生成了15个部分并回答了要点。大多数（13）注册者都尝试了一代。平均尝试次数为1.35次，最多4次。表中包含了重新生成的示例6.

D统计分析

D.1重复测量研究中的混合效应建模

对于第节中的分析6.1.5，我们使用了线性混合效应模型(LMM公司). LMM通常用于分析数据，其中同一参与者提供了多个可能相关的测量值，称为重复测量[67]. LMM用于医学分析[32]行为科学[34]和人机交互[47,48].

对于第节中讨论的每个定量测量6.1.3(\（年\）)，我们用固定效应拟合LMM\（测试版）对于普通纸张纸张(\（x_1\）)和接口变量(\（x_2）)因素。⁵我们使用了lme4公司R中的包[13]以适应模型。更准确地说，我们适合以下LMM：

\（开始{方程式}E[y]=\beta_0+\gamma_j+\beta_1x_1+\beta _2x_2，结束{方程式{）

(1)

其中随机拦截\（\gamma_j\sim\mathcal{N}（0，\sigma^2_{gamma}）捕捉每个参与者的个人变化\（j）.

我们在表中报告了所有估计系数4由于我们变量的分类性质，我们以以下方式解释系数：\（测试版0）是的平均得分普通纸张在阅读有关突出椎间盘的论文时。\（\beta_1^{SLE}\）是给定相同界面变量的SLE论文得分的平均差。同样，\（\beta_2^{PDF}\）,\（β_2^{SD}\）和\（beta_2^{QA}\）是PDF基线、部分和术语得分的平均差异(标准偏差)，以及问答(质量保证)针对完整的接口变量普通纸张变量，给同一张纸。例如，\（β_2^{PDF}=1.9835）阅读难度意味着PDF基线的难度分数比普通纸张，这与我们在表中报告的结果相同三.

表4。

	\（测试版0）	\（\beta_1^{SLE}\）	\（\beta_2^{PDF}\）	\（β_2^{SD}\）	\（beta_2^{QA}\）
阅读困难（1-5）	2.0884	0.3750	1.9835	1.4851	0.3444
理解（1-5）	3.8231	–0.5000	–1.1769	–0.7194	0.1037
相关性（1-5）	3.9316	–0.5833	–1.1675	–0.7524	0.1934

表4附录中所述LMM的估计固定效应系数D类每次测量

D.2界面显著影响的F测试

我们进行了F类-测试每个接口变量之间的固定效应估计差异，对每个变量重复\（年\）使用lmer测试R包[59]. 使用Holm-Bonferroni[49]对\（p\）-值和p.调整R包，我们发现阅读困难的重要性\（（第001页），相关性\（（第001页），和信心\（（p\lt.001）\）-即使控制纸张和参与者的特定效果。也就是说，对于这些指标F类-测试确定了接口的选择(普通纸张、问答、章节和术语或PDF基线）是一个重要因素。请注意F类-测试无法识别哪一个接口在度量上彼此不同。

D.3接口之间固定效应的成对差异测试

量化度量的接口变量之间固定效应的成对差异\（年\）在LMM（并控制纸张）下，我们进行了事后分析。我们使用了双面\（t\）-使用emmeans公司R包，得出表中的结果三.

D.4 Likert尺度变量的序数回归

由于阅读难度、信心和理解力是用Likert型量表测量的，LMM估计的平均值可能不适合分析，尤其是如果这些测量值没有足够的正态分布。在拟合相似性之后，我们还进行了似然比测试累积链接混合效应模型(立方毫米)在中提供依次的R包[31]. 似然比测试，类似于F类-但更为保守的测试得出了类似的结果\（p\）-值-阅读困难(\（第0.001页）)，信心(\（第0.001页）)和理解(\（第0.001页）)-并得出与使用LMM时相同的结论。因为无法通过emmeans公司对于CLMM（或其他库），我们选择对这些度量使用LMM模型，以便对表进行后续分析三.

表5。

问题	来源	摘录的答案	简化的答案
本文研究的是什么条件？	PICO公司	“系统性红斑狼疮（SLE）是典型的自身免疫结缔组织病……”	“系统性红斑狼疮是一种影响全球约500万人的疾病……”
这种情况通常如何治疗？	PICO公司	“SLE确诊后，对患者进行疾病活动性和器官受累评估，这两项决定了最合适的治疗……”	“在你确诊狼疮后，医生会看看你的狼疮有多严重，对你的身体有多大影响……”
报纸想知道什么？	科克伦	“本综述的目的是报告有关治疗性肽的原理、疗效和安全性的证据……”	“这是对医生使用肽治疗狼疮的证据和原因的综述……”
报纸做了什么？	科克伦	“接下来的段落报告并讨论了关于未结合和结合治疗肽的现有证据……”	“接下来的段落告诉我们一些正在测试的药物，看看它们是否能帮助狼疮患者……”
这篇论文研究了哪些新的治疗方法？	PICO公司	“治疗性肽包括一类由不同长度的氨基酸链（通常少于40个氨基酸）组成的药物复合物……”	“肽是由氨基酸组成的小分子，氨基酸是蛋白质的组成部分……”
报纸发现了什么？	科克伦	“到目前为止，还没有任何治疗性肽被授权用于SLE患者……”	“一种针对免疫系统特定部位的药物正在接受测试，以确定它是否能帮助患有狼疮的患者……”
根据一个人的人口统计数据，结果会有所不同吗？	PICO公司	“肽是在仅对SLE具有致病性的表位的基础上设计的……”	“这些新药旨在针对导致系统性红斑狼疮的坏蛋白……”
这些发现的局限性是什么？	科克伦	“然而，尽管在临床前研究中观察到了成功的结果，但随机对照试验显示了有争议的疗效……”	“尽管这种药在实验室里效果很好，但在现实生活中效果并不好……”

表5。出现在关键问题索引中的问题，按照它们在索引中的出现顺序

表6。

原始通道	生成的Gist	可用吗？
根据对动物和人类细胞的实验，已经表明抗dsDNA抗体的重链（HC）可以作为免疫原性表位发挥作用，并引发T细胞反应[64]。值得注意的是，Skaggs等人使用NZBxNZW F1小鼠评估了口服pConsensus对临床表现和血清自身抗体滴度的影响[67]。	研究表明，抗dsDNA抗体的重链可以引发T细胞反应。Skaggs等人评估了口服pConsensus对临床表现和血清自身抗体滴度的影响。	是的，这几乎是原文的逐字复制。
48名因单节段软性椎间盘突出症导致CRP的患者被随机分为以下两种治疗方法之一：PCN或ACD。主要结果测量是手臂疼痛强度，使用视觉模拟量表（VAS）测量。次要结果是大运动期间的手臂疼痛强度、颈部疼痛、整体感知效果、颈部残疾指数（NDI）和患者的一般健康状况（简短健康调查）。在基线（T0）、干预后3个月（T2）和干预后1年（T3）测量所有参数。干预一周后（T1），对手臂疼痛、用力时的手臂疼痛、颈部疼痛、满意度和改善进行中期评估。	在这项研究中，研究人员观察了两种不同的治疗方法对椎间盘突出症患者的影响。第一种治疗是一种叫做经皮椎间盘核成形术（PCN）的手术，第二种是一种称为环形闭合装置（ACD）的非手术治疗研究人员在治疗前测量患者的手臂疼痛、颈部疼痛和整体健康状况，然后在治疗后3个月和1年再次测量。他们发现这两种治疗方法都很有效以减轻手臂疼痛和改善整体健康，但手术效果略好于非手术治疗。	不，ACD是一种外科治疗，原始文章没有描述“发现”
所有合格RCT的主要特征如表1所示。Yao Y等人[45]进行了一项回顾性队列研究，采用三种微创脊柱手术方法（PELD、MIS-TLIF和MED）治疗PELD复发患者。队列研究的中位Jada评分为6分（范围为5至8分），表明这些研究具有较高的质量。	这是一项研究，着眼于三种不同类型的手术来治疗患有某种脊柱问题的患者。研究发现这三种手术都有效在处理问题时。	不，原文并没有描述“发现”

表6.生成的简明语言摘要示例，以及我们对它们在中是否可用的指定普通纸张或是否需要再生

生成错误如所示大胆的.

工具书类

[1]

2021.费马图书馆。检索自https://fermatslibrary.com/。访问日期：2021年8月1日。

摘要

1引言

2背景和相关工作

2.1医疗保健消费者阅读医学研究

2.2交互式阅读界面

2.3用于科学文本处理的人工智能

3非专业读者的观察

3.1形成性研究

3.2参与者和招聘

3.3程序

3.4调查结果

4普通纸张：医学研究论文阅读支持

5实施

5.1术语定义

5.2章节要点

5.3关键问题索引和答案要点

6可用性研究

6.1方法

6.1.1参与者。

6.1.2程序。

6.1.3措施。

6.1.4接口变量。

6.1.5分析。

7结果

7.1参与者如何使用普通纸张的功能？

7.2如何普通纸张影响参与者自我报告的阅读难度、理解力和识别相关信息的能力？

7.3使用时理解是否有差异普通纸张?

8讨论和未来工作

8.1结果总结

8.2设计含义

8.3道德和社会影响

8.4限制

8.5未来方向

9结论

脚注

对医疗保健消费者和提供者的采访

B迭代设计

C类普通纸张实施

C.1 GPT-3简化

D统计分析

D.1重复测量研究中的混合效应建模

D.2界面显著影响的F测试

D.3接口之间固定效应的成对差异测试

D.4 Likert尺度变量的序数回归

工具书类

引用人

索引术语

建议

使用自然语言处理的医疗问题列表自动化

医学文档检索中的自然语言处理与基于内容的图像分析

普通SO-tgds语言：组成、反转和结构属性

评论

问询处

发布于

出版商

出版历史

检查更新

作者标记

限定符

贡献者

其他指标

文献计量学

文章指标

其他指标

引文

引用人

视图选项

PDF格式

电子阅读器

获取访问权限

登录选项

完全访问权限

数字

其他

分享

共享此出版物链接

在社交媒体上分享

附属公司