预训练项频率对少快照推理的影响

雅萨曼·拉泽吉-罗伯特·洛根四世-马特·加德纳-萨米尔·辛格

摘要纸类

预训练语言模型（LM）通过在少量快照设置中从几个示例中进行推断，证明了执行数值推理的能力。然而，这种推断在多大程度上依赖于稳健的推理尚不清楚。在本文中，我们研究了这些模型对预处理数据中不太常见的术语的推理能力。特别是，我们检查了测试实例上的模型性能与预训练数据中来自这些实例的术语频率之间的相关性。我们在各种数字推导任务（例如，算术和单位转换）上测量了许多基于GPT的语言模型（在Pile数据集上预处理）的这种相关性的强度。我们的结果一致表明，模型在术语更为普遍的情况下更为准确，在某些情况下，与最底层的10%相比，在最常见的10%术语中，超过70%（绝对值）的模型更为准确。总的来说，虽然LMs在少数几个热点的数值推理任务中表现出了很强的性能，但我们的结果提出了一个问题，即除了预训练数据外，模型实际推广了多少，我们鼓励研究人员在解释评估结果时考虑预训练数据。

水果：忠实地在文本中反映更新信息

NAACL 2022（最佳新任务）

罗伯特·洛根四世-亚历山大·帕索斯-萨米尔·辛格-张明伟

摘要纸类

维基百科等文本知识库需要付出相当大的努力才能保持最新和一致。虽然自动化写作助手可能会减轻这一负担，但建议基于外部知识进行编辑的问题尚未得到充分探讨。在本文中，我们介绍了一种新的生成任务，即*在文本中忠实地反映更新的信息*（FRUIT），其目标是在给定新证据的情况下更新现有文章。我们发布了FRUIT-WIKI数据集，该数据集包含从成对维基百科快照生成的170K多个远程监控数据，以及我们的数据生成管道和914个黄金评估集，这些实例的编辑保证得到证据的支持。我们为流行的生成系统以及EDIT5提供了基准测试结果，EDIT5是我们介绍的一种基于T5的编辑方法，建立了最新的技术水平。我们的分析表明，开发能够忠实更新文章的模型需要神经生成模型的新功能，并为许多新应用打开了大门。

减少提示和参数：使用语言模型进行简单的快速学习

ACL调查结果2022，ENLSP研讨会@NeurIPS 2021（最佳海报）

罗伯特·洛根四世-伊万娜·巴拉泽维奇-埃里克·华莱士-法比奥·彼得罗尼-萨米尔·辛格-塞巴斯蒂安·里德尔

摘要纸类代码

使用训练示例和任务描述提示语言模型（LM）被视为是近期在少快照学习中取得成功的关键。在这项工作中，我们表明，在少快照设置中微调LM可以大大减少提示工程的需要。事实上，可以使用空提示，即既不包含特定任务模板也不包含训练示例的提示，并在许多任务中实现与手动调整提示相比具有竞争力的准确性。虽然微调LM确实为每个下游任务引入了新参数，但我们表明，这种内存开销可以大大减少：仅微调偏置项可以实现与标准微调相当或更好的精度，而只更新0.1%的参数。总之，我们建议对LM进行微调，以实现较少的快照学习，因为它更准确，对不同提示更健壮，并且几乎与使用冻结LM一样高效。

流式跨文档实体引用的标杆可伸缩方法

ACL 2021年

罗伯特·洛根四世-安德鲁·麦克拉姆-萨米尔·辛格-丹·比克尔

摘要纸类代码

流式跨文档实体引用（CDC）系统通过增量聚类以可扩展的方式消除命名实体的歧义。与其他命名实体消除歧义的方法（例如实体链接）不同，流式CDC允许消除推理时未知的实体歧义。因此，它非常适合处理经常引入新实体的数据流。尽管有这些好处，但这项任务目前很难研究，因为现有方法要么是根据不再可用的数据集进行评估，要么是忽略了确保公平比较所需的其他关键细节。在这项工作中，我们通过编译一个改编自现有免费数据集的大型基准来解决这个问题，并对一些新的和现有的基线模型进行全面评估。我们研究：如何对提及进行最佳编码，哪些聚类算法对分组提及最有效，模型如何转移到不同的域，以及在推理过程中跟踪的提及数量的限制如何影响性能。我们的结果表明，神经和基于特征的提及编码器在不同领域的相对性能不同，在大多数情况下，使用这两种方法的组合可以获得最佳性能。我们还发现，通过限制被跟踪的提及次数，性能受到的影响最小。

黑盒分类器的主动贝叶斯评估

AAAI 2021年

迪西吉-罗伯特·洛根四世-帕德拉克·斯迈思-马克·斯泰弗斯

摘要纸类代码

机器学习的最新进展导致在各种应用程序中增加了黑盒分类器的部署。在许多此类情况下，迫切需要可靠地评估这些预处理模型的性能，并以标签效率的方式进行评估（考虑到标签可能稀缺且收集成本高昂）。本文介绍了一种用于评估分类器性能的主动贝叶斯方法，以满足可靠性和标签效率的需要。我们首先开发推理策略来量化常见评估指标的不确定性，如准确性、误分类成本和校准误差。然后，我们提出了一个使用推断不确定性的主动贝叶斯评估的通用框架，以指导有效选择标记实例，从而使用更少的标记实现更好的性能评估。通过对现代神经分类器（如ResNet和BERT）在多个标准图像和文本分类数据集上的性能进行一系列系统的经验测试，我们证明了我们提出的主动贝叶斯方法的显著优势。

从常识知识图导出行为测试

CSKG研讨会@AAAI 2021

雅萨曼·拉泽吉-罗伯特·L·洛根四世-萨米尔·辛格

摘要纸类

尽管NLP模型在常识推理任务上表现出“超人”的性能，但尚不清楚这些模型是否真的具有常识知识。构建评估数据集来测试这一知识，由于涉及人工操作，成本很高，而且范围也有限。同时，常识知识图（CSKG）旨在广泛覆盖结构化常识，但不能直接用于测试目的。在这项工作中，我们介绍了一种半自动化方法，该方法利用CSKGs为NLP任务构建域外评估集，该评估集比纯手动方法更具可扩展性。使用此过程，我们从两个流行的CSKGs-ConceptNet和ATOMIC创建测试用例，以测试为自然语言推理（NLI）和问答（QA）训练的模型的常识推理能力。这些测试揭示了这些模型失效模式的有趣差异；接受NLI培训的模型往往在本体知识测试中表现更好，例如“is a”和“used for”关系，在需要理解“欲望”、“需求”和“欲望”的测试中失败，而QA模型在涉及“欲望”和“愿望”的测试上表现更好。

自动提示：使用自动生成的提示从语言模型中获取知识

EMNLP 2020

Taylor Shin先生-雅萨曼·拉泽吉-罗伯特·洛根四世*-埃里克·华莱士-萨米尔·辛格

摘要纸类代码

确定预处理语言模型捕获的知识是一项重要挑战，通常通过使用分类器探测模型表示来解决。然而，对于事实或文本蕴涵等语义知识，很难设计探针。将这些语义任务改写为完形填空测试（即填空问题）是探索此类知识的一种很有前途的方法，但需要手工制作文本提示来引出此类知识，限制了其使用。在本文中，我们开发了一种自动化的任务认知方法，以基于梯度引导搜索为任何分类任务创建完形填空提示。我们发现，提示可以证明MLM具有执行情感分析和自然语言推理的固有能力，并且在没有任何微调的情况下，有时可以实现与最新最先进的监督模型相当的性能。我们还表明，与手动提示相比，我们的提示可以从MLM中获得更准确的事实知识，此外，当使用适当的提示进行提示时，MLM可以作为开箱即用的关系提取器，比最近的受监督RE模型更有效。

使用CROWDAQ轻松、可复制和质量可控的数据收集

EMNLP 2020-演示

强宁-郝武-Pradeep Dasigi公司-Dheeru Dua公司-马特·加德纳-罗伯特·洛根四世-安娜·马拉索维奇-聂振金

摘要纸类代码

高质量和大规模数据是人工智能系统成功的关键。然而，大规模数据注释工作经常面临一系列共同的挑战：（1）设计一个用户友好的注释界面；（2）有效培训足够的解说员；（3）再现性。为了解决这些问题，我们引入了CROWDAQ，这是一个开源平台，它使用可定制的用户界面组件、自动注释器鉴定和以可重用格式保存的管道来标准化数据采集管道。我们表明，CROWDAQ大大简化了不同数据收集用例集上的数据注释，我们希望它将成为社区的一个方便工具。

新冠肺炎：检测社交媒体上的新冠肺炎误传

NLP-COVID19研讨会@EMNLP 2020（最佳论文）

塔曼娜·侯赛因-罗伯特·洛根四世-阿朱纳·乌加特-松原义友-肖恩·杨-萨米尔·辛格

摘要纸类代码数据集

持续的疫情加剧了开发工具的必要性，以标记互联网上，特别是推特等社交媒体上与新冠肺炎相关的错误信息。然而，由于语言的新颖性和信息的快速变化，现有的错误信息检测数据集在评估用于检测该主题错误信息的系统时并不有效。错误信息检测可以细分为两个子任务——检索与被检查真实性的帖子相关的误解，以及立场检测，以确定帖子是否同意、不同意或对检索到的误解不表达立场。为了促进这项任务的研究，我们发布了COVIDLies，这是一个由5K条带专家注释的推文组成的数据集，用于评估错误信息检测系统对86条不同的COVID-19相关错误信息的性能。我们在此数据集上评估现有的NLP系统，提供第一个基准，并确定未来模型需要改进的关键挑战。

基于重要性抽样的潜在语言模型评估

ACL 2020

罗伯特·洛根四世-马特·加德纳-萨米尔·辛格

摘要纸类

与传统语言模型相比，使用其他潜在结构（例如语法树、共指链、知识图链接）的语言模型具有一些优势。然而，基于相似性的这些模型的评估往往很难解决，因为它需要在潜在空间上边缘化。现有工作通过使用重要性抽样来避免此问题。尽管这种方法具有渐近保证，但很少对决策的影响进行分析，例如样本大小和建议分布的选择对报告的估计值的影响。在本文中，我们对三个模型进行了分析：RNNG、EntityNLM和KGLM。此外，我们阐明了重要抽样在这些工作中应用的细微差异，这些工作可能会对最终估计产生实质性影响，并提供了加强此技术有效性的理论结果。

从患者与提供者的互动记录中检测初级保健办公室访问中的对话主题

美国医学信息学协会杂志，第26卷，第12期，2019年12月

Jihyun公园-迪米特里奥斯·科齐亚斯-郭佩蒂（Patty Kuo）-罗伯特·L·洛根四世-克里齐亚·默塞德-萨米尔·辛格-迈克尔·塔纳-埃菲·卡拉·塔尼斯基都-詹妮弗·埃尔斯顿·拉法塔-大卫·C·阿特金斯-明泰-赛尔-扎克·伊梅尔-帕德拉克·斯迈思

摘要纸类代码

在电子健康记录、实验室测试和其他技术中，基于办公室的患者和提供者通信仍然是初级医疗的核心。患者通常会提出多项投诉，要求医生决定如何平衡相互竞争的需求。如何分配这段时间对患者满意度、付款和护理质量有影响。我们研究了机器学习方法在患者-提供者对话记录中自动标注医学主题的有效性。我们使用279次初级保健就诊的对话记录来预测谈话话题标签。不同的机器学习模型被训练用于操作单个或多个局部话轮（逻辑分类器、支持向量机、选通递归单元）以及集成话轮序列信息的序列模型（条件随机场、隐马尔可夫模型和分层选通递归单位）。使用交叉验证进行评估，以测量1）谈话次数的分类准确度和2）访视级别的准确度、召回率和F1得分。实验结果表明，序列模型在话轮层次上具有较高的分类精度，在访问层次上具有更高的分类精度。与顺序模型相比，独立模型在访视水平上的回忆得分更高。通过平滑谈话转向中的噪声信息，在谈话转向之间合并顺序信息提高了患者-提供者对话中主题预测的准确性。尽管结果很有希望，但可能需要更先进的预测技术和更大的标记数据集来实现适合于实际临床应用的预测性能。

知识增强的上下文单词表示

2019年EMNLP

马特·E·彼得斯-马克·诺伊曼-罗伯特·洛根四世-罗伊·施瓦茨-维杜·乔希-萨米尔·辛格-诺亚·A·史密斯

摘要纸类代码

上下文词语表示通常是针对非结构化、未标记的文本进行的，它不包含任何与现实世界实体相关的明确基础，并且通常无法记住这些实体的事实。我们提出了一种通用方法，将多个知识库（KB）嵌入到大规模模型中，从而用结构化的、人性化的知识增强其表示。对于每个知识库，我们首先使用一个集成的实体链接器来检索相关的实体嵌入，然后通过一种文字到实体的关注形式来更新上下文单词表示。与以前的方法不同，实体链接器和自监督语言建模目标在多任务设置中进行端到端的联合训练，该设置将少量实体链接监督与大量原始文本相结合。在将WordNet和维基百科的一个子集集成到BERT中后，知识增强型BERT（KnowBert）表现出了更强的困惑感、回忆探测任务中测量到的事实的能力以及关系提取、实体键入和词义消歧的下游性能。KnowBert的运行时与BERT相当，并且可以扩展到大型KB。

巴拉克的妻子希拉里：使用知识图进行事实软件语言建模

ACL 2019年

罗伯特·洛根四世-尼尔森·F·刘-马修·彼得斯-马特·加德纳-萨米尔·辛格

摘要纸类代码数据集

对人类语言进行建模不仅需要生成流畅的文本，还需要对事实知识进行编码。然而，传统的语言模型只能记住训练时看到的事实，并且通常很难回忆起来。为了解决这个问题，我们引入了知识图语言模型（KGLM），这是一种神经语言模型，具有从与上下文相关的知识图中选择和复制事实的机制。这些机制使模型能够呈现以前从未见过的信息，并生成本地令牌。我们还介绍了链接的WikiText-2数据集，这是一个与Wikidata知识图对齐的带注释文本的语料库，其内容（大致）与流行的WikiText-2基准测试相匹配。在实验中，我们证明KGLM比强大的基线语言模型取得了显著更好的性能。我们还比较了不同语言模型完成需要事实知识的句子的能力，表明KGLM在生成事实方面优于甚至非常大的语言模型。

黑盒分类器的贝叶斯评价

2019年ICML深度学习中的不确定性和稳健性研讨会

迪西吉-罗伯特·洛根四世-帕德拉克·斯迈思-马克·斯泰弗斯

摘要

人们越来越需要对预测模型（如深度神经网络）的性能进行准确的定量评估，例如，在新环境中，在对其进行培训后，进行样本外评估。在此背景下，我们提出了一个贝叶斯框架，用于评估黑盒分类器的性能特征，对准确性和校准偏差等数量进行推断。我们使用三个应用于大型现实世界数据集的深度神经网络演示了该方法，执行推理和主动学习以评估特定类别的性能。

PoMo：在上下文中生成实体特定的Post-Modifier

2019年NAACL

Jun Seok Kang先生-罗伯特·洛根四世-朱泽伟-杨晨-迪鲁·杜阿-凯文·金佩尔-萨米尔·辛格-尼兰扬·巴拉苏布拉曼尼亚语

摘要纸类数据集

我们引入实体后修饰语生成作为协作写作任务的一个实例。给定一个关于目标实体的句子，任务是自动生成一个后修饰语短语，该短语提供关于该实体的上下文相关信息。例如，对于“巴拉克·奥巴马，_______，支持‘我太’运动”这句话，短语“两个女孩的父亲”是一个上下文相关的后修饰语。为此，我们构建了PoMo，这是一个根据新闻文章自动创建的后修饰数据集，反映了新闻工作者需要合并与特定新闻事件相关的实体信息。PoMo由231000多个句子组成，带有后置修饰语，并从Wikidata中提取了大约57K个独特实体的相关事实。我们使用众包来证明，建模上下文相关性对于准确生成后修饰语是必要的。我们采用了许多现有的生成方法作为该数据集的基线。我们的结果表明，在确定要包括的相关事实（知道哪些索赔相关会使BLEU得分提高>20%）和为上下文生成适当的后修饰语文本（提供相关索赔不足以准确生成）方面，还有很大的改进空间。我们进行了错误分析，为未来的研究提供了有希望的方向。

多模态属性提取

2017年NeurIPS AKBC研讨会

罗伯特·洛根四世-塞缪尔·休谟-萨米尔·辛格

摘要纸类海报代码数据集

信息提取的广泛目标是从非结构化数据中导出结构化信息。然而，大多数现有的方法只关注文本，而忽略了其他类型的非结构化数据，如图像、视频和音频，这些数据在网络信息中所占比例越来越大。为了解决这一缺点，我们提出了多模态属性提取任务。给定一组关于实体的非结构化和半结构化上下文信息（例如文本描述或视觉描述），任务是提取实体的底层属性。在本文中，我们提供了一个包含200多万个产品项的混合媒体数据集，以及700万个属性值对，用于描述可用于以弱监督方式训练属性提取器的项。我们提供了各种基线，这些基线证明了单个信息模式在解决任务以及研究人类表现方面的相对有效性。

罗伯特·洛根四世

加州大学欧文分校博士生

研究

预训练项频率对少快照推理的影响

雅萨曼·拉泽吉-罗伯特·洛根四世-马特·加德纳-萨米尔·辛格

水果：忠实地在文本中反映更新信息

NAACL 2022（最佳新任务）

罗伯特·洛根四世-亚历山大·帕索斯-萨米尔·辛格-张明伟

减少提示和参数：使用语言模型进行简单的快速学习

ACL调查结果2022，ENLSP研讨会@NeurIPS 2021（最佳海报）

罗伯特·洛根四世-伊万娜·巴拉泽维奇-埃里克·华莱士-法比奥·彼得罗尼-萨米尔·辛格-塞巴斯蒂安·里德尔

流式跨文档实体引用的标杆可伸缩方法

ACL 2021年

罗伯特·洛根四世-安德鲁·麦克拉姆-萨米尔·辛格-丹·比克尔

黑盒分类器的主动贝叶斯评估

AAAI 2021年

迪西吉-罗伯特·洛根四世-帕德拉克·斯迈思-马克·斯泰弗斯

从常识知识图导出行为测试

CSKG研讨会@AAAI 2021

雅萨曼·拉泽吉-罗伯特·L·洛根四世-萨米尔·辛格

自动提示：使用自动生成的提示从语言模型中获取知识

EMNLP 2020

Taylor Shin先生*-雅萨曼·拉泽吉*-罗伯特·洛根四世*-埃里克·华莱士-萨米尔·辛格

使用CROWDAQ轻松、可复制和质量可控的数据收集

EMNLP 2020-演示

强宁-郝武-Pradeep Dasigi公司-Dheeru Dua公司-马特·加德纳-罗伯特·洛根四世-安娜·马拉索维奇-聂振金

新冠肺炎：检测社交媒体上的新冠肺炎误传

NLP-COVID19研讨会@EMNLP 2020（最佳论文）

塔曼娜·侯赛因*-罗伯特·洛根四世*-阿朱纳·乌加特*-松原义友*-肖恩·杨-萨米尔·辛格

基于重要性抽样的潜在语言模型评估

ACL 2020

罗伯特·洛根四世-马特·加德纳-萨米尔·辛格

从患者与提供者的互动记录中检测初级保健办公室访问中的对话主题

美国医学信息学协会杂志，第26卷，第12期，2019年12月

知识增强的上下文单词表示

2019年EMNLP

马特·E·彼得斯-马克·诺伊曼-罗伯特·洛根四世-罗伊·施瓦茨-维杜·乔希-萨米尔·辛格-诺亚·A·史密斯

巴拉克的妻子希拉里：使用知识图进行事实软件语言建模

ACL 2019年

罗伯特·洛根四世-尼尔森·F·刘-马修·彼得斯-马特·加德纳-萨米尔·辛格

黑盒分类器的贝叶斯评价

2019年ICML深度学习中的不确定性和稳健性研讨会

迪西吉*-罗伯特·洛根四世*-帕德拉克·斯迈思-马克·斯泰弗斯

PoMo：在上下文中生成实体特定的Post-Modifier

2019年NAACL

Jun Seok Kang先生-罗伯特·洛根四世-朱泽伟-杨晨-迪鲁·杜阿-凯文·金佩尔-萨米尔·辛格-尼兰扬·巴拉苏布拉曼尼亚语

多模态属性提取

2017年NeurIPS AKBC研讨会

罗伯特·洛根四世-塞缪尔·休谟-萨米尔·辛格

联系人

Taylor Shin先生-雅萨曼·拉泽吉-罗伯特·洛根四世*-埃里克·华莱士-萨米尔·辛格

塔曼娜·侯赛因-罗伯特·洛根四世-阿朱纳·乌加特-松原义友-肖恩·杨-萨米尔·辛格

迪西吉-罗伯特·洛根四世-帕德拉克·斯迈思-马克·斯泰弗斯