新冠肺炎:检测社交媒体上的新冠肺炎误传
一个包含6761条专家注释推文的数据集,用于评估86条不同的新冠肺炎相关错误信息的错误信息检测系统的性能,并在此数据集上评估现有的NLP系统,提供初始基准并确定未来模型需要改进的关键挑战。 使用自动生成的提示从语言模型中提取知识
预处理语言模型的显著成功激发了对这些模型在预处理过程中学习何种知识的研究。将任务重组为填空问题…
减少提示和参数:使用语言模型进行简单的快速学习
这项工作表明,在少快照设置中微调LM可以大大减少对快速工程的需要,并建议微调LM用于少快照学习,因为它更准确,对不同提示更健壮,并且可以使其几乎与使用冻结LM一样高效。 预训练项频率对少快照推理的影响
总的来说,尽管LM在少数几个热点的数值推理任务中表现出了很强的性能,但结果提出了一个问题,即除了预训练数据外,模型实际推广了多少,并且鼓励研究人员在解释评估结果时考虑预训练数据。 水果:忠实地在文本中反映更新信息
新的生成任务*忠实地反映文本中的更新信息*(FRUIT),其目标是更新给定新证据的现有文章,并表明开发能够忠实地更新文章的模型需要新的神经生成模型功能,并为许多新应用打开了大门。 多模态属性提取
一个包含200多万个产品项目的混合媒体数据以及700万个描述这些项目的属性值对的数据集可以用来以弱监督的方式训练属性提取器,并提供了各种基线,这些基线证明了单个信息模式在解决问题方面的相对有效性任务。 黑盒分类器的主动贝叶斯评估
本文开发了推理策略来量化常见评估指标(准确性、误分类成本、预期校准误差)的不确定性,并提出了一个使用该不确定性进行主动评估的框架,以指导标记实例的有效选择。 从患者与提供者的互动记录中检测初级保健办公室访问中的对话主题
通过研究机器学习方法在患者-提供者对话记录中自动标注医学主题的有效性,发现在谈话中加入顺序信息可以通过平滑谈话中的噪音信息来提高患者对话中主题预测的准确性。 使用CROWDAQ轻松、可复制和质量可控的数据收集
这项工作介绍了CROWDAQ,这是一个开源平台,它通过可定制的用户界面组件、自动注释器鉴定和以可重用格式保存的管道来标准化数据收集管道,并希望它将成为社区的一个方便工具。 流式跨文档实体引用的标杆可伸缩方法
研究发现,神经和基于特征的提及编码器的相对性能在不同的领域有所不同,在大多数情况下,使用这两种方法的组合可以获得最佳性能,并且通过限制跟踪提及的数量,性能受到的影响最小。