计算机科学>计算与语言
标题: RedHOT:社会媒体上带注释的医学问题、经验和主张的语料库
摘要: 我们提供Reddit Health Online Talk(RedHOT),这是一个包含22000条Reddit社交媒体帖子的语料库,内容涉及24种健康状况。 注释包括与医疗索赔、个人经历和问题相对应的跨度划分。 我们收集关于已识别索赔的附加细粒度注释。 具体来说,我们标记了描述患者群体、干预措施和结果(PIO元素)的片段。 使用该语料库,我们介绍了检索与社交媒体上的给定声明相关的可信证据的任务。 我们提出了一种新的方法来自动推导该任务的(噪声)监督,我们使用该方法来训练密集检索模型; 这优于基准模型。 医生对检索结果进行的手动评估表明,虽然我们的系统性能很有希望,但仍有很大的改进空间。 收集的注释(和组装数据集的脚本)可在 此https URL .