跨越会话障碍:面向多语言任务的对话系统的自然语言处理入门

主要文章内容

拉祖莫夫斯卡叶绿体
戈兰·格拉瓦斯
奥尔加·马杰夫斯卡
埃多尔多·蓬蒂
安娜·科霍恩
伊凡·武利奇

摘要

在面向任务的对话(ToD)中,用户与人工代理进行对话,目的是完成具体的任务。尽管这项技术代表了人工智能的中心目标之一,并且一直是更为密集的研究和开发工作的重点,但目前它仅限于几个狭窄的领域(例如,点菜、订票)和少数语言(例如,英语、汉语)。这项工作提供了对多语言ToD中现有方法和资源的广泛概述,作为这一激动人心的新兴领域的切入点。我们发现,阻碍创建真正多语言ToD系统的最关键因素是缺乏用于培训和评估的大多数语言的数据集。事实上,为模块化系统的每个组件或数据冗余的端到端系统获取注释或人工反馈既昂贵又繁琐。因此,最先进的多语言ToD方法主要依赖于资源丰富的语言(几乎完全是英语)通过(i)机器翻译或(ii)多语言表示进行的(零或少量)跨语言传输。这些方法目前仅适用于类型相似的语言和具有并行/单语语料库的语言。另一方面,由于缺乏语言多样性基准(尤其是自然语言生成和端到端评估),它们在这些边界之外的有效性值得怀疑或难以评估。为了克服这一限制,我们将ToD管道的组件与其他NLP任务进行了比较,这可以为低资源场景中的学习提供解决方案。最后,我们列出了多语种对相关领域带来的额外挑战(如语音、生成文本的流利性和以人为中心的评估),并指出了未来的发展方向,有望进一步扩大当前ToD系统的语言覆盖范围和对话能力。 

文章详细信息

章节
文章