CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing

Rosenbaum, Andy; Soltan, Saleh; Hamza, Wael; Saffari, Amir; Damonte, Marco; Groves, Isabel

计算机科学>计算与语言

arXiv公司：2210.07074（cs）

【2022年10月13日提交(第1版)，上次修订日期：2022年10月14日（此版本，v2）]

职务：CLASP：用于语义分析的少量快速跨语言数据增强

作者：安迪·罗森鲍姆,萨利赫·索尔坦,瓦尔·哈姆扎,阿米尔·萨法里,马可·达蒙特,伊莎贝尔·格罗夫斯

查看PDF

摘要：开发语义分析（SP）模型的一个瓶颈是需要大量的带人标签的训练数据。考虑到SP人工注释的复杂性和成本，标记数据通常很少，特别是在多语言设置中。大型语言模型（LLM）仅举了几个例子，就擅长于SP，但LLM不适合要求低延迟的运行时系统。在这项工作中，我们提出了CLASP，这是一种改进中等规模模型的低资源SP的简单方法：我们从AlexaTM 20B生成合成数据，以增加40x更小模型（500M参数）的训练集。我们在低资源环境中对两个数据集进行评估：英语PIZZA，包含348或16个真实示例，以及mTOP跨语言零快照，其中训练数据只能用英语提供，并且该模型必须推广到四种新语言。在这两个数据集上，我们都显示出与强基线方法相比的显著改进。

评论：	接受AACL-IJCNLP 2022：计算语言学协会亚太分会第二届会议和第十二届国际自然语言处理联合会议，2022年11月20日至23日。请参阅此https URL
学科：	计算与语言（cs.CL）; 人工智能；机器学习（cs.LG）
引用为：	arXiv公司：2210.07074【cs.CL】
	（或 arXiv:2210.07074v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2210.07074

提交历史记录

发件人：安迪·罗森鲍姆[查看电子邮件]
[第1版]2022年10月13日星期四15:01:03 UTC（475 KB）
[版本2]2022年10月14日星期五09:50:24 UTC（475 KB）

计算机科学>计算与语言

职务：CLASP：用于语义分析的少量快速跨语言数据增强

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：CLASP：用于语义分析的少量快速跨语言数据增强

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目