计算机科学>计算与语言
标题: 使用多语言情感词典对低资源语言进行零炮情感分析
摘要: 由于缺乏低资源语言中的大规模数据,通常很难在这些语言中改进多语言模型的功能。 在本文中,我们通过在预训练中使用多语言词汇来增强多语言能力,从而放松对低资源语言文本的依赖。 具体来说,我们关注34种语言的零快照情感分析任务,包括6种高/中资源语言、25种低资源语言和3个代码切换数据集。 我们证明,与在英语情感数据集上进行微调的模型以及大型语言模型(如GPT-3.5、BLOOMZ和XGLM)相比,使用多语言词典进行预训练,而不使用任何句子级情感数据,可以获得更好的零快照性能。 从看不见的低资源语言到涉及高资源语言的代码混合场景,可以观察到这些发现。