Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Koto, Fajri; Beck, Tilman; Talat, Zeerak; Gurevych, Iryna; Baldwin, Timothy

计算机科学>计算与语言

arXiv公司：2402.02113（cs）

【于2024年2月3日提交】

标题：使用多语言情感词典对低资源语言进行零炮情感分析

作者：法里·库托,蒂尔曼·贝克,Zeerak Talat公司,艾丽娜·古列维奇,蒂莫西·鲍德温

查看PDF HTML（实验性）

摘要：由于缺乏低资源语言中的大规模数据，通常很难在这些语言中改进多语言模型的功能。在本文中，我们通过在预训练中使用多语言词汇来增强多语言能力，从而放松对低资源语言文本的依赖。具体来说，我们关注34种语言的零快照情感分析任务，包括6种高/中资源语言、25种低资源语言和3个代码切换数据集。我们证明，与在英语情感数据集上进行微调的模型以及大型语言模型（如GPT-3.5、BLOOMZ和XGLM）相比，使用多语言词典进行预训练，而不使用任何句子级情感数据，可以获得更好的零快照性能。从看不见的低资源语言到涉及高资源语言的代码混合场景，可以观察到这些发现。

评论：	2024年欧洲选举委员会接受
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2402.02113【cs.CL】
	（或 arXiv:2402.02113v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2402.02113

提交历史记录

发件人：Fajri Koto[查看电子邮件]
[第1版]2024年2月3日星期六10:41:05 UTC（7650 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2024-02

更改为浏览方式：

反恐精英

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：使用多语言情感词典对低资源语言进行零炮情感分析

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：使用多语言情感词典对低资源语言进行零炮情感分析

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目