A Data Bootstrapping Recipe for Low-Resource Multilingual Relation Classification

Arijit Nag; Bidisha Samanta; Animesh Mukherjee; Niloy Ganguly; Soumen Chakrabarti

doi:10.18653/v1/2021.conll-1.45

一种低资源多语言关系分类的数据引导方法

阿里吉特·纳格,比迪莎·萨曼塔,阿尼梅斯·穆克吉,尼洛伊·甘古利,苏丹查克拉巴蒂

摘要

关系分类（有时称为“提取”）需要可靠的数据集来微调大型语言模型以及进行评估。数据收集对印度语言来说是一项挑战，因为它们在句法和形态上都是多样的，并且不同于英语等资源丰富的语言。尽管最近人们对印度语言的深度生成模型感兴趣，但公共数据集仍然不能很好地服务于关系分类。作为回应，我们展示了IndoRE，这是一个包含39K个实体和关系标记的黄金句子的数据集，使用三种印度语言和英语。我们从基于多语言BERT（mBERT）的系统开始，该系统捕获实体跨度位置和类型信息，并提供竞争性单语关系分类。使用该系统，我们探索并比较了语言之间的传输机制。特别是，我们研究了昂贵的黄金实例与翻译和对齐的“白银”实例之间的准确性效率权衡。

选集ID：: 2021.续-1.45
体积：: 第25届计算自然语言学习会议记录
月份：: 十一月
年份：: 2021
地址：: 在线的
编辑：: 阿里安娜·比萨扎,奥姆里·阿本德
地点：: CoNLL公司
SIG公司：: SIGNLL公司
出版商：: 计算语言学协会
注：
页：: 575–587
语言：
网址：: https://aclcollectory.org/2021.conll-1.45
内政部：: 10.18653/v1/2021.coll-1.45
比比键：
引用（ACL）：: Arijit Nag、Bidisha Samanta、Animesh Mukherjee、Niloy Ganguly和Soumen Chakrabarti。2021一种低资源多语言关系分类的数据引导方法.英寸第25届计算自然语言学习会议记录，第575-587页，在线。计算语言学协会。
引用（非正式）：: 一种低资源多语言关系分类的数据引导方法（Nag等人，CoNLL 2021）
复制引文：
PDF格式：: https://aclcollectory.org/2021.conll-1.45.pdf
视频：: https://aclantology.org/2021.coll-1.45.mp4

PDF格式引用搜索视频