一种低资源多语言关系分类的数据引导方法

阿里吉特·纳格,比迪莎·萨曼塔,阿尼梅斯·穆克吉,尼洛伊·甘古利,苏丹查克拉巴蒂


摘要
关系分类(有时称为“提取”)需要可靠的数据集来微调大型语言模型以及进行评估。数据收集对印度语言来说是一项挑战,因为它们在句法和形态上都是多样的,并且不同于英语等资源丰富的语言。尽管最近人们对印度语言的深度生成模型感兴趣,但公共数据集仍然不能很好地服务于关系分类。作为回应,我们展示了IndoRE,这是一个包含39K个实体和关系标记的黄金句子的数据集,使用三种印度语言和英语。我们从基于多语言BERT(mBERT)的系统开始,该系统捕获实体跨度位置和类型信息,并提供竞争性单语关系分类。使用该系统,我们探索并比较了语言之间的传输机制。特别是,我们研究了昂贵的黄金实例与翻译和对齐的“白银”实例之间的准确性效率权衡。
选集ID:
2021.续-1.45
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
阿里安娜·比萨扎,奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
575–587
语言:
网址:
https://aclcollectory.org/2021.conll-1.45
内政部:
10.18653/v1/2021.coll-1.45
比比键:
引用(ACL):
Arijit Nag、Bidisha Samanta、Animesh Mukherjee、Niloy Ganguly和Soumen Chakrabarti。2021一种低资源多语言关系分类的数据引导方法.英寸第25届计算自然语言学习会议记录,第575-587页,在线。计算语言学协会。
引用(非正式):
一种低资源多语言关系分类的数据引导方法(Nag等人,CoNLL 2021)
复制引文:
PDF格式:
https://aclcollectory.org/2021.conll-1.45.pdf
视频:
 https://aclantology.org/2021.coll-1.45.mp4