形态句法探测的多标记方法

内奥米·夏皮罗,阿曼达琳·保拉达,谢恩·斯坦内特·特雷克尔德


摘要
我们建议使用多标签探测任务来评估多语言单词嵌入的形态句法表示。这一对规范探测的调整使得我们可以很容易地从整体和个体特征(例如性别、数字、大小写)的层面上探索形态句法表征,并更自然地研究语言模型如何处理共现特征(例如,一致现象)。我们用多语种BERT(Devlin等人,2018)演示了这项任务,并对七种不同类型的语言进行了训练探索:南非荷兰语、克罗地亚语、芬兰语、希伯来语、韩语、西班牙语和土耳其语。通过这个简单但稳健的范式,我们验证了多语言BERT可以同时提取许多形态句法特征。我们进一步评估了六种搁置语言的探针:阿拉伯语、汉语、马拉地语、斯洛文尼亚语、塔加路语和约鲁巴语。这种零快照的探测方式还有一个额外的好处,就是可以揭示语言模型识别出哪些跨语言属性是由多种语言共享的。
选集ID:
2021.结果-emnlp.382
体积:
计算语言学协会的发现:EMNLP 2021
月份:
十一月
年份:
2021
地址:
多米尼加共和国蓬塔卡纳
编辑:
玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛(Scott Wen-tau Yih)
地点:
调查结果
SIG公司:
SIGDAT公司
出版商:
计算语言学协会
注:
页:
4486–4524
语言:
网址:
https://aclantology.org/2021.findings-emnlp.382
内政部:
10.18653/v1/2021.查找-emnlp.382
比比键:
引用(ACL):
内奥米·夏皮罗(Naomi Shapiro)、阿曼达琳·保拉达(Amandalynne Paulada)和谢恩·斯坦内特·特雷克尔德(Shane Steinert-Threlkeld)。2021形态句法探测的多标记方法.英寸计算语言学协会的发现:EMNLP 2021,第4486–4524页,多米尼加共和国卡纳角。计算语言学协会。
引用(非正式):
形态句法探测的多标记方法(Shapiro等人,《2021年调查结果》)
复制引文:
PDF格式:
https://aclantology.org/2021.findings-emnlp.382.pdf
视频:
 https://acl选集.org/2021.findings-emnlp.382.mp4
数据
通用依赖项