Token-level Identification of Multiword Expressions using Pre-trained Multilingual Language Models

Raghuraman Swaminathan; Paul Cook

doi:10.18653/v1/2023.mwe-1.1

基于预训练多语言模型的多词表达的标记级识别

摘要

在本文中，我们考虑了新的跨语言环境，用于多词表达（MWE）识别（Ramisch等人，2020年）和惯用性预测（Tayyar Madabushi等人，2022年），在这些环境中，系统将在训练期间看不到的语言上进行测试。我们的研究结果表明，经过预训练的多语种语言模型能够学习关于MWE和非特定语言的惯用语的知识。此外，我们发现其他语言的训练数据可以用于改进单语模型。

选集ID：: 2023年mwe-1.1
体积：: 第19届多词表达研讨会论文集（MWE 2023）
月份：: 五月
年份：: 2023
地址：: 克罗地亚杜布罗夫尼克
编辑：: 阿奇纳·巴蒂亚,基利安·埃文,马科斯·加西亚,沃拉·乔利,李凤·韩,湿婆-塔斯利米普尔
地点：: MWE公司
SIG公司：: SIGLEX公司
出版商：: 计算语言学协会
注：
页：: 1–6
语言：
网址：: https://aclantology.org/2023.mwe-1.1
内政部：: 10.18653/v1/2023.mwe-1.1
比比键：
引用（ACL）：: Raghuraman Swaminathan和Paul Cook。2023基于预训练多语言模型的多词表达的标记级识别.英寸第19届多词表达研讨会会议记录（MWE 2023），第1-6页，克罗地亚杜布罗夫尼克。计算语言学协会。
引用（非正式）：: 基于预训练多语言模型的多词表达的标记级识别（Swaminathan&Cook，MWE 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.mwe-1.1.pdf
视频：: https://aclantology.org/2023.mwe-1.1.mp4网址

PDF格式引用搜索视频