第七届巴尔托-斯拉夫语自然语言处理研讨会会议记录

托马·埃尔贾维克米夏·马西恩祖克普雷斯拉夫·纳科夫雅库布·皮斯科斯基利迪娅·皮沃瓦洛娃JanŠnajder先生约瑟夫·斯坦伯格罗曼·扬加伯 (编辑)


选集ID:
W19-37号
月份:
八月
年份:
2019
地址:
意大利佛罗伦萨
地点:
BSNLP公司
SIG公司:
SIGSLAV公司
发布者:
计算语言学协会
网址:
https://aclantology.org/W19-37
内政部:
Bib导出格式:
BibTeX公司 MODS XML 尾注
PDF格式:
https://aclantology.org/W19-37.pdf

pdf格式围兜
第七届巴尔托-斯拉夫语自然语言处理研讨会会议记录
托马·埃尔贾维克|米夏·马西恩祖克|普雷斯拉夫·纳科夫|雅库布·皮斯科斯基|利迪娅·皮沃瓦洛娃|JanŠnajder先生|约瑟夫·斯坦伯格|罗曼·扬加伯

pdf格式围兜
无监督诱导U型新词汇的krainian形态学范式:使用屈折表和未命名语料库扩大命名实体和新词的覆盖范围
博格丹·巴比奇

本文提出了一种无监督的方法,通过生成新命名实体和新词的范式和形态特征结构,快速扩展乌克兰语词汇,而现有静态形态资源没有涵盖这些新命名实体或新词。这种方法解决了由词典中的动态过程创建的实体的建模范例的实际问题:这个问题对于具有专业或快速变化词典的领域中的高度反射语言来说尤其严重。该方法使用了一个未标注的乌克兰语料库和一组固定的屈折变化表,这些可以在传统语法教科书中找到。该方法的优点是更新形态词典不需要训练或语言注释,允许对现有静态词典进行快速的知识轻扩展,以提高特定语料库的形态覆盖率。该方法是在GitHub存储库上的开源软件包中实现的。它可以应用于其他资源不足的屈折语言,这些语言有互联网语料库和对其屈折系统的语言描述,例如乌克兰语的屈折表。评估结果表明,不同语料库类型的乌克兰语料库的覆盖率有了持续的提高。

pdf格式围兜
多重可接受性:在语言学习中使用未标记数据判断语法性
阿尼西亚·卡汀斯卡娅|萨达娜·伊万诺娃

我们介绍了我们在语言学习中的多重可接纳性(MA)问题上的工作。当一个单词的多个语法形式在给定的上下文中符合句法和语义时,许多语言中都会出现多重可接受性。在第二语言(L2)教育中,尤其是在自动生成练习的智能辅导系统/计算机辅助语言学习(ITS/CALL)系统中,这意味着可能有多种备选答案。我们将这个问题视为语法判断任务。我们训练一个神经网络,目标是使用“模拟学习者语料库”将句子标记为语法或非语法的句子:一个包含正确文本和自动生成的人工错误的数据集。虽然MA在许多语言中都很常见,但本文的重点是学习俄语。我们对俄语中可能出现MA的结构类型进行了详细分类,并使用由运行中的语言学习系统用户提供的答案构建的测试集对模型进行了评估。

pdf格式围兜
受感染语言中的数字规范化:一个案例研究P(P)奥利什语
拉法·波希维塔|米夏·佩雷·基维茨

文本到语音系统中的文本规范化是将书面表达转换为口语形式的过程。这项任务很复杂,因为在许多情况下,规范化的形式取决于上下文。此外,当我们分析克罗地亚语、立陶宛语、波兰语、俄语或斯洛伐克语等语言时,还存在与它们的屈折性质有关的其他困难。在本文中,我们想展示如何在没有大型专用数据集和使用为其他NLP任务准备的解决方案的情况下,为其中一种语言(波兰语)处理这个问题。我们的研究仅限于数字表达式,这是最常见的非标准化单词。提出的解决方案是将形态标记器和换能器结合在一起,并由语音形式的数字字典支持。用于评估的数据集基于波兰语国家语料库100万单词子集的一部分。通过与一个简单的基线和两个商业系统(Google Cloud Text-to-Speech和Amazon Polly)的比较,展示了所述方法的准确性。

pdf格式围兜
神经带来了什么?词法注释和柠檬化的改进分析S公司爱的人,C类克罗地亚语和S公司埃尔比安语
尼古拉·卢贝什奇|卡加·多布罗沃尔奇

我们展示了斯洛文尼亚语、克罗地亚语和塞尔维亚语形态句法注释和柠檬化的实验,这三种语言的前最先进技术与2018年CoNLL共享任务中表现最好的系统之一斯坦福NLP神经管道之间的实验。我们的实验表明,形态句法注释有了显著的改进,尤其是在需要语义知识、通过单词嵌入获得语义知识或需要对长距离依赖进行建模的类别上。另一方面,在中介化任务中,神经解决方案没有取得任何改进,这主要是因为任务严重依赖于外部词典中的查找,也因为斯坦福NLP管道的中介化有明显的改进空间。

pdf格式围兜
AGRR公司2019年:间隙解决语料库R(右)俄罗斯的
玛丽亚·波诺马雷娃|基拉·德罗加诺娃|伊万·斯穆罗夫|塔蒂亚娜·沙夫里纳

本文全面概述了俄语间隙数据集,该数据集由7.5k个带有间隙的句子(以及15k个相关的否定句)组成,并包含来自不同流派的数据:新闻、小说、社交媒体和技术文本。该数据集是为俄罗斯自动间隙解决共享任务(AGRR-2019)准备的,该任务旨在促进NLP工具和省略处理方法的开发。在本文中,我们特别关注在共享任务中引入的间隙解决方法以及一个替代测试集,该测试集表明我们的语料库是俄语间隙的一个多样且具有代表性的子集,足以有效地利用机器学习技术。

pdf格式围兜
为创建语料库R(右)基于神经机器翻译和后编辑的俄文本数据生成
阿纳斯塔西娅·希莫莉娜|埃琳娜·卡萨诺娃|克莱尔·加登

本文提出了一种半自动创建俄语数据到文本(D2T)语料库的方法,该语料库可用于学习D2T自然语言生成模型。对英俄神经机器翻译系统输出的错误分析表明,80%的自动翻译句子包含错误,53%的翻译错误与命名实体有关。因此,我们将重点放在命名实体上,并引入两种后期编辑技术来纠正错误翻译的NE。

pdf格式围兜
用户评论中的立场和情绪分析数据集C类克罗地亚新闻
米哈拉·博什尼亚克|姆拉登·卡兰

如今,从不断增长的在线用户生成数据中提取有用信息的新方法变得比以往任何时候都重要。在本文中,我们描述了一个数据集的创建,该数据集包含克罗地亚新闻媒体24 sata的新闻文章和相应评论。我们的注释方案专门针对检测用户评论中的立场和情绪以及评估评论员声明是否可验证的任务而定制。通过这些数据,我们希望能更好地了解公众对各种事件的看法。此外,我们还探索了应用监督机器学习模型自动标注更多数据的潜力。

pdf格式围兜
一个用于名词组合检测的数据集S公司拉维奇语
德米特里·普兹列夫|阿特姆·谢尔马诺夫|亚历山大·潘琴科|叶卡捷琳娜·阿特莫娃

本文介绍了第一个用名词复合词的成分信息注释的俄语黄金标准资源。复合短语是根据词类模式从通用依赖树库中收集的,例如ADJ+NOUN或NOUN+NAUN,使用黄金标准注释。每个复合短语由两名专家和一名主持人根据以下模式进行注释:短语可以是合成的、非合成的或模糊的(即,根据上下文,它可以被解释为合成的或非合成的)。我们对在无监督和有监督的环境中预测名词复合词成分的模型和方法进行了实验评估。我们的研究表明,对所建议的俄语语料库进行评估的方法的性能与英语语料库的结果相当。

pdf格式围兜
跨语言对命名实体的识别、规范化、分类和链接的第二次挑战S公司lavic语言
雅库布·皮斯科斯基|拉斯卡·拉斯科娃|米夏·马西恩祖克|利迪娅·皮沃瓦洛娃|Pavel Přibáň|约瑟夫·斯坦伯格|罗曼·扬加伯

我们描述了斯拉夫语中的第二个多语言命名实体挑战。该任务是识别Web文档中提到的命名实体、它们的规范化和跨语言链接。该挑战赛是第七届巴尔托-斯拉夫语自然语言处理研讨会的一部分,与ACL-2019年会议合办。八支队伍参加了比赛,涵盖四种语言和五种实体类型。命名实体识别任务的性能达到90%F-measure,远高于挑战第一版中的报告。七个小组涵盖了所有四种语言,五个小组参与了跨语言实体链接任务。共享任务网页上提供了详细的评估信息。

pdf格式围兜
BSNLP公司2019年共享任务提交:多源神经网络净入学率换乘
塔蒂亚娜·齐甘科娃|斯蒂芬·梅休|丹罗斯

本文描述了认知计算(CogComp)小组提交给巴尔托-斯拉夫语自然语言处理(BSNLP)研讨会上的多语言命名实体识别共享任务的报告。提交的最后一个模型是一个多源神经网络净入学率系统,其中嵌入了多种语言的BERT,并对各种斯拉夫语言(以及英语)的训练数据进行串联训练。我们的系统在官方测试数据上的性能表明,多源方法在这项任务中始终优于单源方法,即使存在不匹配标记集的噪音。

pdf格式围兜
TLR公司BSNLP公司2019年:多语言命名实体识别系统
何塞·G·莫雷诺|Elvys Linhares桥|米凯尔·库斯塔蒂|安托万·杜塞特

本文介绍了我们参与BSNLP2019多语言命名实体识别共享任务的情况。我们的策略基于用于序列标记的标准神经架构。特别是,我们使用了一个混合模型,该模型结合了多语言上下文和特定语言的嵌入。我们唯一提交的运行是基于使用多个模型的投票模式,一个用于任务的四种语言(保加利亚语、捷克语、波兰语和俄语),另一个用于英语。命名实体识别的结果对于所有语言来说都是令人鼓舞的,在严格和宽松度量方面分别从60%到83%不等。

pdf格式围兜
为特定语言命名实体识别调整多语言转换器
米哈伊尔·阿尔基波夫|玛丽亚·特罗菲莫娃|尤里·库拉托夫|阿列克谢·索罗金

本文研究了俄语、保加利亚语、捷克语和波兰语四种语言材料上的多语种命名实体识别问题。我们使用BERT模型解决了这一任务。我们使用一百种语言的多语言模型作为转换到上述斯拉夫语言的基础。在这4种语言上对BERT模型进行无监督的预训练,可以显著优于基线神经方法和多语言BERT。通过使用单词级CRF层扩展BERT,可以实现额外的改进。我们的系统已提交给BSNLP 2019多语言命名实体识别共享任务,并在两个竞争指标的多语言设置中表现出最佳性能。我们开源了NER模型和BERT模型,并对四种斯拉夫语进行了预培训。

pdf格式围兜
基于预训练嵌入、注意机制和国家癌症研究基金
安东·埃梅利亚诺夫|叶卡捷琳娜·阿特莫娃

在本文中,我们处理多语言命名实体识别任务。我们使用BERT语言模型嵌入双向递归网络、注意和NCRF。我们仅将多语言BERT用作嵌入程序,没有任何微调。我们在BSNLP共享任务的数据集上测试了模型,该任务由保加利亚语、捷克语、波兰语和俄语文本组成。

pdf格式围兜
联合研究中心 TMA公司-科科斯群岛:S公司lavic命名实体识别和链接。参与BSNLP公司-2019年共享任务
纪尧姆·雅克|雅库布·皮斯科斯基|赫里斯托·塔涅夫|拉尔夫·斯坦伯格

我们报告了JRC文本挖掘和分析能力中心(TMA-CC)参与BSNLP-2019共享任务的情况,该任务侧重于命名实体识别、柠檬化和跨语言链接。我们提出了一种结合基于规则的方法和轻型ML技术的混合系统。我们使用多语言词汇资源(如JRC-NAMES和BABELNET)以及命名实体猜测器来识别名称。在第二步中,我们将已知名称与通配符相结合,通过捕获屈折变体来提高识别召回率。在第三步中,我们通过使用从大型新闻文章集合中出现的名称中自动学习的屈折变化模式来筛选这些候选名称,从而提高准确性。我们的主要要求是达到高精度。我们在这四种语言上实现了平均65%的F-measure和93%的精度。

pdf格式围兜
建筑物E类英语-日语-S公司erbian机器翻译系统IMD公司b电影评论
平图·洛哈尔|马贾·波波维奇|安迪·韦

本文报告了第一个实验的结果,该实验旨在应对为用户生成的内容构建机器翻译系统的挑战,该内容涉及复杂的南斯拉夫语。我们专注于在低资源情况下将英语IMDb用户电影评论翻译成塞尔维亚语。我们探索了(i)基于短语和神经机器翻译系统的潜力和局限性,这些系统是根据来自新闻文章的域外干净并行数据训练的(ii)通过机器将英语IMDb语料库翻译成塞尔维亚语,创建额外的合成域内并行语料库。我们的主要发现是,即使在这种低资源不匹配的领域场景中,神经方法也比基于短语的方法更好地处理词法和句法,但在词汇方面,尤其是人名方面,情况有所不同。这一发现还表明,一般来说,应更系统地研究将人名机器翻译成斯拉夫语(尤其是那些需要/允许转录的人名)。

pdf格式围兜
改进中的情感分类S公司洛瓦克语
塞缪尔·佩卡尔|玛丽安·辛科|玛丽亚·比利科娃

对于许多不同的NLP任务,广泛使用不同的神经网络架构。不幸的是,大多数研究仅用英语进行和评估,而次要语言往往被忽略。我们相信对其他语言使用类似的架构可以显示有趣的结果。本文研究了改进斯洛伐克语情感分类的方法。我们对两个不同的数据集进行了几个实验,一个包含客户评论,另一个包含一般的推特帖子。我们比较了不同神经网络体系结构和不同单词表示的性能。我们表明,使用模型集成可以实现另一个改进。我们利用不同的模型集成方法进行了实验。对于这两个数据集,我们提出的模型比以前的模型取得了更好的结果。我们的实验还显示了其他潜在的研究领域。

pdf格式围兜
多语言语料库的情感分析
斯维特拉娜·加列什丘克|菊秋|朱利安·朱尔丹

本文提出了一种对斯拉夫语社交媒体内容进行监督情感分析的通用方法。该方法建议使用谷歌的神经翻译模型将文档从原始语言翻译为英语。然后,通过平均来自预训练Word2Vec英语模型的单词的向量表示,将结果文本转换为向量。在波兰语、斯洛文尼亚语和克罗地亚语推特数据集上使用几种机器学习方法测试该方法,在样本外数据上获得高达86%的分类准确率。