第十三届多词表达研讨会论文集(MWE公司2017)

斯特拉·马克安托纳图,卡洛斯·拉米施,阿加塔·萨瓦里,维罗妮卡·文泽 (编辑)


选集ID:
第17-17页
月份:
四月
年份:
2017
地址:
西班牙巴伦西亚
地点:
MWE公司
SIG公司:
SIGLEX公司
出版商:
计算语言学协会
网址:
https://aclantology.org/W17-17
内政部:
10.18653/v1/W17-17
Bib导出格式:
BibTeX公司 MODS XML 尾注
PDF格式:
https://aclcollectory.org/W17-17.pdf

pdf格式围兜
第十三届多词表达研讨会会议记录(MWE公司2017)
斯特拉·马克安托纳图|卡洛斯·拉米施|阿加塔·萨瓦里|维罗妮卡·文泽

pdf格式围兜
P(P)阿拉i: 副词组词典C类带轻动词的zech复合谓词
佩特拉·巴拉尼科娃|瓦克拉瓦·凯特内罗娃

我们提出了一个新的免费的捷克复数谓词释义词典,其中包含轻动词ParaDi。使用word2vec从大量单语数据中自动提取选定复杂谓词的单谓词复述候选词。它们已经过手动验证和进一步完善。我们在一个提高机器翻译质量的实验中演示了ParaDi的许多可能应用之一。

pdf格式围兜
高度多语言环境下的多字实体分类
索菲·切斯尼|纪尧姆·雅克|拉尔夫·斯坦伯格|雅库布·皮斯科斯基

本文描述了一种将数百万现有多词实体(MWEntities)(如组织或事件名称)仅基于其包含的标记分类为13种类别类型的方法。为了将我们庞大的内部多语言MWEntities集合分类为一组面向应用的实体类别,我们基于从BabelNet中提取的MWEntiities对43种语言的远程监控分类器进行了培训和测试。性能最好的分类器是使用TF.IDF加权数据表示的多类SVM。有趣的是,在所有语言的混合上训练的一个独特分类器的性能始终优于为单个语言训练的分类器,平均F1值达到88.8%。本文给出了训练和测试数据,包括对其准确性的人类评估,描述了用于训练分类器的方法,并讨论了结果。

pdf格式围兜
使用双语单词嵌入进行多语言搭配提取
马科斯·加西亚|马科斯·加西亚·萨利多|玛格丽塔·阿隆索·拉莫斯

本文提出了一种新的多语言搭配提取策略,该策略利用并行语料库学习双语单词嵌入。使用通用依赖检索单语搭配候选词,然后应用分布模型搜索目标语言中每个搭配元素的等价物。该方法不仅提取了语言间直接翻译的搭配等价物,还提取了两种语言中的搭配不是彼此直译的其他情况。几个实验——评估英语、西班牙语和葡萄牙语中三种句法模式的搭配——表明我们的方法可以有效地提取大量的双语对等词,平均精度约为90%。此外,在可比较语料库上的初步结果表明,分布模型可以用于识别不同领域的新双语搭配。

pdf格式围兜
这个帕森姆动词多词表达自动识别的共享任务
阿加塔·萨瓦里|卡洛斯·拉米施|西尔维奥·科尔代罗|费德里科·桑加蒂|维罗妮卡·文泽|贝兰·卡塞米扎德|玛丽·坎迪托|Fabienne帽子|沃拉·乔利|伊芙琳娜·斯托亚诺娃|安托万·杜塞特

多词表达(MWE)因其独特的行为而被称为NLP的“头痛”。虽然许多研究已经解决了一些类别的MWE问题,但言语MWE(VMWE)很少被建模,例如做出决定、伤心或放弃。这主要是由于它们的句法可变性,这阻碍了将它们视为“带空格的单词”。我们描述了一项旨在在理解、建模和处理VMWE方面取得实质性进展的举措。这是一项在欧洲研究网络内进行的联合努力,旨在为18种语言制定通用术语和注释指南。它的主要成果是一个500万字的多语种注释语料库,它是VMWE自动识别共享任务的基础。本文介绍了语料库标注方法和结果、共享任务组织和参与系统的结果。

pdf格式围兜
美国zeged:使用销售时点情报系统标记和解析技术
Katalin Ilona Simkó|维克托里亚·科瓦奇|维罗妮卡·文泽

本文描述了我们为多词表达研讨会提交的关于动词多词表达自动识别的共享任务的系统。它使用POS标记和依存分析来识别文本中的单标记和多标记言语MWE。我们的系统是独立于语言的,并且在十八种语言中的九种上竞争。我们的论文描述了我们的系统是如何工作的,并对提交的语言进行了错误分析。

pdf格式围兜
解析和MWE公司检测:在帕森姆共享任务
瓦西利基·福菲|卢卡·内里玛|埃里克·韦尔利

识别句子中的多词表达式(MWE)以确保其在后续应用程序(如机器翻译)中的正确处理,以及执行句子的句法分析是相互关联的过程。在我们的方法中,优先分析涉及搭配的备选方案,因此搭配信息有助于解析器通过各种备选方案的迷宫,目的是大幅提高两个任务(搭配识别和解析)以及后续任务(机器翻译)的性能在本文中,我们将介绍我们的系统和遵循的程序,以参与PARSEME共享任务的开放轨道,即自动识别运行文本中的动词多词表达式(VMWE)。

pdf格式围兜
用于多词表达检测的神经网络
纳塔莉亚·克利耶娃|安托万·杜塞特|米兰斯特拉卡

在本文中,我们描述了MUMULS系统,该系统参与了2017年关于自动识别动词多词表达(VMWE)的共享任务。MUMULS系统是使用基于递归神经网络的监督方法,使用开源库TensorFlow实现的。该模型在包含注释VMWE以及形态学和句法信息的数据集上进行训练。MUMULS系统对15种语言的VMWE进行了识别,它是能够对几乎所有语言的VMWe类型进行分类的少数系统之一。

pdf格式围兜
从成分预测中排除歧义G公司erman多字表达式
斯特凡·博特|萨宾·舒尔特(Sabine Schulte im Walde)

歧义是分布式语义模型(DSM)的一个障碍,DSM通常将所有词义的上下文包含在一个向量中。虽然个体向量空间方法一直关注意义区分(例如Schütze 1998、Erk 2009、Erk和Pado 2010),但这种区分很少被整合到跨语义任务的DSM中。本文提出了一种用于语义识别的软聚类方法,该方法在预测德语名词复合词和德语助词动词的组合程度时过滤了与意义无关的特征。

pdf格式围兜
多词表达与词汇主义垃圾填埋场
杰米·芬德利

多词表达(MWE)给词汇主义理论(如词汇功能语法(LFG))带来了一个问题,因为它们是词汇完整性原则的有力形式的初步反例,该原则要求一个词汇项只能实现为单个句法原子词。在这篇论文中,我展示了任何对MWE的强烈词汇主义解释所面临的一些问题,并认为必须削弱词汇完整性原则。最后,我绘制了一个形式主义草图,它将树邻接语法集成到LFG架构中,利用了这种放松。

pdf格式围兜
理解习语变体
克里斯蒂娜·杰拉尔特|R.Harald Baayen先生|约翰·纽曼

本研究通过一个追踪眼球的实验来研究习语变体的加工。除了规范形式和字面意思外,还包括四种类型的习语变体。结果表明,对习语的修饰,即长度差异的模显效应,并不比规范形式本身更难处理。这与最近的语料库调查结果相符。

pdf格式围兜
从平行语料库中发现轻动词结构及其翻译
娜塔莉·巴尔加斯|卡洛斯·拉米施|海伦娜·卡塞利

我们提出了一种从并行语料库中联合无监督发现多词表达式及其翻译的方法。首先,我们在源语言和目标语言中同时应用独立的单语MWE提取。然后,我们计算同现对的翻译概率、关联分数和分布相似性。最后,我们使用这些特征的线性组合对给定MWE的所有翻译进行排序。对轻动词结构的初步实验显示了良好的结果。

pdf格式围兜
多词表达式的识别L(左)阿特维安和L(左)伊索瓦尼亚:混合方法
贾斯汀娜·曼德拉维克|托马斯·克里拉维奇乌斯

我们讨论了在拉脱维亚和立陶宛平行语料库中自动识别双粒度多词表达的实验。由于词汇资源(如POS标记器、解析器)和工具的不足和质量问题,使用了原始语料库、词汇关联度量(LAM)和监督机器学习(ML)。虽然LAM和ML对其他语言来说相当有效,但它对立陶宛语和拉脱维亚语也显示了一些不错的结果。将LAM与ML相结合,拉脱维亚和立陶宛的准确率分别为92.4%和52.2%,召回率分别为95.1%和77.8%。

pdf格式围兜
向我展示您的差异和告诉你你是谁——从单词对齐中导出复合成分
Fabienne帽子

我们使用词对齐差异作为德语和英语名词复合词非组合性的指标。我们的工作成果本身并没有与最先进的方法相竞争,但它们表明对齐差异与成分相关,因此值得在未来进一步研究。

pdf格式围兜
用语义注释表征名词复合词语境变化的初步研究
梅兰妮娅·卡贝扎斯·加西亚|安东尼奥·圣马汀

名词复合词(NC)在语义上很复杂,不像通常假设的那样是完全复合的。本文对环境网络中心的语义标注进行了初步研究,以获取其语义并探索其基于领域的上下文变化。我们的结果表明,NCs的语义注释对语境如何影响其概念化提供了重要的见解。

pdf格式围兜
基于句法依赖特征和语义重组的条件随机场检测动词多词表达
阿尔弗雷多·马尔多纳多|李凤·韩|埃尔万·莫罗|阿什扬·阿尔苏莱马尼|科尔·杜塔·乔杜里|卡尔·沃格尔|Qun Liu(刘群)

本文描述了一个在运行文本中识别动词多词表达式(VMWE)的系统。该系统主要通过条件随机场(CRF)序列模型利用通用的句法依赖特征。该系统在2017年PARSEME VMWE共享任务的闭路比赛中获胜,在基于VMWE的全面评估中,该系统在大多数语言中排名第二,在基于标记的评估中,在三种语言中排名第一。此外,本文还提出了一种通过语义向量对10个最佳CRF预测序列进行重新排序的选项,使其在竞争中的得分高于其他系统。我们还表明,竞争中的所有系统都将努力击败简单的查找基线系统,并主张采用更具针对性的评估方案。

pdf格式围兜
一种数据驱动的语言多词表达检测方法。帕森姆共享任务系统描述文件
蒂贝里乌·博罗斯|索尼娅·皮帕|Verginica Barbu Mititelu公司|丹·图菲斯

“多词表达”是在语言分析中充当形态、句法和语义单位的一组词。动词多词表达式表示多词表达式的子组,即动词是以其规范(或字典)形式考虑的组的语法头。所有多词表达式对自然语言处理都是一个巨大的挑战,但动词表达式对诸如句法分析、,因为动词是句子句法结构的中心成分。本文介绍了我们的数据驱动方法,该方法在PARSEME多词短语识别共享任务中得到了客观验证。我们在12种语言上测试了我们的方法,并提供了有关语料库组成、特征选择过程、验证过程和所有语言性能的详细信息。

pdf格式围兜
这个ATILF公司-LLF公司句法共享任务系统:基于转换的动词多词表达标记
哈泽姆·赛义德|马蒂厄常数|玛丽·坎迪托

我们描述了为MWE 2017共享任务构建的ATILF-LLF系统,该共享任务用于自动识别口头多词表达。我们只参加了18种可用语言的封闭式培训。我们的系统是一个基于贪婪过渡的鲁棒系统,其中MWE是通过MERGE过渡来识别的。该系统旨在根据附带的形态和句法信息,容纳为每种语言提供的各种语言资源。使用per-MWE Fscore,该系统在除两种语言(匈牙利语和罗马尼亚语)之外的所有语言中排名第一。

pdf格式围兜
语境中动名词多词表达用法的不透明度研究
湿婆·塔斯利米波|奥米德·罗哈尼安|鲁斯兰·米特科夫|阿夫萨尼赫·法兹利

本研究研究了基于监督标记的多词表达(MWE)识别。这是一项正在进行的研究,目的是利用可能出现不同表达式实例的上下文中包含的信息。此信息用于调查表达式是文字表达式还是MWE表达式的问题。基于向量表示的词汇和句法上下文特征被证明比传统的统计方法更有效地识别MWE的标记。

pdf格式围兜
动词-冠词结构中的构词性
阿奇纳·巴蒂亚|乔曼登(Choh Man Teng)|詹姆斯·艾伦

我们正在为一个系统开发一个广泛的深层语义词典,该系统将句子解析为逻辑形式,并在支持推理的丰富本体中表示。在这篇文章中,我们研究了动词助词结构(VPCs),以及它们在多大程度上可以用合成语和惯用语来处理。首先,我们根据VPC的组成来区分不同类型的VPC,然后提出一组启发式方法来将特定实例分类为组成或非组成。然后,我们为复合使用的粒子确定了一小组一般意义类,并讨论了添加到词典中的最终词汇表示。通过尽可能将VPC视为复合词,我们以紧凑的方式获得了广泛的覆盖范围,并能够解释词汇中没有明确出现的新VPC用法。

pdf格式围兜
基于规则的翻译S公司泛语动词-名词组合成B类询问
Uxoa Iñurrieta公司|伊齐亚·阿杜里兹|阿拉兰扎·迪亚斯·德·伊拉拉扎|戈卡·拉巴卡|凯帕·萨拉索拉

本文提出了一种在基于规则的机器翻译(MT)系统中改进动词-名词组合(VNC)翻译的方法。从公共数据库Konbitzul中收集了一组VNC的语言信息,并将其集成到机器翻译系统中,从而提高了BLEU、NIST和TER的分数,根据人类评估者的说法,结果明显更好。

pdf格式围兜
疑问句中的动词助词结构
维罗妮卡·文泽

本文研究英语疑问句中动词助词结构的行为。我们提供了一个小数据集,其中包含问题和verb-particle构造候选。我们通过统计方法和机器学习实验证明,在包含VPC的句子和仅包含动词+介词短语组合的句子中,WH-词、动词和介词/助词的分布存在显著差异。因此,通过使用包含多个新特征的丰富特征集,可以有效地将VPC和非VPC分离开来。

pdf格式围兜
简单复合拆分G公司埃尔曼
马里恩·韦勒·迪马尔科

本文提出了一种简单的德国复合分裂方法,该方法将基于基本频率的方法与近似形态学操作的形式到引理映射相结合。除了为过渡元素建模的一小部分手工创建的规则外,这种方法资源贫乏。在我们的评估中,简单拆分器的性能优于依赖丰富形态学资源的拆分器。

pdf格式围兜
基于序列模型和词汇资源的歧义多词表达识别
马农·肖利维特|卡洛斯·拉米施

我们提出了一种简单有效的标记器,能够识别法语文本中高度模糊的多词表达式(MWE)。它基于条件随机场(CRF),使用局部上下文信息作为特征。我们表明,在某些情况下,这种方法可以获得更复杂的基于解析器的MWE识别方法的结果,而不需要来自树库的语法树。此外,我们还研究了CRF对来自词典的外部信息的考虑程度。

pdf格式围兜
比较递归词汇句法树(RLT公司s) 扩展短语提取的Ngram技术
阿格内斯·图廷|奥利维尔·克莱夫

本文旨在评估基于句法的方法(递归词汇-语法树(RLT)提取)在多大程度上允许我们提取大的短语单位,例如预制例程,例如科学写作中的“如前所述”或“据我所知”。为了评估这种方法,我们将其与经典的ngram提取技术进行了比较,在法语科技写作语料库中的重复片段子集上,包括语音动词。结果表明,LRT提取技术对扩展的MWE(如例程或搭配)更有效,但对表面现象(如句法结构或完全冻结的表达式)表现更差。

pdf格式围兜
多词丰富数据的词汇和句法联合分析基准
马蒂厄常数|赫克特·马丁内斯·阿隆索

本文评估了执行联合语法分析和多词表达式识别的依赖关系分析器的扩展。我们表明,在给定足够的训练数据的情况下,解析器受益于显式多词信息,并在十个评估案例中的八个案例中提高了整体标记准确性得分。

pdf格式围兜
协调多词表达式和依赖解析注释不一致性的半自动解决
成王|朱利安·布鲁克|蒂莫西·鲍德温

本文提出了一种在合并依赖项和多词表达式(MWE)注释的上下文中识别和解决各种不一致性的方法,以生成具有综合MWE注释的依赖树库。使用多种启发式方法确定待纠正的对象,包括一种全新的方法,该方法在依赖关系树中确定了MWE选区的违规行为,并通过仲裁解决,同时尽量减少人为干预。使用此技术,我们识别并更正了跨解析和MWE注释的数百个错误,代表了联合语料库中MWE实例的显著百分比(远远超过10%)的更改。

pdf格式围兜
结合语言特征检测C类克罗地亚多词表达
马贾·布尔扬|扬·什·内德

由于多词表达式(MWE)表现出一系列特性,它们的自动检测保证了许多不同特征的使用。Tsvetkov和Wintner(2014)提出了一个贝叶斯网络模型,该模型结合了语言特征,并对其交互进行了建模。在本文中,我们用新的特征扩展了他们的模型,并将其应用于克罗地亚语,克罗地亚语是一种形态复杂且相对自由的语序语言,获得了令人满意的0.823 F1-score性能。此外,通过与(半)朴素贝叶斯模型进行比较,我们证明手动建模特征交互确实很重要。我们免费提供克罗地亚MWE的注释数据集。

pdf格式围兜
复杂动词是不同的:探索多模态模型中的视觉模态以预测合成
马克西米利安·科珀|萨宾·舒尔特(Sabine Schulte im Walde)

本文比较了基于文本共现的神经网络DSM和集成视觉信息的多模态模型。我们将重点放在名词性复合词和动词性复合词上,并放大词汇、经验和感知目标属性,以探索视觉情态的贡献。我们的实验表明:(i)视觉特征对动词的贡献不同于对名词的贡献,以及(ii)图像对文本信息的补充,如果(a)文本情态本身较差,并且使用了适当的图像子集,或者(b)文本情势本身丰富,并且添加了大型(潜在噪音)图像。