标题 |
mwetoolkit:多词表达式识别框架 |
作者 |
卡洛斯·拉米施,阿琳·维拉维琴西奥和克里斯蒂安·博伊特 |
摘要 |
本文介绍了多词表达式工具包(mwetoolkit),这是一个从语料库中识别与类型和语言无关的MWE的环境。mwetoolkit提供了一个有针对性的MWE候选列表,根据许多用户定义的标准和一组标准的统计关联度量进行提取和筛选。为了生成语料库计数,该工具包提供了语料库索引工具和与web搜索引擎集成的工具,而对于评估,它提供了验证和注释工具。mwetoolkit还允许与机器学习工具轻松集成,以便在有注释数据的情况下创建和应用监督MWE提取模型。在我们的实验中,在生物医学领域的MWE提取的背景下对mwetoolkit进行了测试和评估。我们的初步结果表明,该工具包的性能优于其他方法,尤其是在召回方面。此外,为了提高结果的质量,第一个版本还可以通过多种方式进行扩展。 |
话题 |
多词表达和搭配,收购,统计和机器学习方法 |
全文 |
mwetoolkit:多词表达式识别框架 |
幻灯片 |
- |
Bibtex公司 |
@会议记录{RAMISCH10.803, author={卡洛斯·拉米施(Carlos Ramisch)、阿琳·维拉维辛西奥(Aline Villavicencio)和克里斯蒂安·博伊特(Christian Boitet)}, title={mwetoolkit:多词表达式识别框架}, booktitle={第七届国际语言资源与评价会议(LREC’10)会议记录}, 年份={2010}, 月={may}, 日期={19-21}, 地址={马耳他瓦莱塔}, editor={尼科莱塔·卡尔佐拉里(会议主席)、哈立德·乔克里(Khalid Choukri)、本特·马加德(Bente Maegaard)、约瑟夫·马里亚尼(Joseph Mariani)、简·奥迪克(Jan Odijk)、斯特利奥斯·皮普利迪斯(Stelios Piperidis)、迈克·罗斯纳(Mike Rosner)和丹尼尔·塔皮亚斯(Daniel Tapias}), publisher={欧洲语言资源协会(ELRA)}, isbn={2-9517408-6-7}, 语言={英语} } |