DKPro相似性-欢迎

DKPro相似性是一个用于文本相似性的开源框架。我们的目标是提供一个使用标准化接口实现的文本相似性度量的综合存储库。该框架旨在补充DKPro核心是基于Apache UIMA框架的自然语言处理(NLP)软件组件的集合。DKPro相似性包括多种度量,从基于简单n元和公共子序列的度量到高维向量比较以及结构、风格和语音度量。为了提高实验结果的再现性,并为未来的研究提供可靠、永久的实验条件,DKPro Similarity还附带了一套功能齐全的实验装置,可以在现成的设备上运行,用于未来的系统构建。

入门

查看我们的入门指南。您可能还想进一步了解我们的ACL 2013系统演示文件其中总结了体系结构、可用的文本相似性度量以及现有的实验设置。

包含的实验

词对相似性实验

该项目包含一个现成的实验,使用最常见的评估数据集进行单词对相似性测试。了解更多…

单词选择实验/托福同义词问题

单词选择/TOEFL同义词问题实验的数据集流水线。ACL Wiki中的Wiki页面关于主题。

识别文本隐含(RTE)实验

RTE 1-5实验的管道和数据集。[http://aclweb.org/aclwiki/index.php?title=Recognizing_Textual_EntailmentACL Wiki中的Wikki页面]。

*SEM 2013共享任务:语义文本相似性

对于所有对2013年SEM会议的共同任务,我们描述在这里该任务的一个官方基准系统,该系统在2012年第六季度练习.

参考

如果您计划在出版物中引用DKPro相似性,请引用

Daniel Bär、Torsten Zesch和Iryna Gurevych。DKPro相似性:一个用于文本相似性的开源框架,英寸计算语言学协会第51届年会会议记录:系统演示,第121-126页,2013年8月,保加利亚索非亚。(pdf格式) (围嘴)

DKPro相似性目前由语言技术实验室,杜伊斯堡埃森大学UKP实验室达姆施塔特科技大学。

代码示例

在这个例子中,我们想计算两个给定的文本之间的相似性,这两个文本已经被引理了。我们假设已经完成了中介化,例如使用DKPro管道。作为一种相似性度量,我们选择了Lyon等人(2004)的流行单词n-gram模型。此外,确保*.算法.api-asl*.algorithms.lexical-asl算法依赖项模块已添加到pom.xml中,如入门指南.

//该相似性度量在dkpro.similarity.algorithms.lexical-asl包中定义
//您需要将其添加到.pom中,以使该示例有效
//dkpro.similarity中有一些现成的示例。例如-gpl
文本相似性度量 测量 = 新的 WordNGramJaccard度量();    //使用单词三角图

字符串[] 标记1 = “这是一个简短的示例文本。”.分裂(" ");   
字符串[] 标记2 = “一个简短的示例文本可能是这样的。”.分裂(" ");

双重的 分数 = 测量.获取相似性(标记1, 标记2);

系统.外面的.打印ln(“相似性:” + 分数);

接口和算法

此框架中收集的算法实现了以下接口之一:

  • TermSimilarityMeasure(字符串,字符串)-两个术语之间的相似性。
  • 文本相似性度量(集合<String>,集合<String>)-表示整个文档的两个字符串集合之间的相似性。
  • 文本相似性度量(字符串[],字符串[])-表示整个文档的两个字符串数组之间的相似性。
  • JCas文本相似性度量(JCas、JCas)-基于UIMA JCas表示的两个文本之间的相似性。

算法概述

模块 算法
算法.词汇 GreedyStringTiling、Jaro、Levenshtein、LongestCommonSubsequence、MongeElkan、NGramBased等…
algorithms.lsr算法 基于词汇语义资源,如WordNet或Wikipedia,例如GlossOverlap、JiangConrath、LeacockChodorow、Lin、Resnik、WuPalmerComparator
算法.sound Metaphone、Soundex
algorithms.sspace算法 LSA公司
算法.style FunctionWordFrequency、MTLD、TypeTokenRatio
算法.vsm 矢量空间模型,例如ESA
算法.wikipedia 特殊的维基百科度量,如WikipediaLinkMeasure或基于CategoryGraph的度量。
dkpro.芯 UIMA核心算法资源。
dkpro.io文件 常见相似性数据集的UIMA阅读器:Meter、RTE、SemEval、WebisCPC11