DKPro相似性

DKPro相似性是一个用于文本相似性的开源框架。我们的目标是提供一个完整的文本相似性度量库,这些度量是使用标准化接口实现的。该框架旨在补充DKPro Core,这是一个基于apacheuima框架的自然语言处理(NLP)软件组件的集合。DKPro相似性包括多种度量,从基于简单n-gram和公共子序列的度量到高维向量比较以及结构、风格和语音度量。为了提高实验结果的再现性,并为将来的研究提供可靠、永久的实验条件,DKPro Similarity还额外提供了一套功能齐全的实验装置,这些装置可以开箱即用,并可用于未来系统的构建。