GATE:用于文本处理的全生命周期开源解决方案
(住院?参见2分钟指南.)
1介绍
GATE已有15年历史,目前正积极用于所有类型的涉及人类语言的计算任务。GATE擅长文本分析各种形状和尺寸。从大公司到小初创公司,从数百万欧元的研究联盟用于本科生项目,我们的用户社区是这类系统中最大、最多样化的分布在除一个大陆以外的所有大陆.
GATE是开源的自由软件; 用户可以获得用户和开发人员社区通过GATE.ac.uk网站或在商业基础上我们的工业合作伙伴。我们是最大的开源语言处理项目开发团队的规模是最大可比项目的两倍多(其中许多与GATE集成). 超过5欧元已为GATE开发投资万美元; 我们的我们的目标是确保这笔钱继续用于所有人GATE的用户。
本说明总结了GATE软件和过程,并给出了一些示例它们的用途。我们认为,GATE是其类型的领先系统,但作为科学家们,我们不得不建议你不要相信我们的话;这就是为什么我们在过去的许多竞争评估中衡量了我们的软件十年半(MUC、TREC、ACE、DUC…)。我们邀请您尝试一下,参与GATE社区,为人类语言做出贡献科学、工程和发展。
2GATE家族
GATE多年来不断发展,为开发人员提供了一个桌面客户端基于工作流的web应用程序、Java库、体系结构和流程。GATE是:
- 集成开发环境,GATE开发人员:集成开发环境与广泛使用的信息提取系统和一整套其他插件
- web应用程序:GATE团队软件协作构建factory-style语义注释项目的注释环境围绕工作流引擎和高度优化的后端服务基础设施
- 框架,GATE嵌入式:对象库经过优化,可包含在各种应用程序中,从而访问所有GATE Developer使用的服务及更多
- 建筑:语言的高级组织结构图处理软件组成
- 一个过程用于创建坚固耐用可维护服务
我们还开发:
有关更多信息,请参阅家庭主页.
我们最初的动机之一是消除解决常见问题的必要性进行有用研究之前的工程问题,或之前的重新设计将研究结果部署到应用程序中。关贸总协定的核心职能工程的最大份额:
- 专用数据结构的建模和持久性
- 测量、评估、基准测试(不要相信计算没有在可重复和开放的环境中测量结果的研究人员设置!)
- 注释、本体、解析树等的可视化和编辑。
- 一种快速成型和高效的有限状态转换语言浅层分析方法(JAPE)的实现
- 机器学习训练实例的提取
- 可插拔机器学习实现(Weka、YALE、SVM-Lite等)
除了核心功能之外,GATE还包括各种语言的组件处理任务,例如解析器、形态学、标记、信息检索工具,各种语言的信息提取组件,以及许多其他。GATE Developer和Embedded提供了一个信息萃取系统(ANNIE)已被广泛采用和评估(在MUC、TREC、ACE、,DUC、Pascal、NTCIR等)。ANNIE通常用于创建RDF或OWL(元数据)用于非结构化内容(语义的注释).
GATE第1版编写于20世纪90年代中期;在新千年之交我们用Java完全重写了系统;版本5于2009年6月发布。
2.1.组件模型
GATE持续良好并取得成功的原因之一是核心被分解为可重用的块(使用原始的Java组件型号)。以下总结了Embedded中可用的一些API:
三。第一堂兄-Ontotext家族
补充GATE的开发和协作分布式注释工具,KIM提供了一个简单的部署选项(前端、,后端)。
使用GATE开发的许多系统嵌入到现有的应用程序中一种或另一种;Ontotext家族提供了一个很好的替代品方法和基于GATE的注释以及KIM/Mímir索引和搜索引擎代表了企业文本分析的健壮成熟解决方案搜索和类似内容。
4下一步在哪里?
渴望更多?文件的主要来源和去向的摘要获取帮助:
- 谢菲尔德的关键文件
- 其他地方的文档
- 邮件列表
- 做一个书呆子真他妈的。。。就在你找到维基的时候。。。
- 寄给我们3年的零用钱和你的集邮
祝你好运!