标题 |
面向人类语言技术的网格虚拟组织的实验部署 |
作者 |
扬·乔纳·贾沃舍克和托马·埃尔贾维克 |
摘要 |
我们建议为人类语言技术创建一个网格虚拟组织,其首要任务是使语言研究能够使用欧洲网格基础设施的现有分布式计算设施来更有效地处理大型数据集。在简要概述了现代网格计算之后,介绍了在网格上运行的自然语言处理任务的一些常见用法,特别是带有形态语法标记的语料库注释(不到一天的时间内注释了6亿多个单词),$n$-gram对语料库进行统计处理,创建网格支持的web可访问服务,并以注释和术语提取为例。本文列出了在这类任务中使用网格的实现注意事项和常见问题。最后,我们概述了一个简单的行动计划,该计划旨在将为这些实验创建的基础设施发展成为一个功能齐全的人类语言技术网格虚拟组织,其目标是向语言社区提供欧洲网格基础设施的功能。 |
话题 |
工具、系统、应用程序,语料库(创建、注释等),LR基础设施和架构 |
全文 |
面向人类语言技术的网格虚拟组织的实验部署 |
幻灯片 |
- |
Biptex公司 |
@会议记录{JAVOREK10.899, author={Jan Jona Javoršek和TomaíErjavec}, title={人类语言技术网格虚拟组织的实验部署}, booktitle={第七届国际语言资源与评价会议(LREC’10)会议记录}, 年份={2010}, 月={may}, 日期={19-21}, 地址={马耳他瓦莱塔}, editor={尼科莱塔·卡尔佐拉里(会议主席)、哈立德·乔克里(Khalid Choukri)、本特·马加德(Bente Maegaard)、约瑟夫·马里亚尼(Joseph Mariani)、简·奥迪克(Jan Odijk)、斯特利奥斯·皮普利迪斯(Stelios Piperidis)、迈克·罗斯纳(Mike Ros, publisher={欧洲语言资源协会(ELRA)}, isbn={2-9517408-6-7}, 语言={英语} } |