大数据、关联开放数据、LR和HLT
不断增加的大型复杂数字数据集,无论是结构化还是非结构化、多语言、多模式还是多媒体,都带来了新的挑战,但同时也为HLT和相关领域带来了新机遇。无处不在的数据和信息捕获设备、社交媒体和网络、具有大数据/知识库的网络以及其他信息捕获/聚合/发布平台正在为广泛的LT应用程序提供有用的信息和/或知识。
2014年LREC重点强调大型关联开放数据和LRs/LT社区的协同作用,以及它们在解决LT问题和开发有用的应用程序和服务方面的互补性。
协作时代的LR
协作生成和使用的语言数据量不断增加,因此,现在是时候在LREC上就此类LR展开广泛讨论了。需要讨论可以协作生成和使用的LR类型。
词典、词典、语料库、(语言数据的)本体论、语法、标记集、数据类别是否都是可以应用协作方法的所有可能领域?合作生成的LR是否可以标准化/协调?如何将质量控制应用于协作生成的LR?协作方法如何确保资源较少的语言获得与主流语言相同的数字尊严?
还需要讨论与协作生成的LR相关的法律问题。最后但并非最不重要的是:是否有不同类型的协作方法,或者Wikimedia风格是协作生成和使用LR的最佳方法?