×

同步声音和文本的语言文档。 (英语) Zbl 1032.68793号

摘要:语言与文明传统或语言档案项目的目标是保存和传播记录和转录的口头文学和其他语言材料,主要是非书面语言,同时提供录音和文本注释。该项目使用XML标记作为领域语言学中传统使用的注释类型。抄本被分成句子(大致)和单词。注释与不同的级别相关:文本级别的元数据、句子级别的自由翻译、单词级别的行间注释等。时间对齐在句子级别,也可以选择在单词级别。该项目最大限度地利用了标准的通用软件工具。标记数据使用免费的XML软件进行处理,并使用标准浏览器显示。该项目开发了(1)一个创作工具Soundlandex,以促进时间对齐;(2)一个Java小程序,它使浏览器能够访问与时间对齐的语音;(3)XSL样式表,它指定数据上的“视图”;(4)通用网关界面脚本,它允许用户选择文档和视图并输入查询。目前的目标包括开发注释和软件,以促进超越简单浏览的语言研究。在写作时,已经处理了20种语言的100多篇文本;其中一些可以在互联网上进行浏览和简单查询。

MSC公司:

68T50型 自然语言处理
68单位99 计算方法和应用

关键词:

场语言学;XML软件

软件:

转录器
PDF格式BibTeX公司 XML格式引用
全文: DOI程序