跨语言数据格式

CLDF 1.3已经发布!内政部

请参阅变更日志查看更改列表。

另请参阅本文描述的CLDF:

Forkel,R.等人,《跨语言数据格式,促进比较语言学中的数据共享和重用》。科学。数据。5:180205完成日期:10.1038/数据2018.2005(2018).
CLDF标志

为什么?

允许跨语言数据交换和解耦工具和方法的发展数据库,标准化的数据格式是必要的。

一旦建立,这些数据格式可以成为基础仅用于工具,也用于精神指导材料属于数据木匠对于历史的语言学和语言类型学。

什么?

我们关注的跨语言数据的主要类型在这里是任何典型的表格数据使用定量(自动)方法分析或制造可访问的使用像clld框架这样的软件工具,例如

  • 单词表(或更复杂的词汇数据,包括例如。同源的判决),
  • 结构数据集(例如。WALS功能),
  • 简单字典。

设计原则

  • 数据应可“手动”编辑且易于阅读用软件写作(最好是典型的语言学家用软件可以是应正确使用)。
  • 数据应编码为UTF-8文本文件。
  • 如果可以引用实体,例如通过其密码,应该这样做,而不是重复信息语言名称。
  • 与现有工具、标准和实践的兼容性应该永远记住。

自动重复使用要求标准不仅规定结构,以及存储的数据的语义。因此,CLDF规范应尽可能严格。当然,新的数据类型不能立即与兼容自主开发的工具;因此,CLDF标准还应提供让数据类型演化出易于理解的语义的机制,同时从一开始就与语法兼容。

技术

由于我们关注的是这里的表格数据,CLDF是建立在W3C的Web上表格数据和元数据的模型表格数据的元数据词汇.这个模型-凭借JSON-LD格式方言-非常适合与本体论指定数据序列化格式的语法和语义。很像中密度纤维板-SIL的多定义格式设置工具-在工具箱的标准格式标记,以支持数据重用场景,CLDF构建跨语言数据,以便在历史语言学中的典型分析是可能的。

的主要目标之一CLDF公司规范是有用的数据和工具的描述。使用CSV基于格式使得在UNIX风格管道属于数据转换命令。这种管道式的数据转换和分析似乎处于典型工作流的核心,例如历史语言学,例如。灵缇QLC公司.

如果有合适的基于文本和基于行的格式流水线样式也允许轻松扩展;例如,基于LingPy的自动同源判断工作流功能可以通过系统发育来扩展分析和后处理藻门,其中进程集以newick格式表示的系统发育树,或电子设备.

如果跨语言比较跟随生物信息学、基于工作流的UNIX管道可能在某些时候使用通用工作流语言.

历史

虽然用于交换语言数据的数据格式已经出现有时,例如SFM或标准格式被工具箱使用,语言领域的新发展多样性研究推动了这一新的格式集:

  • 对标准化的新兴趣表格的网络上的数据,特别关注CSV公司
  • 使用计算方法分析大型结构的趋势缩放跨语言数据。
  • 这个clld框架,在CLLD项目已经表明许多不同的跨语言数据库可以建立在这个相同的核心数据模型。CLDF试图将其具体化数据模型。

因此,在第一次研讨会的后续讨论中语言数据库的语言比较第二车间在莱比锡专注于一种非常简单的基于CSV的交换格式非常简单的跨语言数据。

从一开始,简洁是主要的设计目标,因此格式正在考虑的将从一开始就发展尽可能简单。使用CLDF 1.0版我们提供进一步进化的稳定基线。