霍帕到胡夫迪内赫奥尔

资源元数据

您已创建语言资源。现在,你如何帮助人们找到它?

资源元数据工作流

SBX元数据工作流资源元数据的主要来源是一个YAML文件,该文件被解析并包含在网站。它自动转换为META-SHARE XML文件,可以导入到SweClarin存储库.

谁负责?

元数据YAML文件资源所有者(您)
META-SHARE XML文件自动创建
数据请参阅“上传数据文件”(如下)。
导入到SweClarin存储库系统管理员

YAML文件

请遵循以下步骤:

  1. 创建一个YAML文件,正式描述您的语言资源
    • 首先复制资源类型(语料库、词典或模型)的模板。可以下载模板在这里.
    • 如果您不确定如何填写某些字段,可以检查其他YAML资源文件为了进行比较,请保留默认值,或寻求帮助(例如,在#元数据Slack上的频道)。
    • 如果资源是公共的,不要忘记在下载中的节和/或链接(例如到Korp或Karp)接近中的属性接口第节。
    • 请使用一些工具对YAML文件执行语法检查(例如。这个)以避免标记中的一般错误。
  2. 将文件另存为{简称}.yaml,其中简称是由小写字母、数字和破折号(例如。抽吸3,或svensk-fraktur-1626-1816)
    • 此名称用作资源ID,在Sprákbanken中必须是唯一的。
  3. 在Github上上传文件。
    • 将文件添加到中的语料库、词典或模型文件夹此GitHub存储库。这可以通过GitHubs web界面或终端完成。
  4. 第二天,您的资源将列在数据在SBX网站上。如果没有,请联系网站管理员sb-webb@svenska.guse.

描述字段

YAML文件中有两个描述字段。The 简短描述用几个词或一句话描述资源时,应始终填写。

除了这个简短的描述之外,考虑您的资源的用户可能还需要几句话来进一步描述资源的性质,以便考虑其相关性。数据源、时间扩展、文本提取方法、内部分类法、图表和博客帖子链接是一些可以提高资源可访问性的内容示例。此信息可在描述字段。

这是可选的,但建议使用。The 描述字段可以包含纯文本或html。

文本格式

文本字段可以始终包含纯文本,即未格式化的文本。

以下字段可以处理HTML格式的文本:

  • 注释(swe,eng)
  • 描述(swe,eng)
  • intended_uses(瑞典语,英语)
  • 参考文献
  • 警告(swe,eng)

修改现有资源

如果要修改现有资源的元数据,请首先在中查找它此GitHub存储库并更新它(使用web界面或终端)。

上传数据文件(资源)

资源数据文件(包含语料库、词典、模型等)应上传到元数据GitHub存储库。而是将数据存储在:

k2是一个安全的地方,作为一个组织,我们可以保证数据永远不会丢失。

我们通常使用BZIP2压缩数据文件,因此它以后缀.bz2结尾。对于创建档案(即将多个文件合并为一个文件),我们通常使用TAR。一个可以处理TAR和BZIP2的免费开源程序是7拉链。它可用于各种平台。

如果你不确定将数据放在哪里,以及如何放置,你可以随时在Sprákbanken的Slack上询问(#元数据)或联系Sprákbanken Text(sb-info@svenska.guse).

档案文件

对于不再使用但可能仍有一些值的数据,请从GitHub存储库,然后创建YAML文件和数据的.tar.bz2存档,并将其放在k2.spraakdata.guse服务器上的/home/ftp/sb-resurser/data/archive目录下。

导入SWE-Clarin存储库

这个元数据存储库是Sprákbanken在CLARIN语言资源网络中的节点。这意味着包括我们所有的资源,但构建工作流的这一部分仍需继续努力。目前,将资源的元数据导入存储库是由sysadmin手动完成的工作,到目前为止只处理了一部分资源。要请求导入资源,请通过联系sysadminsb-info@svenska.guse.

支持

如有疑问,欢迎访问#元数据松懈!