软件遗产-索引器#

计算SWH原始内容多个索引的工具:

  • 内容:

    • mimetype格式

    • 化石许可证

    • 元数据

  • 来源:

    • 元数据(内部,使用内容索引器;外部)

索引员负责:

  • 查找对象

  • 从这些对象中提取信息

  • 将这些信息存储在swh-indexer数据库中

有多个索引器处理不同的对象类型:

  • 内容索引器:使用内容sha1哈希

  • 修订索引器:与修订sha1哈希一起使用

  • 原始索引器:使用原始标识符

索引程序:

  • 接收一批id

  • 根据对象类型检索关联数据

  • 为那个对象计算一些索引

  • 将结果存储到swh的存储器

当前内容索引器:

  • mimetype(queue-swh-indexercontent_imetype):检测编码和mimetype

  • fossology-license(队列swh_indexer_fossology_license):计算许可证

  • 元数据:将文件从特定于生态系统的格式转换为JSON-LD(使用schema.org/CodeMeta词汇表)

当前源索引器:

  • 元数据:将文件从特定于生态系统的格式转换为JSON-LD(使用schema.org/CodeMeta和ForgeFed词汇表)