Vocab管理注释

来自W3C Wiki

此草稿的输入现已关闭-编辑继续-联系tbaker@tbaker.de

这个页面是一个使用wiki对W3C工作组文档进行协作的实验,最终将作为注释发布。这项工作来自词汇管理工作队W3C语义Web最佳实践和部署工作组.欢迎非工作组成员的编辑,但目前请保持他们在范围内适度(例如,不要把这个冗长的文件分割成单独的页面给我们)。我们意识到这可能是对维基文化的一次突破,但我们正在努力克服其他限制,即我们希望能够再次从维基中获取此文本以用于W3C发布--丹布里,Thomas Baker,W3C软件最佳实践工作组。

SWBPD关于“词汇管理”的说明

一个相当简短的注释(大约15页),阐述了管理语义Web词汇表的一些广泛的最佳实践原则;讨论“出血边缘”问题;以及提供用于进一步读取的指针。

草案将在12月10日星期五之前在Wiki上公开供输入。


文档的开始文本:


管理语义Web的词汇——最佳实践

摘要

元数据元素集、分类法、主题标题、同义词表和本体是词汇表的示例,这些词汇表在“语义Web”环境中的使用越来越多。管理语义Web应用程序中使用的词汇表意味着识别、记录和发布词汇表术语,以便于在广泛的应用程序中引用和重用。本文研究了维护社区中代表性词汇的实践,从小型和非正式词汇到大型和复杂词汇。本文阐述了良好做法的原则,并总结了关于尚未出现良好做法的问题的讨论。

1.简介

1.1. 语义Web中的词汇

语义网是一个开放、分布式、松散耦合的环境,包含许多语言(元数据元素集、受控词汇表、分类法、同义词库、本体论等)。组织甚至个人可以以开放、自下而上和分布式的方式定义和发布词汇表术语。这篇论文是针对那些想创造和维护这样一个词汇的人。

本文阐述了以语义Web友好的方式创建和维护RDF词汇表的一些基本原则。我们所指的词汇表可以支持引用、重新调整用途、重新组合或合并来自不同来源的数据的过程;可进化的;可扩展并可与其他语义Web词汇表混合;这些信息是以网络机器在新兴的“语义基础设施”中可以处理的方式声明的。[伯纳德问:这些术语应该支持哪些过程——索引、词汇合并、数据集成、搜索……?我们是在谈论这些过程还是不可知论?]

  • 任务:James-关于“语义网中的词汇表”的一个页面上面的两个占位符段落应该扩展为一个短页面,提供“语义网词汇表”主题的一般介绍——我们在这里讨论的是什么类型的词汇表(例如,[PIDCOCK]中的类型学)在“语义网”环境中使用它们意味着什么?这一节不应进行太多的内嵌阐述,而应指出对语义网的进一步阅读。

1.2. 本文方法

在第2节中,本文将制定一些适用于语义Web词汇表的良好实践原则。为了说明这些原则,本文将描述几个词汇表中使用的实践,这些词汇表用于例证从小型和非正式到大型和复杂的各种词汇:

  • FOAF:FOAF是关于人们及其兴趣的“描述性元数据”的“相对较小”词汇表的一个例子[FOAF]。其维护过程“有些不正规”。
    • *任务:丹布里和利比——关于FOAF的一段
  • 都柏林核心:都柏林核心是关于信息资源[DC]的“描述性元数据”的“中等”词汇表的一个例子。其维护过程“轻量级但并非无重量”,并且随着DCMI从工作坊驱动的运动演变为由机构利益相关者支持的稳定维护社区,其维护过程变得越来越正式。
    • *任务:汤姆-关于都柏林核心的一段
  • SKOS核心:SKOS是一个“中型”词汇表的示例,用于描述“同义词库”和类似类型的知识组织系统。(不确定维护问题。)应引用SWBPD同义词库活动。
    • *任务:Alistair-关于SKOS的一段

AJM>>SKOS Core是一个RDF词汇表,用于创建“概念方案”的RDF描述,其中概念方案是一组概念的描述,包括概念之间关系的描述。它被设计为一组基本构建块,用于创建更经典、面向语言的知识组织系统类型的RDF描述,如同义词库、词汇表、主题标题方案和分类系统。SKOS Core是作为开放合作的一部分开发和管理的,类似于软件开发中的开源项目。它的维护是开放的,这意味着它可能会无限期地继续发展。

  • 另一个“术语风格词汇,如FAO同义词库”的占位符。。。

此外,本文引用了几个相关领域的良好实践方面的先前工作:

  • *任务:Ralph-W3C良好实践文档上的要点[2005-01-30完成首次通过]
  • 万维网架构[WEBARCH]-由W3C技术架构小组编写,本文讨论了Web的核心设计组件。这些是资源的标识、资源状态的表示以及支持空间中代理和资源之间交互的协议。该文档将核心设计组件、约束和良好实践与其支持的原则和属性联系起来。
  • 酷URI不会改变[COOLURI]——这篇由Tim Berners-Lee于1998年起草的文章解决了网络上普遍存在的问题;断开的链接。在语义Web中,用于声明数据语义的URI不允许过时尤其重要。在这篇文章中,Berners-Lee考虑了URI被放弃的原因,并提出了选择可以生存数十年和数百年的URI的解决方案。
  • Web设计问题[设计]——在一组个人笔记中,Tim Berners-Lee描述了Web和语义Web背后的许多架构和哲学设计要点。在“HTTP URI识别什么?”[HTTPURI]中,Berners-Lee讨论了HTTP URI方案只能用于命名文档的误解。
  • OASIS出版主题:要点应提供主题图和语义网以及PSI建议[OASIS-PUBSUBJ]的一些上下文。
  • *任务:伯纳德-OASIS出版主题要点

BV>>OASIS出版主题技术委员会成立于2001年,旨在通过为其定义、管理和应用指定建议、要求和最佳实践来促进出版主题的使用。1999年,ISO 13250主题地图引入了“公共主题”的概念,并于2001年在XML主题地图(XTM)1.0中进一步细化为“已发布主题”。该技术委员会于2003年6月发布了第一条建议,名为“已发布主题:简介和基本要求”,规定了URI在哪些条件下可以定义并用作“已发布的主题标识符”,匹配的信息资源可以用作“已发布的主题指示符”。待提交的进一步建议旨在关注主题指标的性质和格式,以及已发布主题的管理,目标与本说明中制定的目标类似。

用于讨论词汇表及其底层语言模型的术语因用户群体而异。本文不想暗示这些差异是微不足道的,而是使用了一小组故意模糊定义的词语:

  • 术语:一个命名的概念。[汤姆:或者-“一个命名的物理或概念实体”。(因为“伦敦”可以说不是一个“概念”,但可以是一个“术语”。)

AJM>>我们能不能不做。。。术语:用于表示物理或概念实体的名称或标识符。。。?

  • 词汇:一组术语。
  • URI引用:全局唯一标识符。
  • 描述:关于术语或词汇的一组语句。
  • 声明:术语或词汇的机器可处理表示。
  • 词汇所有者:术语集的维护者。
  • 版本控制:标识术语或词汇的更改。
  • 自然语言:普通人可以说、写和理解的语句的语法和词汇。
  • 形式语言:用于机器处理语句的语法和词汇。

这些单词在后面的示例和词汇表中进行了限定。一个潜在的混淆源也许应该得到承认并提前讨论:术语“名称空间”,它在许多词汇社区中使用,尤其是W3C,但(在我看来)很难确定。如果我们同意在本文中使用“词汇表”(适当时注意“名称空间”的用法),我想指派某人(丹布里?) 解释W3C对术语“名称空间”的使用。

  • 任务:丹布里或Libby—描述W3C对单词“namespace”的用法

RRS>>在W3C中,“名称空间”特指XML名称空间,这是一种模块化词汇表的技术,以避免不同XML标记词汇表中相似名称之间的冲突。对于XML文档,其目的是允许单个文档使用多个词汇表,其中一些词汇表旨在跨多种文档类型使用,并且设计为可由多个软件模块识别。XML名称空间[XMLNAMES]是由IRI(国际化URI)标识的XML元素和属性的集合,IRI是集合的“名称空间URI”。在RDF中,术语“名称空间”是指XML名称空间,其中标识名称空间URI可以在Web中取消引用,以获取有关该名称空间中定义的对象的更多信息。也就是说,在语义Web中,名称空间应该在其名称空间URI处进行自我记录。

2.良好实践原则

简短的一段解释说,在本节中,我们制定并说明了我们普遍同意的良好做法原则。

2.1、。识别具有URI引用的术语。

[在引言(上文)的基础上,这一点应该加强URI的中心性。然而,我们不应该深入讨论术语的构成,相反,我们应该让人们参考第3.6点(“术语到底是什么?”)来讨论术语与概念的辩论。]

  • 任务:丹布里-定义“URI引用”,在词汇表中详细说明
  • 任务:丹布里-FOAF术语URI的一两句
  • 任务:Tom-关于DCMI术语URI的一两句话
  • 任务:汤姆——关于“核心解决方案”的一句话
  • 任务:Alistair-关于SKOS术语URI的一两句话

AJM>>SKOS核心词汇表中的所有术语都是URI引用。每个术语都是通过将片段标识符(例如“prefLabel”)附加到SKOS核心基本命名空间(即“http://www.w3.org/2004/02/skos/core#'),例如“http://www.w3.org/2004/02/skos/core#prefLabel'.

  • 任务:Aldo-关于Wordnet术语URI的一两句话
  • 任务:丹布里-W3C关于识别术语的说明
  • 任务:Bernard-PSI关于识别术语的说明

BV>>出版的主题要求并不特定于由词汇中的术语定义的主题,或由这些术语命名的概念,因为“主题”的主题图定义包含“任何可以成为话语主题的东西”。出版的主题更多地关注由术语或其他定义的概念的识别问题,而不是术语本身的识别。已发布主题的第一个要求是“已发布主题标识符必须是URI”。

2.2. 阐明并发布术语及其URI引用的维护策略。

词汇所有者应指定并发布管理术语及其URI引用维护的任何政策:例如,对持久性和语义稳定性的制度承诺。这一中短文部分应该简单描述此类政策的一个示例。

[如果我们能就这些政策的实质达成一致,这将是件好事,例如URI引用在“语义兼容”进化面前的稳定性,但这可能很难定义。

然而,请参见,3.定义规范与命名空间URI的关系在里面共识的艺术:W3C工作组主席和其他合作者指南.]

  • 任务:丹布里-描述FOAF的维护政策
  • 任务:Tom-描述DCMI的维护策略
  • 任务:Alistair-描述SKOS的维护策略

AJM>>所有SKOS核心术语都使用www.w3.org名称空间,因此继承了W3C对URI持久性的承诺。SKOS核心词汇表维护策略实现了以下原则(另请参阅http://www.w3.org/2004/02/skos/core/spec/):

  1. 开放式进化,即未来任何时候都可能添加新术语。
  2. 同一名称空间中的所有新术语,即所有被视为在SKOS Core范围内的新术语,都将使用当前的SKOS核心基本名称空间。基本命名空间没有版本控制。
  3. 术语在原地演变,即每个术语都有一个“稳定性”值,表示该特定术语的描述在未来可能发生的变化程度。随着一个术语的语义根据部署和测试进行了细化,该术语经历了以下几个阶段:“不稳定”、“测试”、“稳定”“不稳定”大致类似于软件开发中的“alpha”版本,“测试”类似于“beta”版本。一旦一个术语稳定下来,就可以相信它不会再发生变化。稳定术语可能被弃用,在这种情况下,弃用术语的描述将被无限期保留。
  4. 任务:Aldo-描述Wordnet的维护策略
  5. 任务:丹布里-W3C对维护策略的看法
  6. 任务:Bernard-PSI对维护政策的看法

BV>>到目前为止,已发布主题的建议没有对维护政策提出正式要求。它们在未来交付的范围内。

  • 任务:Alistair-关于“语义稳定性”的TAG版本

AJM>>(来自http://www.w3.org/2001/tag/2004/webarch-20041101/)关于URI持久性,第3.5.1节规定,“一旦URI与资源相关联,它就应该无限期地继续引用该资源。”(摘自尚未上线的“[编辑稿]扩展和版本控制XML语言第1部分草案TAG调查结果2004年11月24日”)在语义稳定性方面,更改现有组件的含义或语义的行为被描述为“不兼容的更改”,与“向前兼容更改”和“向后兼容更改”相反。也就是说,改变现有词汇的语义可以保证词汇的后续版本与之前的版本不兼容。词汇作者应该理解做出不相容更改的后果。

2.3. 识别词汇或其术语的历史版本。

在前一节的基础上,本节应该从标识的角度来看版本控制。版本控制操作的粒度级别是什么?URI引用是分配给单个术语、抽象术语集还是分配给术语集的文档或模式?据推测,本节应该重点介绍W3C在这一领域的实践(例如,区分永恒的最新版本和带有日期戳的本版本和上一版本的方法)。在11月1日的电话会议上,有人建议将这一点扩大到更具包容性的“版本信息”。

分配给W3C技术报告的URI是版本标识方案的示例。所有W3C技术报告(例如建议)都可以通过(至少)两个URI进行访问。发布技术报告时,W3C承诺将特定版本文档的内容保存在将持续存在的URI中[W3CPP]。这个“This version”URI在文档标题中给出,它为文档用户提供了一种方法,可以随时准确引用文档的那个版本。特别是,新版本的技术报告将引用其先前版本,在新版本的文档标题中的“先前版本”条目中包含先前版本的“此版本”URI。通常,“此版本”URI是通过将用于所有版本的技术报告的名称与对应于特定版本发布日期的字符串连接在一起而形成的,因此“本版本”URI通常称为“注明日期的URI”。当技术报告的初始版本发布时,它还被分配了第二个URI,在文档标题中给出,称为“最新版本”URI。W3C还承诺,此“最新版”URI将保持不变,但随着文档的新版本的发布,内容将发生变化。“最新版本”URI中的内容始终是该技术报告的最新版本的内容。技术报告的版本化不应与规范的版本化混淆;即HTML规范包括HTML 2.0、HTML 3.2、HTML 4.01和XHTML 1.0。HTML的每个“版本”都有自己的“最新版本”URI,用于相应的技术报告。为规范建立新的“最新版本”URI的决定是由负责编写内容的小组做出的,通常与规范的非向后兼容更改相对应。

[我们希望获得“此版本”和“最新版本”的这些语义以某种方式在RDF中描述URI。这些语义可以用HTTP缓存过期元数据以糟糕的方式进行模拟,但这种语义重载并不是好的设计实践。能够从W3C站点(在RDF中)了解到“最新版本”的内容是否与任何给定的“此版本”内容相同,而无需实际检索该内容,这将是一件非常了不起的事情。]

相关:版本控制和可扩展性在[WEBARCH]中。

  • 任务:Ralph-关于W3C版本控制的较长段落
  • 任务:丹布里-关于FOAF中版本控制的短文
  • 任务:Tom-关于DCMI版本控制的短文
  • 任务:Alistair-关于SKOS版本控制的短文

AJM>>目前没有对SKOS核心词汇表或其术语进行明确的版本化,尽管这是可取的,并且可能很快会根据当前的DCMI实践实施。SKOS核心词汇表术语和词汇表本身的所有更改都通过skos:changeNote(更改注释)RDF属性。

  • 任务:Aldo-关于Wordnet版本控制的短文
  • 任务:Bernard-关于PSI版本控制的短文

BV>>主题的版本化(无论是否发布)从未被Topic Map系列标准明确解决,因为基本上一个主题不能被版本化:要么两个主题代表同一个主题,要么不代表同一主题。到目前为止,Published Subjects的建议对于处理版本控制的方式并不明确。

  • 任务:Alistair-TAG对版本控制的看法

AJM>>TAG对版本控制有很多意见:)这里的评论基于“[编辑草案]扩展和版本控制XML语言第1部分草案TAG发现2004年11月24日”,目前尚未上线。XML语言的版本控制策略可分为以下几类:“无”、“向后兼容”、“向前兼容”、”风格“和”大爆炸“。(AJM:这些策略如何应用于语义web词汇表(与XML语言相对)尚未描述。)最佳方法取决于应用程序域,但通常建议从一开始就计划版本控制。如果您从一开始就没有计划版本控制,那么当您决定采用版本控制计划时,您可能会受到您已经做出的决策的限制(AJM:这一评论同样适用于语义web词汇IMHO)。

  • 任务:艾伦-“什么是变化?”

2.4。提供有关条款的自然语言文档。

词汇所有者应该描述并发布一个人类可读的术语描述——通常至少在网页上发布文本定义。这个简短的部分应该只说明什么样的Web文档可用于示例词汇表。

  • 任务:丹布里-指向FOAF Web文档的一句话
  • 任务:Tom-一句话指向DCMI Web文档
  • 任务:Alistair-指向SKOS Web文档的一句话

AJM>>SKOS核心规范(http://www.w3.org/2004/02/skos/core/spec/)概述了SKOS核心词汇表的当前状态,为每个术语生成了一个人类可读注释的汇总表。此文档也可以描述为“命名空间文档”。本文档是根据SKOS核心词汇表的底层RDF描述和HTML模板生成的,并在词汇表发生任何更改后重新生成。SKOS核心指南(http://www.w3.org/2004/02/skos/core/guide/)(仍在开发中,希望下周正式发布)给出了正确使用词汇的说明,包括附加约束和推理规则。

  • 任务:Aldo-一句话指向Wordnet Web文档
  • 任务:丹布里-指向W3C Web文档的一句话
  • 任务:Bernard-一句话指向PSI Web文档

BV>>ISO语言已发布主题指标的一个示例可以在http://psi.oasis-open.org/iso/639/

2.5。使用正式的、机器可访问的模式语言声明术语。

这一小段应该只说明示例维护社区发布了什么类型的模式。第3节将更详细地讨论取消引用的策略和模式语言的选择。

  • 任务:丹布里-关于FOAF模式的两句话。
  • 任务:汤姆-关于DCMI模式的两句话。
  • 任务:Alistair-关于SKOS模式的两句话。

AJM>>SKOS核心词汇表以RDF描述的形式发布,每个术语都声明为RDF属性或RDFS类。RDFSchema和OWL中的其他特性(如属性域/范围语句、附加属性类型)被适当地用于形式化地表达附加语义和/或约束。

  • 任务:Aldo-关于Wordnet模式的两句话。
  • 任务:丹布里-关于W3C模式的两句话。
  • 任务:伯纳德-关于PSI模式的两句话。

BV>>除了最低建议外,对PSI架构没有任何具体要求:“已发布主题指示器可能提供关于其自身的机器可访问元数据。”已发布TC中关于是否应推荐任何架构或格式的长时间讨论导致了不推荐任何通用格式或架构的共识,但在使用RDF、XTM(待定)时提供最佳实践

3.出血边缘问题

该段解释说,第3节讨论了目前似乎难以达成共识的问题。我们的目标是描述所采取的立场范围。

3.1. 当有人在Web浏览器中“点击它”时,词汇或术语的标识符(即其URI引用)应该解析为什么?

我们可以将其改写为将(“取消引用”)术语URI解析为人类可读的描述或机器可处理的声明的问题。几年前,Tim Berners-Lee说:“名称空间文档(带有名称空间URI)是语言发布者保存有关名称空间的明确材料的地方。模式语言非常适合这样做。”其他人对此持不同意见,TAG提出了这个问题。第3.1点应总结讨论状态。如果术语以多种方式记录,词汇所有者是否应该区分“规范”源和“派生”源?

XML命名空间的URI可用于标识“信息资源”,该资源提供有关命名空间中术语的信息。这样的信息资源称为“名称空间文档”。[韦伯奇]声明当名称空间URI的所有者提供名称空间文档时,该文档对名称空间具有权威性。[WEBARCH]声明,提供名称空间文档是一种良好的做法,但让名称空间URI所有者根据预期的应用程序决定名称空间文档的表示。

在语义Web中,最佳实践是提供application/rdf+xml类型的名称空间文档,在机器可访问的rdf中声明该名称空间中的属性和类。最好的做法是还为人类读者提供一个text/html类型的名称空间文档,描述相同的属性和类。[@@@在不久的将来,我们应该引用全球存托凭证作为一种提供单个文本/html文档的方法,可以从中按程序提取RDF。]

RDF指定通过将属性或类的XML本地名称附加到命名空间URI来形成RDF属性或类完整的URI。良好的做法是,生成的URI还解析为提供有关属性或类信息的信息资源。虽然RDF允许命名空间URI以“/”或“#”结尾(实际上是任何其他URI字符),但TAG的位置是,不包含片段标识符的http:URI始终是对文档的引用,因此RDF属性或类名应包含片段标识符。因此,我们得出结论,RDF中使用http URI方案的命名空间名称应该包含“#”字符。

  • 任务:Ralph-关于W3C取消引用策略的一两段
  • 任务:Bernard-关于PSI取消引用政策的段落

BV>>这一点是OASIS发布主题第一建议中表达的PSI要求的核心要求#2:“已发布主题标识符必须解析为可由人理解的已发布主题指示器。”要求#3:“已发布主题指示器必须明确声明要用作其已发布主题标识符的“唯一”URI。”

  • 任务:丹布里-关于FOAF取消引用政策的短文
  • 任务:Tom-关于DCMI取消引用政策的简短段落
  • 任务:Alistair-关于SKOS取消引用政策的简短段落

AJM>>由于SKOS核心词汇表的RDF描述是在稳定的人类可读文档可用之前发布的,因此最初没有适合的术语URI。目前,所有URI都会取消对SKOS核心主页的限制,因为这提供了当前可用文档的最新链接。SKOS核心规范正式发布后(http://www.w3.org/2004/02/skos/core/spec网站/)可能希望每个术语都有URI(例如“http://www.w3.org/2004/02/skos/core#prefLabel')将content-type text/html取消引用到规范文档中该术语的摘要(例如“http://www.w3.org/2004/02/skos/core/spec/#prefLabel').

  • 任务:Aldo-关于Wordnet取消引用政策的短文
  • 任务:丹布里-关于RDF/A和面向人/机器的混合文档的简短段落。

3.2. 应该使用哪种模式语言以机器方式声明词汇?

简短回答:这取决于你想说什么。本节应该描述不同社区发布的模式中的断言。

  • 任务:丹布里-关于FOAF模式断言的简短段落。
  • 任务:Tom-关于DCMI模式断言的简短段落。
  • 任务:Aldo-关于Wordnet模式断言的简短段落。
  • 任务:丹布里-关于W3C模式断言的简短段落。
  • 任务:Bernard-关于PSI模式断言的简短段落。
  • 任务:Alistair-关于SKOS模式断言的简短段落。

特别是,9月份,在SWBPD列表上讨论了建模同义词表的不同方法[THESAURUS-MODEL]。例如,可以使用OWL或RDFS表示现有的同义词库关系语言,并简单地将现有同义词表转换为这些术语。或者可以从根本上重塑

[冷却液]

Berners-Lee,T.,Cool URI不变,http://www.w3.org/Provider/Style/URI.html

【设计】

Berners-Lee,T.,《设计问题、建筑和哲学观点》,个人笔记,http://www.w3.org/DesignIssues网站/

[HTTPURI]

Berners-Lee,T.,设计问题,HTTP URI识别什么?,个人便笺,http://www.w3.org/DesignIssues/http-URI.html

[W3CPP(W3CPP)]

万维网联盟、持久性政策、,http://www.w3.org/Consortium/Persistence网站

[韦伯奇]

雅各布斯,I.,沃尔什,N.eds,万维网架构,第一卷,W3C建议书,2004年12月15日,http://www.w3.org/TR/2004/REC-webarch-20041215/

[WGS84]-丹布里??

Walsh,J.WGS84地理定位的RDF词汇【信息互联网草案】,RDF利益集团,http://space.frot.org/draft-geo-draft.html.

[XML名称]

Bray,T.、Hollander,D.、Layman,A.、Tobin,R.编辑,XML 1.1中的命名空间,W3C建议书,2004年2月4日,http://www.w3.org/TR/2004/REC-xml-names11-20040204/#dt-爱尔兰共和国