本网站由以下捐款支持:OEIS基金会.

用户:Charles R Greathouse IV/Metadata

来自OeisWiki
跳转到:航行搜索

这是我对OEIS中元数据(关于数据的数据)的思考的一页。在所有情况下,基本思想都是采用一些重复特征并以某种方式公开它,以便可以搜索、以不同的方式呈现、用户自定义等。

另请参见功能愿望列表#序列元数据以获取所需的功能和讨论。

当前状态

目前,组织环境信息系统中有大量元数据。关键字是一个主要部分:例如,keyword:tabl允许添加表输出格式(参见,例如。,A007318/表)与关键字cons(例如。,A000796/常数).

OEIS的贡献者现在被标记为下划线,从而使其自动链接。我认为不可能搜索它们(而不是像往常一样搜索纯文本),但这种机制应该允许更好的自动解析。

序列属性

请参见用户:Charles R Greathouse IV/Properties对于属性及其关系的思考。

关键词

请参见用户:Charles R Greathouse IV/Keywords获取有关单个关键字的信息。

自OEIS创建以来,关键字一直是其元数据的主要形式。在当前版本中,可以搜索关键字,并使用标题文本,让新用户更容易理解其含义(尽管许多用户即使没有这个悬停文本也很直观)。

索引

由于关键字太少索引是用于收集相似序列的后备方法。不幸的是,在目前的实施中:

  • 包含的含义没有明确规定。这适用于索引,但在将其用于其他目的时会限制其实用性。例如,用判别式二次型素数:该判别式的素数序列是否包含*约*而非*的*?作为索引,包含这样的其他序列是有用的,但在其他情况下,这可能是不可取的。
  • 很难找到。名称很长,许多名称没有自己的name/id属性。此外,还有一些条目的“索引”链接与“索引”条目的拼写不匹配。
  • 它相对不灵活(很少添加新条目)。

尽管有这些缺点,我强烈地建议向条目添加索引链接。如果这是标记序列属性的唯一方法,那么我们应该尽可能地利用它。如果我们最终转移到另一个系统,那么索引链接可以通过一些自动化过程形成该系统的起点。

当然,索引在某些方面做得很好,不应该被替换。理想情况下,我认为它的功能是编目“与”而不是“是”关系。序列“是”单调的,用关键字比索引更好地描述关系,但序列与…有关单调性(比如,A158939号)但它本身不必单调,对于索引来说是完美的。(同样,A083140型实际上并不是自然数的排列,但它应该有而且确实有-指向自然数排列的索引链接。)

新索引条目

有许多领域需要扩展索引。例如,超越数有一个索引项,但代数数还没有索引项;这应该被创建并填充。同样,应该有一个周期序列的索引。这两者都应该像线性递归索引条目一样构建,代数数的度数和线性递归的周期。此外,可能还有多项式序列和拟多项式的条目。

标签

一种可能是在条目中添加标记字段。这将是一个更自由的关键字版本。标签由字母、数字和破折号组成;/\b[a-z][a-z0-9]*(-[a-zO-9]+)*\b/i。可以像搜索关键字一样搜索它们,但可以轻松创建新的关键字。首先考虑:任何助理编辑器都可以通过添加名称和描述来编辑(受保护的)页面来创建新标记。当向序列添加标签时,提交表单会检查该页面是否存在;如果没有,它会拒绝提交,就像添加了不存在的关键字一样。

一个好的开始是不同数学领域的标签:抽象代数A000001号,组合A000002号,数字理论A000003号(当然,可以添加更窄的标签来代替或添加:group-theory、automata、binary-forms。)或者,MSC分类可以与MSC分类一起使用或添加。

在实现方面,有可能进行优化(如果完成了足够多的提交以导致显著的服务器负载)。例如,每次编辑标记页时,服务器都可以更新可接受标记的trie。但在(可能?)序列提交中的标记查找只是服务器负载的一小部分的情况下,可以跳过这一过程。

其他方法

除了现有的关键字之外,还有许多属性似乎值得编码,例如单调、完全乘法、加法、次/超加法,甚至“重新排列“.此外,最好有序列可识别性的信息:A038772美元是十进制的正则语言,许多序列(素数、2^n-1等)在一元中是正则的。类似地,当有结果显示特定序列是/不是上下文无关、上下文敏感或可判定/递归的时,这似乎值得一提。(OEIS中的几乎所有序列都应该至少是可递归枚举的;A004147号是OEIS中罕见的不可变序列之一。)

我也非常希望能够对单调序列的增长率进行分类;这可能有助于很好地进行搜索。我不知道最好的方法是什么;类型为的某些系统有意义的而不仅仅是文本更为理想,这样添加更多信息就不会影响条目。

我还希望能够标记出可疑的序列和序列属性(猜测的/开放的/推测的)或仅仅是尚未被严格证明的。我更喜欢,同等条件下,在不参考推测的情况下定义序列。例如,A059784号可以定义为或者作为a(n+1)=下一素数(a(n)^2)。前者依赖于这样的存在k(“明显”但未经证明)而后者无条件存在。

许多序列的生成函数都以标准的形式列出。我希望能够通过这些生成函数所隐含的属性来搜索序列,比如指数增长的序列。

最后,有许多序列的自然等价类。最好能以某种方式标记这些,可能是从每个班级中选择一名代表。(不需要AC,因为OEIS中只有有限多个序列…)

标识符

OEIS贡献者现在使用下划线包围的标准用户名进行标识。这将导致名称自动链接到用户页面,并在稍后打开各种形式的自动处理的大门。

最好能找到没有用这种方式标记的用户名并对其进行标记,但这并不是一个高优先级的问题。

也许应该做点什么来标记其他人的名字(除了贡献者)。搜索时,可以更容易地找到名字拼写不同的人(切比雪夫)、带有重音字符的名字、经常缩写的名字、改变的名字(结婚后的名字?个人、宗教或文化的改变?)等等。它还应该能够消除常见名称的歧义。

程序

程序的首要任务是区分“其他语言”字段中的语言。这种方式

  • 搜索变得更容易(例如,查看用于描述Visual Basic或Scheme的变体的数量,或搜索Maxima程序的难度)
  • 有可能将程序格式化,例如。,GeSHi公司语法突出显示.
  • 条目的格式可以不同,可能(例如)在左栏中显示两行“Python”和“MAGMA”,而不是一行“Program:”
  • 通过公开这些内容,编写OEIS脚本变得更加容易。

另一个优先事项是区分版本。(例如,请参阅以下两个版本之间的Maple版本的问题A006506号A191779号.)在Mathematica 10中运行的内容可能不会在Mathematica 8等中运行。这应支持多个版本和/或版本范围:Math'ca 6+或Pari/GP 2.3.1–2.4.2。理想情况下(但这似乎更困难),相关语言可以共享实现:Octave和Matlab或Excel和OOo Calc。

低优先级将是区分评论和程序,以便通过搜索等方式对其进行不同的处理。

其他

唯一地识别其他事物可能很有用。

  • 语言:ISO 639-3标准代码,可能与IANA子标签业务连续性计划47,可用于标记的属性。(例如,如果能够区分源代码是拉丁语还是法语,那就更好了。)这可以简单到允许hr法兰属性。
  • 期刊:一份期刊除了其当前名称的完整形式外,还可能有几个缩写甚至几个名称。考虑一下(这不是一个很好的例子……)“计算数学”与“数学计算”、“数学表格和其他计算辅助工具”与缩写。
  • 作者:也许ORCiD公司会有用吗?
  • 书籍:不同的印刷品、翻译等(通过ISBN?);区分名称相似或相同的书籍;书目数据库或其他链接;附上与作者、语言等相关的其他元数据。

通用元数据

日期

OEIS将其日期格式标准化为mmm-dd-yyyy或mmm-dd,yyyy-y,处于相对较好的位置。但日期不容易搜索:想象一下,试图找到2010年上半年的序列。这需要复杂的搜索:[1]。但最糟糕的是,尝试搜索2010年7月的评论。你不能只搜索2010年和7月的评论,因为这将与2009年7月的一条评论和2010年4月的另一条评论相匹配。

最好以HTML格式提供符合OEIS标准的日期<时间 日期时间="...">元素。

2030年1月12日

模板化

某些东西经常出现在数据库中,比如MathWorld的链接。从很多方面来说,把这些收集在一起会很好。例如,如果一个人改名,比如从“数学世界”改为“数学世界”,会怎么样?维基方面有{{数学世界}},但目前序列端没有任何内容。(实际上,我甚至不知道现在推荐的链接格式是什么……)

一些可能性:

  • 阿布拉莫维茨和斯特根
  • 数学世界
  • 维基百科
  • 互联网档案
  • EIS和HIS

另请参见样式表#参考谈话:样式表#参考模板.

语义学

波什特别是rel属性,很好:

微格式喜欢引用,hCalendar,hCard会很好,虽然可能不是很重要。我们可能已经见面了WCAG 2.0版(还有一个WCAG 3草案),但可能值得检查。(有无障碍专家想插话吗?)

主题

最好有序列的主题标识符。过滤序列以查找与化学相关的序列、量子物理、数论或zeta函数。。。一般来说,这需要构建一个适当的本体,但使用移动交换中心再加上对数学以外的科目的特别补充可能就足够了。一种更简单的替代方法是使用arXiv分类。

这可以在wiki端构建并简单链接;类别结构似乎非常合适,尽管我们可能应该强制使用DAG公司对结构的要求,以便在不创建循环的情况下搜索后代和祖先。