结晶数据

2004年CODATA

信息社会:科学的新视野

2004年11月7日至10日,柏林

2004年两年一度的CODATA会议的名称反映了CODATA越来越重视数据科学和科学数据管理,将其作为“信息社会”的关键组成部分。会议期间举行了一次重要会议,专门介绍和讨论CODATA和科联理事会在2005年突尼斯信息社会世界首脑会议第二阶段会议之前开展的活动(见下文)。然而,社会与科学数据之间的关系是一个反复出现的主题,贯穿于许多会议的演示文稿中,有时是明确的,有时是默默无闻的。

主题报告

2003年10月的《柏林宣言》是一项鼓励公开获取科学和人文知识的倡议,其目标是通过社会广泛传播知识。它已经由多个国家和国际学术机构的代表签署,并得到了马克斯·普朗克学会(MPS)的大力推动。MPS的尤尔根·雷恩(Jurgen Renn)描述了他对文化和科学网络的愿景,这源于在网络上公开学术知识的不懈努力。如果不协同努力,许多文物和文化遗产的组成部分——艺术、文学、语言、口头传统——将因成为专家学者的保护区而失去可见性。另一种选择是利用网络的力量和普遍性为所有人提供访问。他认为,目前存在传播危机,这与期刊和书籍成本的螺旋上升有关。当前基于网络的分发标准解决方案存在缺陷:“大玩家”模式试图确保商业开发的专有权,但未能创建足够的访问和检索基础设施,并促进数字鸿沟;通过试点企业转移内容的“侦察”模式缺乏自我维持的动力。需要的是通过“agora”解决方案建立一个自我维持的基础设施,这是一个所有公民为共同利益作出贡献的支助方案。在这个愿景中,未来的网络将由知情的对等交互构成。这方面的引擎将是生成自组织机制的动态本体,以便语义链接比预定义元数据集合之间的当前链接更深入。《柏林宣言》被视为一个起点;它鼓励科学家通过开放获取工具发布他们的研究结果,并呼吁文化遗产藏品持有者通过网络提供这些成果。欧洲文化遗产在线(European Cultural Heritage Online)等项目都了解这一愿景,并展示了其潜力。《柏林宣言》签署国的一个主要短期目标是提高学术社会的认识,并制定路线图,系统地解决法律障碍、经济和数字鸿沟等问题。

尽管目前人们对科学数据和社会感兴趣,但科学本身确实是建立在数据之上的,埃朗根-恩伯格大学的约翰·加斯泰格描述了化学信息学的最新发展,从大量积累的数据中汲取了新知识。他的主题是化学对性质比对化合物更感兴趣;尽管每年有超过80万份出版物描述了100万种新化合物,但数量之大可能使解决新问题变得困难。另一方面,往往没有足够的数据。虽然有超过4100万种记录在案的化合物,但只有25万种定义明确的晶体结构是已知的。有时,对于开拓新方法的学术界来说,与工业界密切合作是一个很好的机会,工业界有能力提供大量新化合物,从而提供特定研究所需的数据点。值得注意的是,该行业在CODATA成员中的代表性较差。化学信息学的新学科允许应用信息学和数学方法来解决化学问题。神经网络是越来越多强大的新工具之一。介绍了工业/学术合作的案例研究,其中自组织二维神经网络应用于溶解度预测、红外光谱表征和药物发现等问题。

美国地质调查局(US Geological Survey)的格拉迪斯·科特(Gladys Cotter)讨论了生物多样性研究,这是信息学面临数据量、收集和处理数据的新技术以及组织和知识管理需求挑战的另一个领域。生物科学的最新发展在许多层面上促成了参与者之间的密切合作,从联合国赞助的项目到区域和国家组织、地方机构和个人实地工作者,所有人都试图通过日益互操作的渠道进行交流。这是一个科学领域,尽管新的数据发现技术如配备全球定位系统(GPS)定位器的便携式数字助理(PDA)、现场计算机、无人驾驶航空测量车和激光雷达的大量涌现,但层次结构似乎确实很好地协同工作。全球生物多样性信息论坛(GBIF)项目中的有效元数据方案允许使用DiGIR软件框架在一年内暴露3500万个分类记录。新的数据模型正在从纯粹的描述性分类转向更具预测性的功能。

RIKEN基因组科学中心主任Yoshiyuki Sakaki介绍了最近关于“完成”人类基因组常染色体序列的工作,该序列于2001年首次以草稿形式发布。其动机是产生最高质量的数据,为未来的医学研究奠定基础。结果是阐明了大约20-25000个蛋白质编码基因。完整的基因组不仅提供了对人类遗传功能的深入了解,还为比较基因组学的新研究提供了原始数据,在比较基因组学中,许多物种之间高度保守序列的比较为进化提供了线索。当前应用于基因组的生物信息学技术具有绘制系统发育关系的潜力。

数据与社会

针对会议的总主题,全体会议“数据与社会”进行了两次广泛的审查。柏林FIZ化学公司的Rene Deplanque在网络和相关信息科学发展的背景下调查了“科学技术数据在当今社会中的使用”。像谷歌这样的搜索机器正在朝着不需要正式查询语言的直观搜索模式发展,但它们所搜索的信息深度和返回结果的混乱性质有限。结构化信息当然会有所帮助,但在整合不同科学领域的数据库方面仍然存在巨大挑战。本体管理软件是需要的,并且正在逐步发展;也许这个领域中适合软件开发的机器将基于具有重要逻辑推理能力的语言,如Prolog。令人兴奋的新发展不断涌现:例如电子学习系统、网格技术、分布式虚拟现实和更强大的超级计算。尽管如此,人脑的处理效率仍然远远超出了我们目前所能想象的。

如果这是一个乐观和技术上乐观的评论,那么哥伦比亚大学地球研究所所长罗伯塔·巴尔斯塔德·米勒就可能滥用为科学研究目的收集的人口和其他人口数据敲响了警钟。科学通过原子武器、化学武器和生物恐怖主义为20世纪的战争和人类压迫做出了巨大贡献;如果没有负责任的管理,社会数据就有可能在21世纪造成大规模危害。现有的控制措施,例如美国72年的人口普查数据禁运,是出于好意,但并不充分,因为多个数据库的结合可以实现数据挖掘和发现个人的详细个人信息。她主张制定一项广泛的教育方案,以提高人们对这些问题的认识,并制定协议,允许独立的学术咨询委员会与政府机构合作,收集和管理大型社会数据集。CODATA在领导必要的教育计划和确定适当的制衡方面发挥了重要作用。技术驱动的监测解决方案将有所帮助,但这一问题需要引起全球关注,并可能需要通过国际条约加以解决。

标记语言

W3C英国办公室所在地CCLRC卢瑟福实验室的布莱恩·马修斯(Brian Matthews)调查了W3C开发和推广的工具,这些工具是“语义网络和科学社区”的重要组成部分。这些被宣传为实现Jurgen Renn的主题演讲所预示的文化与科学网络愿景的标准。当前对语义web的思考使用了一个分层模型:Unicode和URI提供了基础层,基础层上覆盖着:XML以名称空间和模式作为传输层;元数据的资源描述框架(RDF);由OWL等语言管理的本体词汇表,用于表示形式关系;除此之外,还有有待解决的逻辑、证据和信任层次。在开发适合支持同义词库的语言的新兴项目中,值得注意的是SKOS。

大阪大学蛋白质研究所的Haruki Nakamura将PDBML作为一个基于形式本体(mmCIF字典)构建的XML语言的示例,现在它被用作全球蛋白质数据库(wwPDB)组件之间的标准交换机制。可以使用标准XML工具来管理这种格式的数据,例如在相当复杂的查询中使用XPath搜索。PDBjViewer是用于蛋白质结构可视化的rasmol的替代品,可以作为Java小程序分发,演示了持续进步所必需的平台独立性。该演示还描述了一种生物分子模拟标记语言(BMSML),该语言是在网格体系结构下开发的,可以同时进行多种尺寸的生物模拟。

Peter Murray-Rust描述了他与CML正在进行的工作,并介绍了他与Acta的协作工作,作为结构化数据表示(如CIF)之间易于互操作的示例。他还提出了以机器可读格式明确发布许可声明以促进数据重用的标准呼吁,并倡导社区合作的必要性。

数据归档

CODATA对长期保存和访问有着积极的兴趣,并就这一主题举行了多次会议和演讲。越来越多的档案解决方案是在开放档案信息系统参考模型的影响下设计的;但是,尽管这为大型系统的管理提供了一个基本的概念框架,但其丰富性和复杂性对于小型组织来说可能是压倒性的。威尔士大学阿伯里斯特威斯分校的Jacqueline Spence在其博士研究项目的一次精彩演示中,展示了一种基于问卷的方法,用于在OAIS框架内对小型组织的绩效进行评分。其目的与其说是根据绩效排名,但要展示需要工作的领域(并可能根据组织的要求突出显示不需要工作的方面)。记分卡非常有用,特别是在允许组织协同工作以确保在适当级别授权和管理存档功能方面。我不确定实际的评分方法是否最佳(添加了分配给风险和感知需求的数字分数,其中乘法似乎是更好的权重);但这一想法表明,小型(ish)组织如何能够以合理理解和标准的方式展示其实际的归档能力和状态。例如,这对我长期以来想要将晶体数据库的状态记录为档案的愿望非常有用。

美国国家CODATA委员会一直在与ICSTI合作,与存档工作组合作,为与科学数据存档相关的资源创建门户网站。原型站点(http://stills.nap.edu/shelves/codata/index.html)演示了门户的潜在用途,尽管它的开发受到了此原型中使用的内容管理系统的阻碍。希望充分开发的门户网站将作为一项能力建设活动在发展中国家举办。请注意,这与我不久前提出的通过CODATA提供特定于域的数据资源信息的建议很吻合(可能是通过上述类型的记分卡测量的归档活动)。

新的数字策展中心由其副总监(开发)David Giaretta介绍。DCC公司(http://www.dcc.ac.uk)根据JISC持续访问和数字保存战略(2002年10月)中的建议,成立了一个英国中心,以帮助解决任何单一机构或学科无法解决的挑战,包括通用服务、开发活动和研究。它并不寻求成为主要研究数据的存储库,但可能会成为一个有用的机构,为我们提供咨询服务、想法、工具和获取标准的途径。DCC开发现场位于网址:http://dev.dcc.rl.ac.uk并包括一些示范项目(请参见例如天文学FITS示例,与我们的CIF开发有一些相似之处)。

德国的对等机构是nestor,它是德国图书馆和博物馆的分布式合作伙伴,www.langzeitarchieverung.de。

在这些会议的发言中,我注意到了以下几点。

中国承认长期保存和获取是信息社会世界峰会行动计划草案中明确列出的目标。NASA MODIS(成像光谱仪)卫星计划的中国接收站可以在一小时内在线分发接收到的数据,但在同一时间段内,数据被输入长期存储系统。

OAIS的“指定用户社区”理念在设计归档系统时很重要,但开发人员必须意识到,可能会有意想不到的需求,需要更广泛的用户社区使用。遵循一些良好实践原则——定义一个允许外联的用户社区(但在合理范围内);聘请非技术作者为数据中心编写文档(显然是与技术人员合作);设计依赖透明度、互操作性、可扩展性和存储或事务经济性的架构;确保正确记录数据中的不确定性。

这些原则正在应用于一个德国项目的元数据和本体开发,该项目涉及数字信息的*非常*长期保存(特别是与核废物处置场相关的信息,其设计目标是使信息至少可供使用100000年)。这方面的一个重要组成部分是构建了解IT基础设施(存储、数据库格式、通信渠道和安全性的原则)的本体,以便随着时间的推移,这些本体也可以迁移到新平台。一种有用的备份机制是用HD-Rosetta方法在硬化镍基板上微观蚀刻文本或其他模拟信息(例如 http://www.norsam.com/hdrosetta.htm).

NASA本身正在OAIS模型之上构建更复杂的归档应用程序,并日益将其集成到实际项目中。特色鲜明的软件系统背后的动机是创建复杂的系统,该系统可以在卫星和接收站网络中的一个或多个组件丢失时进行自我调整。美国国家航空航天局的观点是,归档和电子科学对21世纪的科学技术至关重要。

公开科学传播/科学数据的出版和引用

国际DOI基金会的Norman Paskin讨论了数字对象标识符(DOI)在科学数据集中的使用。DOI用于出版,以识别文献文章,并通过搜索相关的书目元数据,通过CrossRef注册机构为出版商提供链接服务。科学数据集也有类似的功能。DOI旨在作为持久标识符,并允许比临时URL和经常临时URL更可靠的长期访问。本文介绍了两个案例研究,这些项目使用有趣的DOI应用程序和科学数据。一个是“生命名称”项目,该项目提出将DOI作为分类学定义的持久标识符。由于分类学定义会随着时间的推移而变化,因此很难明确鉴定一个物种。将DOI分配给特定定义,并提供与同义词或其他相关资源的前向链接,将提供分类变化的审计线索,并允许明确识别被引用物种,并了解其历史背景中的当代定义。注意特定数据记录的标识符(分类学描述)和概念的标识符(分类单元本身)之间的区别。DOI最有可能用于前一目的,因为概念标识符往往是特定于域的(例如属/种学名、INChI、阶段标识符、化学元素符号……)。然而,DOI作为概念标识符的使用并不完全排除,尤其是在没有现有系统识别方案的情况下。

帕斯金的第二个例子是向汉堡世界气候数据中心(WDCC)的气候数据分配DOI。德国国家科学技术图书馆(TIB,汉诺威)在本案中担任登记机构,WDCC应用程序是一个长期项目中的试点,用于定义适合不同学科的元数据。TIB的目标是到2006年成为科学初级数据的中央登记机构。汉堡WDCC的迈克尔·劳滕伯格(Michael Lautenberger)提供了该试点项目的更多细节,并明确表示,他们的目标之一是促进与DOI确定的主要数据集的“出版”相关的学术学分,以及将数据集整合到图书馆目录中,并将其出现在科学引文索引中。

我和帕斯金聊了聊这些发展,并提到我认为他们正在满足一个重要的需求,几年前,当我们与他们交谈时,CrossRef曾声明自己不愿意加入进来。然而,随后我发现CrossRef一直在与PDB讨论蛋白质结构DOI的分配,因此该领域似乎正在开拓。有许多考虑因素将发挥作用:CrossRef或TIB是否会创建一组更好的元数据来描述科学数据?是否有理由区分与出版物相关的“主要”数据和“补充”数据?科学数据出版的财务模式是什么?

在关于“开放获取数据和柏林宣言”的演讲中,GeoForschungsZentrum Potsdam的Jens Klump还提出,数据中心可以在开放获取环境中充当数据发布者的等效物。他建议,《柏林宣言》以及各国政府在2004年1月经合组织《最后公报》中的有效认可(http://www.oecd.org/document/15/0,2340,en_21571361_21590465_25998799_1_1_1,00.html)也应适用于数据。这种模式的关键组成部分是:不可撤销的全球自由准入;复制、使用或分发许可证;衍生作品许可证;和通过至少一个长期存档网关的可用性。在这一点上,一个主要困难是为公开获取的科学数据的应用制定“合理使用”原则。

海因里希·贝伦斯(Heinrich Behrens)发表了一篇论文,考虑到自17世纪以来科学文献和数据出版物数量的增长。在此期间,增长曲线增长非常迅速,但如果没有任何模型,拟合此类曲线的最佳方法是通过统计分析最佳拟合函数。增长曲线通常由指数拟合,有时当曲线显示增长率随时间变化时,则由一系列指数拟合。贝伦斯证明,如果通过相同的经验数据点拟合多个二次曲线,统计残差可能会小得多。虽然拟合过去曲线的差异很小,但根据指数或多项式的外推情况,未来的增长预测当然会有显著差异。通过推断未来的二次拟合来预测CCDC或PDB的增长是很有意思的。

然而,一篇事实上没有发表的论文有一个有趣的摘要,证明了天文学数据和出版物之间的密切协同作用。(http://www.codata.org/04conf/abstracts/OpenSciComm/Genova-Informationnetworking.htm)

数据质量

NIST陶瓷部门的罗纳德·蒙罗(Ronald G.Munro)就“作为科学学科的数据评估”发表了演讲,其中提出了评估质量的数学模型,但也提出了一些有趣的一般观点。一是数据评估的目标应被视为确定数据的可信度。另一个好处是将质量指标划分为功能组——在NIST,一个有用的方案(大致按升序排列)是:不可接受/研究/商业/验证/未评估/典型/合格/认证。

汉堡大学的Volkmar Vill演示了SciDex的一些应用,SciDex是一种面向对象的数据库,允许2D和3D数据集作为数据类型。该系统是为实现液晶数据库LiqCryst而开发的,因此包含一些适用于其他目的的通用化学验证方法(例如子结构比较)。它已经被用来创建一个搜索引擎,搜索Springer的Landolt-Bornstein Online索引,以及其他一些科学数据库:29Si-NMR、Phytobase、Hazardous Substances。。。

信息社会世界首脑会议

信息社会世界首脑会议分两个阶段举行,分别于2003年12月在日内瓦和2005年11月在突尼斯举行,由国际电信联盟在联合国秘书长的赞助下组织。它旨在将国家元首、联合国机构行政首长、行业领袖、非政府组织、媒体代表和民间社会聚集在一起,举办一次高级别活动,讨论有关信息社会的广泛问题,并对这一社会转型达成共同愿景和理解。

科学理事会和CODATA密切合作,在首脑会议第一阶段提高科学作为信息社会贡献者的知名度。现在,国际科联希望委托CODATA更多地参与突尼斯活动的筹备工作。在CODATA会议期间举行的信息社会世界首脑会议就是这种参与的一部分。

首脑会议第一阶段制定了一项行动议程,其中包括一些与科学有关的指控。最相关的单个项目是

22.电子科学

a) 促进所有大学和研究机构负担得起和可靠的高速互联网连接,以支持它们在信息和知识生产、教育和培训方面的关键作用,并支持这些机构之间建立伙伴关系、合作和网络。
b) 促进电子出版、差别定价和开放获取倡议,使所有国家都能公平地负担得起和获取科学信息。
c) 推广使用对等技术分享科学知识,以及放弃付费权利的科学作者所写的预印本和重印本。
d) 促进长期、系统和高效地收集、传播和保存必要的科学数字数据,例如所有国家的人口和气象数据。
e) 促进原则和元数据标准,以促进合作,并酌情有效利用收集的科学信息和数据进行科学研究。

CODATA会议的目的是特别强调科学界目前正在开展的与议程行动项目有关的倡议,并确定具体的未决问题。围绕之前分发给与会者的五个问题进行了一次圆桌讨论。下面,我对提出的一些观点进行了简要总结。

科学数据管理和获取方面的主要挑战是什么?

  • 每年产生20000 PB的数据。问题不仅在于访问,还在于这些数量的可用性。
  • 访问和连接至关重要,但这是第一步。我们还需要新的知识发现技术,这取决于整合不同规模知识的能力。
  • 新的传播形式可能有助于决策者和公众理解科学问题。
  • 资金是一个常见的问题——如何说服政府为数据管理和基础科学提供资金?
  • 遗产数据数字化缺乏资源(和兴趣)(例如天文照相底片)。
  • 在收集环境数据方面,所收集的数据与实际最有用的数据之间仍然存在不匹配,尤其是在发展中国家。
  • 国际数学联盟(International Mathematical Union)正致力于将所有数学出版物数字化,以建立一个完整的数学数字图书馆。
  • 需要强调地理多样性。
  • 信息社会世界峰会应强调制定共同数据标准的必要性。
  • 发展中国家的人员需要更多地参与进来。存在语言和培训问题;尤其是缺乏对档案需求的认识。
  • INASP强调,作为第一步,需要改进接入,并可以提供许多例子,说明如何快速实现增加带宽对发展中机构的好处。
  • 第三世界科学院承认存档的必要性,但他们的首要任务是快速访问最新信息。

2.突尼斯会议应强调哪些问题和成就?

  • 需要区分不同类型(数据质量)。
  • 希望看到信息社会世界峰会为科学带来更多新视野,并适当尊重和理解科学在更广泛的信息社会中的作用。
  • IAU希望看到WSIS产生更好的科学,以及文化变革。应认真对待数据;直到相关数据公开发布,科学才结束。
  • 美国航天局期待着一种共同的科学语言的出现,在科学事业中有更多的合作。

3.与电子科学有关的活动

  • 2007/8国际极地年(纪念国际地球物理年50周年)表明了科学在促进国际合作中的作用。
  • 世界数据中心提供了另一个很好的例子。
  • 即将到来的“电子地球物理年”将为严肃对待数据和信息的新视野做出贡献。
  • 一个项目正在进行中,以创建一张全世界1:1000000的数字地图,其中包括八层可持续发展。迄今为止,最好的投入来自发展中国家。
  • OAI-PMH提供开放存取元数据的传输机制是一项值得注意的成就。

4/5. 预期的结果和行动是什么?

  • 再次努力在全球范围内提供电力和电力——如果没有电力,就没有数据!
  • 许多科学都是以关系为基础的,应该鼓励促进人际交往的倡议。
  • 信息和通信技术的发展可能会导致未来科学的结构完全不同——CODATA应该描绘出15年后科学的面貌。
  • 编制具体活动清单非常重要,但不应以突尼斯首脑会议结束。
  • 科学家需要就相关问题与决策者进行更多接触。互联网治理就是这样一个领域。
  • 这次峰会是一次强调分享知识的非货币价值的机会。这在科学文化中有着内在的理解,但可能需要向全世界阐明。
  • 必须与WIPO合作敏感地管理知识产权。
  • 开放获取数据和公平获取出版物仍然是信息社会世界峰会应提出的具体目标。

总结

2004年CODATA宣布自己是第一个主要的跨学科会议,讨论信息社会科学的新视野。主办方认为它值得这样描述。来自28个国家的260人参加了会议,大多数科学联盟的活动都有代表参加。来自科联理事会、教科文组织、IIASA和非洲语言学院的代表的参与被视为对CODATA兴趣增长的证据。
布莱恩·麦克马洪
CODATA代表
2004年11月25日