结晶数据

CODATA 2006年

信息社会中的科学数据和知识

2006年10月22日至25日,北京

2006年10月23日至25日在中国北京举行的第20届国际CODATA会议的标题为“信息社会中的科学数据和知识”,延续了上一届会议的标题(“信息社会:科学的新视野”)对CODATA在信息社会中作用的强调以及该组织过去几年参与信息社会世界峰会和相关活动的情况。贯穿该计划的还有CODATA对其自身宗旨的评估,这反映在对其过去40年的回顾中,以及一次展望其未来方向的会议上。

CODATA的过去、现在和未来

在关键会议“CODATA:将数据带到世界的40年”中,David Lide追溯了该组织在战后科学研究蓬勃发展、实验仪器和仪器迅速发展的世界中的早期发展。由热力学学家弗雷德里克·罗西尼(Frederick Rossini)作为主要推动者,以及由来自美国、法国、英国、西德、日本和苏联的六名成员组成的最初执行委员会,CODATA创始人的专业知识扎实地奠定了物理和化学科学领域的基础。然而,从一开始,该组织的章程就涵盖了生物和地球科学,到1970年第二次会议时,这些科学的代表性已经很明显。当然,在最初几年,参与者都是单纯的科学家:没有人会被视为“信息技术专家”。但在第二次会议上,计算机化数据管理的早期演示再次成为支撑当今所有科学数据管理的信息技术巨大增长的起点。从长期参与CODATA的过程中,利德认为其早期成就是:为来自不同学科的科学家提供了一个必要的合作论坛;促进国际合作,最重要的是在冷战期间;就关键物理和化学数据集达成国际协议;开展教育活动;并为基于计算机的数据使用做出贡献。他认为,依靠自愿采纳CODATA准则,改进公布数据的呈现方式的努力并不那么成功。然而,他相信这些指导方针确实对期刊产生了一些有益的影响;他对CODATA未来发展方向的建议是高度重视数据质量问题。

John Rumble(2006年CODATA奖得主、CODATA前总裁)回顾了该组织在20世纪80年代的发展历史。这一时期的特点是:技术发展迅速,包括个人电脑的兴起;科学数据活动的成熟;以及科技数据的全球化,包括新学科、新国家和不断增长的社区中的新人们。它还见证了科学和技术数据工作从专家手中开始向几乎每一位科学家手中转变。在此期间,CODATA制定了第一个战略议程,重点是:关键评估和提高数据质量;数据的可访问性和传播;数据文件的结构和格式;在数据传播中使用计算机和电信;以及CODATA输出的传播。这样做的一个特别后果是正式提名、审查和批准开展CODATA科学活动的工作组。这一时期大约在互联网即将因万维网的发明而发生革命性变化的时候结束。

Krishan Lal将CODATA的历史带到了现在,涵盖了过去十五年的时间,在此期间,CODATA范围大大扩展,在生物、物理、化学和地球科学的非常广泛的领域内建立了充满活力和活跃的工作组,来自世界各地的科学家积极参与,包括亚洲新的快速增长的经济体,但也有相当数量的发展中国家。人类科学和社会科学的参与度也在不断提高,人们对科学和整个社会之间的关系的认识也在不断增强。最近国际科学理事会科学数据和信息优先领域评估(PAA)审查对这些趋势进行了分析,其中包括向CODATA提出的一些建议。CODATA对ICSU PAA审查的回应包括对新的任务声明和战略计划的承诺。CODATA还为信息社会世界峰会做出了积极贡献,为该组织提供了高水平的国际知名度,并有机会公开发起全球科学信息共享倡议。

在随之而来的关于“CODATA未来愿景”的关键会议上,Lal教授和现任副总裁Alexei Gvishiani进一步制定了随着CODATA积极响应ICSU PAA并致力于其未来战略计划而不断发展的倡议和政策。虽然国际数据科学和信息技术的状况似乎很健康,但有人担心CODATA本身正在失去许多国家成员组织的正式成员资格。这似乎部分反映了从国家政府为支持长期管理或发展而非基于项目的科学活动筹集资金的结构性困难;然而,这些国家成员的流失削弱了CODATA,因为他们减少了为确保组织财务健康而带来的资金,同时也失去了他们在制定组织政策目标和行动议程方面的积极发言权。人们还担心与无力提高会费的发展中国家失去联系,以及由于各种原因,一些地理区域缺乏参与。让更多的年轻科学家参与该组织的工作,并建立数据科学杂志作为发展数据科学的重要工具。新的战略计划将努力解决这些缺点;但它也将是雄心勃勃和进步的,制定一些项目来直接解决诸如数字鸿沟、普遍和公平地获取数据以及鼓励和利用新的科学技术发展等问题。

Tony Hey关于“电子科学和网络基础设施”的主题演讲回顾了信息处理和管理领域的一些最新技术发展,清晰地跨越了CODATA的历史及其未来计划。其中许多都反映在这次会议的演讲或会议上;它们包括天文虚拟天文台(天文数据网格);Comb-e-Chem项目(将化学湿实验室的高通量实验数据与自动化数据收集和分析联系起来);晶体学电子印刷品(应用开放式体系结构电子出版技术提供科学数据集的访问);网格中间件服务运行在高带宽研究网络之上,支持越来越多的研究项目;开放存取出版物来源(从预印本档案到完全同行评审的期刊);社交通信技术(RSS订阅源、维基、博客),也许会带来新形式的“直播”期刊。嘿,是微软公司技术计算副总裁,他解释了微软是如何积极增强互操作性的,无论是通过在开放免版税文件格式规范的基础上发布下一代办公生产力软件,或者积极与开放存档倡议的技术开发人员合作,调查跨机构存储库的交叉搜索。未来的数据集成项目将包括一个与Microsoft虚拟地球项目的地理信息相结合的遥感器网络。

科学信息共享区

关于全球科学信息共享倡议(GICSI)的一次关键会议再次讨论了CODATA的一项新倡议,Paul Uhlir(该提案的合著者,P.David)详细解释了“信息共享”的概念:数字信息,主要来源于政府或公共资助来源,在公共领域或仅保留有限权利的情况下,免费在线供公众使用,通常按主题组织。信息共享区的优势在于:它促进了多方面的信息传递:在地理位置上,在南北之间(实际上在南北之间,也促进了能力建设);学科之间、部门之间和机构之间。它还将促进国际研究和发展活动。这种共同点存在障碍:仍然有必要评估和交流共同点方法的价值,并制定适当的激励措施。存在长期财务可持续性、合法法律限制以及制定有效技术和组织实施的必要性等问题。实际上,不可能克服所有这些问题,需要做出妥协;但CODATA的目标是通过提高对这一理念的理解和认识,促进成功模式的广泛采用,鼓励和帮助协调利益相关者的努力,以及建立在线开放获取知识库,尽可能接近这一理想。

GICSI的一个重要贡献因素是由Science Commons及其母组织Creative Commons开发的机器可读权利许可系列。Creative Commons China的王春燕(音译)描述了该组织在中国的活动,并指出信息共享的理念以中国传统的方式找到了一个天然的家园,即社会以合理的指导方针共享知识。在中国科学领域成功实施的一个例子是与arXiv相对应的QiJi,该公司有一个利用知识共享署名许可证的开放存取期刊翻译项目。

美国科学共享局局长约翰·威尔班克斯指出,这种归属许可证通过元数据中的机器可读表达进行追踪,为科学思想的实际再利用提供了一个极好的指标,这比现有的指标(如引文索引、影响因子甚至下载次数)提供了更多关于作品重要性的信息。

丰富的主题

如果上述报告的会议反映了CODATA使命和活动的广泛背景,那么会议的其余部分反映了CODATA成员及其科学界参与的以数据为中心的科学技术活动的丰富性。会议包括4场主题讲座、13场重要会议、64场贡献会议以及展示海报的机会。在几乎随机选择的会议标题中,可以列出:灾难数据;计算信息学;数据在促进公众理解科学中的作用;日地数据;电子科学;地球科学中的虚拟观测站;国际极地年活动;化学和物理数据;生物信息学/生物多样性;社会科学数据问题。如此丰富多样的主题存在的问题是,如果同时举行多达10次会议,个人不可能充分利用这样一次会议提供的跨学科机会。因此,我的会议报告和随后的发言在任何意义上都没有提供具有代表性的跨部门活动;它们只是我特别感兴趣或碰巧参加的主题。

数据归档

近年来,人们越来越关注数字数据的长期保存(存档)和管理。刘闯介绍了中国数字保存的现状,中国有着保存传统学术成果的良好记录(一套地理书可以追溯到2000年前)。2003年开始了一个长期的数字存档项目。作为第一步,正在开展一个项目,调查有多少数据集需要纳入该方案。迄今为止,在地球科学、环境、公共卫生和物理科学领域已经确定了近2500个数据库,其中包括大约500 TB的存档数据。这是一个巨大的数字,但中国正在为处理卫星数据、基因库和生物多样性项目的巨大数据归档工作做准备,这些项目将很快投入使用。

David Giaretta(英国数字策展中心)报告了CASPAR研究的早期结果,该研究旨在测试有效长期策展活动所需的许多原则和技术。该项目最初侧重于三个测试数据集(来自天文学、文化遗产和表演艺术领域),旨在对广泛采用的开放式建筑信息系统(OAIS)参考模型进行实际测试,尤其是探索“指定社区”需求的规范。这是OAIS模型中可能重复使用存档数据的实体,它建立了描述数据的元数据粒度,这些数据是保证在很长一段时间内有效重复使用所必需的,在此期间,信息技术和通用数据处理格式和方法将不可避免地发生变化。由于OAIS参考模型是许多大规模归档计划的基础,因此这一严格的测试计划似乎最为重要。

在发展中国家保存和获取科学技术数据工作组组织的会议上,还审查了实际的存档活动,会议报告,工作组的出版物和活动之后,介绍了为建立南非非营利组织及其活动的国家数据库所做的努力。本次会议还介绍了泰国多层面生态中的各种生物多样性和可持续发展活动。

数据和科学文献

严纽曼(Newman Yan)在“电子期刊制作”会议上介绍了出版物档案,他介绍了中国电子出版的旗舰——中国学术期刊。该期刊聚合平台提供了1994-2006年期间超过7500篇的1800万篇文章;一个广泛的数字化项目还转换了1887-1993年间出版的3664种期刊中的750多万篇文章。这些文章都可以全文搜索,按主题区域编制索引,以专有文档格式查看,提供了比PDF更强大的功能,并且可以通过通用的库和信息标准协议访问。整个收藏(仅中文内容)有6000多个机构订阅者,年下载量超过12亿次。

Myung-Seok Choi介绍了KISTI-ACOMS基于网络的文章提交和审查系统,该系统由KISTI免费分发给225个学术团体。该服务提供期刊文章和会议记录模块。

为学术团体提供的另一项国家服务是日本的J-STAGE电子期刊出版平台(目前该平台是CODATA自己的出版物数据科学杂志). 目前托管的期刊超过330种,该服务的功能包括全文搜索、链接、付费浏览和提供符合COUNTER的使用统计数据;计划使用OpenURL和OAI-PMH接口。

美国物理学会的S.Mitra描述了该学会的期刊如何在电子时代继续繁荣;以及他们如何在一个联系更加紧密的世界中变得越来越国际化。现在只有三分之一的论文来自美国作家;三分之一来自西欧,其余三分之一则来自世界其他地区。在这些国家中,尽管这一趋势与中国国内生产总值(GDP)的增长相一致,但中国发表的文章数量却急剧上升。这些期刊面临的挑战之一是投稿数量的持续增加,以及处理母语不是英语的作者的文章的编辑工作的增加。来自其他期刊的竞争日益激烈,包括不需要订阅的开放存取期刊。[另一方面,尽管他们在arXiv中报告的许多研究很早就可以获得,但APS期刊的订阅量一直保持良好:这被视为一个指标,表明同行评审的附加值确实得到了重视。]同时,让该领域的非专业人士能够访问学术期刊也是一个挑战,为了促进跨学科对话。

所有这些演讲都集中于期刊作为学术研究文章出版载体的传统作用,尽管这一作用的发挥受到了新信息技术的深刻影响。但交叉出版商参考链接服务提供商CrossRef的Ed Pentz向期刊提出挑战,要求其利用数字对象标识符(DOI)的底层技术,并处理资源解析器,以便不仅链接到文章,还链接到研究数据集。随着期刊和数据库融合到通用的存储、管理和传播方法中,数据集的链接、引用和传播更接近于出版模式。

通过跨学科元数据实现互操作性

Peter Löwe(代表GeoForschungsZentrum Potsdam的Jens Klump)在“支持通过元数据可持续获取科学数据”的会议上也描述了使用DOI为数据集提供永久和可引用的标识符。GFZ在汉诺威技术信息图书馆为其数据集注册DOI,汉诺威与CrossRef为出版物提供科学数据的DOI注册机构扮演同样的角色。这种方法背后的一个重要动机是使数据具有可引用性,以鼓励其在学术学分过程中得到认可。

引用数据也是CIESIN的Chris Lenhardt提出的一个话题,他描述了为引用数据而开发的风格指南(http://gking.harvard.edu/files/cite.pdf)以及数据库提供商允许此类引用的良好实践代码。

为数据集注册标识符当然会促进引文,但发现和搜索需要丰富的元数据来描述如此注册的数据集。Xaolin Zhang(中国数字科技馆)指出,诸如电子银行等数据提供商已经公开了描述科学数据集的元数据,并概述了元数据互操作方法的要求,其中包括一个开放元数据开发项目的提案。秦健在题为“元数据是可持续和有效访问数据的基础”的演讲中强调了这些想法,该演讲特别建议CODATA参与诸如元数据目录服务建设等项目,该服务将提供领域元数据标准清单。

这是一次及时、重点突出和重要的会议,强调了结构化跨域元数据开发对有效促进数据提供商之间的互操作性的重要性。Raed Sharif为会议做出了最后一个发人深省的贡献,他呼吁通过在附带的元数据中包含数据集的多语言描述来改善不同母语社区之间的互操作性。

生物信息学和天文学的挑战

蛋白质数据库是一个与我们有密切联系的组织,它已经采取步骤为其数据集注册DOI;在关于“初级生物数据库”的会议上,结构生物信息学研究合作实验室(RCSB)的海伦·伯曼描述了世界蛋白质数据库(wwPDB)。该合作的成员组织(RCSB、欧洲生物信息学研究所、PDBj和BioMagResBank)共同努力维护一个大分子结构数据的单一档案库,该档案库可自由、公开地提供给社区。虽然RCSB组成部分目前负责充当主存档站点,但所有成员之间通过使用标准格式可靠地交换数据集,确保每个成员站点拥有相同的数据,但保留提供自己的增值服务和接口的自由。wwPDB致力于最高标准的注释和质量控制,刚刚完成了对整个档案的劳动密集型修复。

本次会议的其他贡献描述了Uniprot、通用蛋白质资源公司(Claire O'Donovan)提供的活动和服务;EMBL核苷酸序列数据库(Guy Cochrane);初级核苷酸序列数据库,特别是日本DNA数据库(Hideaki Sugawara)的服务质量。

所有这些演示的共同点是组织的高质量专业性,他们对数据质量的承诺,以及他们对开放和不受阻碍地访问权威和适当自动化数据的效率的信念。

天文学是另一门在收集、分析和管理大量数据方面有良好记录的科学学科,在“管理天文数据”会议上,陈文平和赵永恒的演讲描述了现代天文学项目产生大量数据的挑战。台湾-美国掩星调查(通过其前方恒星亮度的瞬时下降来搜索暗淡的彗星)每天晚上已经生成数百GB的数据,这些数据必须几乎实时处理,以便进行符合性检查。预计的全景观测望远镜和快速反应系统将使用四台1.4千兆像素的望远镜,每晚将产生几TB的数据。在一个稍微适度的规模上,中国新的大天区多目标光纤光谱望远镜(LAMOST)将产生每晚15GB左右的信号;但是,人们已经在认真考虑对这些数据进行适当存档的要求,以及将其集成到国际虚拟天文台项目中。

Ray Norris(澳大利亚联邦科学与工业研究组织)指出,许多此类大型天文学项目在数据管理方面堪称典范;但在整个天文学界,情况未必如此。在“天文学家数据宣言”中,他和同事们要求社区一致、深思熟虑地解决可以改进的领域,例如:支持任何已发布表格、图像和光谱的所有数据的存放;将公共资助天文台的所有数据置于公共领域;将有效的数据管理政策纳入新仪器和观测站的计划,解决数字鸿沟问题;在数据中心以数字形式保存遗留数据;并通过IAU与其他国际组织合作,实现共同目标。

访问和质量

关于“数据访问政策”的会议包括对各种数据源的开放式或开放式访问的一些实际应用。这些包括基于社区的信息系统,该系统旨在通过IRIS联盟(美国雷·威勒曼)推动的地震数据自由公开交换,加强印尼广泛分布的社区(印度尼西亚穆罕默德·苏里亚内加拉)的有效电子政务,以及全球可持续性的若干方面,跨越自然环境、人工制品、社会科学和经济数据收集领域(日本Masaru Yarime)。Robert Clark(爱尔兰都柏林大学学院)的演讲回顾了法律框架以及在实施新立法(如《欧洲数据库指令》)过程中,科学数据自由交换可能面临的挑战。

在这个完全不同的主题集合中,IUCr关于“改进晶体结构的报告:发布政策对数据质量的影响”的演讲通过探索在实践中应用特定政策的结果,形成了鲜明的对比。多年来,IUCr期刊提供了存储的机器可读结构数据集的开放可用性,这无疑是数据可访问性的一个好例子。相对较新的是,通过公开记录的算法和公共服务的客观测试,加强了对数据支持出版物的评估标准的实施效果,支票到岸价它已被采纳为评估结构数据(无论是否发布)的社区标准。在本次会议的许多其他主题和主题的背景下,出现了一些令人愉快的共鸣。首先,通过数字对象标识符将保存的数据集与其主要出版物进行链接。第二,期刊出版不再是小单位结构确定的必然结果,但通用元数据标准的发展允许结构期刊和存储库(如电子银行和互惠网)的数据收集之间的互操作性。第三,确定的结构数量持续快速增长,这给传统的基于订阅的期刊定价模式带来了压力,并鼓励国际期刊联合会探索开放获取出版策略。第四,IUCr通过其期刊、附属数据库组织的活动以及放宽对教育类、命名类和其他类型文章的订阅税,使结构数据可以自由访问,这一切都符合全球信息共享倡议。最后,期刊政策对评估支持数据集的影响确实对提高已发表结构的整体质量产生了积极影响,并可能普遍提高小分子和无机结构测定领域的数据质量标准。通过这种方式,考虑到David Lide对CODATA历史的调查,我们很好地回报了CODATA在早期努力提高出版质量方面的投资,并建议我们努力保持相关数据集的最高可实现质量,这与Lide关于CODATA未来优先事项的观点非常吻合。

总结

CODATA会议再次汇集了涵盖数据科学各个方面的各种主题和发言者。超过600名参与者做出了迄今为止最大的贡献。演示文稿摘要可在Web上找到,网址为http://www.codataweb.org/06conf/prog-glance.html,并计划在数据科学杂志反思大量的生产性数据中心,以及它们在每个科学学科中收集、管理和传播的大量科学数据,令人清醒。与此同时,令人鼓舞的是,IUCr的信息传播活动如何满足CODATA确定的最佳数据管理和数据管理的许多要求。参与CODATA继续对IUCr有益,我们希望结晶学的最佳实践能够鼓励和激励其他科学界。

布莱恩·麦克马洪
CODATA代表

[通过NC许可的知识共享]