结晶数据

CODATA 2008年

面向社会的科学信息——从今天到未来

乌克兰国立技术大学基辅理工学院
2008年10月5日至8日,乌克兰基辅

[CODATA 2008年开幕式]开幕式在艺术中心全体会议厅举行。
第21届国际CODATA会议的主题继续强调过去几届两年期会议中出现的信息社会。但是,如果上一次在北京举行的会议侧重于CODATA在40年来促进和代表国际数据科学之后的成熟度,2008年的会议将吸引年轻一代科学家在日益依赖信息和科学数据的国际社会中领导未来发展的重要性作为主题。

全体演讲

[博丹·霍利希恩]Bohdan Hawrylyshyn作了一次全体演讲。
博丹·霍里里希恩(Bohdan Hawrylyshyn)的全体演讲对需要解决的问题进行了严肃的评估(信息和知识作为应对全球挑战的工具);坦率地说,他的论文是“世界的主要组成部分都有问题”。他依次关注人口、生态、经济、地缘政治和社会制度(学校、教堂甚至家庭)的失败等主要领域,对现代世界的状况提供了一幅合理但令人不安的画面。但是,理性分析的优点是它提出了理性的反应,当然,科学研究和分析有助于促进明智和谨慎判断的反应。对于分析的每一个方面,他都提供了科学如何帮助解决需要做出的决策的建议。重要的是,“社会智慧”应该与时俱进,努力跟上迅速发展的技术;他引用了斯堪的纳维亚国家的例子,他认为这些国家更好地展示了持续强调社会正义的发展方法。

迈克尔·兹古洛夫斯基的全体演讲(可持续发展跨学科科学数据全球模拟)提出了一种实用的方法来开发分析工具,以模拟世界各国的可持续发展。可以从描述经济、生态、社会和制度层面绩效的因素矩阵——“可持续发展衡量矩阵”(SDGM)——中建立一个适当指标的数字模型,以描述各个国家的稳定和安全。基于1996年联合国宣言的可持续性被认为是表征经济和政治稳定的一个重要指标,可持续发展机制中的一些条目表明,有多少经济强国在社会安全方面仍然排名靠后。有人认为,这种多层面的全球建模对于做出明智的政策决策很重要。

在发表这些全球观点的同时,岩本和太郎代表教科文组织作了一次特别介绍,他介绍了教科文组织在促进信息社会方面发挥作用的许多举措。其中包括促进科学信息的公开获取或差别定价;开发元数据以促进长期存档;在国家政策中促进循证决策;以及在这些任务中招募年轻科学家和其他工作人员。

虽然超国家机构正在促进基于证据的政策制定,但实际上需要高质量的技术结构来支持对所涉及的大量数据的管理和分析,并在一次全体演讲中EGEE基础设施及其对欧洲科学合作的支持,Robert Jones描述了为提供这样一个结构而进行的一项特别的合作努力。EGEE正在进入其第三个为期两年的运营阶段,以提供并增加生产计算网格基础设施的容量。在欧洲内外50多个国家的支持下,EGEE包括300多个以协作模式链接在一起的网站。应用程序涵盖许多领域,包括高能物理、地球科学和生命科学,该系统不仅提供高容量、高弹性硬件,还提供中间件,将贡献中心链接到一致的“虚拟”组织中。人们承认,与硬件和中间件提供相比,跨各种应用程序的数据管理仍处于初级阶段,但所提供的服务质量非常高,并且正在推动大量新的令人兴奋的科学。尽管目前的方法仍然基于项目,但EGEE的最终目标是在整个欧洲和合作伙伴提供长期可持续的电网基础设施。

在最后一次全体演讲中,策划数据?如何管理服务和工作流?Carole Goble提出了一种将复杂的科学数据驱动的调查联系在一起的补充方法。在生命科学中,生物信息学家经常使用一千多个数据库。它们在结构和体系结构上越来越不同,但通常通过Web服务进行访问。这允许构建从这些数据库源的任何组合中组合、集成、链接、处理、导出和管理数据资源的工作流。工作流被实例化为计算框架内的离散模块,可以根据需要进行交换、扩展和链接。工作流确实具有优势,因为模块的选择会自动记录管理来自多个不同源的数据所涉及的流程。另一方面,各个模块作为活动程序段不断发展,因此捕获任何应用程序中使用的特定版本至关重要。要治愈这种快速变化的成分并不容易。验证也是如此,尤其是当作者社区将工作流模块贡献给公共池时。在开发的这个阶段,工作流由一个活跃的社区生成,该社区在质量评估和验证方面同样活跃。它们是在“Web2.0”方法的基础上对社会计算和网络的热情浪潮中发展起来的。构建解决方案的“自下而上”方法在某些方面与EGEE等网络基础设施中的大规模集成体系结构相反;但它确实具有解决问题的潜力,或许还可以推动一种全新的计算机辅助问题解决方法的发展。

口头会议

如果全体会议提供了陈述和发展会议总体主题的机会,那么平行会议的多样性为CODATA所支持的活动的多样性提供了充分的证据。会议主题的几个例子将说明这一点:信息社会、全球气候变化、网格基础设施、地球物理数据系统和分析、生物多样性、科学能力建设、科学数据存储库、材料:数据交换、纳米技术、自然灾害和风险、电子科学合作、,国际极地年,生物和遗传学数据,.可以审查整个计划CODATA网站上然而,如此多的口头报告会(最多11次并行)的一个明显缺点是,由于每次会议都专注于某一特定学科,会议的跨学科性质被淡化了,不可能同时看到不同社区如何在不同的环境中面对和解决相同的问题。我当然建议未来的项目委员会大幅减少平行会议的数量,并更加努力地确保每一次会议都能跨学科探讨感兴趣的主题。大幅增加海报数量是有好处的,因为人们显然对展示研究结果充满热情,大型海报会议可以引发大量讨论和兴奋。

在我参加的会议中,几乎是随机选择的,有一些激动人心的天文学会议,这些会议回顾了为虚拟天文台项目做出贡献的许多合作倡议,这些项目是当代天文学工作的特点。乔治·德约戈夫斯基(George Djorgovski)的主旨演讲特别擅长于展示虚拟天文台如何在更广泛的电子科学背景下发挥作用。现代信息技术硬件几乎可以跟上数据量的爆炸式增长(大型数字天空调查目前收集10或100 TB的数据,而即将进行的调查将收集数PB的数据;最新一代的望远镜每天可以收集30 TB的数据)。现在实时数据分析面临着实际问题,科学不仅受到数据量的挑战,而且越来越受到其复杂性的挑战,例如宇宙的全色(多波长)视图,以及模拟的额外计算挑战。值得注意的一点是,人们越来越依赖计算建模,因此计算机科学在许多领域正成为科学发现的“新数学”。

其他天文学讲座涵盖了一系列大型观测项目,包括俄罗斯、亚美尼亚、乌克兰和欧洲的项目。还讨论了通用数据格式(FITS、VOTables)、通用询问语言和通用数据模型在统一学科和提高合作项目协同作用方面的好处。Fabien Chéreau还介绍了Stellarium和VirGO,这是一个开源的桌面天文馆应用程序,可以利用公开可用的大型天文物体数据库,允许业余和专业人员访问基础数据。

[D.格罗金斯基]格罗津斯基描述了切尔诺贝利核反应堆沉降物的影响。
两次会议低剂量辐射的生物反应这说明了仔细收集和比较个别事件数据的好处,这些数据更为平凡,但也非常实用。在本例中,人类和其他生物群体广泛暴露于日本原子弹爆炸和乌克兰切尔诺贝利核反应堆事件的辐射中。报告了一些仔细的研究,通过(谢天谢地)极少数的直接观察,建立了一个更完整的长期健康影响的图景;这两个病例之间不同形式白血病流行病学的差异提供了一个可以获得新知识的例子。

上的会话长期数据和知识管理调查了许多大规模且成功的存档方法,例如加拿大自然资源地球科学部门、美国国家航空航天局的行星数据系统以及加拿大科学技术信息研究所(CISTI)的数据管理和发布活动。哥伦比亚大学(Columbia University)的鲍勃·陈(Bob Chen)提出了一个非常重要的观点,即治理和组织可持续性在构建持久档案方面至少与最常讨论的技术基础设施和数据存储能力同等重要。为国际地球科学信息网络中心(CIESIN)收集的数据提供长期存档的安排涉及与哥伦比亚大学图书馆的长期讨论,以确保在CIESIN本身可能已经消失很久之后保留现有数据。本次会议的其他贡献着眼于同行评审数据发布的前景,为数据生成者、管理者和分析师授予适当的学术荣誉,并提供可引用的记录;以及从开放源码软件开发人员社区的活动中协作生产和传播科学数据集的政策和规范中可以学到什么。

[V.Ezhela]V.埃哲拉。
关于物理科学:数据质量和数据库我有幸与费多尔·库兹涅佐夫(Fedor Kuznetsov)共同主持了此次调查,其中包括对科学数据质量的出色调查,尤其是在应用科学领域,正如中国通过应用国家和国际标准管理的那样(胡良林);韩国国家标准参考数据中心(Chang Geung Kim,H.S.Suh等。);俄罗斯联邦各地许多重要的物理数据库(T.Golashvili),其中提请注意需要仔细区分参考、建议和标准数据值;以及印度核数据科学活动(S.Ganesan)。后一篇演讲生动地说明了不断更新工作实践和相关文件以反映物理数据修订值的重要性,因为未能这样做导致印度核反应堆发生过功率瞬态事件(INES等级的2级事件)。解决这一问题的积极尝试,以及在电力行业实践最高质量核科学的积极努力,证明了印度核科学的成熟,这反映在核科学和技术以及高能物理领域国际合作项目的增长上。会议还包括俄罗斯高能物理学家弗拉基米尔·埃哲拉(Vladimir Ezhela)的警告,即物理期刊需要提供其出版物中报告的数字测量数据的完整机器可读副本,以便进行充分的参考和质量保证。他举例说明了基本物理常数的某些组合的相关矩阵中的负特征值,如果使用公布的常数值而不是其全精度值,则会获得这些基本物理常数。当然,IUCr需要沉积实验数据,以便进行数字同行审查(根据我们的主题的性质,我们可以自动进行大多数常规验证);在讨论中,有人建议国际纯粹与应用物理联合会(IUPAP)应参与探索类似的物理政策;或者CODATA任务组可能是处理这一问题的有用方法。会议结束时,杨东凤(Dong Bong Yang)、龚永邦(Gun Woong Bahang)和李桑泽(Sang Zee Lee)发表了一篇富有挑战性的论文,该论文提出了一种新的自然单位制,用无量纲数值定义所有物理常数以及国际单位制。

最后,关于数据可视化方法它提供了各种有趣的例子,但令人失望的是,许多演讲者未能出席。然而,Jean-Jacques Royer向许多当地学生展示了其团队在南希大学GOCAD项目中进行的三维地下建模的出色概述。我还演示了IUCr方法,将数据的交互式可视化作为在线晶体学期刊文章的一个特征(PowerPoint演示文稿|带注释的PDF).

奖品

[刘闯]刘闯教授主持2008年CODATA奖讲座。
今年,CODATA奖授予了中国科学院地理与自然资源研究所全球变化信息与研究中心主任刘闯教授,他一直积极参与CODATA发展中国家科学和技术数据保存和归档工作组,并担任科学数据和信息科联理事会优先领域评估小组成员。她关于获得CODATA奖的演讲题为弥合创新研发数字鸿沟的全球解决方案她在CODATA和其他组织中开展了许多活动,以促进归档、开发和创新。其中的亮点包括CODATA保存和归档工作组的创建和积极发展、各种研讨会、中国开放数据政策的制定、CODATA在突尼斯信息社会世界首脑会议上的演讲、关于开放获取的柏林宣言、,以及确定弥合数字鸿沟是继ICSU PAA之后CODATA的战略目标。最后,她期待着新成立的联合国全球信息和通信技术与发展联盟(UN-GAID)的活动。

在同一颁奖典礼上,萨布丽娜·福廷(Sabrina Fortin)获得了2008年桑斯特奖(Sangster Award 2008),该奖项授予了一位年轻的加拿大科学家,她随后发表了一篇关于管理集体研究资源的规范模型——从公共资源到合同:人类人口数据库案例在生物医学数据共享和信息学平行会议上。

在这方面,以及在许多其他方面,CODATA会议为展示年轻人才做出了巨大努力。一些演讲被挑选出来作为年轻科学家的贡献。举行了一次青年科学家圆桌会议,由此产生了一个想法,即CODATA工作组应由青年科学家组成,其长期目标是建立一个完整的工作组。有人提出了设立CODATA青年科学家奖的想法。然而,对我来说,接触年轻科学家最直接的方式是直接接触许多学生和年轻研究人员,他们能够参加会议,并作为当地组织的一部分提供帮助。这是在大学环境中举行这样一次会议的真正好处,当地学生的热情好客受到了极大的赞赏,不会轻易被忘记。

总结

[CODATA 2008闭幕式]闭幕式,学术委员会大厅。
一如既往,我发现CODATA会议是一次令人振奋的会议,为数据科学的进展提供了一个有用的跨学科调查。IUCr从许多演讲中受益匪浅,我希望它也通过我们的参与为参与者提供了激励和投入。我当然利用了许多非正式的机会,建立了新的联系,开拓了新的合作机会,并结交了新的朋友。我希望下次会议将减少平行会议,以便最大限度地探索跨学科主题,我还希望CODATA将继续重视更多实验室科学的贡献,强调质量保证的必要性,批判性同行评审以及科学数据的适当注释和管理。
布莱恩·麦克马洪
CODATA代表


照片由当地组委会提供。
[通过NC许可的知识共享]