基础设施


组织

主办机构

Zenodo由欧洲核子研究中心主办,该中心自1954年成立以来,目前有一个为未来20多年制定的实验项目。CERN是一家高能物理记忆机构,以其在开放存取领域的开创性工作而闻名。Zenodo在组织上嵌入IT部门、协作设备和应用组、数字存储库部分(IT-CDA-DR)。

欧洲核子研究组织(CERN)提供Zenodo作为其任务的一部分,以提供其工作成果(CERN公约第二条第1款).

法律地位

CERN是一个政府间组织,在所有CERN成员国的大都市地区具有法人资格(CERN公约,第九条)并享有国际公法规定的相应法律行为能力。

作为一个政府间组织,CERN享有某些特权和豁免,包括国家法院的管辖豁免,以确保我们独立于个别会员国。这并不意味着CERN在某种法律真空中运作,因为议定书要求CERN通过其他方式解决争端。阅读更多有关CERN在欧洲核子研究中心公告.

法律文件:

基金

Zenodo的资金来源:

Zenodo是作为一项边缘活动开发和支持的,并在CERN现有基础设施和服务的基础上托管,以降低运营成本并依赖高能物理的现有努力。CERN拥有一些全球顶尖的专家,负责运行大规模研究数据基础设施和数字存储库,我们依靠这些基础设施和存储库来提供可信的数字存储库。

工作人员

Zenodo目前由以下公司运营:

  • 转向板:Alexandros Ioannidis-Pantopikos、Jose Benito Gonzalez Lopez、Lars Holm Nielsen、Tim Smith
  • 服务经理:亚历山德罗斯·伊奥尼迪斯·潘托皮科斯
  • 开发商和支持者:迪米特里斯·弗兰贾达基斯(Dimitris Frangiadakis)、詹妮·邦萨克(Jenny Bonsak

然而,Zenodo已经融入了一个规模更大的团队,由Jose Benito Gonzalez Lopez领导,该团队运营的服务包括CERN文档服务器,欧洲核子研究中心开放数据,CERN分析保护,我们在很大程度上依赖于通过Invenio数字图书馆框架.

会员资格

欧洲核子研究中心是以下组织和国际机构的积极成员(非穷尽型):


技术

Zenodo由CERN数据中心Invenio数字图书馆框架并且始终在开源产品上运行。

事实上,Zenodo的整个技术基础设施都位于CERN的经营场所,受CERN法律地位的约束(见上文)。

服务器管理

Zenodo服务器通过以下方式进行管理OpenStack(开放堆栈)木偶配置管理系统,确保我们的服务器始终应用最新的安全补丁。服务器通过CERN基于Flume、Elasticsearch、Kibana和Hadoop的监控基础设施进行监控。应用程序错误被记录并聚合在本地哨兵实例。Zenodo前端服务器的流量通过DNS负载平衡和HAProxy负载平衡器的组合进行负载平衡。

此外,我们正在运行两个独立的系统:一个生产系统和一个质量保证系统。这确保了所有更改,无论是在基础设施级别还是源代码级别,在应用到我们的生产系统之前,都可以在我们的质量保证系统上进行测试和验证。

前端服务器

Zenodo前端服务器负责运行基于Python和Flask web开发框架的Invenio存储库平台应用程序。前端服务器在应用程序前面运行nginx HTTP服务器和uwsgi应用服务器,nginx还负责服务静态内容。

数据存储

上传到Zenodo的所有文件都存储在CERN中EOS服务在一个18 PB的磁盘集群中。每个文件副本都有两个副本,位于不同的磁盘服务器上。

对于每个文件,我们存储两个独立的MD5校验和。Invenio存储一个校验和,用于检测从Invenio外部对文件所做的更改。另一个校验和由EOS存储,用于自动检测和恢复磁盘上的文件损坏。

根据未来的访问模式,Zenodo可能会将档案和/或在线副本转移到CERN的离线长期磁带存储系统CASTOR,以最大限度地降低长期存储成本。

EOS是大型强子对撞机(LHC)物理数据的主要低延迟存储基础设施,CERN目前运行多个实例,总计150+PB的数据,预计每年增长30-50 PB。CERN的CASTOR系统目前管理100多PB的LHC数据,定期检查数据是否损坏。

Invenio在EOS之上提供了一个类似对象存储的文件管理层,负责文件的版本更改。

元数据存储

Zenodo中的元数据和持久标识符存储在一个PostgreSQL实例中,该实例在CERN的Database on Demand基础设施上运行,备份周期为12小时,每周向磁带存储发送一次备份。元数据还被索引在Elasticsearch集群中,以实现快速而强大的搜索。元数据以JSON格式存储在PostgreSQL中,其结构由版本化的JSONSchemas描述。Zenodo上元数据记录的所有更改都是版本化的,并且都发生在数据库事务中。

除了元数据和数据存储外,Zenodo还依赖Redis进行缓存,并依赖RabbitMQ和python Celery进行分布式后台作业。


安全

我们非常重视安全性,并尽最大努力保护您的数据。

  • CERN数据中心:我们的数据中心位于CERN的办公场所,所有物理访问仅限于接受过适当培训且根据其专业职责被授予访问权限的有限数量的工作人员(例如Zenodo工作人员无法物理访问CERN数据中心)。
  • 服务器:我们的服务器是根据CERN服务器安全基线进行管理的,这意味着只有经过适当培训的Zenodo员工才能远程访问我们的服务器,并且通过我们的自动配置管理系统Puppet使用最新的安全补丁更新操作系统和安装的应用程序。
  • 网络:CERN安全团队运行基于主机和网络的入侵检测系统,并监控进出CERN网络的流量、模式和内容,以检测攻击。所有对zenodo.org的访问都通过HTTPS进行,除了GitHub页面上托管的静态文档页面。
  • 数据:Zenodo使用强大的密码散列算法(当前为PBKDF2+SHA512)存储用户密码。用户对GitHub和ORCID的访问令牌是加密存储的,只能使用应用程序的密钥进行解密。
  • 应用程序:我们正在使用一套技术,在您登录并对应用程序运行漏洞扫描时,保护您的会话不被攻击者窃取。
  • 工作人员:有权访问用户数据的CERN工作人员在CERN第5号运营通告,这意味着
    • 除非为履行职责而明确要求,否则员工不得相互交换所获得的信息。
    • 对用户数据的访问必须始终符合专业职责,并且只允许用于解决问题、检测安全问题、监控资源等。
    • 员工应对任何侵权行为造成的损害负责,并可根据侵权行为的严重程度取消访问权限和/或受到纪律或法律诉讼。

关于封闭访问数据的特别说明

Zenodo允许用户在封闭访问下上传文件。关闭访问意味着zenodo.org用户将无法访问您上传的文件。然而,这些文件是未加密存储的,并且可以在特定条件下由Zenodo操作人员查看。这意味着Zenodo上的“封闭通道”不是适用于机密或机密数据。