跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar023。
2011年8月19日在线发布。 数字对象标识:10.1093/数据库/bar023
预防性维修识别码:PMC3170170型
PMID:21856757

modENCODE数据协调中心:获取全面实验细节的经验教训

摘要

模式生物DNA元素百科全书(modENCODE)项目是一项国家人类基因组研究所(NHGRI)计划,旨在描述黑腹果蝇秀丽隐杆线虫。创建了数据协调中心(DCC)来收集、存储和编录modENCODE数据。一个有效的DCC必须收集、组织和提供所有主要、解释和分析数据,并确保社区了解用于生成每个主要数据集的实验条件、协议和验证检查。我们在这里介绍了modENCODE DCC的设计原理,并描述了收集彻底和深入的元数据来描述实验的后果,包括使用wiki来捕获协议和试剂信息,以及使用BIR-TAB规范来将生物样本与实验结果联系起来。modENCODE数据可在http://www.modencode.org.

数据库URL: http://www.modencode.org.

背景

自2003年人类基因组项目结束以来,国际资助机构,特别是美国国立卫生研究院(NIH),一直致力于大规模社区资源项目,如HapMap(1),1000个基因组(2)、ENCODE引导程序()以及其他许多人。这项工作包括针对特定有机体的模型项目,从第一个多细胞有机体的序列开始,秀丽隐杆线虫,出版于1998年(4)之后很快黑腹果蝇2000年(5). 最终,所有此类大型项目的目的都是为更大的研究界提供资源。这些项目几乎总是需要一个集中的数据收集中心(DCC),在那里集成所有数据,进行质量控制检查,并将足够的实验细节分发给社区,以便清楚和有用。

每个大型项目的性质和组成都会对任何特定DCC所采用的数据收集策略产生影响。三个主要影响因素是贡献实验室的数量、它们的地理分布以及所涉及的不同数据类型和协议的数量。贡献实验室的数量可能不同于少数[果蝇属基因组主要涉及三个实验室(5)]到几十个(例如癌症基因组图谱项目;http://cancergenome.nih.gov/wwd/program网站). 此外,地理位置可能会对传输和定位数据施加网络带宽限制,时区差异可能会限制组之间的通信。此外,生成的数据类型可能是同质的(例如,使用有限数量的协议由HapMap生成的SNP),也可能是高度可变的(例如ENCODE使用折衷的分析分类来识别许多不同的基因组特征)。在所有情况下,项目的DCC必须处理大量数据,从数百GB到PB不等。

模式生物DNA元素百科全书(modENCODE)计划旨在描述D.黑腹果蝇秀丽线虫作为一种资源,modENCODE服务于模式生物研究社区,并补充了相关的人类ENCODE项目(网址:http://www.genome.gov/10005107)最终目标是推进比较基因组学。该联盟包括11个研究项目:4个针对蠕虫的项目,6个针对苍蝇的项目,1个针对这两种生物的项目。modENCODE项目最初的资金支持期为4年,但后来延长至5年。在大约1750万美元的年度预算(不包括补充资金)中,55%支持D.黑腹果蝇努力,30%支持秀丽线虫剩余的15%由DCC和数据分析中心(DAC)平分。这些项目代表了美国、加拿大和英国33个不同研究机构的52个不同数据生产实验室。即使在DCC内部,有三个贡献机构,地理位置也是一个考虑因素。DCC首席研究员和三名工作人员(数据联络和GBrowse开发)位于加拿大多伦多;加州伯克利有一名联合PI和四名工作人员(管道、数据集成和联络);第二名联合PI和三名工作人员(modMine)位于英国剑桥。该DCC工作人员负责跟踪、整合并及时向研究团体提供为所研究的两种生物体生成的所有modENCODE数据。蠕虫和苍蝇的基因组分别只有9700万和1.65亿碱基对,与人类基因组和可能从1000个基因组或癌症基因组项目中产生的数据相比,它们都很小。因此,从数量上看,modENCODE被认为是一个中等规模(10 TB)的项目。

在上述三个因素中,ENCODE和modENCODE面临的最重大挑战是来自参与实验室的特征类型的多样性[例如转录因子(TF)结合位点表征、mRNA转录水平、ncRNA、阶段特异性基因模型、染色质状态和DNA复制控制],由于使用了各种不同的方法和平台而倍增。这对于modENCODE DCC来说更加复杂,因为需要容纳和整合来自两个生物体的数据。此外,每个参与的实验室都必须利用最先进的技术,因此,数据生产往往会突破当代数据存储容量的极限,需要数据中心跟上步伐。

元数据挑战

在这些操作要求的背景下,modENCODE DCC的首要目标是确保社区了解用于生成每个数据集的实验条件、协议和验证检查,以便在未来的研究中有效使用语料库。在向更大的社区提供大量多样的数据体方面,最大的挑战可能是提供相关提交文件的轻松查找。除了基本的物种特定查询外,我们希望社区能够提出的问题类型包括:“哪些提交文件使用Oregon-R菌株?”在兔子宿主中产生了哪些转录因子抗体仅查找蠕虫在23°C下生长的实验,“仅查找蛹期表达的基因组区域”等。但是,只有当查询返回所有相关结果时,界面才有用。使这种查询成为可能的最关键因素是数据表示的一致性,以及相关元数据的完整性和特殊性。

元数据标准因其在使实验更易于理解和综合方面的实用性而得到长期认可。例如,关于微阵列实验的最小信息(MIAME)与微阵列和基因表达数据(MGED)本体论相结合,已成为描述主要数据库中微阵列实验的标准,包括基因表达综合库(GEO)、阵列表达库(AE)、短读档案库(SRA)和国家生物技术信息中心(NCBI)(6). 然而,尽管存在标准本体,但每个存储库都有自己的“控制”级别,可以对其MIAME兼容数据进行控制。AE采用更可控的方法收集元数据,并且许多必需的MIAME项是通过MGED本体中的受控词汇表(CV)术语指定的(7). 另一方面,NCBI采取了更宽松的方法;它的MIAME元数据是以自由文本的形式收集的。更可控的方法的好处是生成的元数据更统一,更易于计算推理。缺点是,由于许多生物学家不熟悉所使用的CV或本体,因此指定元数据可能不快速也不容易。NCBI的方法提供了一个低得多的进入壁垒,他们建议鼓励高沉积率(8);然而,自由文本所带来的表达自由导致了对实验细节描述的不一致性,而且往往没有具体说明(9).

随着MIAME的成功,在生物和生物医学调查最低信息铸造厂(MIBBI)的保护伞下收集了许多额外的“最低信息”标准组(10). 特别相关的是高通量序列实验(MINSEQE)最低信息草案(http://www.mged.org/minseqe网站/)尽管该提案仍处于草案形式,尚未制定具体规范。

NGS挑战

modENCODE DCC为标准化其元数据收集所做的努力因项目正在进行时快速转向下一代测序(NGS)而变得复杂。在modENCODE项目开始时,NGS吞吐量已开始呈指数级增长,并一直持续到今天,但GEO才刚刚开始接受短读数据,SRA尚未启动和运行。预见到技术使用的变化,modENCODE DCC开始准备接受和处理高通量NGS数据。为此,我们为modENCODE项目创建了MINSEQE标准的具体实现。

通过与ENCODE小组的讨论以及AE报告的经验,我们知道收集元数据将是我们面临的最大挑战之一。为了支持上述类型的查询,modENCODE DCC在元数据收集过程中投入了大量时间和精力。这将需要受过生物训练的工作人员与数据提供者积极合作,这些工作人员熟悉将要使用的实验技术、数据类型、数据格式和软件。此外,我们知道,提交的数据量将需要数据质量控制过程中的可扩展性和尽可能多的自动化,但实验和数据类型的多样性将需要灵活性和对不断变化的需求的快速响应,这两个需求往往是不兼容的。

一个有效的联合体DCC必须使大量数据在实验验证后立即提供给研究界。为了尊重DCC数据生产者的研究目标,鼓励资源用户遵守9个月的等待期。在此期间,他们可以在自己的研究项目中自由使用modENCODE数据,但必须推迟发布,直到等待期结束或他们与原始制作人协商并达成协议。(modENCODE数据发布政策可在网址:http://www.genome.gov/27528022). 这里我们介绍了modENCODE DCC设计中的几个原则,以及我们收集、存储和编目数据的方法。我们描述了收集全面深入的元数据来描述实验的后果。我们学到的教训适用于大型数据中心和希望为更广泛的社区托管数据的小型团体。

结果

DCC的主要任务是为更大的社区提供研究资源。正如人们在网上搜索时很少看到前一两页的结果一样,研究人员也不能指望仅仅通过浏览包含数千个条目的目录就能找到他们想要的东西。如此庞大的资源的可用性取决于其使用反映关键实验变量的索引对其内容进行编目、分类和查询的能力,以便用户可以明确地将搜索范围缩小到最相关的结果。实际上,为了进行生产跟踪,NIH要求DCC提供一份报告,列出针对每种不同实验类型、发育阶段、组织等产生的数据集数量:只有在原始信息被捕获的情况下,这才是可能的。

为了实现这一点,DCC需要收集描述生物样品、方案、试剂、参数和与每个数据集相关的其他信息的实验细节。理想情况下,该元数据应足够详细,以便另一位科学家能够完全理解并重复该实验。我们采用了一种结合的方法来实现这一点,即使用自由文本和CV。数据提供者使用自由文本尽可能详细地描述了他们的实验,并使用CV和本体术语指定了关键实验因素,如细胞类型或组织、发育阶段等,以便于分类、查询、,对来自这些不同实验方法的数据进行下游整合和分析。由此产生的必然要求;需要跟踪原始生物样本和实验协议与生成的原始数据和派生注释之间的关系。通过扩展ArrayExpress MAGE-TAB元数据格式[最初是为微阵列数据开发的,用于将样本连接到生成的数据(11)],格式为BIR-TAB(生物调查报告TAB-delimited),该格式足够灵活,可以处理所需的各种实验类型。第三项要求与功能无关,而是与时间表有关,DCC需要在前6个月内运行并做好接收数据的准备,因为数据生产实验室在获得资金后立即开始生成数据。为了满足这个最后期限,我们简化了流程,将原始数据和分析数据的收集限制为少数标准化格式,如WIG和GFF3。此外,为了加快开发速度,我们尽可能利用现有的开源软件组件。

用于处理modENCODE数据集的完整DCC管道是一个多步骤过程。如所示图1,并在以下章节中详细介绍,该过程从实验实验室和DCC馆长之间的讨论开始。这些讨论导致就什么元数据足以完全描述实验运行达成一致,包括与该运行相关提交的原始数据文件的类型和格式。一旦准备好的元数据完成并将原始数据提交给DCC,整个包将通过一系列自动检查运行,然后由DCC管理员进行额外的手动质量控制(QC)。提交通过两个质量控制步骤后,数据提交者给出发布的最终批准,此时,DCC将数据提供给社区浏览、搜索和下载。这些数据还将发布给大型公共存储库,包括模型生物数据库FlyBase(FB)、WormBase(WB)和GEO。

保存图片、插图等的外部文件。对象名为bar023f1.jpg

DCC工作流。向modENCODE DCC提交数据可以分为四个部分。它从数据提供者和DCC管理员之间的讨论开始,以确定给定提交类别所需的元数据和数据格式。创建提交模板后,数据提供者可以准备数据集并将其提交给DCC。数据集经过一系列自动和手动质量控制检查。如果提交没有通过这些步骤,则会返回给数据提供者和/或DCC管理员进行修改。一旦提交满足所有要求,并经DCC和数据提交者批准,它将通过GBrowse基因组浏览器、modMine查询界面、图形提交过滤工具以及FB、WB和GEO的公共存储库分发给社区。

图2说明了提交给modENCODE DCC的简化模型实验,我们将在本文中引用该实验来描述系统的不同组件。它显示了ChIP-seq实验的典型实验步骤序列,从蠕虫培养到染色质提取、测序和分析。DCC将个体提交定义为在单个发育阶段、细胞系或组织中测试的单个实验因子(如TF),以及其对照和复制(至少需要两个)。每一次提交都是一系列实验的一部分,这些实验采用相同的分析方法在各种条件下测试各种因素。图2还显示了我们用于收集模型实验的实验细节的不同组件,如以下部分所述。

保存图片、插图等的外部文件。对象名为bar023f2.jpg

提交给modENCODE DCC的模型实验及其到元数据组件BIR-TAB SDRF和wiki的映射。上半部分是模型ChIP-seq实验的实验步骤图:准备蠕虫培养物,提取与染色质相关的基因组DNA,然后将提取物分为两个生物复制品。这些进一步细分,每个DNA样本的一半用作对照,而另一个样本在ChIP步骤中暴露于特定的TF抗体。制备所得材料进行测序,并对数据进行处理,以确定受试TF所占据的一组结合位点。相应的BIR-TAB SDRF显示在下半部分,反映了绿色(输出)和蓝色(输入)箭头所示的实验步骤的流程。输入和输出是连接数据库中表示的实验的每个协议节点的弧。BIR-TAB文件的协议列中的每个单元格都映射到一个特定的wiki页面,在该页面上显示了该协议的输入和输出。大多数实验参数,如菌株和抗体,也在维基中指定。这些实验参数或结果的wiki参考在参数列后面紧跟着术语源REF列。

从modENCODE数据提供程序获取全面的实验细节

modENCODE联盟产生的数据量相当大,在项目开始时很容易比FB或WB大两个数量级。由于modENCODE生成的不同数据集数量非常大,因此在浏览器中将它们单独列为曲目是不切实际的。此外,我们知道最终用户需要的不仅仅是预先分类的数据列表;他们需要使用一系列不同的实验因素来灵活地查询数据集,以定位适用于他们自己研究的精确数据集。

使用wiki收集实验元数据

以受控的方式收集大量描述性数据需要一个用户界面来输入这些信息,该界面知道不同字段的相关CV。此外,由于项目的地理分布性质,基于浏览器的界面对用户来说最方便。考虑到这些限制,我们可以使用的唯一实用方法是HTML表单或wiki。考虑到时间安排和快速部署的需要,我们选择使用wiki来加快实施速度,假定熟悉度和联盟的易用性,处理自由文本和相关图像的能力,以及支持扩展,从而允许我们为结构化数据添加表单。

modENCODE wiki(http://wiki.modencode.org)使用MediaWiki软件,以及DCC开发的附加插件。我们的DBFields扩展允许wiki编辑器(通常是DCC员工)使用类似HTML的语法在任何wiki页面上创建表单,其中的字段可以是自由输入、选择框或在输入CV术语时自动完成的文本字段。除了强制执行CV之外,这些字段中的任何一个都可以标记为“必需”,例如,在提供分析类型之前,协议将被标记为不完整。对MediaWiki页面的每次更改都会为该版本生成一个新的唯一URL,DBFields扩展与MediaWiki's版本控制系统集成,以便跟踪表单内容的更改。DBFields模板化wiki页面的示例如所示图3.

保存图片、插图等的外部文件。对象名为bar023f3.jpg

使用DBFields模板的modENCODE wiki组织页面的屏幕截图。在这个例子中,WormBase细胞和解剖本体(24)选择术语来描述L3期表达unc-4的神经元。组织的DBFields模板配置为包括口语名称、物种、性别、组织、贡献实验室和相关外部URL的字段。组织字段允许从配置的本体中进行多种选择;当用户开始键入短语(如AVF)时,会显示部分匹配项供选择,相应的定义显示在右侧。用户“更新”表单以接受更改后,将显示一个更新的URL,供用户专门引用此版本的wiki页面。该URL用于BIR-TAB元数据文档中描述样本,审查软件在处理过程中检索字段值。

维基分为三个基本类别,用于以可控的方式收集实验元数据:实验描述、协议和试剂。这些wiki类别中的每一个都使用DBFields扩展模板来记录所需的特定属性。当实验室向DCC提交数据时,我们的自动化管道会引用适当的wiki页面来检查每个类别中的各个字段,并根据管道的不同软件模块的要求检索其值。DCC发布提交内容后,所有引用的wiki页面都将公开并可供社区使用。在迄今为止发布的1112份提交文件中,有54份实验描述、399份协议描述和600份试剂描述,总共1049个独特的wiki页面(图4A) ●●●●。

保存图片、插图等的外部文件。对象名为bar023f4.jpg

modENCODE数据提交统计信息。(A类)wiki页面类型的分布。在已发布的提交中使用的wiki页面数(深灰色)(已在wiki中输入)。未使用的wiki页面集可能会在将来的提交中使用。数据仅来自已发布的数据集,而不是那些被取代、弃用或拒绝的数据集。(B类)提交文件包大小的分布。在项目过程中,单个包大小的散点图(以GB为单位,左侧为刻度)与所有modENCODE数据的累积大小(以TB为单位,右侧为刻度)重叠。黑色表示数据提供商上传到系统中的文件的大小,是备份所需的最小集;红色表示已处理提交的总大小,包括gbrowse轨迹、chadoxml和上传数据的所有版本,是维护完整历史记录所需的最大大小。(C类)modENCODE数据类型的组成。这些数据基于每个类别中的累计提交文件大小,包括已被取代、替换和拒绝的数据集。(D类)一段时间内提交的数量。图中显示了数据提交的峰值。虚线表示最初创建提交文件的时间;实线表示提交文件在管道中发布的时间。红线表示累计计数;黑线表示每周的计数数。科学会议或数据冻结等事件用蓝色圆圈表示。显示项目季度(第1年第4季度缩写为Y1Q4)。显示了所有数据,包括被取代、被取代和被拒绝的提交文件。(E类)按数据类型分组的管道处理时间。针对发布的数据集中的每种类型的数据,显示了三个管道步骤(验证、数据库加载和跟踪查找)的平均处理时间(以分钟为单位)。

这个实验描述wiki页面记录了各个实验室进行的每组实验的高级描述。该描述包括一个“数据类型”标签,用于对所识别的基因组特征或行为进行大致分类,一个“化验类型”标签用于对所应用的实验技术进行分类,以及一小段描述属于这一总括分类的一组实验。这些分类标签用于下游应用程序的报告。在中的示例中图2,该提交物属于一组使用TF抗体的ChIP-seq实验,并将标记数据类型“TF结合位点”和分析类型“ChIP-seq”。迄今为止,我们已经遇到了23种不同的提交类型,包括:ChIP-seq和ChIP-ChIP对TF或其他结合位点的研究、复制时间、组蛋白修饰和染色质结构、基因注释、5′-和3′-RACE、靶向RTPCR、RNA拼接阵列和RNA-seq以确定转录水平。

协议描述是modENCODE提交的基础,提供了每个实验复制的详细信息和关键实验变量的框架。协议描述页面尽可能基本,以确保正确使用,只需要协议类型、使用和生成的数据和试剂的输入和输出以及散文描述。尽管一个协议可以足够全面地描述整个实验,但我们鼓励数据提交者要精细。例如,生物体生长方案应与随后的染色质纯化方案分开(如图2). 一个典型的实验将有关于生物体生长和分离、样品制备、文库制备、测序/排列、比对/标准化和峰值调用的协议。这种粒度使数据提供者能够在不同的实验中引用相同的协议;例如,无论采用何种检测方法,都可以重复使用相同的生物体生长方案。

这个试剂wiki页面的类别由几个子类别组成。试剂代表不同于相关提交文件的实验因素。子类别包括抗体,菌株,细胞系,发育阶段,组织,RNAi试剂,微阵列芯片组重组构建物/载体。每种类型的试剂都使用自己的表单模板,其中包含DCC管理员与数据提交者合作指定的字段。最大的亚类是由该联盟指定的具有500多个抗体的抗体(尽管迄今为止只有大约180个抗体在已发布的提交文件中被引用)。

所有提交给DCC的文件都是从DCC管理员和提交数据的实验室之间的对话开始的,以确定适用于给定实验类别的协议、试剂、元数据和数据格式。馆长充当最终用户的代言人,确保提供足够的信息细节。由于modENCODE项目中的实验类别差异很大,这需要在每个实验室的基础上进行元数据和数据设计,尽管一旦生成原始模板,随后可以为类似的实验类别遵循这些模板。根据与实验室人员的讨论,DCC管理员建立了一个wiki页面“存根”集合,供实验室填写。公开发布后,此元数据将并入我们的公共数据库,并支持modMINE中的查询,是生成基于矩阵的下载界面的基础,并为基于web的基因组查看器GBrowse提供了轨迹描述。

使用提交模板将wiki和数据链接在一起

向modENCODE提交数据时,数据提供者需要将描述性wiki页面连接到结果数据文件。该信息通过两个附带的元数据文件以BIR-TAB格式提供给DCC:调查设计文件(IDF)和样本数据关系文件(SDRF)。

IDF的主要目标是提供有关整个实验的详细信息,例如名称、数据提交者详细信息、协议参考和CV定义。BIR-TAB IDF文件几乎与MAGE-TAB IDF文件格式相同,其扩展名允许通过引用适当的wiki URL来指示实验和协议详细信息,指示项目PI和单个实验室联合PI的能力,以及一个额外的“格式类型”字段,用于指示适当的CV或本体,以用作特定字段中允许术语的来源。这意味着BIR-TAB可以支持CV或本体术语源的多种格式。目前,除了MAGE-TAB中已经支持的格式外,语法还包括OBO格式、MediaWiki URI和用于处理复制和控件的提交间引用。

BIR-TAB SDRF文件通过一系列协议步骤将导出的原始和处理数据文件链接到原始生物样本(图2). 虽然MAGE-TAB SDRF使用了一种结构化格式,反映了进行微阵列实验的过程,但BIR-TAB SDRF已被推广为预期一系列任意的实验协议及其输入和输出。这些协议可以是工作台和计算程序的任意混合。如中的示例图2如图所示,SDRF将实验步骤的序列扁平化为一个表。在内部,实验被存储为有向无环图(DAG),协议和试剂被视为节点。这些节点在SDRF中表示为列。每个协议都映射到一个特定的wiki页面;在维基中捕获的任何样品特征或样品特异性处理(例如阶段和抗体)也在SDRF中被引用。使用wiki作为实验细节的存储库可以降低BIR-TAB文件中不一致的可能性,并提供版本控制,以便可以跟踪协议和示例描述的更改。

BIR-TAB文件伴随着每个modENCODE提交,允许DCC跟踪实验因素的独特组合,并将每个生物样品的描述性信息与每个提交的最终原始数据和注释链接在一起。

modENCODE数据的处理和质量控制

modENCODE提交管道分四个自动阶段处理提交的管理和跟踪:数据上传和扩展、质量控制、填充DCC数据库和浏览器轨迹生成。一旦这些步骤完成,DCC联络人和数据提供商将在提交文件上签字,提交文件将变为公开的“发布”状态。管道跟踪所有上传的提交,包括每个处理阶段的日期、结果和状态报告。DCC假设各数据提供商在提交之前已经进行了生物质量控制,这因数据类型而异。DCC只负责验证数据提供者报告的内容,而不负责验证实验本身的质量。

提交和跟踪界面

提交界面是使用Ruby on Rails实现的,这是一个专为快速开发设计的web应用程序框架。我们从ENCODE DCC继承了Rails和提交管道的框架。事实证明,它非常适合我们的需求;特别是,新功能的开发速度非常快,包括从添加到数据模型到开发管道状态的新视图的所有内容。

我们最初计划与ENCODE-DCC一起继续开发管道软件,但进一步的探索表明,我们各自的需求差异太大。虽然两个DCC都跟踪和管理传入数据,但我们实现了更多依赖CV的自动处理,这需要更复杂的作业管理系统。在项目的早期阶段,制定一个工作解决方案比维护一个共同共享的通用解决方案更为关键,这导致两个DCC的提交管道只有表面上的相似之处(图5). 这种经验强调了即使项目与ENCODE和modENCODE类似,跨项目共享软件仍然是多么困难。

保存图片、插图等的外部文件。对象名为bar023f5.jpg

modENCODE提交接口。(A类)显示了个人提交示例的主页。(B类)通过输入提交文件的名称并选择适当的实验室和PI来创建新提交文件。(C类)创建提交后,当前详细信息将列在页面的左上角。(D类)可以实时监控管道正在执行的一系列分步任务,并可以查看每个模块的相应输出。(E类)当提交文件经过自动化QC处理的每个步骤时,会显示进度。在本例中,剩下的工作就是为浏览器、最终手册清单和公开发布配置曲目。(F类)本页列出了构成提交包的所有主要文件:IDF、SDRF、wig和GFF3。如果需要,提交实验室可以替换单个文件。()活动提交的列表可以单独显示,为用户提供其提交的审查状态的快照。

自动化质量控制

为了在所有提交给modENCODE DCC的文件中实现一致性,我们开发了一个用Perl编写的模块化自动审查工具。为了审查提交内容,该工具首先扫描BIR-TAB文档。假设没有语法错误或技术不一致,平面元数据将转换为表示实验的图形结构。接下来,获取提交引用的所有wiki页面,从中收集所有字段值并用于填充元数据。由于wiki中的协议包含描述其输入和输出“类型”的CV,因此每个协议输入的一致性与前面的协议输出一致,以确认由SDRF构建的实验图组成的一系列协议与wiki中相匹配。如果这一点得到确认,那么基于对实验图的自省,将选择要执行的检查模块。

审查模块包括简单的检查,如确保提交数据集中确实存在指定的“结果文件”,以及更广泛的检查,例如确保抗体在实验应用之前有足够的质量控制。有一些模块用于确保外部基因、转录物、蛋白质和EST标识符的存在,以及SRA和GEO材料。我们还允许并检查对远程托管的原始数据文件的引用。该组模块还支持审查GFF3、WIG、BED和SAM数据格式。尽管GFF3、BED和WIG被许多其他数据存储库使用,并且已经存在一些审查脚本,但我们的格式要求更严格(尤其是GFF3),并且我们已经为这些格式开发了增强模块(有关格式要求,请参阅“方法”一节)。在审查每一条数据时,实验图都会更新。例如,当审查包在描述GFF3文件的图中的节点上运行时(例如图2),它处理GFF3文件并将新的基因组特征节点附加到代表GFF3的文件节点。

审查提交文件的时间从30秒到5天不等,平均时间约为一小时(图4E) 。这种差异是由于基础数据的复杂性和不同数据大小的差异造成的。大约三分之一的提交文件最初包含某种类型的错误,这些错误可以通过两种基本方法基本解决:首先,许多错误可以通过更仔细、更批判性地查看提交文件来修复;其次,如果错误不明显,则使用截断的数据文件重新运行提交;这使我们能够优化和更正元数据,而不会像从GFF文件加载一百万个特性那样缓慢(例如)。最坏的情况(6/3043)是当数据文件的末尾只出现一到两个错误时(例如,GFF文件中靠近文件底部的两个特征在起始点之前有一个端点,这是无效的)。在这几种情况下,除了继续测试数据文件外,没有其他事情可做;这种情况通常表明数据提供程序在生成文件时存在问题,我们会与他们一起解决这些问题。通常,运行时间最长的是全基因组基因模型的验证,而运行时间最短的是基于阵列的提交(ChIP-ChIP或平铺阵列)。

数据存储和轨迹生成

有几种现有的数据库模式用于存储基因组特征数据,通常与不同的基因组浏览器相关联。部分列表包括AceDB、UCSC注释DB、Ensembl和Chado(12–15). 我们选择Chado数据库来存储modENCODE实验元数据和基因组特征,这是因为我们熟悉、工具可用、与FB和WB的标称兼容性以及浏览器中立性。此外,它是高度规范化的,这减少了冗余和内部不一致的可能性。

Chado的结构允许以新表的形式轻松添加扩展,允许我们扩展模式以适应通用提交详细信息、协议和数据引用(补充图S1). 新的扩展利用了CV和外部数据库引用的现有表,并在适当的地方将协议输入和输出链接到基因组特征表。由于这些表是一个扩展,因此它们不会干扰为使用Chado数据库而开发的现有工具。

在自动审查之后,提交的文件被加载到数据库中。通过生成ChadoXML作为自动审查过程的输出,简化了数据库加载。在数据不适合关系模式的情况下,例如ChIP信号数据,我们将数据保存在文件系统中,并将这些外部文件的链接记录在数据库中。加载时间因提交文件而异,从7秒到2天不等,平均时间为30分钟(图4E) ●●●●。

自动化过程的最后一步是从我们的数据库直接生成GFF3、WIG和SAM文件,以便在公共浏览器中显示和供社区成员下载,从而确保整个modENCODE项目的内部一致性。这增加了1秒到12天的数据处理时间,平均大约一个小时。对于装载和航迹生成,变化主要还是由于数据的复杂性。基因特征具有多层次的子特征(转录本、外显子等),加载时间最长(数据未显示)。

手动批准检查表

数据集通过自动审查并加载到数据库后,负责的DCC管理员对只能通过人工审查才能检测到的错误进行最终检查。虽然最初是临时执行的,但随着时间的推移,这些步骤已正式形成清单,并纳入管道中。常见的错误包括列出与给定实验标题相比不正确的抗体、引用失效的wiki协议、包含的重复次数不足以及引用代表错误数据集的GEO ID。例如,即使提交的文件在语法上是正确的,区分提交的生物复制数据和重新提交的数据对于确保提交文件包的完整性至关重要。除了这些数据完整性交叉检查外,馆长还审查了实验的散文描述,以供社区成员理解(完整的检查表可以在补充数据S2). 如果提交文件未通过这些检查,数据提交人和/或策展人必须编辑提交文件并解决问题。然后上传元数据和/或数据的修订,提交管道跟踪修订历史。

如果我们收到秀丽线虫坐标中的数据集不是modENCODE商定的标准(目前为WS190)。虽然原始数据文件仍然可供公众下载,但所有文件都已发布秀丽线虫数据已处理为WS190坐标。我们的liftover工具是WormBase工具的Java重新实现(http://wiki.wormbase.org/index.php/Converting_Coordinates_between_releases网站),扩展以适应GFF3、WIG、BED和SAM(参见“方法”部分)。发布之前,馆长需要执行的其他手动步骤包括编辑生成的曲目散文描述以及在浏览器中配置曲目外观。

一旦DCC批准提交,数据提交者将被要求批准发布。在提交获得批准之前,只有数据提交者提供的原始提交文件可供公众使用。

数据提交的格式、数量和速率

与处理一种或少量分析类型的GEO或dbEST等存储库相比,DCC可容纳广泛的生物结果类型和数据格式。最初的联合体提案主要基于当时可用的基于阵列的技术,包括多个平台(Nimblegen、Affymetrix和Agilent)上的商业和定制阵列,用于RNA表达谱分析和使用ChIP-ChIP识别TF和染色质结合位点。对于阵列数据,我们需要原始数据文件,以便代表数据提供商向GEO提交数据。我们收集了BED/WIG中的信号强度图,以及GFF3中的峰值呼叫。迄今为止,556份已发布的报告(50%)描述了阵列实验。

工作开始后不久,NGS变得可以负担得起,许多联盟实验室补充或改变了他们的方法来使用这项新技术。由于序列文件(FASTQ)的大小很大,如果不在硬件和系统管理方面进行大量投资,我们就无法接受它们,这除了带宽限制外,还需要额外的资金和时间。因为我们的角色主要是作为数据协调中心,而不是数据存储库,所以我们要求modENCODE数据提供商直接向GEO/SRA提交序列,然后向DCC提供一个登录号。DCC工作人员随后确认原始数据的提交。迄今为止,461份已发布的资料(41%)描述了NGS实验。随着时间的推移,这一比率发生了变化。在该项目的前两年,阵列提交占88%,但随着NGS越来越普遍(数据未显示),这一数字已转变为仅37%。图4B显示了项目生命周期内提交文件的大小分布。可以观察到一个总体趋势——最近提交的文件比项目早期几周提交的文件要多。这可能是因为DCC要求RNA-seq提交包括SAM格式的读取比对,也导致了包含RNA-seq-提交的大量数据(图4C) ●●●●。

提交材料往往在科学会议、出版物和“数据冻结”等活动之前一波接一波地到达DCC。图4D显示了项目过程中存放在DCC中的实验数量,第一组数据集在第一年的第四季度(第40周)到达DCC。在这些重大事件发生之前,可以观察到数据沉积量大幅增加。总共,我们发布了1112份提交文件,并处理了另外83份被取代、否决或拒绝的提交文件。

向公众发布数据

在审查过程结束时(即数据提交人批准),数据提交被视为“发布”。处理过的文件和相关的wiki页面可以通过多种途径获得:立即从管道“列表”界面获得(http://submit.modencode.org/submit/public/list)或批量下载选择界面(http://submit.modencode.org/submit/bulk_download/下载/);GBrowse用于在基因组上下文中查看数据(http://modencode.oicr.on.ca/fgb2/gbrowse/worm/http://modencode.oicr.on.ca/fgb2/gbrowse/fly/);用于查询和下载数据子集的modMine(http://interline.modencode.org);以及GEO、WB和FB等主要存储库。

数据集标记为“已发布”到在GBrowse上发布之间的平均时间为~1周。ChadoXML被传输到modMine,以便每季度定期公开发布。DCC还向GEO提交数据文件和适当的元数据。迄今为止,我们已经提交了321份完整的意见书。此外,一些数据提供商已经向GEO提交了自己的数据。迄今为止,86%的原始modENCODE数据目前位于GEO中。

2011年2月,SRA宣布关闭,这影响了DCC对NGS数据的数据接受政策和程序。DCC已开始接受生产实验室的序列文件,并正在从SRA获取现有项目数据,这些数据将保存在伊利诺伊大学芝加哥分校(UIC)的数据云中。该资源正在用于项目内分析,并将在项目结束时通过Amazon向公众提供。由于社区内正在就保留阵列和NGS原始数据的价值进行辩论(例如,商业测序公司通常在6个月后删除文件),我们还没有原始数据文件托管的到期日期。

讨论

关于收集深层元数据的思考

modENCODE是第一个大型项目,其DCC收集了极其详细和受控的协议和样本描述。我们的方法允许我们根据公共界面(modMine和图形提交过滤工具)中的实验元数据提供复杂的查询功能,这是其他系统中通常缺少的功能。例如,可以使用CTCF蛋白抗体专门查询DCC中所有ChIP-seq数据集的0至2小时胚胎苍蝇的免疫沉淀染色质,这是目前使用ENCODE浏览器无法完成的操作。我们将这归因于我们在方案描述和实验试剂中对CV和本体论的一致使用,以及馆长人员的彻底审查。如果没有这一点,我们将仅限于自由文本查询,因此无法向社区提供此功能。

使用wiki和BIR-TAB元数据相结合的方法,我们为1112个已发布的实验收集了明确的元数据,并将生物样本与迄今为止2700多个生物复制品的结果数据和注释连接起来。我们能够在不影响实验细节深度的情况下适应项目的不同数据和分析类型。这种灵活性是我们构建系统的模块化的直接结果:对复杂实验细节的需求没有硬编码到我们的提交管道中就其本身而言,但由管理员在wiki中动态配置,无需重新制作验证代码。

然而,这种处理各种实验的灵活性,再加上收集每种实验类型的精确描述,都是有代价的。与收集元数据相关的挑战是,它需要馆长人员进行时间密集型的“翻译”。为新实验和协议准备元数据文档,本质上是为管道软件创建一个要解释的规范。而将实验室笔记本中的实验描述翻译成机器可理解的形式,这将有助于下游QC和查询,这需要经验丰富且训练有素的DCC员工进行细致的准备。

这意味着我们能够通过对管道的其他简化来实现我们的目标。在项目开始时,标准DCC数据格式包括WIG、BED和GFF3。随着NGS数据的激增,这包括用于序列比对的SAM格式。标准化的数据格式大大减轻了馆长的工作量,因为不需要进行自定义数据转换。我们允许GFF3(第9列)中的特性属性具有一定的灵活性,这允许提交者包含他们认为重要的关于单个特性的细节,例如第页-q个-峰值调用值、RNA-seq的表达水平和标志,以指示特征是否保持预测或确认。这通常使GFF3文件更易于阅读,我们试图在整个项目中统一这些属性。

GFF3格式可用于注释不同的特征类型,DCC策展人必须参与每种新类型的特征提交。对于提供基因模型及其支持性数据的方法特异性注释的小组,提交文件需要由DCC工作人员通过与数据提供商的电子邮件访谈开发的GFF3文件的自定义示例。一旦最初的文件格式定稿,随后的提交就更容易了。此外,格式的严格性有时会暴露出源数据中的问题。

总的来说,收集深层元数据的过程是一项艰巨但富有成效的工作。需要DCC和数据提供商提供大量资源,以确保收集到完整正确的实验细节。虽然可以收集不太具体的或自由文本的元数据,但我们发现,其优点是检测数据中的错误、生成摘要报告和支持复杂查询,而缺点主要是将信息配置为机器可解释的形式所花费的额外时间。我们收集的描述性信息使modENCODE数据更容易被科学界查询和深入调查,尽管其长期有用性只能通过与下游社区门户(如FB和WB)的集成和使用来衡量。到目前为止,元数据的完整性在编写蠕虫和苍蝇综合分析论文中是非常宝贵的(16,17),并允许作者选择适当的数据集进行比较分析。

关于报送制度实施的思考

DCC提交系统可分为四个主要软件组件。用于构建和收集实验元数据的wiki,用于自动验证提交内容的审查工具,用于存储基因组特征和实验元数据的Chado数据库,以及用于上传、跟踪和审查提交内容的管道接口。

维基

维基界面用于跟踪实验元数据的灵活性被证明是足够的;除了支持格式化文本和图像之外,对扩展的支持还允许我们开发DBFields扩展并以结构化的方式收集重要属性。此外,使用MediaWiki软件,我们可以访问大量现有扩展,包括所见即所得编辑器和发布后将私有页面标记为公共的界面。

另一方面,wiki和提交管道的松散集成是一个弱点。例如,wiki和提交管道上的帐户是独立的,因此用户名和密码可能不同。此外,由于许多单个实验室使用的内部wiki与我们的系统没有链接,数据提交者两次输入了一些元数据(一次是在他们自己的私有wiki中,第二次是在DCC的wiki中)。单个财团范围的wiki可能会使这一点变得更容易,但这需要所有数据提供商之间达成协议,DCC需要更多的资源,DCC和生产实验室之间需要更紧密的连接来收集和实施需求。然而,回想起来,我们觉得提交管道接口和wiki之间的紧密集成将使我们能够避免几个耗时的障碍。尽管有这些缺点,维基范式使DCC能够成功捕获我们设定的元数据;它支持捕获我们想要的所有实验元数据,并为社区提供了一个熟悉的类似Wikipedia的界面来查看元数据。

审查

DCC审查软件最初是一个Perl脚本,用于从BIR-TAB/GFF提交中生成ChadoXML文件,这需要基本的语法有效性。我们很快扩展了它的职责,以检测提交中的逻辑不一致、添加的基本检查以及其他计算机比人类更容易执行的重复任务,并详细报告所有错误和警告。

审查工具设计为动态、模块化系统。动态的,这样就可以只使用基于CV类型的适当模块来审查提交内容,这些字段是该提交内容所特有的。模块化允许我们轻松快速地添加新模块以响应新的数据类型。在编写ChadoXML之前,审查工具构建了一个完整的实验模型,包括所有元数据和基因组特征,以便能够交叉检查跨字段和特征的依赖引用。这种方法的一个缺点是内存利用率高;跟踪完整的实验模型需要一些磁盘缓存(尽管有12G的可用内存),这大大降低了处理较大提交的速度。这在基因模型提交中尤其明显,该提交具有多层次特征(基因、转录本、外显子),并且处理速度比其他类型提交的平均速度慢30倍。

然而,对于大多数数据集,这种方法是令人满意的。特别是,新模块通常可以在一两天内开发出来。由于所提供的数据类型和验证要求在项目过程中发生了变化,因此这种短的响应时间非常关键。对于希望进行基于元数据的验证的未来项目,我们建议采用模块化方法,并检查允许分布式处理不同组件的新方法,避免需要检查整个提交文件。

查多

在实践中,我们发现Chado足以完成其存储基因组特征的主要任务,并通过我们的扩展将特征链接到实验元数据,通过过滤与特定提交相关的数据,可以轻松构建浏览器轨迹、填充modMine和打包GEO提交。我们发现有必要通过为每次提交创建单独的名称空间来对我们的主Chado数据库进行分区。这使得有可能从数据库中删除或重新加载未发布的提交,这些任务需要作为审查的一部分定期执行。不幸的是,这种方法使所有提交的查询更难编写,执行起来也更费时。modMine组通过生成一个只读Chado数据库来缓解这一问题,该数据库中的提交是按PI而不是按单个提交进行分区的,他们使用该数据库来构建modMine查询数据库。

Chado的一大局限性,实际上,任何专为基因组特征设计的模式,都是缺乏对连续数据(如信号强度)的支持。当然,极高密度的基因组特征数据不适合于一般的基因组特征数据库。相反,我们以最初提交的格式(例如WIG和SAM)保留这些类型的数据,并从数据库中引用它们。这使得很难找到某些问题的答案,例如,在多个提交中查找区域的读取覆盖率需要查找这些提交的SAM文件,然后使用专门用于分析SAM数据的工具提取区域的读取涵盖率,而不是针对数据库编写单个查询。另一方面,将这些数据提供给基因组浏览器并不重要,因为它们已经是支持的格式。

DCC从扩展Chado而不是构建新模式中受益匪浅。我们不仅避免了从头定义新模式的潜在巨大努力,还能够采用现有的Chado基础设施。ChadoXML加载程序为我们提供了一种在DCC组件之间传递数据的可移植方法;我们使用现有的工具在数据库中填充CV。我们还发现很容易将WB和FB提供的公开Chado数据库与我们的数据库合并。

为了解决对收集与短读测序技术相关的基因组特征的支持,我们建议未来的项目研究支持分片/分区的架构的开发,使负载能够跨多个服务器分布。我们还建议在数据处理管道的核心中构建对查询外部二进制格式的支持,以便查询不适合关系数据库的优化数据格式。当然,建议任何想要存储离散基因组注释的群体以及收集基于本体论的元数据时使用Chado,因为它针对这两种类型的数据都进行了优化。

管道

事实证明,管道的跟踪和报告能力是不可或缺的。处理历史被广泛使用,并向数据提供商和DCC管理员提供有关慢性问题领域的反馈(常见的情况是突出显示以前已解决的提交中的问题)。虽然很少有必要,但能够检查早期版本的上传是一个很好的功能,尤其是在原始源不可用的情况下。此外,我们使用时间戳来衡量提交通过管道的速度(图4E) 从而通知我们的开发工作,并允许我们向NIH报告管道性能。

数据管理和发布的挑战

自动验证和手动检查表过程很重要,不可避免地会导致在首次数据上传和公开发布之间平均延迟1个月(图4D) ●●●●。滞后时间在项目生命周期内有所减少,但尚未消除。由于计算管道和管理资源的饱和,数据提交的峰值可能会加剧这种情况。此外,数据提供者有时会在相应元数据之前提前上传其原始和处理过的数据文件,这会增加上传和发布之间的明显延迟。事实上,从第一次尝试验证(意味着所有数据都已上传)到公开发布的实际审查时间明显短于1个月。所有提交的平均时间为6小时11分钟,或从平均值、1小时和5分钟中删除处理时间大于3个SD的异常值后(http://submit.modencode.org/submit/reports).

随着modENCODE的发展,DCC增加了数据提交的额外要求。这些扩展大多与生产小组制定的额外质量控制标准和要求有关,或要求在项目范围内增强报告细节。质量控制要求的变更通常意味着原始BIR-TAB模板不充分,需要修改才能被接受用于未来提交。更具速度限制的步骤是渗透整个项目中的任何更改。由于负责提交文件的人员通常不是参与这些质量控制讨论的科学家,因此不可避免地会出现通信延迟,以确保每个人都清楚地了解新要求以及每个受影响的数据提供商的实施。

尽管自动质量控制检查检测到数据打包中的错误和简单的元数据不一致,但仍然需要手动质量控制。错误类型包括包含错误或重复的文件,以及在样本描述中指定错误的阶段或应变。这有时涉及到返回数据提供商,以澄清协议或样本,或纠正数据文件中的错误。我们制定并维护的检查表确保了所有细节在发布前都是正确的,并且在提交的文件之间是一致的。尽管随着项目的推进,手动质量控制过程变得更加复杂和耗时,但我们认为,花更多的时间为社区提供更高质量的数据是值得的(大约每20份提交文件中就有1份包含了在此步骤中发现的某种错误)。必须让DCC管理员接受该联盟所采用的生物技术方面的培训。更大的问题是处理数据提交中的峰值(多个组在短时间内存放大量提交),这对我们的馆长和计算资源都是一个挑战。在高容量期间解决计算瓶颈的一个可能的解决方案可能是临时部署更多计算节点,要么在本地网络上,要么使用计算网格解决方案。此外,可以自动化的QC检查越多,单个DCC管理员的工作量就越少。

虽然我们保存了上传数据的所有版本的完整历史记录,但这不一定是长期项目的可持续模式。随着项目的进展,发布提交的最小数据集和最大数据集(包括生成的文件和提交的数据文件的完整修订历史)之间所需的存储容量差异继续扩大(图4B) ●●●●。虽然完整的数据文件修订历史记录是我们系统的一个很好的功能,但我们认为所需的额外空间不值得花费。我们建议制定一项正式的政策来删除未使用的数据版本。

DCC的作用

modENCODE DAC成立于项目的第三年,虽然DCC试图预测DAC的需求,但运行特定的质量控制指标不在其初始授权(或资金)范围内。例如,由于DCC缺乏信号处理资源,我们依赖数据提供商自己调用峰值。这导致使用不同的软件和选项生成峰值,这阻碍了初始综合分析。虽然我们仍然要求提交的文件中包含高峰通话,但我们现在正在积极为所有提交的文件重新标注高峰,以便为社区提供一致和可比较的数据。

DCC还负责重新确认提交数据的质量。提交小组负责遵守modENCODE联盟范围内的实验数据验证和再现性标准。最初,DCC没有实施检查来监控这些协议的遵守情况,但在对综合论文进行分析后,我们正在进行更严格的数据质量检查。特别是,我们增加了在wiki上记录抗体质控数据的功能,以及一个新的验证模块,用于检查是否符合ChIP小组制定的数据标准。我们正在积极用相关的质量控制元数据更新所有ChIP提交文件。我们还使用IDR分析实现了复制一致性分析(18). 一般的教训是,无论是生物数据还是股市,只要有“规则”,就必须进行有效的监控,以确保合规。

在项目开始时,我们认识到不同GEO条目中描述细节的多样性。因此,DCC提出将基于modENCODE阵列的数据提交给GEO,作为我们的数据提供商的服务,并确保GEO中的所有modENCODE数据得到统一描述。迄今为止,我们已代表联合体提交了321份提交文件。然而,一些数据提供商没有使用我们的服务,毫不奇怪,我们发现这些小组提供的描述是不完整的,与modENCODE伞式项目的链接往往缺乏。我们现在正在用额外的元数据修改这些GEO提交文件。

未来的工作

在剩下的时间里,我们将集中精力整合综合分析的结果。这些提交的资料收集了modENCODE科学出版物中所报道的多种不同实验方法之间的相关性,并将向用户通报已发现的相关性(16,17).

此外,我们正在将处理过的数据迁移到更永久的公共存储库。最明显的社区门户是WB和FB,它们是modENCODE处理数据的持续存档目标。WB通过在浏览器上镜像我们的轨迹,将我们所有的数据集浅层集成到他们的系统中。modENCODE的更新基因模型、预测假基因、非编码RNA和阶段特异性基因表达模式正积极纳入WB,以创建modENCODE数据的更深层长期整合。FB也开始纳入modENCODE数据;到目前为止,这只包括基因表达数据。2012年modENCODE项目结束时,DCC将把联合体生成的所有数据迁移到GEO和/或FB/WB,以实现长期可访问性。NGS数据将通过亚马逊云提供。

结论

modENCODE联盟制作了一个庞大的数据库,以增强对D.黑腹果蝇秀丽线虫基因组。数据的多样性和复杂性对于更大的研究群体来说是无价的,只有通过这样一个大规模的项目才能实现。DCC负责收集和分发该数据目录和随后的基因组注释,我们在我们设定的目标范围内成功地完成了这项任务。

modENCODE DCC是一种资源:一种为用户提供最终目的的工具。它在原始实验数据的提交者和解释者之间提供了一个独特的链接,研究人员希望找到与其需求相关的结果。它的价值在两个基本方面得到了极大增强:技术上,通过使用深层元数据和由模式支持的CV;通过人工努力,既可以在数据流入时管理数据,也可以随着数据和查询的性质的发展不断修改技术组件。技术组件和人力投入都有很高的前期成本,但未来的回报非常大,并且可能会持续很长时间。因此,至关重要的是尽可能早地发布最大的初始版本,以便尽快开始回报期。很自然,随着越来越多的早期研究人员在modENCODE数据方面取得成功,这种看法将被过滤回提交组,他们将更有动机为社区最大利益定制他们的提交。

我们积极主动地收集描述性信息的方法似乎很成功,尽管只有时间才能证明社区是否会充分利用收集到的元数据。通过仔细的规划、灵活的方法和对此处所示的一些问题的明智考虑,任何DCC都将能够促进大量数据的发布,最终为研究人员提供生成假设和发现新科学现象的工具。

方法

我们的软件,包括Chado扩展、自动QC软件、DBFields扩展、提升工具和提交管道,是开源的,可通过公共Subversion存储库获得。下载和安装的要求和说明可以在我们的wiki上找到,网址为http://wiki.modencode.org/project/index.php/Open_Source.

受控词汇和本体

在可能的情况下,DCC使用现有本体,包括用于基因组特征的序列本体(SO)(19)微阵列实验的MGED本体(7)基因本体(GO)(20)生物医学研究本体(OBI)(21)和其他。此外,我们使用了WB/FB的基因列表、虫蝇种群中心的菌株以及果蝇属基因组资源中心。

数据格式

除了原始数据外,我们还收到了两种类型的分析数据:信号强度直方图(来自序列比对或阵列探针),以及分析的峰值呼叫和/或基因组特征。对于信号强度数据,我们接受了UCSC开发的数据格式BED和WIG(http://genome.ucsc.edu/goldenPath/help/wiggle.html). 许多小组已经熟悉这些数据格式,并使用它们在UCSC浏览器中查看自己的数据。对于峰值呼叫和基因组特征,我们只接受GFF3格式(http://www.sequenceontology.org/gff3.shtml网站). 这一要求是因为我们选择Chado作为数据库,选择Gbrowse作为基因组浏览器。

对于NGS数据,我们接受SAM格式(22). 该数据格式已成为NGS定线交换的标准。modENCODE DCC要求所有RNA-seq比对数据以这种格式保存,并鼓励其他NGS实验也以这种格式存储。

我们对以GFF3、WIG和SAM格式提交给我们的文件进行了额外检查。对于GFF3,我们需要指定一些其他可选字段。我们使用“genome-build”标头,它提供生成GFF3所依据的基因组构建,并为“parental_relationship”属性添加特殊处理,该属性指定使用现有Parent属性链接的两个特征之间的关系类型。我们还要求父特征出现在其子特征之前。对于WIG文件,我们实际上放宽了限制,允许指定带有或不带有“chr”前缀的染色体名称(为了与UCSC兼容),并尝试支持标记为WIG的类似BED的格式。对于SAM文件,我们同样忽略染色体名称上的“chr”前缀,并需要“SQ”头,它指定基因组构建。

使用的软件

我们使用的生物软件包包括Chado数据库模式、GBrowse基因组浏览器、samtools(22)SAM支持包和各种GMOD支持工具。Chado是作为GMOD项目的一部分开发的关系数据库模式(13). 之所以选择它,是因为它与模型生物数据库兼容(FB使用Chado,WB正在考虑迁移到它),以及modENCODE DCC员工对模式的熟悉。此外,它对CV有很好的支持。我们计划在项目结束前向GMOD提交Chado延期。我们选择的基因组浏览器是GBrowse(23),因为它是WB和FB使用的基因组浏览器。它还使用强大的基因组特征类型,安装简单。samtools包提供了一种将SAM转换为更高效的二进制格式的方法,并支持使该格式可用作GBrowse显示源所需的快速查询。

我们还大量使用了几个通用软件包,包括Apache web服务器(2.2.9)、MediaWiki(1.14.0)、Ruby on Rails(2.1.0)和PostgreSQL数据库服务器(8.3)。Apache是一个行业标准的web服务器,我们使用了额外的扩展来实现负载平衡(mod_athena)和大文件上传(mod_porter)。我们使用MediaWiki软件创建了一个wiki,用于项目范围的通信、文档共享以及作为实验元数据的存储库。我们使用Ruby on Rails框架来构建提交管道接口,包括许多用于生成报告的代码。PostgreSQL数据库服务器用于托管管道跟踪数据库、GBrowse轨迹和主Chado数据库。

提交统计信息

所有数据汇总统计均基于截至2010年7月31日DCC的可用数据。

补充数据

补充数据可在Database online上找到。

基金

这项工作得到了美国国立卫生研究院国家人类基因组研究所的支持[批准号:HG004269-05型]Wellcome Trust[授予编号090297]以及美国能源部基础能源科学办公室科学办公室主任根据合同号。数据元素-AC02-05CH11231开放获取费用资助:安大略省癌症研究所;信息学与生物计算;大学街101号800室;加拿大安大略省多伦多市M5G 0A3。

利益冲突。未声明。

致谢

我们要感谢Seth Carbon和Erwin Frise在系统管理方面的协助,感谢Kate Rosenbloom和Galt Barber与ENCODE DCC和初始管道代码交换意见,感谢Ed Lee编写新的GFF3解析器,感谢Chris Mungall对Chado的深入讨论,感谢Ian Holmes共享实验室空间。N.L.W.设计元数据格式,协调馆长活动,整理数据并起草手稿。E.O.S.设计了元数据格式,设计并实现了包括管道、wiki和自动化QC在内的软件,并起草了手稿。M.D.P.、Z.Z.和P.L.整理数据。P.R.管理数据并实施GBrowse软件。S.C.和R.S.实现了modMine查询接口,并为管道的设计做出了贡献。S.M.实施了GBrowse和wiki软件,并协助管理。R.L.和A.C.协助完成服务台职责和数据质量控制。E.K.为管道软件的实施做出了贡献。L.S.、G.M.和S.L.构思了这项研究,参与了其设计和协调,并帮助起草了手稿。所有作者阅读并批准了最终手稿。

工具书类

1国际HapMap联盟。国际HapMap项目。自然。2003;426:789–796.[公共医学][谷歌学者]
2Durbin RM、Abecasis GR、Altshuler DL等。人群规模测序的人类基因组变异图。自然。2010;467:1061–1073. [PMC免费文章][公共医学][谷歌学者]
三。Birney E、Stamatoyannopoulos JA、Dutta A等。通过ENCODE试点项目鉴定和分析人类基因组中1%的功能元件。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
4秀丽线虫排序联盟。线虫的基因组序列秀丽线虫:一个研究生物学的平台。科学。1998;282:2012–2018.[公共医学][谷歌学者]
5Adams MD、Celniker SE、Holt RA等黑腹果蝇.科学。2000年;287:2185–2195.[公共医学][谷歌学者]
6Brazma A、Hingamp P、Quackenbush J等。微阵列实验(MIAME)的最低信息——微阵列数据标准。自然遗传学。2001;29:365–371.[公共医学][谷歌学者]
7Whetzel PL、Parkinson H、Causton HC等。MGED本体:基于语义描述微阵列实验的资源。生物信息学。2006;22:866–873.[公共医学][谷歌学者]
8Edgar R、Barrett T.NCBI GEO微阵列数据标准和服务。自然生物技术。2006;24:1471–1472. [PMC免费文章][公共医学][谷歌学者]
9自然编辑。微阵列实验的最低合规性?自然遗传学。2006;38:1089.[公共医学][谷歌学者]
10Taylor CF、Field D、Sansone SA等。促进生物和生物医学调查的一致最低报告指南:MIBBI项目。自然生物技术。2008;26:889–896. [PMC免费文章][公共医学][谷歌学者]
11Rayner TF、Rocca-Serra P、Spellman PT等。微阵列数据的一种简单的基于电子表格的MIAME支持格式:MAGE-TAB。BMC生物信息学。2006;7:489. [PMC免费文章][公共医学][谷歌学者]
12Stabenau A、McVicker G、Melsopp C等,合奏核心软件库。基因组研究。2004;14:929–933. [PMC免费文章][公共医学][谷歌学者]
13Mungall CJ,Emmert DB。Chado案例研究:一种基于本体论的模块化模式,用于表示基因组相关生物信息。生物信息学。2007;23:i337–i346。[公共医学][谷歌学者]
14Karolchik D、Baertsch R、Diekhans M等。UCSC基因组浏览器数据库。核酸研究。2003;31:51–54。 [PMC免费文章][公共医学][谷歌学者]
15Durbin R、Thierry-Mieg J。秀丽线虫数据库。1991可从匿名FTP服务器获取文档、代码和数据,网址为和lirmm.lirmm.fr、cele.mrc-lmb.cam.ac.uk、ncbi.nlm.nih.gov。[谷歌学者]
16Roy S,Ernst J,Kharchenko PV等。通过果蝇modENCODE识别功能元件和调节电路。科学。2010;330:1787–1797. [PMC免费文章][公共医学][谷歌学者]
17.Gerstein MB,Lu ZJ,Van Nostrand EL,等。modENCODE项目对秀丽隐杆线虫基因组的综合分析。科学。2010;330:1775–1787. [PMC免费文章][公共医学][谷歌学者]
18李清,布朗JB,黄H,比克尔JP。高通量实验的再现性测量。应用统计学年鉴。2011新闻界。[谷歌学者]
19Eilbeck K、Lewis SE、Mungall CJ等。序列本体:统一基因组注释的工具。基因组生物学。2005;6:R44。 [PMC免费文章][公共医学][谷歌学者]
20Ashburner M、Ball CA、Blake JA等。基因本体论:生物学统一的工具。基因本体联盟。自然遗传学。2000年;25:25–29. [PMC免费文章][公共医学][谷歌学者]
21Brinkman RR、Courtot M、Derom D等。用OBI模拟生物医学实验过程。J.生物识别。语义学。2010;1(补充1):S7。 [PMC免费文章][公共医学][谷歌学者]
22Li H、Handsaker B、Wysoker A等。序列对齐/映射格式和SAMtools。生物信息学。2009;25:2078–2079. [PMC免费文章][公共医学][谷歌学者]
23Stein LD、Mungall C、Shu S等。通用基因组浏览器:模型生物系统数据库的构建块。基因组研究。2002;12:1599–1610. [PMC免费文章][公共医学][谷歌学者]
24Lee RY,Sternberg PW。构建秀丽隐杆线虫的细胞和解剖本体。公司。功能。基因组学。2003;4:121–126. [PMC免费文章][公共医学][谷歌学者]

来自的文章数据库:生物数据库与治疗杂志由以下人员提供牛津大学出版社