跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar045。
2011年12月21日在线发布。 数字对象标识:10.1093/数据库/bar045
PMCID公司:项目经理3244265
PMID:22190598

AnnotCompute:基于注释的基因组学实验探索和元分析

摘要

生物数据集的规模不断扩大,特别是在高通量技术背景下产生的数据集,需要开发丰富的数据探索工具。在本文中,我们介绍了AnnotCompute,这是一个用于功能基因组学实验存储库(如ArrayExpress)的信息发现平台。我们的系统利用功能基因组学实验的语义注释和受控词汇和本体术语(例如来自MGED本体的词汇和本体)来计算实验对之间的概念差异。然后,这些差异被用于支持两种类型的探索性分析——聚类和逐例查询。我们表明,我们提出的差异性度量对应于用户对概念差异的直觉,可以用于支持有效的逐例查询。我们还基于这些度量来评估聚类的质量。虽然AnnotCompute可以支持更丰富的数据探索体验,但在某些情况下,由于可用注释的质量,其有效性是有限的。尽管如此,像AnnotCompute这样的工具可能会激励人们对实验进行更丰富的注释。代码可从下载http://www.cbil.upenn.edu/downloads/AnnotCompute网站.

数据库URL: http://www.cbil.upenn.edu/annotCompute网站/

背景

高通量技术的可用性和广泛使用,例如测序、基因分型和基因表达微阵列,继续革新生命科学研究和实践的各个方面。生物数据集的规模不断扩大,需要开发丰富的数据探索工具来支持科学发现。

在本文中,我们将重点帮助用户在生物实验库中发现有趣的结果。特别是,我们考虑了从ArrayExpress Archive中公开提供的功能基因组学实验库(1),一个包含在撰写本文时来自20000多个实验的660 000多个分析的存储库。Archive实现了搜索和浏览功能,并使其存储库可供下载。ArrayExpress注释主要通过向用户提交一些分析类型的管理以及针对实验因子的基因表达综合(GEO)导入的有限文本挖掘来提供。有时,策展范围很广,通常是在原始提交文件没有充分描述的情况下。

我们通过一个例子来激励和证明我们的方法。考虑一位研究人员研究正常衰老对生物体生命周期中基因表达谱的影响。研究人员可以通过对存储库发出“寿命或寿命或寿命”查询来搜索ArrayExpress。查询由ArrayExpress搜索系统进行评估,并返回任何字段中包含查询关键字或查询关键字同义词的所有实验;2010年6月15日,大约有50个实验符合这个查询。研究人员现在可以考虑结果集中的每个实验,并确定感兴趣的实验。当他/她进行结果集实验八时,研究人员可能会意识到一些结果没有那么有趣,例如那些研究在热量限制下衰老对基因表达的影响的结果,或那些考虑转基因生物的结果。一些结果与衰老的任何方面都没有太大关系,例如实验e-GEOD-6570,该实验报告“ZAS3靶向破坏的小鼠存活时间与对照组相当”。

如果该系统以连贯的小组呈现结果,每个小组都与老化研究的特定方面相关,那么示例数据探索经验可以得到改进。因此,第1组的实验可能研究正常衰老对基因表达谱的影响,第2组可能关注热量限制下生物体的衰老,第3组可能考虑寿命改变的转基因生物体的衰老。我们观察到,ArrayExpress已经包含了可能有助于此类分组的信息,即使用MGED本体(MO)中的术语对实验进行注释(2)以及最近的实验因子本体(EFO)()和生物医学研究本体(OBI)(4)本体论。

我们将在下一节中详细描述MGED注释,并在这里给出一些示例。在与上述示例中的关键字查询匹配的实验中,与正常老化相关的实验用“生理过程设计”作为“实验设计类型”进行注释,并将“年龄”指定为“实验因素类型”。研究热量限制条件下基因表达的实验通常以“生长条件设计”作为“实验设计类型”,以“生长状态”作为“试验因子类型”。最后,研究转基因生物老化的实验通常以“个体遗传特征设计”作为“实验设计类型”,“基因型”作为“试验因子类型”。这个例子表明,基于相似注释的分组实验在数据探索中是有效的,我们将在实验评估中定量支持这一点。另一种帮助研究人员识别相关实验的方法是支持逐个查询。研究人员通常能够在结果集中确定一个感兴趣的实验,并可以使用该实验来寻找类似的实验。在这里,我们再次建议使用本体注释,并基于这些注释计算实验之间的相似性。例如,考虑实验e-GEOD-3305,“6个月、18个月和30个月大鼠脊髓和动眼神经核样本的转录谱”,其重点是正常衰老。本实验用以下“实验设计类型”进行注释:生物体部分比较设计、共表达设计、生理过程设计和转录谱分析。使用E-GEOD-3305作为查询实验,我们可以在带有类似注释的结果中查找其他实验。这包括实验E-GEOD-3309和E-GEOD-11097,与E-GEOD-3005一样,这两个实验也专注于正常老化期间的转录谱分析。这表明注释可以在逐个示例的查询中有效地使用,我们将在实验评估中定量地支持这种直觉。

现在考虑实验E-GEOD-11882,“人类正常脑老化的转录谱揭示了性二型基因表达”,这是另一个与正常衰老相关的实验,并用“实验设计类型”-“转录谱”进行了注释。结果集中带有类似注释的其他实验是E-GEOD-2110和E-GEOD-8096;然而,这些实验与正常衰老,甚至与衰老的任何其他方面都没有直接关系。在这种情况下,Query-by-example的效率较低,主要是因为查询实验的注释不够丰富,无法充分描述它。通过回顾E-GEOD-11882的文本描述,我们发现该实验也应该用“实验设计类型”-“生理过程”和“实验因素类型”-‘年龄’进行注释,两者都与正常老化有关。添加这些注释使我们能够再次检索以正常老化为重点的实验。该示例表明,适当注释的可用性直接影响数据探索方法的有效性。

捐款摘要

在本文的剩余部分中,我们介绍了AnnotCompute,这是一个用于对ArrayExpress等功能基因组学实验库进行荟萃分析的系统。AnnotCompute支持上述两种类型的探索性元分析——聚类和逐例查询。这两种类型的元分析都依赖于一种相似性概念,该概念将实验与其意图和内容进行比较。

我们的主要贡献如下:

  1. 我们描述了一种基于注释的方法,用于计算实验之间的相似性,该方法可用于支持大型功能基因组学实验存储库(如ArrayExpress)中的数据探索。我们依赖于现有的检索和聚类算法,并表明使用本体注释和实验的文本描述可以带来丰富的用户体验。
  2. 我们展示了对我们的数据探索方法有效性的实验评估结果,表明基于注释的相似性以及基于此相似性的聚类和逐例查询有助于用户找到感兴趣的实验。
  3. 我们推出了AnnotCompute,这是一个实时系统,它实现了我们的数据探索技术,并可供广大科学界使用。

我们还注意到,我们的目标是支持有效的数据探索。信息检索文献中普遍认为,用户界面数据探索功能(如排名和聚类界面)最好通过用户研究进行评估,参见,例如(5,第3章)和(6,第8章)。不同的用户有不同的信息需求和偏好,不合理的期望,例如每个集群都会引起每个用户的兴趣。一个有效的数据探索系统通过帮助用户导航到可能感兴趣的结果集部分,使信息发现更加容易。考虑到这一点,很难定义一个黄金标准来进行基准和评估。通过用户研究对数据探索系统的有效性进行评估,可以考虑不同的用户偏好,我们在工作中采用了这种方法。

方法

数据集的描述

在本文中,我们将重点介绍ArrayExpress Archive(1)这利用了微阵列标准。

FGED(前身为MGED)协会制定了关于微阵列实验的最小信息(MIAME)标准和MO,以促进功能基因组学实验的共享和明确解释。MAGE-TAB格式支持MIAME,是一种简单的基于电子表格的格式,用于描述微阵列研究。MAGE-TAB文档包含两个以制表符分隔的元数据文件:调查描述文件(IDF)和样本与数据关系文件(SDRF),它们涵盖了调查的意图和内容。IDF提供了有关实验的一般信息,包括使用的协议,而SDRF描述了样本和协议的应用,并提供了与样本相关的数据文件的链接。构成ArrayExpress Archive的实验以MAGE-TAB格式提供。

AnnotCompute适用于以下MAGE-TAB字段:

  • 实验名称:自由文本形式的实验标题。
  • 实验描述:用自由文本描述实验。
  • 实验设计类型:提供实验的高级描述的本体术语集合。例如,“共表达设计”类型的实验确定了协调表达的基因,并可用于推断生物过程中的作用,而“化合物处理设计”则注释了用某些化合物处理样本的实验。
  • 实验因素类型:描述实验中研究的因素类型的本体术语集合。例如,“菌株或系”注释了一个研究各种菌株或细胞系的实验。
  • 实验因子值:本体术语或自由文本的集合,描述给定实验因子类型的特定值。度量通常是数字和表示单位的本体术语的组合。例如,MO术语“男性”和“女性”可以用作因子类型“性别”的值,而测量值“6个月”和“12个月”可以用于因子类型“年龄”。
  • 生物资源的生物材料特征:对生物材料特征的描述,可能包括本体术语、测量或自由文本。例如,NCBI Taxon本体术语智人小家鼠可以描述生物材料所属的有机体,而有机体的发育阶段(MO术语)可以是“成体”(也是MO词汇)。
  • 协议类型:描述实验任何步骤中应用的协议类型的本体术语集合,例如“生长”、“核酸提取”和“标记”。
  • 协议描述:实验中使用的协议的自由文本描述。

MO将概念(类)组织成层次结构。但是,包含MO术语的MAGE-TAB字段通常使用这些类的实例进行注释,这些类位于层次结构中的叶子中。

AnnotCompute使用上述所有字段按关键字对结果进行初始筛选。包含本体术语并提供有关生物意图和调查内容的信息的字段也用于计算成对实验之间的差异。作为一个例外,“协议类型”用于过滤,但不用于相异性计算,因为此字段只接受少数不同的值。我们还使用“实验名称”,这是一个文本字段,它可以包含其他有用信息,尽管不是从受控词汇表中提取的,通过将其转换为小写,标记其值并删除一些常见的停止字(我们的停止字列表是手动构建的,包含:a、an、as、or、of、in、on、to、so、and、for、who、why、any、from、when、what、over、till、then,such,that,than,who,since,under,until,because)。差异性度量是我们专门为AnnotCompute开发的,是系统的核心。我们将在下一节中描述这些措施。

使用注释进行荟萃分析

考虑实验e1和e2对于每个注释字段(组件),例如“实验设计”或“实验因子类型”,让A和B成为e的注释项集1和e2分别是。我们使用Kulczynski或Jaccard距离计算e1和e2之间的每成分差异,如下所示(7):

方程式图像
(1)

方程式图像
(2)

e之间的差异1和e2可计算为各成分差异的加权平均值。在该系统的当前版本中,采用了各成分差异的简单未加权平均值。在每个组件中携带相同注释集的两个实验具有不同的0。如果所有注释都不同,则差异为1。将分数的预定部分分配给每个组件,可以限制注释或文本关键字中重合重叠对相异性的影响。例如,根据“实验设计类型”、“实验因素类型”和其他MAGE-TAB字段,两个实验在“实验名称”中具有相似的关键字,但目的和内容不同,这两个实验将被视为不同的。

我们之前注意到,虽然MO类上存在分层结构,但实验通常用叶子中的实例进行注释。因此,我们选择了面向集合的差异性度量,这些度量不利用层次结构。在某些情况下,当外部本体用于注释时,有机会利用其层次结构。我们计划在后续研究中调查替代性差异性措施。

AnnotCompute的体系结构

图1介绍了AnnotCompute的系统架构。我们的系统有三个组件。首先,调用“Extractor”从ArrayExpress下载MAGE-TAB文件,并从这些文件中提取结构化注释。2010年6月9日,从ArrayExpress下载了12098个实验。成功提取了10639个实验(87%)的注释。剩下的13%没有被我们的系统解析,因为MAGE-TAB文件的IDF或SDRF部分丢失,或者因为SDRF中至少有一个必填字段未指定。“Extractor”失败的一种常见情况是SDRF引用IDF中未定义的协议。

保存图片、插图等的外部文件。对象名称为bar045f1.jpg

AnnotCompute的系统架构。离线处理每月执行一次,并构建不同实验矩阵。此矩阵在查询时用于在“逐个查询”中生成结果的排名列表,或在“聚类”场景中对结果进行聚类。

图2提供了有关ArrayExpress实验注释丰富性的统计信息。分数计算为每个实验提取的注释总数,并绘制在x个-轴。每个包含一个或多个有效本体术语的MAGE-TAB字段都会将分数增加1,而包含“未知”、“无”和“不适用”等术语的字段不会增加分数。请注意,“生物材料特征”字段可能包含多个本体注释类别,因此分数可能会增加1以上。注释分数越高,表示实验注释越丰富。具有给定分数的数据集百分比绘制在-轴。我们观察到,大约30%的实验提取了三个或更少的注释,并且ArrayExpress的基因表达综合数据集(GEOD)部分的注释明显不如其他部分丰富,大约40%的实验具有三个或更少的注释。正如我们在“简介”部分中所讨论的,以及我们将在实验评估中所演示的,注释丰富的实验更适合于AnnotCompute执行的那种元分析。

保存图片、插图等的外部文件。对象名为bar045f2.jpg

ArrayExpress数据集的注释统计信息。分数计算为每次实验提取的注释总数,并绘制在x个-轴。每个包含一个或多个有效本体术语的MAGE-TAB字段都会将分数增加1,而包含“未知”、“无”和“不适用”等术语的字段不会增加分数。“生物材料特征”字段可能包含多个本体注释类别,因此分数可能会增加1以上。注释分数越高,表示实验注释越丰富。具有给定分数的数据集百分比绘制在-轴。图中使用的数据于2011年8月1日下载。

解析完MAGE-TAB文件后,“Extractor”将控制权传递给“Comparator”,后者计算所有实验对之间的差异,并将其记录在差异矩阵中。“Extracator”和“Comparator'在Perl中实现,每月离线执行一次。

当用户通过基于web的界面提交查询时,将调用第三个组件“查询处理器”。正如我们在“简介”部分中所描述的,AnnotCompute支持两种类型的数据探索:集群和逐示例查询。如果用户选择逐个查询,则检索与查询实验相似的实验,并在排名列表中按相似度降序显示多达100个最相似的实验(相似度按1相异度计算)。可以选择使用一个或多个关键字对结果进行预筛选。将根据所有提取的字段评估这些关键字。

AnnotCompute使用本节前面描述的基于注释的相异性度量对实验进行聚类。聚类发生在查询时,并在R中实现。特别是,我们利用了具有平均链接的聚合层次聚类,如R hclust函数所实现的那样(8). 我们基于Jaccard和Kulczynski距离对不同的测量方法进行了实验,发现它们的表现具有可比性。我们在当前版本的AnnotCompute中使用Kulczynski距离,因为它在我们用来优化系统的用例上表现稍好。

有了集群实验,AnnotCompute调用R cutree函数来选择K(K)簇,其中K(K)是用户指定的参数。K(K)默认为2到10之间的值,即在屏幕上显示适当数量的集群,而不会压倒用户。默认簇数根据以下公式计算,其中N个是结果中的实验次数:

方程式图像
(3)

请注意,层次聚类将始终至少产生N个集群,因为结果中的每个实验最初都分配给一个集群,而较小的集群会逐渐合并。因此,始终可以选择K(K) < N个集群,然后呈现给用户。

正在生成群集描述

聚类对数据探索是否有用取决于两个属性。首先,聚集在一起的实验应该相似,而单独聚集的实验应该不同。其次,应该适当地描述集群,使用户能够在给定信息需求的情况下决定特定集群是否值得探索。因此,生成直观的集群描述是一个重要的可用性标准。AnnotCompute使用两种方法生成集群描述,称为“common annotations”和“tf–idf”。通用注释方法通过列出分配给集群中至少两个实验的前3个最常见注释来描述每个集群。“tf–idf”方法利用了信息检索和文本挖掘中常用的术语加权技术(9). 这项技术衡量术语对集合中文档的重要性。直观地说,如果一个术语经常出现在文档中(它的词频很高,或tf),但在整个语料库中却很少出现(它的文档频率很低,因此文档反向频率很高,或者idf),那么它就很重要。“tf–idf”分数较高的术语可以用来概括文档的内容,重点放在文档的主要主题上,并将其与其他集合区分开来。我们使用“tf–idf”权重以以下方式生成集群描述。术语对应于实验注释,以及“实验名称”字段中出现的单词;这些正是用于计算实验之间成对差异的特征,也是聚类的基础。我们设置中的实验集群与文本检索设置中的文档相对应。AnnotCompute计算每个集群所有术语的“tf–idf”得分,并使用得分前10的术语来描述每个集群,包括排名第10的所有术语。如果超过五个条款并列第十高分,我们将不会显示任何具有该分数的条款。

评价方法

我们的实验评估基于案例研究,其中专家用户通过提出关键字查询来陈述信息需求。AnnotCompute检索与关键字查询匹配的所有实验,关键字查询通常对应于相关文档的超集。然后,用户手动评估排名或聚类的质量。

评估排名

排名的质量是通过考虑单个实验的相关性来评估的,用户通过根据实验的标题和描述分配相关性得分来量化排名。分数为2意味着实验准确地满足了用户的信息需求,分数为1的实验被分配给查询的一般主题,但不完全匹配。不相关的实验得分为0。我们将在每个案例研究中解释分数分配的细节。在逐个查询示例中,用户考虑与关键字查询匹配的所有实验,并从匹配中确定一个精确满足其信息需求的实验(即相关性得分为2)。然后,他将其用作查询实验,为AnnotCompute返回的前10个匹配项中的每个匹配项分配一个相关性得分,并将其记录为增益向量G公司,向量位置对应于结果的秩。例如,如果前10个列表中排名1-5的实验的相关度得分为2,其余五个实验的得分为1,则增益向量为G公司 = [2, 2, 2, 2, 2, 1, 1, 1, 1, 1]. 我们使用G公司计算归一化折现累积增益(NDCG),这是信息检索中常用的一种度量方法,用于量化排名列表的质量(10). NDCG比较与长度排名表相对应的增益向量中的项目得分N个,带有理想向量的那些,对应于相同长度的最佳排序列表。该指标模拟了一种直觉,即一份高质量的名单会在早期排名中出现高分结果。NDCG值的范围为0到1,1对应最佳结果。

评估聚类

在集群场景中,我们还依赖专家用户的评估来评估质量。所有聚类结果均由六名用户进行评估,我们报告了每个聚类的平均质量分数。所有用户都是具有生物信息学经验的生物信息学家或生物学家,并且都受过研究生教育。六位用户中有四位在参与评估之前没有参与AnnotCompute项目的任何方面。用户考虑了由AnnotCompute生成的集群描述,并对这些描述进行了三分制评分,2分是可能的最佳分数,0分是最差的分数。我们现在详细描述这些分数。

对于描述连贯且准确的聚类,得分为2。如果用户能够通过查看描述清楚地知道集群包含哪些类型的实验,特别是集群是否包含感兴趣的实验,那么集群描述就是连贯的。如果在检查集群的内容后,用户同意集群描述准确地表示集群内容,则集群描述是准确的。用户认为得分为2的聚类对数据探索非常有帮助。

对于描述有一定连贯性或准确性的簇,或两者兼而有之的簇,得分为1。如果用户可以在一定程度上知道集群包含哪些类型的实验,但需要导航到集群并查看其内容,然后才能安全地决定它是否包含任何感兴趣的实验,那么集群就有点连贯。如果集群描述相当好地表示了集群的内容,但没有完全捕捉到属于该集群的实验之间的主要共性,也没有将其与其他集群区分开来,那么该集群描述在一定程度上是准确的。得分为1的集群通过帮助用户关注一组可能感兴趣的集群,使数据探索变得更容易,但不如得分为2的集群有帮助。

最后,对描述不连贯或不准确的簇指定0分。对于不连贯的集群描述,用户无法仅通过查看描述来确定集群包含哪些类型的实验。如果集群描述不能充分描述集群中的实验,那么它就是不准确的。在这种情况下,用户可能会错过一些有趣的实验,因此分数为0的集群可能会阻碍数据探索。

结果

我们现在描述AnnotCompute有效性的实验评估结果。我们考虑了逐个查询和集群场景的几个用例,并表明AnnotCompute丰富了用户体验,特别是对于注释良好的实验。请注意,由于AnnotCompute是一个实时系统,其数据集每月更新一次,因此当前版本的AnnotComputer中的结果可能与本节中描述的结果略有不同。

按示例查询

我们通过三个用例逐个评估了查询的有效性。表1总结了我们的发现,我们也在下面进行了描述。

表1。

“示例查询”的有效性

用例查询实验NDCG公司
转移E-GEOD-22800.98
转移电子GEOD-26851
转移电子地理-156410.68
胰岛素电子邮箱-8670.613
胰岛素电子标签-1410.641
胰岛素电子地理-114840.203
老化E-GEOD-3305型0.817
老化E-GEOD-118820.055
老化E-GEOD-3305(浓缩)0.944
老化E-GEOD-11882(浓缩)0.894

“逐个查询”对三个用例和几个查询实验的有效性。有效性由NDCG衡量,范围从0到1,得分为1对应最高可能的有效性。

案例1:“转移”

用户对研究人类癌症转移的分子机制的实验感兴趣。用户发出“转移和人类”查询,检索123个实验。与用户信息匹配的实验需要精确地获得2分的相关度。与转移相关但不关注人类癌症的实验获得的相关性得分为1。与转移无关的实验的相关分数为0。为了测量前10位的NDCG,我们构造了理想向量 = [2,2,2,2,2,2,2,2,2,因为结果中至少有10个实验的相关度得分为2。由于候选词数量众多,因此随机选择了三个相关度为2的查询示例。

使用E-GEOD-2280(相关性得分为2的实验)作为查询实验,AnnotCompute检索相似实验的列表,按相似度降序排序。在前10个实验中,9个得分为2,1个(排名8)得分为0,我们使用理想向量计算NDCG=0.980用于标准化。使用E-GEOD-2685(一个相关度为2的实验)作为查询实验,我们发现前10个实验中的所有实验都是高度相关的,给出了一个完美的NDCG=1.最后,使用E-GEOD-15641(一个相关分数为2的实验)作为查询实验,我们发现前10个实验中有7个实验的分数为2,一个实验的得分为1,两个实验的评分为0,因为NDCG=0.680。

我们的结论是,在这种情况下,AnnotCompute可以有效地识别高度相关的实验。此外,通过考虑查询实验的注释,我们发现E-GEOD-2280和E-GEOD-6685的注释比E-GEOD-15641更丰富,导致了更高的排名质量。我们将在下面的小节中研究注释的丰富性对排名质量的影响。

案例2:“胰岛素”

用户对研究葡萄糖刺激胰岛素分泌(GSIS)的实验感兴趣。他提出了一个与75个实验相匹配的问题“胰岛素和葡萄糖”。其中,9人专注于GSIS,相关性得分为2,37人研究与2型糖尿病、受影响组织和代谢相关的其他方面,得分为1,其余29人得分为0。NDCG的理想向量是[2,2,2,2,2,2,2,2,1],在本例中,因为查询实验不是结果的一部分,所以最多前10名中的8个实验的得分为2。

AnnotCompute使用E-MEXP-867作为查询实验,在前10名(排名1和5)中检索到两个相关分数为2的实验,四个实验的分数为1,其余四个为0。我们计算出NDCG=0.613。以E-TABM-141作为查询实验,在前10名(排名1和6)中检索到两个高度相关的实验,其中五个实验的得分为1,其余三个为0,因为NDCG=0.641。最后,使用E-GEOD-11484作为查询,前10名中没有实验得分为2,5名为1,其余5名为0,因为NDCG=0.203。相关性得分为2的九个实验的平均NDCG为0.447。

我们的结论是,使用实验E-MEXP-867和E-TABM-141可以检索前十名中的相关实验。通过考虑查询实验的注释,我们再次观察到E-MEXP-867和E-TABM-141的注释比E-GEOD-11484更丰富,从而提高了排名质量。

案例3:“老化”

在我们的最后一个用例中,我们考虑了一个用户,他对检索实验感兴趣,这些实验考虑了生物体生命周期中正常衰老对基因表达谱的影响。用户发出“寿命或寿命或寿命”查询,检索48个实验。其中,7人关注正常衰老(相关分数=2),7人调查了热量限制下衰老对基因表达的影响(相关分数=1),9人考虑了转基因生物中的衰老(相关得分=1)。其余25个实验与基因表达谱的年龄相关性有限(相关性得分=0)。因此,为了测量前10位的NDCG,我们定义了理想向量 = [2, 2, 2, 2, 2, 2, 1, 1, 1, 1]; 注意,只有六个条目的得分为2,因为查询实验本身并没有作为结果返回,因此被从列表中删除。

选择E-GEOD-3305作为查询实验,我们使用AnnotCompute检索类似实验的列表。我们观察到,前10个实验中有四个描述了正常衰老,四个来自其他两个与衰老相关的组,两个与基因表达谱的衰老无关。在这种情况下,我们计算NDCG=0.817。使用实验E-GEOD-11882作为查询,并考虑前10个结果,我们发现一个实验(排名6)的得分为2,一个(排名8)的得分是1,8与基因表达谱的老化无关,得分为0。我们计算出NDCG=0.055。我们回顾了结果集中所有48个实验的注释,发现有些注释不够好,E-GEOD-11882是注释不好的实验之一,限制了AnnotCompute的有效性。相关性得分为2的七个实验的平均NDCG为0.559。

群集

在评估的最后一部分,我们研究了AnnotCompute对集群的有效性方程式(3).

案例1:“转移

在这个实验中,六个用户评估了查询“转移或转移”的聚类质量。该查询返回237个实验。根据方程式(3),AnnotCompute将结果集聚集到K(K) = 默认情况下为10个簇。其中,七个集群包含两个或多个实验,我们在表2以及平均每簇质量分数。平均质量分数从0.8到1.5不等。七分之六的集群得分至少为1,因此用户认为这对数据探索很有帮助。所有集群和所有用户的平均质量分数为1.2。第6组的平均质量得分最高,为1.5分。这个集群包含两个实验,都是研究人类结肠癌的,这在集群描述中得到了准确的反映。

表2。

“转移”用例的集群

大小质量     描述
11421.3
  • 描述:年、月、加、患者、转录分析、转录、指数、mm、癌、软
  • 实验设计类型:转录谱分析(121)、疾病状态设计(40)、共表达设计(29)
  • 实验因素类型:疾病状态(28)、机体部分(11)、疾病分期(10)
  • 实验因子值:正常(18)、转移(16)、淋巴结(15)
  • 税收:智人(142)
  • 生物材料特征:性别-女性(26),性别-男性(20),疾病状态-正常(15)
2361.3
  • 描述:小家鼠,转录谱分析,转录,小鼠,f1,x,akr/j,dba/2j,细胞,褐家鼠,fvb/nj
  • 实验设计类型:转录谱分析(35)、共表达设计(5)、个体遗传特征设计(3)
  • 实验因素类型:基因型(3)、治疗(2)
  • 实验因子值:野生型(3)、细胞(3)和p1a(2)
  • 分类:小家鼠(30),褐家鼠(5)
  • 生物材料特征:生物源类型-新鲜样品(3)、发育阶段-成体(2)、时间单位-周(2)
351
  • 说明:x,紫杉醇,fac,x4,12,x12,fec,每周,4,mg/m2
  • 实验设计类型:阵列转录谱(35)
  • 实验因子类型:细胞系(11)、组织(8)、细胞类型(5)
  • 实验系数值:非(11),指定(11)、4(9)
  • 分类:智人H.sapiens(28),小家鼠M.musclus(6)
  • 生物材料特性:治疗开始12紫杉醇+4fac(4),62岁(3),71岁(3)
4121.2
  • 描述:菌株或株系设计、细胞系、cms4-met、cms4、p63、扩增、RNA、转录、转录谱分析、,小M
  • 实验设计类型:转录谱分析(7)、菌株或线设计(5)、,
  • 细胞类型比较设计(3)
  • 实验因子类型:细胞系(12)
  • 实验因子值:cms4-met(3)、4t1(2)、cms4(2)
  • 分类群:智人H.sapiens(7),小家鼠M.musculus(5)
  • 生物材料特征:生物源类型-新鲜样品(6),性别-男性(3),细胞系-cms4-met(2)
551.3
  • 描述:通过阵列、狗、vhl、dna、组织、指定、灭活、1858、散发、非
  • 实验设计类型:阵列比较基因组杂交(5)
  • 实验因子类型:细胞系(2)
  • 实验因子值:非(3)、指定(3)和单元格(2)
  • 税收:智人(5)
621.5
  • 描述:mir-10a,阻遏物,活性,疾病状态-结直肠腺癌,年龄50岁,细胞系-sw480,性别-男性…
  • 实验设计类型:共同表达设计(2),体外设计(2)
  • 紫杉类:智人(2)
  • 生物材料特征:性别男性(2)、发育阶段成人(2),年龄50岁(2)
720.8
  • 描述:芯片芯片,通过平铺阵列,表征,试剂hep3b tta4-ptre-lap-flap在10天内无强力霉素培养…
  • 实验设计类型:平铺阵列芯片芯片(2)
  • 税收:智人(2)

查询“转移或转移”的聚类结果“大小”是集群中的实验数量“质量”是用户分配给集群的平均质量分数;它的范围从0(最差)到2(最佳)。

用户还认为集群1、2和5质量较高,平均得分为1.3。集群1是最大的,包含142个实验,全部涉及人类样本。该集群中的大多数实验使用微阵列研究基因表达谱。然而,该集群还包含几个进行阵列比较基因组杂交(CGH)的实验,从而降低了集群的凝聚力。第二组主要包含研究转基因小鼠或大鼠样本中转移的实验。然而,聚类描述并不能帮助确定正在研究的生物学问题。第5组包含五个使用人体样本和CGH的实验。该组中的所有实验都与转移有关。然而,与聚类2类似,聚类描述没有揭示其生物含量。

聚类3和聚类7得分最低(分别为1和0.8)。两组实验均使用人类样本和ChIP-ChIP拼接阵列研究了与转移形成相关的转录因子的结合位点。簇3的描述没有描述其生物学意义,也没有揭示它与其他簇的区别。根据它们的描述和内容,集群3和集群4非常相似,应该被聚集在一起。

案例2:“胰岛素”

我们现在考虑将75个匹配关键字查询“insulin and glucose”的实验分为八个簇[默认簇数方程式(3)]. 其中,有六个包含两个或更多实验,我们在表3以及平均质量分数。在此,我们再次观察到六个集群中有五个集群的平均质量分数至少为1。所有集群和所有用户的平均质量分数为1.5。

表3。

“胰岛素”用例的集群

大小质量     描述
1381.7
  • 描述:小M、复合治疗设计、小鼠、转录图谱、图谱、转录、胰腺、h、胰岛素…
  • 实验设计类型:转录谱分析(38)、复合处理
  • 设计(8),基因改造设计(5)
  • 实验因子类型:复合处理设计(6)、基因改造(5)、复合(4)
  • 实验因子值:胰岛素(3)、葡萄糖(3)和基因敲除(3)
  • 分类:小家鼠(27),褐家鼠(9),黑腹果蝇(2)
  • 生物材料特征:有机体部分切除(4)、性雄性(4)和发育阶段成体(3)
2161.7
  • 描述:转录谱,gip依赖性,疾病状态,干细胞,转录,谱,人类,历史,细胞系,cushings,家族…
  • 实验设计类型:转录谱分析(16)、细胞类型比较设计(4)、疾病状态设计(3)
  • 实验因子类型:疾病状态(4)、细胞系(3)、细胞类型(2)
  • 实验因子值:2(2)、类型(2)和组织(2)
  • 分类:H.sapiens(14),R.褐家鼠(2)
  • 生物材料特征:性别-男性(3),疾病状态-正常(2),时间单位-年(2)
131
  • 描述:转录谱按数组、五个、总计、年、女性、平均值、合并、范围、时间点、年龄
  • 实验设计类型:阵列转录谱(13)
  • 实验因子类型:应变或线(3)、组织(2)
  • 实验因子值:3(2)、脂肪(2)和高(2)
  • 分类群:小家鼠(6)、褐家鼠(3)、智人(2)
  • 生物材料特征:组织存活(4)、性别-雄性(3)、性别/雌性(2)
420.8
  • 描述:周、瘦、训练、mm、时间、时间序列设计、锻炼、肥胖
  • 实验设计类型:时间序列设计(2)、共同表达设计(2,
  • 转录谱分析(2)
  • 实验因素类型:时间(2)
  • 实验因子值:周(2)、1(2)和4(2)
521.7
  • 描述:油、膳食、橄榄、鳕鱼、椰子、猪油、its、脂质、介质、胶束
  • 实验设计类型:转录谱(2)、共表达设计(2)和生长条件设计(2
  • 实验因子类型:生长条件(2)
622
  • 描述:生物标志物、进展、研究、疾病、糖尿病、大鼠、组织、脂肪、肝脏、,褐鼠
  • 出租车:褐家鼠(2)

查询“胰岛素和葡萄糖”的聚类结果“大小”是集群中的实验数量“质量”是用户分配给集群的平均质量分数;它的范围从0(最差)到2(最佳)。

第6组得分最高(2),包含两个实验。这两个实验是相关的:他们列出了相同的接触者,并且都研究了大鼠糖尿病生物标志物疾病进展(一个在肝脏,一个在脂肪组织)。第1、2和5组得分也很高(均为1.7)。簇1是最大的,包含了研究葡萄糖敏感胰岛素分泌的大多数实验。该集群还包括一些不相关的实验(例如,用四氢大麻酚治疗星形胶质细胞),但有一个共同的总体主题,即实验涉及模型生物(主要是小鼠)的基因改造和/或药物治疗。第二组主要包含与多种疾病相关的人体样本实验,但并非所有疾病都与糖尿病和胰岛素抵抗/敏感性相关。第5组包含两个实验,均涉及膳食脂类和对生长的影响,尽管在不同的物种和组织中。

案例3:“老化”

关键字查询“寿命或寿命或寿命”匹配48个实验,这些实验由AnnotCompute分为六个集群。其中,有五个包含两个或更多实验,我们在表4以及平均质量分数。观察到,五分之三的集群被用户认为在数据探索中有用,得分为1或更高。所有集群和所有用户的平均质量分数为1。

表4。

“老化”用例的集群

大小质量      描述
1321.7
  • 描述:转录分析,转录,苍蝇,月,选定,饮食,性别,span,褐鼠, 30, 18
  • 实验设计类型:转录谱分析(32)、共表达设计(7)、,
  • 复合处理设计(三)
  • 实验因素类型:年龄(4)、品系(3)、化合物(3)
  • 实验因子值:月(4),30(3),对照(3)
  • 分类:小家鼠M.musclus(13),黑腹果蝇D.melanogaster(6),智人H.sapiens(5)
260.2
  • 描述:通过阵列、表达、基因进行转录谱分析
  • 实验设计类型:阵列转录谱(6)
  • 税收:智人(2)
41.7
  • 描述:glp-4 bn2,个体遗传特征设计,基因型,leu2,
  • his3,ura3,daf-2m577,met15,delta0,突变体,基因型…
  • 实验设计类型:共表达设计(4)、转录谱分析(4),
  • 个体遗传特征设计(4)
  • 实验因素类型:基因型(4)
  • 实验因子值:delta0(2),野生型(2)
  • 分类:酿酒酵母(2)
  • 生物材料特征:基因型-野生型(2),基因型-his3,leu2,met15,ura3 isc1::kanmx4(2)
40.7
  • 描述:采集、周、年、百分比、活的、游离的、寄生的、生物源型新鲜样本、6岁、年龄、生长条件设计
  • 实验设计类型:转录谱(3)、生长条件设计(2)
  • 实验因素类型:年龄(2)
  • 生物材料特征:性别-女性(3),生物源类型-新鲜样品(3)、年龄6(2)
521
  • 描述:wrn、比较、处理、维生素、有/无、实验、喂养、蛋白质、肝脏、wt、c
  • 税收:小M(2)

查询“寿命或寿命或寿命”的聚类结果“大小”是集群中的实验数量“质量”是用户分配给集群的平均质量分数;它的范围从0(最差)到2(最佳)。

集群1和集群3的质量得分最高(1.7)。集群1是最大的,包含32个实验。根据其描述,该集群中的实验与长寿研究和热量限制(饮食)有关。事实上,第1组包含了研究生物体在正常衰老或热量限制下的转录谱的实验。与野生型相比,集群3的所有四个实验都检测了寿命改变的转基因生物的基因表达。第二组得分最低(0.2)。该集群中六分之四的实验与衰老机制的研究无关,而且是成对的不同。对这个集群的描述没有提供关于其内容的太多信息,可能是因为集群是异构的。

扩展评估

在评估的最后一部分,我们演示了在更大的查询集上进行聚类的有效性,但每个查询的判断更少。在上面描述的三个用例中,我们从每个查询的六个用户中收集了三个查询的评估。在本节的其余部分中,我们将描述另外10个查询的有效性结果,每个查询由一个用户进行评估。所有评估人员都与我们的项目无关,不了解AnnotCompute的实施细节。我们这一部分的评估结果见表5。用户选择要执行的查询,并且他们的查询返回了12到199个实验。然后,用户对分配了多个实验的所有集群进行评级,这些实验在中称为nonsingleton表5回想一下,包含单个实验的簇通常是一致且准确描述的,即质量分数为2。我们将此类集群排除在评估之外,以免夸大平均质量分数。

表5。

扩展评估中聚类的有效性

查询大小集群数量
质量
总计非独生子女最小值最大值平均
阿尔茨海默病3455121.2
自闭症12121.7
细胞、周期和阻滞3054121.5
增强子和启动子2755121.4
流式细胞术119105121.8
黑色素瘤108107121.7
梅宁5675121.2
甲基化1991010121.3
迁移119105121.2
嗅觉4664222
平均1.5

10个查询的聚类有效性评估结果。在表中,“size”是查询返回的实验总数。我们报告了集群的总数和“非单个集群”的数量,其中至少包含两个实验。”“质量”是指非单个集群的平均质量分数,范围从0(最差)到2(最佳)。

单个集群的质量介于1和2之间。评估人员没有给任何集群分配0分的质量分数,这表明AnnotCompute发现并提供的所有集群都被认为有助于数据探索。非单个聚类的查询平均质量介于1.2到2之间;所有查询的平均质量为1.5。

讨论

AnnotCompute支持的数据探索方法依赖于基于意图和内容的实验之间的成对比较。这自然导致我们使用基于注释的方法,而不是基于数据的方法。此外,在这种情况下,基于数据的方法是不可行的。一般来说,很难将不同实验的数据放在同等的基础上。事实上,当使用的平台是一个微阵列时,即使是来自同一实验中分析的数据,也很难平等对待。已经提出了各种标准化方法,但任何此类方法通常都依赖于对手头样品和微阵列监测的基因所做的某些生物学假设。没有一种方法在所有情况下都有效。当人们试图整合不同实验的数据时,挑战变得更大,为了应用合理的整合,通常需要施加一些限制(例如专注于一个特定平台)并应用一定数量的管理(例如,参见(11)]. 在我们的例子中,输入是来自一个大型存储库的实验,跨越各种平台、样本和意图。此外,实验通常包括跨越不同条件的多个测定。除了在同等基础上将不同实验中的化验数据放在一起的困难之外,还没有明显的方法将任何实验中化验数据以有意义的方式组合在一起,以代表整个实验。因此,基于注释的方法对于我们的目的也是最有意义的。

在本文中,我们介绍了如何使用注释的元分析来丰富ArrayExpress上下文中的用户体验。使用MAGE-TAB的类似存储库[例如CaArray(12)]也会从这种方法中受益。然而,我们的方法可以扩展到使用标准化注释的其他类型的实验。例如,GWAS Central位于网址:www.gwascantral.org(13)以制表符分隔的格式提供实验列表,其中包含类似字段(study_name、study_design、title、phenotype_tested、platform),包括似乎使用受控术语的字段(stUDesign,phenotype-tested,platforms)。AnnotCompute的“Extractor”组件需要针对不同的字段进行调整以进行比较,但一旦传递给“Comparator”组件,进一步的处理应该是相同的。此示例旨在说明如何应用AnnotCompute,但需要使用用例评估GWASCentral或其他存储库的实用程序。此外,重要的是,我们不假设任何特定的本体或受控词汇被用于注释实验,也不假设整个社区对注释术语的适当使用存在共识。相反,我们的目标是证明基于上下文的本地注释协议可以带来更好的用户体验。

本文中介绍的技术主要应用于ArrayExpress实验的MO注释。然而,在我们的方法中没有特定于MO的内容。新本体,如EFO()和OBI(4),目前正在出现,其目标是补充或取代MO,随着这些注释在ArrayExpress中的广泛使用,AnnotCompute将自动利用这些注释。

正如我们在评估中所证明的那样,AnnotCompute可以作为一种有效的数据探索工具,特别是在实验注释充分的情况下。在许多其他情况下,缺乏适当的注释是限制我们系统有效性的一个重要因素。我们希望,科学界采用AnnotCompute和其他元分析工具将激励人们更加明智地诠释实验。

为了确定改进注释的收益,我们将重点放在案例3“老化”上。此用例返回了可管理的总匹配数,因此可以根据需要手动丰富所有实验的注释。根据SDRF文件中提供的描述和注释,我们手动丰富了一些实验的注释,并纠正了一些不合适的注释。我们一致地丰富了结果集中实验的注释,而不管它们是否用作查询实验以及它们的等级。该用例的一组具有代表性的MAGE-TAB文档(在丰富前后)可从AnnotCompute下载站点获得(http://www.cbil.upenn.edu/downloads/AnnotCompute网站).

以实验E-GEOD-3305为查询条件,得到富集后NDCG=0.944,与富集前NDCG=0.817相比,有明显改善。对于实验E-GEOD-11882,差异更大:浓缩后NDCG=0.894,而浓缩前只有0.055。我们的结论是,丰富注释的可用性导致了我们用例中排名质量的改进。

我们的浓缩程序的一些示例如下所述。在E-GEOD-11882中,实验描述中提供了生物体部分、年龄和性别,但不在其注释中。因此,我们在SDRF中添加了以下“生物材料特征”:“有机体部分”、“性别”和“年龄”,以及相应的值。此外,虽然该实验研究了从不同器官、性别和年龄提取的样本中的基因表达谱,但IDF仅将“转录谱”表示为“实验设计类型”,并且没有包含适当的“实验因子类型”注释。因此,我们在“实验设计类型”列表中添加了“器官部分比较设计”、“性别设计”和“生理过程设计”。添加了相应的“实验因素类型”——有机体部分、性别和年龄,以及适当的因素值。

另一个富集的例子是E-GEOD-13753,这是一项研究野生型和敲除型小鼠在不同发育阶段的转录谱的实验。除了“转录谱”,注释“发育或分化设计”、“个体遗传特征设计”和“遗传修饰设计”也应添加为“实验设计类型”,“发育阶段”和“个体遗传特征”作为“实验因子类型”提供。

在其他几项实验中,“生长条件”被指定为“实验因子类型”,但不够具体。MGED本体提供了几种与生长条件设计相关的实验因素类型,包括“大气”、“营养素”和“温度”。例如,实验E-GEOD-9217检查了在不同葡萄糖水平下生长的酵母的转录谱。”实验在本实验中,因子类型“-营养素”是一个比生长条件更准确的术语。实验E-MEXP-1506通过检测在不同氧气水平下生长的人类干细胞的转录谱来研究细胞衰老,“实验因子类型”-“大气”是对该实验更合适的诠释。

作为浓缩效果的最后一个例子,请考虑E-MEXP-1506,这是一个与老化相关的实验,与查询实验E-GEOD-11882的相似性不高。在浓缩之前,E-MEXP-1506是与查询最相似的前10个实验之一;浓缩后排名前10位以下。

相关工作

阵列Express(1)和GEO(14)是两个功能基因组学实验的大型资料库。GEO支持其存储库的两个接口——查询(通过数据集、基因配置文件和登录号)和浏览。ArrayExpress同样提供了查询功能,可以通过关键字、引文、样本和因子注释定位实验。此外,ArrayExpress还提供了对基因表达图谱的访问,使用户可以找到特定基因在特定条件下和特定生物体中差异表达的实验。最近的一个数据勘探工具是GEOmetadb(15)GEO微阵列搜索工具,利用与样本、平台和数据集相关的元数据。ArrayExpress和GEOmetadb搜索接口不允许在实验之间进行相似性搜索,如我们的逐个查询示例中所示,也不允许进行元分析,如AnnotCompute的聚类方法中所示。

已经构建了用于查询基因组数据库的复杂工具[参考文献(16)]例如BioMart、EcoCyc、InterMine和WDK战略。这些方法采用各种方法来选择、过滤或组合数据库条目(例如基因)。这些系统中的注释被视为单个字段(属性)或对象的一部分,用户选择所需的值以获得返回的数据列表。AnnotCompute确实使用关键字进行筛选,但其主要方法是提供相似的内容(与具有指定属性值的内容相反)。

早期也使用了基于注释的聚类实验方法(17). 在这项工作中,作者从大约450个GEO数据集开始(即实验),并解析GEO自由文本注释以映射到统一医学语言系统(UMLS)中的概念,以便可以使用标准化词汇表。因此,根据实验注释是否映射到该概念,每个实验都与一个二进制向量关联,每个UMLS概念的值为0或1。然后将这些向量用作R中具有二进制差异的分层聚类的输入(这与Jaccard一致)。我们的方法在精神上是相似的,但利用了ArrayExpress实验已经标准化的注释,以及专门为注释功能基因组学实验而开发的本体术语(如MGED本体)。开发这些本体的原因之一是为了尽量减少自由文本的使用,因为自由文本很难解析和挖掘,从而促进实验信息的交换。我们的方法允许我们评估这些本体在多大程度上促进了基于注释的比较。类似于参考(16),我们的差异性度量基于二进制数据(有无注释),但是,我们没有为一个实验收集所有注释项,而是根据注释组件对它们进行分组。这使我们能够在各种注释组件上试验不同的权重。

结论

我们介绍了AnnotCompute,一种用于功能基因组学实验存储库的在线信息发现和元分析工具。

我们的工具支持两种类型的数据探索——逐例查询和聚类。我们证明了可以利用实验注释来丰富用户的数据探索体验。我们还举了一些例子,在这些例子中,更丰富的注释将带来更好的用户体验。我们相信,AnnotCompute等工具可能会为ArrayExpress和其他存储库中功能基因组实验的更丰富注释提供强大的激励。

我们的工作重点不是开发新的检索和聚类算法,而是证明实验注释可以被标准的现有技术用作特征。看看更先进的检索和聚类技术是否会带来更有效的数据探索体验是未来工作的一个有趣方向。

基金

国家人类基因组研究所(R21 HG004521号致J.Z.、E.M.、J.L.和C.J.S);国家科学基金会(CIHellows 0937060公司至J.S.)。开放获取费用资助:国家人类基因组研究所(R21 HG004521)。

利益冲突。未声明。

致谢

我们感谢参与我们用户研究的外部评估人员帮助评估AnnotCompute的有效性。

工具书类

1Parkinson HE、Kapushesky M、Shojatalab M等。ArrayExpress——微阵列实验和基因表达谱的公共数据库。核酸研究。2007;35(数据库问题):747–750。 [PMC免费文章][公共医学][谷歌学者]
2Whetzel PL、Parkinson HE、Causton HC等。MGED本体:基于语义的微阵列实验描述资源。生物信息学。2006;22:866–873.[公共医学][谷歌学者]
三。Malone J、Holloway E、Adamusiak T等。用实验因子本体建模样本变量。生物信息学。2010;26:1112–1118. [PMC免费文章][公共医学][谷歌学者]
4.Brinkman RR、Courtot M、Derom D等。用OBI建模生物医学实验过程。J.生物识别。语义学。2010;1(补充1):S7。 [PMC免费文章][公共医学][谷歌学者]
5Baeza-Yates RA,Ribeiro-Neto BA。现代信息检索。马萨诸塞州波士顿:ACM出版社,Addison Wesley;1999[谷歌学者]
6Manning CD、Raghavan P、Schütze H。信息检索导论。英国剑桥:剑桥大学出版社;2008[谷歌学者]
7Hennig C,Hausdorf B.分布区域之间包含地理距离的稳健距离系数。系统。生物。2006;55:170–175.[公共医学][谷歌学者]
8R开发核心团队。R: 统计计算语言与环境.2008网址:http://www.R-project.org(2011年6月10日,上次访问日期)[谷歌学者]
9术语特异性的统计解释及其在检索中的应用。J.文件。1972;28:11–21. [谷歌学者]
10Järvelin K,Kekäläinen J.基于累积收益的红外技术评估。ACM事务处理。信息系统。2002;20:422–446. [谷歌学者]
11Lukk M、Kapushesky M、NikkiläJ等。人类基因表达的全球地图。自然生物技术。2010;28:322–324. [PMC免费文章][公共医学][谷歌学者]
12Bian X,Klemm J,Basu A,et al.基于标准的微阵列数据存储系统caArray的数据提交和管理。自然先例。2009doi:10.1038/npre.2009.3138.1。[谷歌学者]
13.Thorisson GA、Lancaster O、Free RC等。HGVbaseG2P:中央遗传关联数据库。核酸研究。2009;37(数据库问题):797–802。 [PMC免费文章][公共医学][谷歌学者]
14Barrett T、Troup DB、Wilhite SE等。NCBI GEO:高通量功能基因组数据存档。核酸研究。2009;37(数据库问题):5–15。 [PMC免费文章][公共医学][谷歌学者]
15.Zhu Y,Davis S,Stephens RM,et al.GEOmetadb:基因表达总览的强大替代搜索引擎。生物信息学。2008;24:2798–2800. [PMC免费文章][公共医学][谷歌学者]
16Fischer S、Aurrecheca C、Brunk BP等。战略WDK:功能基因组数据库的图形搜索界面和网络开发工具包。数据库。2011;2011:bar027。 [PMC免费文章][公共医学][谷歌学者]
17Butte AJ,Kohane IS。现象基因组网络的创建和含义。自然生物技术。2006;24:55–62. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由提供牛津大学出版社