跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2003年8月1日;31(15): 4553–4560.
数字对象标识:10.1093/nar/gkg636
预防性维修识别码:项目经理169898
PMID:12888516

定义和识别基因表达簇的科学文献计算分析

关联数据

补充资料

摘要

许多基因表达分析方法的局限性在于,它们没有将有关基因的全面背景知识纳入分析中。我们提出了一种计算方法,利用同行评审的文献自动分析基因表达数据集。将文献纳入基因表达数据的分析中,可以在定义表达簇时纳入有关基因的功能信息。我们已经创建了一种将基因表达谱与已知生物功能相关联的方法。我们的方法有两个步骤。首先,我们将层次聚类应用于给定的基因表达数据集。其次,我们使用基因摘要中的文本来(i)解析层次聚类边界以优化聚类的功能一致性,以及(ii)识别功能最一致的聚类。如果一个基因尚未被调查,因此缺乏原始文献,则会添加有关研究充分的同源基因的文章作为参考。我们将我们的方法应用于两个具有不同属性的大型基因表达数据集。第一个包含了一组经过充分研究的数据酿酒酵母具有多个文献参考的基因,第二个包含新发现的基因黑腹果蝇; 许多人根本没有参考文献。在这两种情况下,我们能够快速定义和识别生物相关的基因表达谱,而无需人工干预。在这两种情况下,我们发现了原始研究人员没有注意到的新簇。

简介

高通量基因表达分析为分析生物体内所有基因的诱导提供了机会。最近的应用包括人类癌症标本的轮廓分析(1),跟踪果蝇发育过程中的基因表达(4,5)以及针对特定基因缺失对酵母基因表达的综合测量(6,7). 该领域的一个挑战是快速分析和解释这些包含数千个基因的数百个测量值的综合数据集。重要的是要包括全面的背景知识,以适当分析这些数据集并充分理解它们。我们在其他地方认为,使用包含外部信息的计算方法是有效的,例如基因的功能信息、上游核苷酸序列和科学文献,以帮助推动表达数据的解释和组织(8).

目前,不使用背景知识的聚类方法仍然是应用于基因表达数据的最流行的计算方法。聚类方法将复杂的表达数据集组织成易于处理的亚组或簇,这些基因共享相似的表达模式,因此暗示了共同调节和可能的共同生物功能(9,10). 对聚集在一起的基因进行仔细检查,可以得出有关基因功能和共同调控的假设。然而,簇的质量及其解释生物功能的能力可能会有很大差异。

已出版的科学文本包含所有最重要的生物发现的精华版本,是分析算法功能信息的有力来源。科学文献的文本分析已成功应用于许多生物学问题(11). 关于基因的文章摘要可以成功预测基因功能(1215). 基因可以根据科学文献中的文本聚类为功能相关组(16). 摘要中基因名称的共现意味着相关基因的网络可能对基因表达分析有用(17).

最常用的聚类方法,即层次聚类,在确定准确的聚类边界时存在相当大的模糊性。层次聚类将表达数据组织成二叉树,其中叶子是基因,内部节点(或分支点)是候选簇(图。(图1)1) (10). 两个基因的基因表达模式越相似,它们在树状结构中的位置就越近。在许多情况下,具有共同生物功能的基因也具有相同的表达特征,因此在一个节点中聚集在一起。

保存图片、插图等的外部文件。对象名称为gkg636f1.jpg

层次聚类和簇边界定义。具有后续簇边界定义的层次聚集表达式数据的示意图。右边是用彩色网格表示的基因表达数据。网格中的每一行表示单个基因在多种条件下的表达;每列代表特定条件下每个基因的表达。红色方块表示基因诱导,而绿色方块表示抑制。左边是由层次聚类算法生成的树。树由节点(黑盒)组成,这些节点根据表达相似性组织基因。来自一个节点的所有基因都是该节点定义的候选簇中的基因。在这个示意图中,我们将树修剪成四个不相交的生物相关基因簇。修剪树定义了具体的簇及其边界。对数据进行聚类后,必须确定具有生物学意义的候选聚类。通常,需要对集群中的基因进行仔细的专家检查,以确定基因共享功能的关键集群,并绘制尊重生物功能的集群边界。我们断言,可以自动挖掘科学文献,以识别生物一致的簇,并绘制尊重生物功能的簇边界。

一旦设计出一棵树,挑战是通过修剪树来正确定义最终的簇边界,或者换句话说,适当地选择节点,以便将基因分为不重叠的具有生物学意义的簇。通常,绘制簇边界,以便最终簇包含功能相关基因。实际上,研究人员通过手动扫描每个节点中的基因来定义簇,并依靠他们的生物学专业知识来注意节点中基因的共享功能属性,然后选择最连贯的节点。整个过程非常费力,因为必须一次完成一个节点。一些人提出了根据节点内基因表达谱的统计特性自动选择节点和定义边界;然而,相同的统计标准可能并不普遍适用于识别所有相关的生物功能(18).

我们之前描述并评估了一种计算方法,即每个基因的邻域发散(NDPG),该方法使用科学文本计算信息理论分数,表明一组基因的功能相干程度(1921). 因此,具有共同功能的基因组得分较高。该方法需要一个文档语料库和一个连接文档和基因的索引。在这里,我们研究了基于文献的NDPG方法在解决基因表达簇边界方面的应用。我们使用科学文献通过选择一组与生物功能相对应的不相交节点来定义聚类边界。我们的方法选择节点,使NDPG聚类得分的总加权平均值最大。由于所选得分最高的节点可能构成功能相关的簇,因此NDPG得分可用于对簇进行优先级排序,以便随后进行详细的手动分析和实验跟踪。

为了测试我们的方法,我们将剪枝方法应用于酿酒酵母(酵母)基因表达数据集基于Eisen及其同事在79种实验条件下对2467个基因的测量(10). 该数据集包含了大多数研究良好的基因的测量值,其功能已在文献中阐明和描述。如果我们的方法成功,我们的方法定义的表达簇应该对应于定义良好的基因功能群。幸运的是,一个精心构建的酵母基因功能目录,即基因本体(GO),可用作比较的黄金标准(22).

在一个更具挑战性的测试中,我们将此策略应用于分析黑腹果蝇(苍蝇)发育系列包含3987个基因的表达测量,其中大多数基因的特征很差(4). 这个数据集更具挑战性,因为只有1681个基因有原始文献。为了在文献匮乏的数据集上有效地使用我们基于文献的方法,我们可以使用序列相似性搜索来识别研究中每个基因的同源基因,并将同源基因的参考文献与研究基因相关联。这些参考文献增加了带有参考文献的基因数量,同时提供了有关潜在基因功能的线索。

在这两种情况下,我们都能够成功地定义和识别仅由科学文献指导的关键报告基因功能群。此外,我们还发现了原始出版物中没有报道的新簇。我们的结果与原始研究人员手动生成的结果相当,只需要大约一个小时的计算。

材料和方法

定义分层簇边界

层次聚类在上的应用K(K)基因产量K–1级包含至少两个基因的内部节点,以及K(K)包含单个基因的叶节。根节点包含所有K(K)基因。这里提出的算法的目标是“修剪树”,或者更确切地说是选择节点的子集,S公司,这样每个基因都包含在一个选定的节点中(图。(图1)。1). 我们的剪枝策略的目标是根据科学文献最大化每个选定节点中基因的功能相关性。为此,我们选择节点,以使基于文献的NDPG功能一致性得分的加权平均值最大化。如果使用替代功能相干度量,则此方法也适用。

不相交节点集的NDPG加权平均S公司,定义为:

保存图片、插图等的外部文件。对象名称为gkg636eq1.gif

哪里(f)是节点的NDPG得分、和K(K)是基因的总数。平均值由节点中的基因数加权,n个。我们的算法选择不相交的节点S公司这样方程1就最大化了。该算法的关键见解是,如果一个节点位于最优集,那么该节点的NDPG得分必须超过其子节点的任何不相交集的加权平均NDPG分数。

我们的算法有三种状态,节点可以处于:未到访的,已访问挑选出来的运行算法后,所选节点的集合构成最终集合S公司集群;其余节点将位于已访问状态。

表中总结了算法表1。1。最初,所有内部节点都是未到访的并选择终端叶。修剪算法进行迭代,访问未到访的其子代位于已访问挑选出来的国家;节点的状态更改为已访问如果该节点的功能一致性得分等于或超过其加权平均值挑选出来的子代,它被放置在挑选出来的状态及其所有挑选出来的后代被取消选择并放置在已访问状态。重复该过程,直到检查完根节点之前的所有节点;仍然存在的节点挑选出来的定义最终一组群集,使整个层次树的NDPG加权平均值最大化。

表1。

定义集群边界的算法
保存图片、插图等的外部文件。对象名称为gkg636tb1.jpg

节点的NDPG得分表示为(f); 集群中的节点数为n个。节点的后代集处于选定状态时选择(i).

文献参考指数

NDPG计算需要将每个PubMed摘要与基因连接起来的参考指数。对于酵母,我们从酵母基因组数据库(SGD)中获得了该指数(23).

苍蝇数据集包含4040个表达序列标签(EST)的表达测量;其中4032个对应于3987个已知的不同蝇类基因。Flybase的可用参考索引仅包含PubMed对数据集中3987个独特的苍蝇数据集基因中1681个的参考(24). 我们通过在苍蝇、小鼠和酵母中寻找与基因蛋白产品的蛋白质序列最相似的有良好记录的基因,然后转移其参考,从而增加了该参考指数。我们能够将3962个苍蝇数据集基因与来自SWISS-PROT或SPTREMBL的蛋白质序列相关联。然后,我们通过Flybase、SGD或小鼠基因组数据库(MGD)指定的五个或更多PubMed参考,鉴定了苍蝇、酵母和小鼠中的所有基因;这就构成了我们的一组有充分记录的基因。我们从相同的数据库中获得了所有这些基因的蛋白质序列。然后,对于这3962个苍蝇数据集基因蛋白质序列中的每一个,使用BLAST来找到与苍蝇、酵母或小鼠基因相对应的单个最相似且记录良好的蛋白质序列。如果相似性的e值分数小于1×–6。如果e值大于此任意阈值,我们不会传输引用,因为相似性可能表示局部或虚假相似性。

分层聚类

对于所有数据集,我们使用基因表达分析软件Cluster创建层次聚类(10). 酵母基因表达数据集最初由Eisen及其同事发布,由八个独立的实验系列汇编而成的79种不同条件组成(10). 对2467个基因进行了表达测量。为了创建数据的聚类树状图,我们使用带中心相关度量选项的平均连锁聚类来计算基因间距离。在基因间距离计算中,根据原始出版物中介绍的方案对条件进行差异加权;每个条件都用该系列条件数的平方根进行加权。

苍蝇基因表达数据集包括在85种条件下测得的4040个EST,其中75个是野生型发育时间序列的一部分,4个按性别分离,5个涉及特定基因突变。为了创建数据的聚类树状图,我们使用带无中心相关度量选项的平均连锁聚类来计算基因间距离。

我们将簇的紧密性定义为融合形成该簇的两个节点之间的相关性。

利用科学文献对相关功能的基因簇进行评分

为了自动评分簇中包含的一组基因与科学文献的相关性,我们使用NDPG方法;该方法的细节和验证及其评估在其他地方提供(19,20). 基于科学文献,该方法分配一个正信息理论分数,该分数与一组具有共同功能的基因数量成正比。在由于统计能力有限而太小的基因组中,很难检测相关性。此外,过大的连贯基因群可能共享的功能过于广泛,而不会引起普遍关注。因此,在这项研究中,含有少于6个或多于200个至少有一个参考基因的组被分配为零分。

NDPG需要一个参考索引,将基因与文章以及文章摘要的文本联系起来。摘要来自PubMed数据库;只使用了标题和抽象字段。

给定摘要的文本,NDPG为每个摘要标识N个大多数相似的摘要,或语义邻居,基于摘要之间的词汇使用相似性。这里我们用过n个=19,但n个=199产生了类似的结果。NDPG利用两个反向文档频率加权文章抽象词向量之间的余弦角量化两个文档之间的相似性。

然后,给定一组基因和参考指数,NDPG通过计算其也引用组基因的语义邻居的数量,对每个参考摘要与给定基因组的总体相关性进行评分。对于组中的每个基因,如果基因组是随机的,则将其文章的分数与预期的分数分布进行比较。每个基因与亚组的功能相关性被评分为其文章分数和随机分布之间的KL-divergence。该组的NDPG得分是该组所有基因的平均差异。

GO注释

对于酵母,GO注释来自http://www.geneontology.org用作金本位。GO是一个基因功能术语的层次词汇表,其中更通用的父术语具有更具体的子术语。对于每个GO代码,定义了一个功能组,该功能组包含(i)以该代码作为注释的所有基因,以及(ii)以该编码的后代作为注释的全部基因。我们使用了2002年1月23日发布的GO组件本体,2002年1月刊登的GO过程和功能本体,以及2002年1月份24日发布的酵母GO基因关联。为了评估集群与功能组的一致性或重叠,我们使用了以下公式:

保存图片、插图等的外部文件。对象名称为gkg636equ2.gif

在哪里?G公司是GO功能组C类是解决边界后产生的基因簇。这是集群或GO功能组中同时存在的基因百分比。

结果和讨论

酵母数据集分析

从SGD获得的文献参考指数可用于数据集中2467个基因中的2394个(97%)。共有40351篇参考文献涉及17858篇文章。每个基因的平均参考文献数为八篇,平均参考文献为16.9篇。每个基因的文章参考文献分布是倾斜的;有几篇文章有很多参考文献。该数据集的优点是包含在科学文献中覆盖率很高的基因。

酵母基因表达数据集的分层聚类产生总共2466个包含两个或更多基因的内部节点;SGD文献参考索引和文章摘要语料库的可用性允许NDPG评估每个节点的功能连贯性。这里我们使用GO官能团重叠作为功能连贯性的独立度量。100%的重叠表示GO功能组和节点包含相同的基因,并且节点在功能上是一致的,而0%表示功能组与节点之间没有共享基因。在图中图2A,2A、 我们表明,基于文献的节点NDPG评分可以预测其与GO功能组的对应程度(非参数Spearman-Bank相关性第页= 0.81). 因此,选择具有较大NDPG组的节点将导致选择基因共享共同功能的节点。

保存图片、插图等的外部文件。对象名为gkg636f2a.jpg
保存图片、插图等的外部文件。对象名为gkg636f2b.jpg
保存图片、插图等的外部文件。对象名为gkg636f2c.jpg
保存图片、插图等的外部文件。对象名为gkg636f2d.jpg

NDPG评分与聚类功能一致性相关。(A类)在将酵母基因表达数据聚类到2466个节点后,我们在x个-轴和与GO功能组在-轴。黑色圆圈表示通过计算方法选择的节点。(B类)与(A)类似,除了我们绘制了NDPG得分以及与GO功能组的最高百分比一致性,该功能组包含苏氨酸内肽酶基因。算法选择的簇是黑色圆圈;其他点表示作为所选节点的祖先和后代的节点,其中包含所选节点中基因的子集或超集。(C类)包含以下内容的节点的类似绘图热休克基因。()包含以下内容的节点的类似绘图细胞质核糖体基因。

通过最大化总NDPG加权平均值定义尊重生物功能的簇边界,选择369个非重叠节点作为最终簇。这些节点在图中用黑圈表示图2A。2A.图图2B,2B、 C和D分别将三个选定节点绘制为对应于生物功能的黑色圆圈:苏氨酸内肽酶,热休克细胞溶质核糖体分别是。这些图中的其他点对应于所选节点的祖先或后代的其他节点;这些节点包含所选节点中基因的子集或超集。所选节点通常与GO功能组的一致性比同一图中几乎所有其他节点的一致性更高;这些节点可能已经被选中。

我们根据NDPG得分对集群进行排名;在图中图3我们列出了前20个集群。为了评估所选基因是否为基因的真正功能群,我们检查了它们与GO定义的任何功能群的对应程度。与集群一起列出的是最佳对应的GO代码,以及该GO代码与集群之间重叠的图形描述。数据集原始出版物中提到的10个功能簇中有9个包含在我们的列表中,还有其他功能簇(10). 这些功能包括苏氨酸内肽酶,ATP合成偶联质子反应,依赖ATP的DNA解旋酶,核小体,电子输运,3-磷酸甘油醛脱氢酶,细胞溶质核糖体,线粒体核糖体三羧酸循环其他描述的组也包含功能相关基因,但未在原始出版物中描述,如信息素反应、热休克蛋白和核仁。

保存图片、插图等的外部文件。对象名称为gkg636f3.jpg

按基于文献的功能一致性排序的前20个酵母基因簇。为了检查这些簇是否对应于具有共享功能的基因组,我们将这些簇与酵母GO代码关联。在图的左侧,我们列出了每个簇基于文献的NDPG得分以及簇内基因的数量。在右边,我们列出了最适合集群的GO代码。图中绿色条的长度与簇中的基因数量成正比,这些基因也被分配了右边列出的GO功能。黄色条的长度与未被GO分配相应功能的簇中基因的数量成正比。蓝色条的长度与分配给GO功能但不在该簇中的其他基因的数量成正比。绿色条越长,集群就越能代表该特定功能。

值得注意的是,对于许多功能组,重叠百分比低估了基因组的功能相关性。例如,第11个列出的集群与甘油醛s-3-磷酸脱氢酶(G3PD)GO编码,但簇中的非G3PD基因是其他密切相关的糖酵解基因。

飞行数据集分析

从Flybase获得的初始文献参考指数包含数据集中3987个基因中1681个(42%)的主要参考。共有30622篇参考文献涉及11070篇文章。每个基因的平均参考文献数为三篇,平均参考文献为18.2篇。

在包含同源基因转移参考的增强参考指数中,3987个基因中有2602个(65%)具有参考。共有77 509篇参考文献涉及29 115篇文章。每个基因的平均参考文献数为8篇,平均参考文献为29.8篇。

通过最大化NDPG加权平均值定义簇边界,选择525个非重叠节点作为最终簇。许多定义的簇对应于定义明确的生物功能,例如感光基因,蛋白质降解,蛋白质合成,肌肉功能,柠檬酸循环质子运输(表(表2)。2). 图中以图形方式描述了列出的一些集群图4;4; 其他内容见补充材料。这些聚类中的大多数与原始数据出版物中描述的聚类完全或接近(4). 对这些进行了详细讨论,并通过就地该出版物中的杂交和突变实验。

保存图片、插图等的外部文件。对象名为gkg636f4.jpg

四个来自苍蝇发育时间过程的基因表达簇示例,其边界由科学文献定义。基因表达条件在顶部用E(胚胎)、L(幼虫)、P(蛹)、M(成年雄性)和F(成年雌性)标注。在右侧,基因按FlyBase ID和名称列出(如果可用)。在最右边,我们列出了该基因的适当GO代码注释(如果可用)。(A类)母核基因。原始出版物中未识别出该集群。(B类)感光基因。我们发现了两个独立的光感受器簇,正如原始出版物的作者所做的那样。(C类)柠檬酸循环基因。这些基因中的大多数尚未被研究。利用序列同源性获得额外的参考文献使鉴定这组基因成为可能。原始出版物中确定了一个相关但范围更广的集群。()肌肉特异性基因。在原始出版物中发现了一个类似但更广泛的簇,其中包含更多未知基因。

表2。

飞行功能集群
NDPG得分紧密度n个功能
22.50.937母核表达
20.50.847液泡ATP酶
8.30.797感光器
6.70.7141蛋白酶体
6.60.718液泡ATP酶
6.50.847T型环复合体
60.8110TCA循环
5.20.847细胞粘附
50.8134核糖体
4.80.747囊泡运输-配体
4.80.5812 
4.10.929肌肉
4.10.7013 
3.90.727 
3.70.8922严格的母亲
3.70.857感光器
2.90.8210 
2.70.2912 
2.70.3312 
2.70.6812 

这里列出了使用NDPG在飞行开发时间序列的分层聚类上定义边界后获得的功能聚类。这里我们列出了按NDPG得分排序的前20个集群。还列出了簇中基因的数量、簇的紧密性以及原始数据出版物中是否报告了相似或相同的簇。我们列出了一个合适的聚类函数,如果它很明显的话。补充材料中对集群进行了更详细的描述。

一个以前没有提到的新簇代表了主要定位于核仁的未经特征化的母体表达基因;该功能集群未在原始出版物中确定,在所选节点中NDPG得分最高(图。(图4A)。4A) ●●●●。从表达谱中可以明显看出这些基因的母体表达:在雌成虫和胚胎中可以看到转录物,但在雄成虫中看不到。这些基因可能构成发育调控蝇基因的一个有趣的生物模块。该集群中只有两个基因得到了很好的研究,每个基因都在FlyBase中列出了五篇主要论文。已经证明这两个基因,即Fbgn0029196(Nop5)和FBgn0023184(Nop60B)基因,实际上是定位于核仁的母体表达基因(25,26). FBgn0038964(Nop56)基因只有一个初级文件表明它是核仁基因(27). Fbgn0029148(NHP2)和Fbgn0039627基因没有原始论文,但有GO注释。FlyBase引用非竞争性作者陈述作为证据,将Fbgn0029148基因指定为核仁GO编码;FlyBase通过序列相似性将Fbgn0039627基因指定为rRNA修饰GO编码。两个基因Fbgn0033485(CG1381)和FBgn0039275(CG33095)是未经标记的基因,没有任何原始文献或GO注释。

大约一半标记功能簇的正确分辨率,包括图中的核仁母簇图4A,4A、 由于已发表的关于飞行基因的主要文献很少,因此需要使用增强参考指数。

了解非特征化基因

基因表达分析的主要目标之一是将功能归于未知基因,并基于基因共表达识别新功能。如果一个功能未知的基因位于一个功能连贯的簇中,它可能与簇中其他基因的共同功能相同。实验随访是必要的,以确认假定的基因功能。此外,对簇外未研究基因的详细检查可能会富有成效,因为它们也可能共享簇功能。

例如,图图4D4D似乎是一组肌肉基因。其中一些基因尚未被明确注释为肌肉表达基因,但很可能是候选基因。糖原Fbgn0034603最近被证实是一种肌肉特异性基因就地杂交(4). 此外,其他推测的肌肉基因也得到了证实,这些基因就在这个集群之外。类似地,图中所示的集群图4A4A由母体表达的位于核仁的基因组成;它包含两个完全没有特征的基因。Fbgn0033485(CG1381)和FBgn0039275(CG33095)基因可能与簇中的其他基因共享功能。寻找遗传相互作用或免疫定位研究的实验随访可以证实这些基因的功能。此外,Fbgn0029148和Fbgn0039627基因有GO注释,这是基于缺乏证据,已经支持它们是核仁母基因的可能性;实验验证可以证实这种可能性。

评估基因组的功能一致性

当我们评估NDPG时,在区分功能基因组和随机基因组的99.9%特异性方面,它在酵母中的敏感度为96%,在苍蝇中的敏感率为82%(20). 我们还发现,这种(可能还有其他)基于文献的方法的局限性之一是,某些生物的某些生物功能尚未在文献中进行研究和报道。例如,许多基因的细胞和代谢功能在酵母中比在苍蝇或小鼠中表现得更好。因此,在许多情况下,如我们在这里所做的那样,从其他模式生物的研究丰富的同源基因中转移参考可能是必要的,以获得完整的分析。此外,群体的得分也与文献中对其所体现的功能的描述程度有关。

由于摘要信息有限,我们认为通过包含科学文章全文和引文信息,有可能进一步提高性能。

一旦根据我们的方法对功能相关的基因组进行了划分,下一个挑战就是识别该组所代表的共同功能。一些小组提出了算法,可以自动识别基因组的关键字,这些关键字可以从有关基因的文本中描述基因组的功能(2830). 由于NDPG对与群体统一生物功能相关的文章进行评分,我们可以通过只包含最相关的文章来提高这些方法的性能。

这里提出的聚类边界定义方法可以有效地对依赖于科学文本或其他知识资源(如基因本体注释)的功能一致性进行替代评分。评分系统的首选标准是:(i)包含具有共享功能的所有基因的基因组应比随机组获得更高的分数;(ii)两个不相关的连贯组的组合得分较低;(iii)随着基因在群体共享功能中所占比例的增加,得分应稳步增加;和(iv)大连贯组的得分不应始终高于或低于小功能连贯组。

分层聚类

分层聚类可以通过多种不同的方式实现(例如平均链接、中心链接等),其中一种是广泛的度量标准(例如欧几里德、曼哈顿、折刀式等)。在本研究中,我们不希望明确评估分层聚类实现的选择。我们尝试使用与原始出版物尽可能一致的方法,以便我们的结果具有可比性。然而,可以使用NDPG加权平均值最大化来选择簇边界,以评估不同层次聚类实现的输出并选择最佳实现。更好的实现将产生更容易分割成尊重生物功能的簇的层次树。与对特定数据集效率较低的实现生成的树相比,这种分层树的总最大化NDPG加权平均值更高。

目标簇边界定义

基因表达阵列项目中劳动最密集的部分是识别生物相关簇和优化簇边界。这项任务很困难,而且往往是武断的,需要费力的步骤来收集集群内基因的信息,确定一个共同的生物过程,并在集群周围绘制一条边界线。这种方法不仅使用研究人员可以手动访问的相同源文献自动识别生物相关数据,以进行相同的比较,而且还可以在给定生物功能的最高浓缩水平上创建每个簇的优化版本。这种方法不仅几乎完全重现了由从事酵母和苍蝇研究的科学家团队通过数月的实践、一次一个基因的工作所发现的生物学相关关联,而且还能够识别出主要研究人员遗漏的新簇。此外,这种方法能够在几个小时内完成这项任务。这种方法将使研究人员能够显著简化从堆积如山的实验数据中开始产生意义所需的数据分析量。

补充材料

补充材料可在NAR Online上获得。

【补充资料】

鸣谢

作者感谢SGD、Flybase和MGD访问他们的文献资源。R.B.A.由NIH 3-U01-GM-61374支持;SR由NIH GM-07365支持。

参考文献

1Alizadeh A.A.,Eisen,M.B.,Davis,R.E.,Ma,C.,Lossos,I.S.,Rosenwald,A.,Boldrick,J.C.,Sabet,H.,Tran,T.和Yu,X.(2000)通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型。自然,403, 503–511. [公共医学][谷歌学者]
2Bittner M.、Meltzer P.、Chen Y.、Jiang Y.、Seftor E.、Hendrix M.、Radmacher M.、Simon R.、Yakhini Z.、Ben-Dor A。(2000)通过基因表达谱对皮肤恶性黑色素瘤进行分子分类。自然,406, 536–540. [公共医学][谷歌学者]
三。Golub T.R.、Slonim,D.K.、Tamayo,P.、Huard,C.、Gaasenbeek,M.、Mesirov,J.P.、Coller,H.、Loh,M.L.、Downing,J.R.、Caligiuri,M.A。.(1999)癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学类,286, 531–537. [公共医学][谷歌学者]
4Arbeitman M.N.,Furlong,E.E.,Imam,F.,Johnson,E.,Null,B.H.,Baker,B.S.,Krasnow,M.A.,Scott,M.P.,Davis,R.W.和White,K.P.(2002)黑腹果蝇.科学类,297, 2270–2275. [公共医学][谷歌学者]
5Zou S.,Meadows,S.,Sharp,L.,Jan,L.Y.和Jan,Y.N.(2000)《衰老和氧化应激反应的全基因组研究》黑腹果蝇.程序。美国国家科学院。科学。美国,97, 13726–13731.[PMC免费文章][公共医学][谷歌学者]
6.Hughes T.R.、Marton M.J.、Jones A.R.、Roberts C.J.、Stoughton R.、Armour C.D.、Bennett H.A.、Coffey E.、Dai H.、He Y.D。(2000)通过表达谱简编进行功能发现。单元格,102, 109–126. [公共医学][谷歌学者]
7.Roberts C.J.、Nelson B.、Marton M.J.、Stoughton R.、Meyer M.R.、Bennett H.A.、He Y.D.、Dai H.、Walker W.L.、Hughes T.R。(2000)全球基因表达谱矩阵揭示的多重MAPK通路的信号和电路。科学类,287, 873–880. [公共医学][谷歌学者]
8Altman R.B.和Raychaudhuri,S.(2001)《全基因组表达分析:集群之外的挑战》。货币。操作。结构。生物学。,11, 340–347. [公共医学][谷歌学者]
9Sherlock G.(2000)大规模基因表达数据分析。货币。操作。免疫学。,12, 201–205. [公共医学][谷歌学者]
10Eisen M.B.、Spellman,P.T.、Brown,P.O.和Botstein,D.(1998)全基因组表达模式的聚类分析和显示。程序。美国国家科学院。科学。美国,95, 14863–14868.[PMC免费文章][公共医学][谷歌学者]
11Yandell M.和Majoros,W.(2002)基因组学和自然语言处理。《自然·遗传学评论》。,, 601–610. [公共医学][谷歌学者]
12.Raychaudhuri S.,Chang,J.T.,Sutphin,P.D.和Altman,R.B.(2002)使用生物医学文献的最大熵分析将基因与基因本体代码相关联。基因组研究。,12, 203–214.[PMC免费文章][公共医学][谷歌学者]
13Tamames J.、Ouzounis,C.、Casari,G.、Sander,C.和Valencia,A.(1998)EUCLID:通过数据库注释对功能类蛋白质进行自动分类。生物信息学,14, 542–543. [公共医学][谷歌学者]
14Eisenhaber F.和Bork,P.(1999)使用生物规则库评估生物分子序列数据库中的人类可读注释。生物信息学,15, 528–535. [公共医学][谷歌学者]
15Fleischmann W.、Moller,S.、Gateau,A.和Apweiler,R.(1999)蛋白质自动功能注释的新方法。生物信息学,15, 228–233. [公共医学][谷歌学者]
16Chaussabel D.和Sher,A.(2002)通过文献分析挖掘微阵列表达数据。基因组生物学。,,研究0055.1–0055.16。[PMC免费文章][公共医学][谷歌学者]
17Jenssen T.K.、Laegried,A.、Komorowski,J.和Hovig,E.(2001)用于高通量基因表达分析的人类基因文献网络。自然遗传学。,28, 21–28. [公共医学][谷歌学者]
18Horimoto K.和Toh,H.(2001)基因表达谱数据中簇边界的统计估计。生物信息学,17, 1143–1151. [公共医学][谷歌学者]
19Raychaudhuri S.、Schütze、H.S.和Altman,R.B.(2003)在多维数据集分析中纳入文本文档:应用于基因表达数据。机器学习。,52, 119–145.[谷歌学者]
20Raychaudhuri S.和Altman,R.B.(2003)评估基因组功能一致性的基于文献的方法。生物信息学,19, 396–401.[PMC免费文章][公共医学][谷歌学者]
21Raychaudhuri S.,Schütze,H.S.和Altman,R.B.(2002)科学文献的文本分析可以自动确定一组基因是否具有共同的生物功能。基因组研究。,12, 1582–1590.[PMC免费文章][公共医学][谷歌学者]
22Ashburner M.、Ball、C.A.、Blake、J.A.、Botstein、D.、Butler、H.、Cherry、J.M.、Davis、A.P.、Dolinski、K.、Dwight、S.S.、Eppig、J.T。(2000)基因本体:生物学统一的工具。基因本体联盟。自然遗传学。,25, 25–29.[PMC免费文章][公共医学][谷歌学者]
23Cherry J.M.、Adler C.、Ball C.、Chervitz S.A.、Dwight S.S.、Hester E.T.、Jia Y.、Juvik G.、Roe T.、Schroeder M。.(1998)SGD:酵母基因组数据库。核酸研究。,26, 73–79.[PMC免费文章][公共医学][谷歌学者]
24Gelbart W.M.、Crosby M.、Matthews B.、Rindone W.P.、Chillemi J.、Russo Twombly S.、Emmert D.、Ashburner M.、Drysdale R.A.、Whitfield E。(1997)FlyBase:a果蝇属数据库。FlyBase财团。核酸研究。,25, 63–66.[PMC免费文章][公共医学][谷歌学者]
25Vorbuggen G.,Onel,S.和Jackle,H.(2000)限制性表达和亚核定位果蝇属基因Dnop5是保守rRNA加工因子Nop/Sik家族的成员。机械。开发。,90, 305–308. [公共医学][谷歌学者]
26Phillips B.、Billin A.N.、Cadwell C.、Buchholz R.、Erickson C.、Merriam J.R.、Carbon J.和Poole S.J.(1998)果蝇属编码一种在酵母中起作用的必需核仁蛋白。分子遗传学。,260, 20–29. [公共医学][谷歌学者]
27Garcia-Planells J.、Paricio,N.、Palau,F.和de Frutos,R.(2000)Dnop56,a果蝇属与酵母核仁NOP56基因同源的基因。Genetica(遗传学),109, 275–282. [公共医学][谷歌学者]
28Andrade M.A.和Valencia,A.(1997)通过从MEDLINE摘要中提取关键词对生物序列进行自动注释。原型系统的开发。程序。国际竞争情报。系统。分子生物学。,5, 25–32. [公共医学][谷歌学者]
29Iliopoulos I.、Enright,A.J.和Ouzounis,C.A.(2001年)《文本探索:用于分子生物学概念发现的Medline摘要的文档聚类》。派克靴。交响乐团。生物计算机。,90, 384–395. [公共医学][谷歌学者]
30Shatkay H.、Edwards,S.、Wilbur,W.J.和Boguski,M.(2000)《基因、主题和微阵列:使用信息检索进行大规模基因分析》。程序。国际竞争情报。系统。分子生物学。,8, 317–328. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社