跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2002年10月1日;99(20):12783–12788。
2002年8月26日在线发布。 数字对象标识:10.1073/pnas.192159399
预防性维修识别码:PMC130537型
PMID:12196633
来自封面

通过基因表达数据的最短路径分析进行传递功能注释

摘要

目前微阵列基因表达数据的功能分析方法都隐含着这样的假设,即具有相似表达谱的基因在细胞中具有相似的功能。然而,在参与同一生物途径的基因中,并非所有的基因对都表现出高表达相似性。在这里,我们提出基因间的传递性表达相似性可以作为连接相同生物途径基因的重要属性。基于大规模酵母微阵列表达数据,我们使用最短路径分析来识别来自同一生物过程的两个给定基因之间的传递基因。我们发现,不仅识别出了具有相关表达谱的功能相关基因,还识别出了那些没有关联表达谱的基因。在后一种情况下,我们将我们的方法与层次聚类进行了比较,表明我们的方法可以更精确地揭示基因之间的功能关系。最后,我们证明了我们的方法可以用于从位于相同最短路径上的已知基因中可靠地预测未知基因的功能。我们分配了146个酵母基因的功能,这些基因被认为是未知的酵母菌属基因组数据库和酵母蛋白质组数据库。这些基因约占未知酵母ORFome的5%。

DNA微阵列同时监测数千个基因的表达水平。大量的基因表达数据为我们分析基因之间的功能和调控关系提供了独特的机会。一种有用的方法是将具有相似表达模式的基因聚类。最流行的聚类方法包括层次聚类(1),K(K)-意味着聚类(2)和自组织映射(). 假设具有相似表达谱的基因具有相似的生物学功能,则可以根据未知基因与已知基因的表达相似性来预测其功能(1,4).

然而,功能相似的基因总是有相似的表达谱吗?当然,答案是否定的。首先,具有相似功能的基因可能没有受到足够的扰动,从而无法揭示其表达相似性。其次,对于一些具有类似功能的基因,它们的产物浓度部分或完全控制在转录以外的水平。第三,表达相似性的测量——例如,皮尔逊相关性或欧几里德距离——可能无法完全捕获两个表达谱之间的关系,原因包括时间偏移(5). 因此,为了确定基因之间的功能关系,我们需要超越聚类方法。在本文中,我们提出了一种方法来对参与相同生物过程的基因进行分组,即使是那些没有显著表达相似性的基因。

首先,我们介绍了生物过程的一个重要特征,我们称之为传递性共表达直觉上,这指的是两个基因在表达上没有强相关,但都与同一组其他基因强相关的情况。在最简单的情况下,假设基因b条有很强的表达相关性,以及基因b条c(c)然而,基因c(c)没有很强的表达相关性,所以我们说它们是与基因传递性共表达的b条担任传递基因很明显,在生物途径中,一个基因可能与其相邻基因表现出很强的表达相关性,但与该途径中相距很远的基因不存在表达相关性。这种相关性的缺乏可能是由各种原因造成的。例如()一些生物过程在时间上被延长,例如细胞周期,从而揭示了在过程中不同时间点的表达关系。利用传递性共表达,我们可以在这些基因之间建立联系,以揭示完整的途径。(ii(ii))细胞的遗传和生物化学网络必须承受大量的随机扰动。基于效率原则,负反馈回路等机制限制了在表达中波动的基因数量。因此,不同的实验组在不同程度上干扰了生物途径的不同片段,从而在实验中以分区的方式揭示了沿着该途径的基因之间的表达关系。这种被划分的通路片段可以通过重叠的基因通过传递性共表达进行关联,从而揭示生物通路的整体。

已知两个基因参与同一生物途径,识别它们之间的传递基因可以让我们发现参与同一生物学过程的基因。在这里,我们提出了一个图表理论方案来识别这种传递基因。在我们的图中,顶点代表基因,每个在表达上高度相关的基因对都与一条边相连,其中边长度是表达相关性的递减函数(图。(图11A类). 给定这样的图,两个基因之间可能存在多条表达依赖路径,例如基因之间e(电子)这些路径中的最短路径(最短路径,SP)将是对e(电子),给出了我们的表达式数据。如果基因e(电子)高度相关,它们之间最短的依赖路径就是连接它们的边;如果它们没有显著相关性,但参与了相同的通路,那么我们仍然可以通过构建它们之间的最短依赖通路来发现它们的表达关联。SP上的传递基因可能是同一过程中两个末端基因之间的重要中间参与者。

保存图片、插图等的外部文件。对象名称为pq1921593001.jpg

(A类)最短路径(SP)算法在基因表达数据中的应用。图中描绘了九个基因。两个基因之间的距离是其相关性的递减函数。例如,有多种表达依赖性途径由基因引导到基因e(电子)。其中,最短依赖路径为a–b–c–d–e,带有基因b条,c(c)、和d日担任传递基因这是对末端基因之间表达关系的最简约的总结e(电子). (B类)SP上基因的0级(L0)和1级(L1)匹配a–b–c–d–e根据它们在基因本体(GO)分类树中的关系定义。关于终端基因e(电子),传递基因b条是L0匹配,因为它在信息节点中进行了注释,其中e(电子)注释;传递基因c(c)是L1匹配,因为它与两个末端基因共享同一直接亲本;传递基因d日既不是L0也不是L1匹配。

在本文中,使用酵母表达数据,我们首先验证了SP方法能够链接功能相关的基因,即使没有高表达相关性,并且表明结果具有高度统计意义。此外,我们将其与层次聚类进行了比较,以表明我们的方法可以更准确地揭示基因之间的功能关系。最后,考虑到我们的方法可以将功能相关的基因组合在一起,我们根据同一SP上已知基因的功能对未知基因的功能进行预测。我们对146个未知酵母基因进行了预测,其中有大量的预测得到了除我们使用的数据以外的证据的支持。

方法

数据处理。

我们使用了酿酒酵母《罗塞塔纲要》中的基因表达谱(6)其中包括300个删除和药物治疗实验。利用基因本体的生物过程本体对基因进行注释(7)由提供酵母菌属基因组数据库(SGD)(8). 为了验证同一SP上的基因可能参与同一生物过程,我们将我们的方法应用于罗塞塔数据集,并将结果与线粒体、细胞质和细胞核这三个主要细胞区室中GO注释的生物过程进行了比较。基因是根据其亚细胞定位来分离的,因为有时GO过程类别实际上可能包含不同的过程。虽然性质相似,但这些过程可能发生在不同的细胞隔室中,因此不一定受到严格的调控。例如,“蛋白质生物合成”可以发生在线粒体和细胞质中,不同隔室中的“膜转运”过程是不同的。我们通过将基因分为三个主要的细胞隔室来细化过程类别。

在删除没有GO过程注释的基因和《罗塞塔纲要》中实验测量值少于80的20个基因后,我们剩下266个线粒体、398个细胞质和659个核GO注释基因。对于三组基因中的每一组,我们计算了所有基因对的表达相似性{,b条}使用C类a、 b条,最小的绝对值的离开皮尔逊相关系数估计。该估计值对单个实验异常值具有鲁棒性,并且对表达模式的总体相似性敏感。

图形构造和SP计算。

我们构建了三个图形,分别对应266个线粒体基因、398个细胞质基因和659个核基因。在每个图中,如果两个基因的绝对表达相关性,则为其分配一条边C类a、 b条大于τ=0.6。虽然这种截断是保守的,但在图中仍然保留了足够数量的连接基因对。顶点之间的边长度b条d日a、 b条=(f)(C类a、 b条) = (1 −C类a、 b条)k个.功率因数k个用于增强低相关性和高相关性之间的差异。由于路径的长度是单个边缘长度的总和,通过夸大边缘长度之间的差异,SP更有可能覆盖更多的传递基因。因此,通过增加k个我们获得了更多的权力来揭示传递性共同表达。我们设置了k个=6,因为k个≥6,传递基因的数量稳定(详细结果见www.biostat.harvard.edu/compab/SP/). 为了确保SP的质量,我们只考虑总路径长度<0.008的SP。

我们使用Dijkstra算法来识别图中源顶点与所有其他顶点之间的SP。Dijkstra算法的中心思想是“松弛”操作,它基于SP的每个子路径也是SP这一事实。图11A类,假设是这样是源顶点,并且我们已经从中获得了SPd日通过b条c(c).通过放松每个边缘离开d日我们尝试查看SP来自何处可以直接到达的所有其他顶点d日,尤其是顶点e(电子)。如果路径来自e(电子)通过d日短于当前的最佳SP估计e(电子),则将该估计更新为新路径。Dijkstra算法的详细介绍可以在参考文献中找到。9以及其他算法教科书。利用图的稀疏性,我们用Fibonacci堆实现了顶点的优先级队列,以实现O(运行)[n个日志(n个) +]时间复杂性,其中n个是顶点数是图形中的边数。要确定从开始的SPv(v)源顶点,我们将Dijkstra的算法应用于每个v(v)顶点。因此,总体时间复杂度为O(运行)[无价值日志(n个) +毫伏].

分析同一生物过程中两个基因之间的SP。

GO是一组受控的生物词汇,组织在有根有向无环图中。就我们而言,它可以被视为一棵树。树中的节点是指生物过程类别。父节点引用的注释比其子节点的注释更通用。SGD用GO树中的一个或多个节点注释每个已知酵母基因。从所有可用注释中,我们希望选择那些不包含太多基因以保证成员基因功能同质性的过程类别,以及不包含太少基因以提供足够数量的基因用于验证的过程类别。使用类似于Hvidsten建议的方法等。(10),我们通过从根开始遍历树宽度并选择满足以下属性的节点,从GO中检索此类流程类别()节点包含超过γ=30个基因和(ii(ii))每个节点的子节点包含的γ基因少于。我们将此类GO节点定义为信息节点以及它们所代表的生物过程类别信息性类别.

为了测试SP方法的有效性,我们需要查看同一SP上的基因是否共享相同的GO过程注释。给定来自同一信息处理类别的任意两个基因(末端基因),我们确定是否有SP连接它们。如果SP包含一个或多个传递基因,我们检查这些基因的GO过程注释。传递基因被称为级别0(L0)匹配,如果它在GO树中的信息节点中注释,则从中选择终端基因;它被称为第1级如果它与终端基因共享相同的直接父节点,则(L1)匹配(图。(图11B类). 对于连接每个信息类别中所有基因对的所有SP,我们计算传递基因的总数以及L0和L1匹配的数量。对于每个细胞隔室,我们对其信息类别的结果进行汇总,并计算L0和L1相对于传递基因总数的匹配率。

使用置换测试来评估SP的统计显著性。

为了验证SP方法,我们需要评估L0和L1匹配的数量,并考虑到零假设下预期的此类匹配的数量。保持图形结构不变,我们在顶点上随机排列基因标签,以将基因注释与其表达谱解耦。然后,我们对这些图执行SP方法,并计算L0和L1匹配比率。这是在1000次迭代中完成的。将零假设下生成的L0和L1匹配比的分布与观测值进行了比较。这个P(P)由此得出的值为我们评估SP方法根据微阵列数据揭示基因间生物关系的能力。

预测未知基因的功能。

我们使用SP方法,通过将3255个SGD未知的ORF添加到线粒体、细胞质和核室中已知基因的图形中,对之前未标记的酵母基因进行分类。如前所述,如果两个基因的绝对表达相关性高于0.6,则在这两个基因之间构建一条边。对于所有已知基因对,我们确定连接它们的SP。为了功能预测的目的,我们希望为基因分配一个尽可能特异的假定功能。给定SP上的所有已知基因,我们通过沿着GO过程树追溯它们的注释并找到它们最低的共同祖先来实现这一点。如果最低祖先节点至少在GO树的根下4级,即它定义了一个足够特异的基因功能,那么我们将该功能分配给SP上的未知基因。类似于L0和L1匹配,这里L0预测对应于最低共同祖先,以及L1预测到其直接父项。这样,由最低公共祖先表示的函数可以比由信息节点定义的函数更具体。在两种情况下,未知基因可能具有多种功能:()由于SP上的已知基因可能每个都有多种功能,因此它们可能共享GO树中几个最低的共同祖先。(ii(ii))未知基因可能存在于具有不同最低共同祖先的不同SP中。对于每个预测的基因功能,我们提供了支持SP从中得出预测,以及这些支持SP的唯一已知基因的数量(支持基因). 支持基因越多,我们对相应的预测就越有信心。请注意,一个基因可以在多个图形中指定假定的功能,因为已知许多基因在多个细胞隔室中发挥作用。

结果

SP方法将参与同一生物过程的基因聚类。

我们为线粒体(266个基因)、细胞质(398个基因)和细胞核(659个基因)中带有GO过程注释的所有酵母基因构建了图表。使用中定义的程序方法,我们在线粒体、细胞质和细胞核的图形中分别获得了4个、8个和22个基因的信息GO类别。这些信息类别中的基因数量从31个到174个不等。在每个图中,给定属于同一信息GO过程类别的任意两个基因,我们确定连接它们的SP。我们检查SP上传递基因的GO过程分类,以确定L0和L1匹配,如中所述方法.

对于每个隔间,我们总结了图中的结果。图22A类在细胞质和线粒体图中,SP方法获得了令人惊讶的准确结果,成功地分别调用了84%/64%和69%/59%的L1/L0水平的传递基因。核图显示L1/L0水平的匹配率相对较低,为51%/39%。这一结果可归因于在细胞核转录以外的水平上施加的调节机制,例如调节核蛋白的输入/输出。对于所有隔室中的L1/L0匹配比,我们的方法显示出比置换测试的1000次迭代更好的性能,这给了我们P(P)值小于0.001。这证明了SP方法在基于微阵列数据揭示基因之间的生物学关系方面的重要作用。

保存图片、插图等的外部文件。对象名称为pq1921593002.jpg

SP方法的性能总结。(A类)三个细胞隔室中L0-和L1-匹配传递基因的百分比。条形图上方显示的值是基因数量。L0和L1的所有匹配比率在P(P)通过排列测试<0.001。(B类)具有至少一个传递基因的SP的百分比,其中终端基因的表达相关性较弱(<0.6)和非常弱(<0.3)。C类(1,个)表示末端基因之间的表达相关性。条形图上方显示的值是SP的数量。

应该注意的是,首先,我们计算的匹配比率实际上是保守的。由于GO注释仅基于积极的生物学证据,并且在SGD中是稀疏的,因此未被归类为L1或L0匹配的基因可能仍然与SP上的末端基因在功能上相关。其次,我们认为错误的一个主要来源是罗塞塔汇编中扰动的异质性,总体实验条件并不是专门为任何特定的生物过程设计的。因此,SP上的基因可能参与几个不同的生物过程,但这些过程同时受到非特异性扰动的影响。通过专门为特定生物过程设计的实验,我们相信我们的方法将达到更高的准确性。

SP方法揭示低表达相似性基因之间的功能关系。

在已鉴定的SP中,特别有趣的是那些末端基因之间表达相似性低的SP。事实上,在所有三个图中,对于超过85%包含至少一个传递基因的SP,其末端基因具有弱表达相关性(<0.6)(图。(图22B类). 这一发现意味着,在图中,这些终端基因对之间没有边缘;它们之间的关系只能通过传递基因的传递性共表达来揭示。在相当一部分SP中,传递性共表达更为明显。事实上,终末基因对之间存在大量表达相关性非常弱的SP(<0.3)。在细胞质图中,有2083个这样的SP,占总SP的26%。即使是这些SP中的传递基因,我们也获得了74%的L1匹配率。这一结果证实了我们的方法可以通过传递性共表达成功地揭示功能相关基因对之间的关系,即使它们的表达相关性并不显著。

例如,我们在细胞质图中确定的SP,RPL37A–RPL37B–RPS29B–RPS29A–RPL29–RPS21A来自GO过程“蛋白质生物合成”。6个基因的相关矩阵如图所示。图3A类在该SP中,终端基因之间的表达相关性仅为0.12。此外,很明显,SP上距离较远的基因表达相关性较低。所有6个基因编码核糖体蛋白并参与蛋白质合成。然而,很明显,它们作为一个群体并没有受到严格的监管。我们将我们的方法与基于来自同一Rosetta简编数据集的表达式相关性的标准层次聚类方法进行了比较。在层次聚类的不同链接中,单链接是最接近SP方法的贪婪方法,它通过增量连接最接近、最相关的基因来构建聚类。对于上述SP,使用细胞质图中的398个基因,覆盖2个SP末端基因(RPL37A和RPS21A)的最小层次聚类子树包含276个基因(图。(图3B类). 其中144个不是核糖体基因。甚至包括参与碳水化合物代谢、渗透感信号和脂肪酸生物合成的基因。在我们的结果中,层次聚类和SP方法之间存在如此显著的差异是常见的。另一个例子是SP上的基因COR1–RIP1–SDH2–SDH4–STF1在线粒体图中,所有这些都参与了氧化磷酸化。这两个末端基因之间的相关性为0.16。通过层次聚类,覆盖2个SP末端基因的最小子树包含241个基因,占线粒体图中基因的91%。层次聚类法的缺点是,一旦一个基因被分配到一个簇中,与其他基因的比较就不再是在基因到基因的水平上进行的,而是在簇到基因或簇到簇的水平上。因此,它不像SP方法那样为我们提供了对表达式依赖性的简约描述。其他常用的聚类方法也存在同样的缺点,例如K(K)-意味着集群。我们的网站上提供了此类比较的示例(www.biostat.harvard.edu/compab/SP/).

保存图片、插图等的外部文件。对象名称为pq1921593003.jpg

(A类)最短路径RPL37A–RPL37B–RPS29B–RPS29A–RPL29–RPS21A的相关矩阵。罗塞塔数据集中显示了基因名称及其相关性。相关性的大小由以下颜色表示:红色、高;蓝色,低。(B类)覆盖SP中两个末端基因(RPL37A和RPS21A)的最小子树包含276个基因。

未知基因GO过程类别的预测。

在验证了SP方法可以链接功能相关基因后,我们使用它对以前未标记的酵母基因进行分类。我们使用两条规则来预测基因功能。()A类一般规则:给定SP上的所有已知基因,如果它们在GO树上的最低共同祖先位于根以下3级以上,则我们将此功能分配给SP上的未知基因。在细胞质、线粒体和细胞核的所有SP图中,我们分别预测了80、54、115个基因,这些基因被SGD视为未知。(ii(ii))使用保守法则,我们考虑那些满足一般规则且只包含一个未知基因的SP。这些是我们有较高置信度的预测,因为这些未知基因在功能上都受到SP上所有其他基因的限制。使用保守规则,我们对总共75个独特基因进行了预测。

虽然一些基因在SGD中没有GO生物过程注释,但它们参与的生物过程在酵母蛋白质组数据库(YPD;www.incyte.com/sequence/proteome/databases/YPD.shtml). 我们获得了24个基因的YPD细胞角色注释(表(表1)1)在用保守法则预测的75个基因中,我们使用它们作为我们预测的阳性内部控制。在24个基因中,对16个基因的预测与YPD中实验得出的注释相匹配;YPD中3个匹配的计算派生注释。“匹配”是指我们的预测和YPD注释要么相同,要么紧密耦合。此外,我们发现了一个病例(NOC3(氮氧化物))其中YPD细胞角色注释与其引用的实验参考不一致,而我们的预测与实验结论完全匹配。这相当于83%的成功预测率,再次验证了我们的SP方法。

表1

根据保守规则对24个无SGD GO过程注释的基因所作的预测,对照其YPD细胞角色注释进行验证(截至2002年3月)

基因GO工艺类别预测(L0)YPD注释
ADH1型碳水化合物代谢的主要途径碳水化合物代谢[E]
ADH5型氨基酸代谢其他代谢[E];碳水化合物代谢
BMS1型核酸酶、核苷、核苷酸代谢RNA加工/修饰[E]
28美元蛋白质生物合成电池极性[E]
第1类肌动蛋白细胞骨架组织水泡运输[E];电池极性
COR1公司ATP合成耦合质子传输发电[E];小分子输运
心肺复苏7细胞周期蛋白质折叠[P][蛋白质折叠,G1细胞周期阶段(19)]
ELP3型转录,依赖于DNAPolⅡ转录[E,P];蛋白质修饰[P];染色质/染色体结构
ERB1级35S初级成绩单处理RNA处理/修饰[E][参与35S初级转录处理(11)]
全球生产总值1碳水化合物代谢碳水化合物代谢[E];细胞应力
GSP1/跑步蛋白质生物合成;核糖体生物发生;35S初级转录处理;2/有丝分裂细胞周期的M转变细胞周期控制[E];核-细胞质转运[E];RNA加工/修饰[E]
MAK16公司核糖体生物发生;RNA加工RNA加工/修饰[E]
NFI1/SIZ2蛋白质代谢与修饰;蛋白质降解细胞周期控制[E];蛋白质修饰
NOC3(氮氧化物)核糖体生物发生;35S初级成绩单处理蛋白质合成[E][参与60S核糖体亚基的生物生成(13)]
NUG1公司RNA代谢核质转运[E][核糖体亚单位出口](20)
专业2生物合成氨基酸代谢[E]
质量控制报告8ATP合成耦合质子传输发电[E];小分子输运
RIB5号机组氨基酸和衍生物代谢其他代谢[E]
独立电源1ATP合成耦合质子传输发电[E];小分子输运
RSM26型蛋白质生物合成发电[E];细胞周期控制;蛋白质合成[P][线粒体核糖体小亚单位的蛋白质(21)]; 细胞应力
THR1(推力1)RNA加工氨基酸代谢[E]
UGP1基因碳水化合物代谢碳水化合物代谢[E]
XKS1型蛋白质代谢和修饰碳水化合物代谢[E]
YGL068W型蛋白质生物合成发电量[P];细胞周期控制;蛋白质合成[P][同系物大肠杆菌L7/L12核糖体蛋白(22)]

带有下划线名称的基因具有YPD注释,这些注释要么与我们的预测一致,要么与我们的预测密切相关。“[E]”表示实验证据;“[P]”表示计算预测。我们在括号中提供了其他参考,如果()YPD蜂窝角色注释不够具体(ERB1、NUG1), (ii(ii))YPD分类错误(NOC3(氮氧化物)),或()YPD中包含的计算细胞角色预测与我们的预测相符(CPR7、RSM26、YGL068W). 

例如,COR1公司,独立电源1、和质量控制报告8都被预测参与“ATP合成耦合质子运输”。YPD将其注释为“能量生成”和“小分子运输”ERB1级预计参与“35S初级转录处理”。在最近的一项研究中,发现它对35S初级翻译处理至关重要(11). 核转运蛋白GSP1/Ran在细胞质和细胞核图中都具有一系列不同的功能,包括“蛋白质生物合成”、“核糖体生物生成”和“G2/有丝分裂细胞周期的M转变。”文献中的证据表明,它在许多生物过程中起着中心作用,是细胞周期和增殖的主要调节器(12),这解释了我们假定的功能分配。我们从细胞核和细胞质图预测GSP1/Ran的事实与该核转运蛋白的多亚细胞定位相一致。

我们预测NOC3(氮氧化物)属于GO类别“核糖体生物发生”和“35S初级转录处理”。虽然这与YPD注释“蛋白质生物合成”不一致,但仔细检查YPD引用的参考文献(13)透露了NOC3(氮氧化物)事实上参与了60S核糖体亚单位的生物生成,这与我们的预测完全相符。

表中列出了用保守规则预测的51个新基因,其中两个数据库中都没有生物过程注释表2。2我们的网站上列出了使用这两个数据库都不知道的一般规则预测的另外95个新基因(www.biostat.harvard.edu/compab/SP/). 总之,我们为大约5%的未知酵母ORFome分配了功能。虽然一些未知基因被指定为三个字母的基因符号,但它们在细胞中的作用仍未明确。对于列出的大部分基因,我们发现了部分实验支持,每种支持的程度不同。我们在下面给出一些示例。

表2

保守法则对51个既没有SGD GO过程注释也没有YPD细胞角色注释的基因的GO过程类别的预测

GO过程类别预测(L1⇒L0)基因[无唯一支持基因,无支持SP,图表]
氨基酸代谢⇒氨基酸生物合成YHR029C型[9、14、C]
细胞周期⇒DNA复制和染色体周期TOS4型[5、5、N]
细胞周期⇒M期YPL267W型[2,1,N]
细胞周期⇒有丝分裂细胞周期TOS4型[6、8、N]
细胞组织和生物发生⇒细胞质组织和生物生成YNR046瓦*[5、4、N]
细胞质组织和生物发生⇒细胞器组织和生物生成RIM21公司[2、1、M]
细胞质组织和生物发生⇒核糖体生物发生聚氨酯6[14,46,N],第12页*[3、2、N],YDR324C型*[6、6、N],YGR128C型*[2,1,C],伊1019w*[2,1,C],YJL010C型*[3、2、N],YML093W型*[2,1,C],YML093W型*[2、1、M](23),YML093W型*[3、2、N],YPL146C型*[4、3、N]
DNA代谢⇒DNA修复YBR089瓦[2,1,N]
碳水化合物代谢⇒分解代谢碳水化合物代谢PST2系统[2、1、M](24)
能量储备代谢⇒海藻糖代谢TFS1型[2、1、C]
代谢⇒生物合成YDR165W型[2,1,N],132C日元*[1118、117、C],YPL246C型[3、2、C](16)
代谢⇒辅酶和假体组代谢356瓦[2,1,N]
代谢⇒核酸代谢日期1[3、2、N],YBR267W型[7、6、N],云盾063C[5、4、N],YDR165W型[2,1,N],YGR128C型*[4,4,N]中,YGR145W型[2,1,M],132C日元*[3、2、N],287C日元[4、4、N],YNL311C型[2,1,N],YOR004W公司*[4、3、N],约尔042W[2,1,N],YPR045C型[5、8、N]
代谢⇒蛋白质代谢和修饰1号机组[3、3、C],TOS5(目标5)[2、1、C](16),YDR165W型[114113,C](23),YKL053C-A型[16,62,M],YKL195W型*[25、37、M](16),356瓦[46、45、C],434C日元[1119、124、C]
有丝分裂细胞周期⇒有丝分裂周期的S期YBR089瓦[2,1,N](25)
单糖代谢⇒己糖代谢YCR013C型*[3、2、C](18)
核酸代谢⇒RNA代谢YDR324C型*[3、1、N],YML093W毫米*[3,2,C]
蛋白质生物合成⇒蛋白质合成启动LSG1型[3、2、C]
蛋白质复合物组装⇒细胞色素c(c)氧化酶生物发生YKL053C-A型[3、3、M]
蛋白质代谢和修饰⇒蛋白质生物合成RNQ1(参考号1)[9、8、M](16),YGL069C型*[24,44米](26),YGL102C型*[4、4、C](27)
蛋白质-线粒体靶向⇒线粒体易位RNQ1(参考号1)[3、2、M]
核糖体生物发生⇒核糖体大亚单位组装YDR496C型[2,1,M],YML093W型*[2,1,N]
核糖体生物发生⇒rRNA加工YDR496C型[12、38、N]
RNA代谢⇒RNA加工业务连续性第一阶段*[8、14、N],TCI1公司[2,1,M],TCI1公司[2,1,N],YGR145W型*[5、5、N]
rRNA处理⇒35S初级转录处理业务连续性第一阶段*[5,5,N],聚氨酯6[2,1,M]中,代码101c[9、24、N],YHR085W型*[4、5、N],YJL010C型*[2,1,N],YML093W型*[2、1、M]
转录⇒转录,依赖DNARIO2公司*[5、6、N],2014年1月*[4、3、N]
转录,依赖DNA的⇒转录,来自Pol I启动子SAS10标准*[7、6、N],YDR101C型[13、16、N],YGR210C型[3、2、N],310C日元[3、2、N],YNL182C型*[8、9、N]

显示了预测GO过程的最后两个级别。基本基因,即具有致命零表型的基因,标记为

*对于每个预测,我们在方括号中显示支持SP的数量、唯一支持基因的数量以及进行预测的图形。括号中注明了实验支持的参考。“C”表示细胞质,“M”表示线粒体,“N”表示细胞核。 

我们预测的一个有趣的基因是RNQ1(参考号1)众所周知,它形成[PIN+]朊病毒,并具有其他酵母朊病毒所特有的富含谷氨酰胺和天冬酰胺的结构域(14). 的功能RNQ1(参考号1)然而,目前还不清楚。我们预测它参与“线粒体易位”和“蛋白质生物合成”。有趣的是,负责[PSI+]决定簇SUP35的朊病毒不仅是蛋白质翻译终止的重要因素,而且与线粒体的共翻译易位系统有关(15). 此外,一项大规模转录谱研究发现RNQ1型与参与蛋白质生物合成的基因聚集(16).

还有许多其他有趣的案例。BRX1公司被预测为“核糖体生物发生”。事实上,最近的一项实验研究表明,它参与核糖体大亚单位组装(17). YCR013C被预测参与“己糖代谢”。有证据基于SAGE数据(18)这支持了我们的预测。总的来说,对于51个基因中的11个,我们已经收集了支持我们预测的提示性实验证据(表(表2)。2). 大多数证据来自基因表达研究。为了确定生物功能并验证我们对这些基因的预测,还需要进一步的实验工作。

讨论

后基因组时代迫切需要对基因组测序项目中确定的基因进行功能注释的系统方法。大规模基因表达数据的快速增长为我们提供了满足这一需求的独特机会。然而,迄今为止,利用表达数据发现新基因功能的方法学发展缓慢。罗塞塔简编有300个删除和药物治疗实验(6)是迄今为止发表的最系统的酵母基因组表达谱。在其最初的出版物中,作者通过聚类方法确定并实验证实了8种新的基因功能。自那以后,《纲要》基本上没有被探索过。本文提出了一种基于大规模数据预测基因功能的系统方法。将其应用到《罗塞塔纲要》中,我们利用保守法则为SGD中75个未知酵母基因指定了假定的功能。我们已经证明,基于24个基因的阳性内部控制的成功预测率为83%。根据一般预测规则,我们将功能分配给另外95个未知酵母基因。这些任务一起构成了未知酵母ORFome的5%。虽然令人印象深刻,但《纲要》只包含了一小部分可能的扰动。我们相信,使用更全面的表达式数据集,该方法可以获得更好的结果。

我们方法的优势在于它利用了传递性共表达,这是同一生物过程中基因之间的一个重要特征。为了链接这些基因,我们应用了SP算法。与传统的聚类方法相比,我们的方法不仅可以将具有相关表达谱的功能相关基因分组,还可以将不具有相关表达图谱的基因分组。此外,SP给出了单个基因之间的表达依赖关系。使用传递性共表达,我们能够捕获“同表达”以外的基因之间的功能关系(6). 虽然聚类是对具有相似表达模式的基因进行分组的有用方法,但它对其他类型的表达关系(如传递性共表达)不敏感。正如我们所看到的,SP方法为大规模表达数据分析提供了一个补充和信息丰富的工具。

与传统聚类方法相比,SP方法的另一个优点是它透明且积极地使用可用的生物学知识作为指南来发现其他相关基因。聚类方法首先根据基因的表达谱对基因进行分组,然后对簇内基因的功能进行推断。相反,我们的方法从两个具有已知生物学功能的基因开始,然后将它们作为一个界限来识别与它们相关的中间基因。将生物注释积极纳入知识发现过程是当前微阵列数据分析的挑战之一。

SP方法可扩展到较大的图形。对于我们基于3914个顶点(基因)和20815条边的核图的预测,在运行Linux的700-MHz奔腾III处理器上,从659个已知基因中确定SP作为源顶点只需7分钟。因为对于给定的图形,计算只需进行一次,并且很容易在多个处理器上分布,所以SP方法适用于人类和小鼠等高等真核生物的转录体。

致谢

X.Z.和W.H.W.的工作得到了美国国立卫生研究院1R01HG02341拨款的支持。M.-C.J.K.的工作得到了霍华德·休斯医学研究所博士前奖学金的支持。

缩写

服务提供商最短路径
L0级级别0
第一层第1级
GO(开始)基因本体论
新加坡元酵母菌属基因组数据库
YPD公司酵母蛋白质组数据库

脚注

本文直接(第二轨道)提交给PNAS办公室。

参见第页的注释12509.

工具书类

1Eisen M B、Spellman P T、Brown P O、Botstein D。美国国家科学院程序。1998;95:14863–14868. [PMC免费文章][公共医学][谷歌学者]
2Tavazoie S、Hughes J D、Campbell M J、Church R J和Church G M。自然遗传学。1999;22:281–285.[公共医学][谷歌学者]
三。Golub T R、Slonim D K、Tamayo P、Huard C、Gaasenbeek M、Mesirov J P、Coller H、Loh M L、Downing J R、Caligiuri M A等。科学。1999;286:531–537.[公共医学][谷歌学者]
4Niehrs C,Pollet N。自然(伦敦)1999;402:483–487。[公共医学][谷歌学者]
5钱杰、多利德·菲尔哈特M、林杰、于赫、格斯坦M。分子生物学杂志。2001;314:1053–1066.[公共医学][谷歌学者]
6Hughes T R、Marton M J、Jones A R、Roberts C J、Stoughton R、Armour C D、Bennett H A、Coffey E、Dai H、He Y D等。单元格。2000;102:109–126.[公共医学][谷歌学者]
7Ashburner M、Ball C A、Blake J A、Botstein D、Butler H、Cherry J M、Davis A P、Dolinski K、Dwight S S、Eppig J T等。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
8Dwight S S、Harris M A、Dolinski K、Ball C A、Binkley G、Christie K R、Fisk D G、Issel-Tarver L、Schroeder M、Sherlock G等。核酸研究。2002;30:69–72. [PMC免费文章][公共医学][谷歌学者]
9科尔曼T H。算法简介。马萨诸塞州剑桥:麻省理工学院出版社;2001[谷歌学者]
10Hvidsten,T.R.、Komorowski,J.、Sandvik,A.K.和Laegried,A.(2001)派克靴。交响乐团。生物计算机。, 299–310. [公共医学]
11Pestov D G、Stockelman M G、Strezoska Z、Lau L F。核酸研究。2001;29:3621–3630. [PMC免费文章][公共医学][谷歌学者]
12Clarke P R、Zhang C。细胞生物学趋势。2001;11:366–371.[公共医学][谷歌学者]
13Milkereit P、Gadal O、Podtelejnikov A、Trumtel S、Gas N、Petfalski E、Tollervey D、Mann M、Hurt E、Tschochner H。单元格。2001;105:499–509.[公共医学][谷歌学者]
14Osherovich L Z,Weissman J S。单元格。2001;106:183–194.[公共医学][谷歌学者]
15Shumov N N、Volkov K V、Mironova L N。杰奈提卡。2000;36:644–650.[公共医学][谷歌学者]
16Jelinsky S A、Estep P、Church G M、Samson L D。分子细胞生物学。2000;20:8157–8167. [谷歌学者]
17Kaser A、Bogengruber E、Hallegger M、Doppler E、Lepperdinger G、Jantsch M、Breitenbach M、Kreil G。生物化学。2001;382:1637–1647。[公共医学][谷歌学者]
18Velculescu V E、Zhang L、Zhou W、Vogelstein J、Basrai M A、Bassett D E、Jr、Hieter P、Vogelestein B、Kinzler K W。单元格。1997;88:243–251.[公共医学][谷歌学者]
19Fujimori F、Gunji W、Kikuchi J、Mogi T、Ohashi Y、Makino T、Oyama A、Okuhara K、Uchida T、Murakami Y。生物化学生物物理研究公社。2001;289:181–190.[公共医学][谷歌学者]
20Bassler J、Grandi P、Gadal O、Lessmann T、Petfalski E、Tollervey D、Lechner J、Hurt E。分子细胞。2001;8:517–529.[公共医学][谷歌学者]
21Saveanu C、Fromont-Racine M、Harington A、Ricard F、Namane A、Jacquier A。生物化学杂志。2001;276:15861–15867.[公共医学][谷歌学者]
22Mewes H W、Frishman D、Guldener U、Mannhaupt G、Mayer K、Mokrejs M、Morgenstern B、Munsterkotter M、Rudd S、Weil B。核酸研究。2002;30:31–34。 [PMC免费文章][公共医学][谷歌学者]
23Causton H C、Ren B、Koh S S、Harbison C T、Kanin E、Jennings E G、Lee T I、True H L、Lander E S、Young R A。分子生物学细胞。2001;12:323–337. [PMC免费文章][公共医学][谷歌学者]
24Lee J、Godon C、Lagniel G、Spector D、Garin J、Labarre J、Toledano M B。生物化学杂志。1999;274:16040–16046.[公共医学][谷歌学者]
25Spellman P T、Sherlock G、Zhang M Q、Iyer V R、Anders K、Eisen M B、Brown P O、Botstein D、Futcher B。分子生物学细胞。1998;9:3273–3297. [PMC免费文章][公共医学][谷歌学者]
26Traven A、Wong J M、Xu D、Sopta M、Ingles C J。生物化学杂志。2001;276:4020–4027.[公共医学][谷歌学者]
27代表M、将军M、Thevelein J M、霍曼S。生物化学杂志。2000;275:8290–8300.[公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院