A literature-based method for assessing the functional coherence of a gene group

Soumya Raychaudhuri; Russ B. Altman

doi:10.1093/bioinformatics/btg002

生物信息学。作者手稿；PMC 2009年4月17日发布。

以最终编辑形式发布为：

生物信息学。2003年2月12日；19(3): 396–401.

数字对象标识：10.1093/生物信息学/btg002

预防性维修识别码：项目经理2669934

美国国立卫生研究院：美国国立卫生研究院97354

PMID：12584126

一种基于文献的基因组功能一致性评估方法

Soumya Raychaudhuri公司和俄罗斯·B·奥尔特曼^*

作者信息版权和许可信息 PMC免责声明

摘要

动机

生物学中的许多实验和算法方法产生了需要检查相关功能特性的基因组。例如，基因表达谱经常被组织成可能共享功能特性的基因簇。我们评估一种方法，n个艾格勃人天发疹第页呃克烯(NDPG公司)它使用科学文献来评估一组基因是否在功能上相关。该方法只需要一个文档语料库和一个连接文档和基因的索引。

结果

我们评估NDPG公司基因本体联盟在四种生物体中产生的2796个功能群：小鼠、苍蝇、蠕虫和酵母。NDPG公司在酵母、小鼠、苍蝇和蠕虫中分别发现96、92、82和45%的组具有功能一致性（99.9%特异性）。

简介

基因组尺度方法在生物学中的日益应用，正在将数据分析的重点从单个基因转移到参与共同生物过程的基因系统。许多实验方案导致了基因组的定义。例如，基因表达数据可用于将基因分组(艾森等。1998年)蛋白质或氨基酸序列可以用来寻找其他相关序列(阿尔特舒尔等。, 1990,1997). 快速识别一组基因是否具有共同的功能，有助于评估实验衍生的基因集的重要性，并优先考虑那些值得随访的基因集。

我们开发了一种新的计算方法，n个艾格勃人天发疹第页呃克烯(NDPG公司)它通过自动分析科学文本来评估一组基因是否具有共同的生物功能。科学文献通常包含评估一组基因是否共享功能的相关信息。出版的文献可以作为全文以电子形式访问，并且几乎总是以抽象形式访问(http://www.ncbi.nlm.nih.gov/PubMed网站/). 我们的方法使用统计自然语言处理（NLP）方法(Manning和Schütze，1999年;罗森菲尔德，2000)挖掘文献并为基因组分配功能一致性得分。

我们的方法可以用于对分析算法或实验协议产生的基因组进行基于文献的评估。例如，NDPG公司评分可用于检测功能相关的基因表达簇。NDPG公司对每个簇中的基因是否具有相关功能属性进行基于文献的评估。

NDPG公司只需要一个与所研究的所有基因相关的文章集（例如，生物体内的所有基因）和一个将文章与适当基因关联的索引。此类参考列表通常可从序列数据库中获得，如SWISS-PROT(Bairoch和Apweiler，1999年); 基因组数据库，如SGD(樱桃等。1998年)、MGD(布莱克等。, 2002)、FlyBase(盖尔巴特等。, 1997)、和WormBase(斯坦因等。, 2001); 或者可以通过扫描文章标题和摘要来自动编译基因名称(詹森等。, 2001). 在对19个酵母功能基团进行的小规模初步评估中NDPG公司在100%特异性下达到95%的敏感性，而基于基因参考文献中一致冠词用法的天真方法在98.9%特异性下仅达到10.5%的敏感性(乔度里等。，2002b年;Raychaudhuri、Schütze和Altman，2003年).

在这里，我们对NDPG公司方法在四种不同功能的生物体中进行。基因本体（GO）是一个庞大的层次词汇表，旨在以标准的方式描述多种生物的遗传功能(阿什伯恩等。, 2000). 它有三个主要分支：生物过程、分子功能和细胞隔室。开发该词汇表的目的之一是以标准的方式进行有效的基因注释。它的层次性允许将特定注释（例如三磷酸异构酶）概括为层次上的其他术语（例如异构酶或酶）。

为了评估我们的方法，我们组装了四个物种的基因功能组：酿酒酵母（酵母），肌层肌（鼠标），黑腹果蝇（飞行），以及秀丽隐杆线虫（蠕虫）。通过从相同的在线资源中收集基因参考，为每个物种收集参考指数。我们使用基因上的GO注释来生成功能组。每个GO术语产生一个物种特定的基因组，由指定该术语的基因组成。这些赋值要么是显式指示的，要么是从赋值到更具体的术语中推断出来的。每个有六个或更多基因的组都用我们的方法进行了评分。如果NDPG公司方法是成功的，这些功能群的基因应该得到很高的分数。还组装了随机的基因组。理想情况下，我们预计这些基因组将获得较低的分数。

方法

我们应用了NDPG公司方法对四种不同的生物体进行检测。为了将这种方法应用于四种不同的生物体中的每一种，我们假设了一组不同的基因和引用它们的文章。

评估

获取基因本体代码分配

对于四种生物体中的每一种，基因本体分配都是从每个生物体的基因组数据库中获得的（酵母的SGD(樱桃等。1998年)，MGD用于鼠标(布莱克等。, 2002)，FlyBase飞起来(盖尔巴特等。, 1997)和蠕虫的WormBase(斯坦因等。, 2001))2002年3月25日至4月5日。我们通过数据库将列出的GO代码分配给基因（显式注释）。此外，我们还将所列代码本体中的所有父代码分配给该基因（推断注释）。所有本体文件均从GO联盟网站下载(http://www.geneontology.org)3月25日。对于每个物种，分配给六个或更多基因的基因本体术语定义了一个功能组。在所有四个物种中，共有2796个这样的官能团。

获取基因参考索引和文章

从每个基因组数据库中获得基因参考列表。参考列表是一个连接PubMed摘要和物种基因的表；表中的每一行都有一个PubMed ID和一个合适的基因标识符。参考列表可以直接从数据库网站（SGD）获得，也可以在网站（WormBase）上进行数据库查询后获得，或者在网站管理员（MGI和FlyBase）的帮助下获得。参考列表是在3月25日至4月8日期间获得的，用于为NDPG公司方法。只考虑至少有一个文章参考的基因；其他人则从分析中完全排除。所有相关文章均来自PubMed。

评估NDPG

对于每个生物体，设计了200个不同大小的随机组：6个、12个、24个、48个和96个基因，每个生物体总共有1000个随机组。这个NDPG公司该方法用于对所有1000个随机组进行评分；每个有机体的99.9分被确定为一个临界值。

根据GO得出的功能组用NDPG公司。将有机体中得分高于临界值的功能组百分比制成表格。高于临界值的组百分比是我们方法在99.9%特异性下的敏感性。计算每个生物体内每个GO分支的中位数分数和分数超过临界值的百分比。

比较注释质量和NDPG性能

对于GO的每个分支和每个有机体，我们计算了可归因于TAS（“可追踪作者陈述”）或IDA（“直接分析”）注释的显式和推断注释的百分比。这些注释通常被视为可靠、高质量的注释。将所得百分比与NDPG公司能够成功识别GO分支和生物体。

每个基因的邻域差异（NDPG）方法

这个NDPG公司此处使用的方法将在别处详细描述，但可以在此处进行总结(Raychaudhuri、Schütze和Altman，2003年).

数据类型：文档语料库和参考索引

NDPG公司基因组的计算需要与生物体中所有基因相关的文献语料库，以及指示与每个基因密切相关的文章的参考索引。这里，文档是PubMed记录的标题和抽象字段。

识别语料库文章的语义邻域

对于每个文档，预先计算19个最相似的文档（不包括文档本身）。为了量化两个文档之间的相似性，我们计算文档的反向文档频率加权词向量之间夹角的余弦(Manning和Schütze，1999年). 在为每个文档选择19个最相似的文档时，不包括那些只涉及种子文档中所指基因集所含基因的文档。

与基因组相关的评分文章

给定一个基因组，NDPG公司然后给每个文档分配一个分数。分数是指组基因的语义邻域数。

分数的理论分布

如果基因组没有连贯的功能结构，那么任何给定文档的语义邻域都应该以概率独立地引用组基因q个.如果q个很小，泊松分布估计分数的分布。在这种情况下：

对 (S公司 = n个) = \frac{λ^{n个}}{n个 ！} {e（电子）}^{- λ}

其中λ=19*q个,S公司是文档得分，以及n个范围从0到19。对于给定的基因组，我们估计q个，通过计算引用基因组的文档数并除以文档数，得出引用组基因的文档的分数。

量化基因的经验分数分布与理论分数分布之间的差异

对于组中的每一个基因，计算与之相关的文档分数的经验分布。如果该组不包含功能连贯性，则所有分数的分布都应类似于泊松分布。每组基因得分的经验分布与理论泊松分布之间的差异用KL离散度量化(Manning和Schütze，1999年). 给定两个分布，一个是理论分布，小时和一个观察到的，克，我们计算KL扩散：

D类 (克 ∥ 小时) = \sum_{我} 克_{我} {日志}_{2} (克_{我} / {小时}_{我})

如果两个分布相同，则散度为零；两种分布越不相同，分歧越大。

一组基因的功能一致性得分

分配给基因亚组的功能一致性得分是该亚组中所有基因的平均KL离散度。

结果

表1包含关于每个有机体的文献索引和GO注释的描述性统计信息。老鼠拥有最多的参考基因，而蠕虫拥有最少的参考基因。就每篇文章和每个基因的参考文献总数而言，平均值超过了所有生物体的中位数。对于每个有机体，都有一些具有许多文章参考的异常基因，还有一些具有许多基因参考的异常文章。

表1

四种生物的主要数据摘要对于四种生物中的每一种，我们都列出了从基因组数据库和GO注释中获得的参考列表的汇总统计数据。

		酵母	鼠标	飞行	蠕虫
从基因组中心获得的参考列表摘要^一
带有参考的基因		5 151	26 148	14 732	2 289
第条		22 934	41 669	15 495	2 144
参考文献		62 473	113 738	97 117	13 659
参考文献/文章	中值的	2	1	三	4
	平均值	2.73	2.73	6.27	6.37
参考文献/基因	中值的	4	1	1	2
	平均值	12.12	4.35	6.59	5.97
从GO联盟获得的基因本体注释摘要^b条
带有指定代码的基因		4 276	6 148	4 042	523
GO代码	过程	874	904	1 019	196
	组件	251	233	347	42
	功能	1 132	1 432	1 458	246
	总计	2 257	2 569	2 824	484
显式GO注释		13 770	27 122	14 405	2 235
推断GO注释		49 781	68 075	47 801	5 017
显性/隐性比率		3.62	2.51	3.32	2.24
注释/基因	中值的	14	15	14	13
	平均值	14.86	15.48	15.39	13.87
注释/代码	中值的	三	三	2	三
	平均值	28.15	37.06	22.02	14.98

在单独的窗口中打开

^一引用是一个文档引用一个基因的总次数。

^b条大多数生物体只使用4773过程、977功能和5015功能GO代码中的一小部分。显式GO注释是管理者分配的注释，而推断注释是更通用的注释，是显式代码在本体中的父级注释。比率表示每个显式术语注释生成的推断父术语的平均数量

所有不同的生物体使用大约相同数量的GO代码进行注释，大约2500个代码，但蠕虫使用的代码较少，大约500个代码。对于每个明确指定给基因作为注释的术语，还暗示了更多作为该术语父项的注释。术语越具体，对同一基因适用的推断术语就越多。一般来说，酵母和苍蝇注释非常具体，与鼠标和蠕虫注释更一般（2.5和2.2）相比，推断注释与显式注释的比率较大（3.6和3.3）。

表2包含GO功能组的分析结果。为每个生物体生成单独的截止值；表中列出了截止值。截止值被选为99.9%的特异性阈值。或者，可以将临界值视为分数，高于该分数时，基因组是随机的概率小于0.001。对于GO的三个分支，分别给出了结果。对于所有GO分支，酵母菌超过临界值的组百分比最大，其次是老鼠，然后是苍蝇，最后是蠕虫。当合并所有蠕虫功能组时，蠕虫功能群的中位数组得分小于截止值。

表2

的灵敏度NDPG公司在四种生物中。对于每个生物体中GO的每个分支，计算每个注释与六个或更多基因的功能连贯性。列出了这类群体的总数，然后是该群体中基因的中位数。还列出了中值NDPG公司注释的功能一致性得分，以及超过99.9%特异性界限的组的百分比。每个生物体的临界值列在表的底部。同样在表中，是每个生物体GO本体所有分支的总体性能

		酵母	鼠标	飞行	蠕虫
过程GO代码	组的数量	429	354	349	71
	中位数组大小	21	20	16	17
	中值的NDPG公司分数	15.32	10.20	5.21	1.42
	%超过临界值的组	97.44%	87.85%	86.82%	46.48%
部件GO代码	组的数量	148	111	151	18
	中位数组大小	20	18	16	16
	中值的NDPG公司分数	18.63	11.73	5.59	2.40
	%超过临界值的组	94.59%	90.99%	81.46%	77.78%
功能GO代码	组的数量	264	435	382	84
	中位数组大小	17	16	17	15
	中值的NDPG公司分数	11.35	13.39	3.58	1.53
	%超过临界值的组	93.56%	96.09%	78.27%	36.90%
所有GO代码	组的数量	841	900	882	173
	中位数组大小	20	18	16	16
	中值的NDPG公司分数	15.11	11.84	4.47	1.58
	%超过临界值的组	95.72%	92.22%	82.20%	45.09%
99.9%特异性截止值		3.43	3.19	1.34	1.63

在单独的窗口中打开

在图1我们绘制了可归因于最可靠证据代码的注释的百分比与每个生物体每个GO分支中超过临界值的功能组的百分比。一般来说，许多注释来自高质量证据的注释集合中，注释组超过临界值的百分比更大。

在单独的窗口中打开

图1

注释组的一致性对应于酵母中的证据质量。基因的功能注释按生物体分离，GO分支为12组。沿着年-轴上，绘制了该组中有六个或更多基因的功能群超过临界值的百分比；图中还显示了该百分比的95%置信区间。沿着x个-轴——绘制属性证据代码为TAS或IDA的集合中注释的百分比。

讨论

设计一种基于文献的方法来评估基因组的功能一致性的挑战在于弥补生物文献中的巨大差异。一些功能在文献中得到了充分的体现，而其他功能可能没有；一些基因被大量研究，而另一些则是新发现的。

这个NDPG公司该方法可以有效地识别在多种生物中具有功能连贯性的基因组。在表2我们列出了NDPG公司四种不同生物的方法。该方法最能识别酵母中功能一致的基团，而在蠕虫中表现最差。该方法对酵母、小鼠、苍蝇和蠕虫的敏感性分别为96、92、82和45%，特异性分别为99.9%。

四种不同生物的不同表现可以由不同的因素来解释。第一是参考指数中参考文献的质量；在一个好的参考索引中，基因应该连接到适当的文章。这很难客观评估。不同的文献索引可能会有或多或少合适的参考文献，这取决于可用的文章以及将文献资源整合在一起时的关注程度。

第二个问题是参考索引中可用文章的丰富性。酵母的性能最强；它有2万多篇文章，文章与基因的比例为4:1。另一方面，蠕虫的语料库最小，只有酵母参考索引中文章数量的十分之一，并且文章与基因的比率小于1:1；我们的方法对蠕虫功能群的敏感度不到一半。

另一个影响因素可能是GO注释本身的质量。基因本体是一项巨大的工作，目前仍在进行中。既然如此，它可能还不是一个理想的金本位。目前，用GO编码对基因进行注释仍然是一个活跃的领域，许多小组正在试验不同的策略，包括对文献、序列和实验数据的手动和计算分析(希尔等。, 2001;Hvidsten公司等。, 2001;德怀特等。, 2002;乔度里等。，2002a年;舒格等。, 2002;谢等。, 2002). 不同生物的在线资源在很大程度上依赖于不同的注释策略。用于进行特定注释的策略列为“证据代码”。我们认为IDA（“来自直接检测”）和TAS（“可追踪作者声明”）是两个质量最高、最可靠的证据代码。我们确定了在四种生物体的三个GO分支中可归因于这两个证据代码中每一个的推断和明确注释的百分比。在图1很明显，高质量注释的百分比与我们的方法的性能之间存在关系。高质量注释的百分比表示该生物体GO注释所涉及的人工工作量。我们认为，越努力，注释的质量就越好，黄金标准就越可靠，因此我们的性能就越好。

如果共享功能没有在科学文献语料库中表示，则可能无法将功能组确定为功能连贯。如果文献中尚未描述该功能，或者该生物体的功能尚未得到很好的研究，则可能会出现这种情况。例如三羧酸循环酵母中的（TCA）功能组得分为15.43分，而小鼠中相同功能组得分仅为1.97分。TCA遗传学的主题在小鼠文献中没有得到很好的描述。2002年7月5日，Medline对MeSH主题标题为“三羧酸循环”和“遗传学”的文章进行了查询，共有365篇文章。这些文章中只有13篇也有“mouse”MeSH标题，这13篇参考文献中没有一篇被列在鼠标参考索引中。相反，52个具有“酵母”MeSH标题，其中32个列在酵母参考指数中。小鼠的TCA GO注释没有直接参考文献。由于SWISS-PROT序列条目中存在适当的关键字，因此九个基因中的八个被赋予TCA功能；这些注释被指定为证据代码IEA（“来自电子注释”）。另一个基因通过序列相似性搜索被赋予TCA功能；该注释被分配了证据代码“ISS”（“源自序列相似性”）。自NDPG公司是一种基于文献的方法，这个功能组完全被忽略了。如果引用其他生物体中的同源基因作为对基因的额外引用，这个问题可能会得到缓解。未发现的功能仍然无法识别。

在该算法的实现中，我们使用了19个语义邻居，尽管我们已经用199个语义邻居非正式地测试了该方法。我们的初步分析表明，性能对使用的邻居数量不是很敏感。这里我们使用了较少数量的邻居，因为其中一种生物蠕虫的参考指数只有很少的文章。

由于许多生物信息学分析的目标是定义在某种程度上相似的基因组，NDPG公司提供了将基于文献的组件纳入这些分析的方法。例如，我们还开发了一种算法，该算法使用科学文献指导搜索共享功能和基因表达属性的基因组。该算法在基因表达数据中找到一个平面，将一组基因从剩余的高表达基因中分离出来NDPG公司分数(Raychaudhuri、Schütze和Altman，2003年).NDPG公司用于评估分离的基因是否具有共同功能。的另一个实际应用NDPG公司将文献内容与生物信息学问题联系起来可能包括使用文献进行基于序列的同源建模或模体发现(MacCallum公司等。, 2000;张等。, 2001). 这些结果表明NDPG公司在不同物种的同一种分析中。

致谢

RBA得到NIH LM06244、GM61374、NSF DBI-9600637以及Burroughs–Wellcome基金会的资助；SR由NIH GM-07365支持。作者还感谢SGD、MGI、Flybase和Wormbase为我们提供了基因参考列表。

脚注

可利用性：联系作者。

联系人： ude.drofnats@namtla.ssur

参考文献

Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]
Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT等。基因本体：生物学统一的工具。基因本体联盟。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
Bairoch A，Apweiler R.1999年的SWISS-PROT蛋白质序列数据库及其补充TrEMBL。核酸研究。1999;27:49–54. [PMC免费文章][公共医学][谷歌学者]
Blake JA、Richardson JE、Bult CJ、Kadin JA、Eppig JT。小鼠基因组数据库（MGD）：实验室小鼠的模型生物数据库。核酸研究。2002;30:113–115. [PMC免费文章][公共医学][谷歌学者]
Chang JT，Raychaudhuri S，奥特曼RB。包括生物文献改进了同源搜索。Pac Symp Biocomput公司。2001;14:374–383. [PMC免费文章][公共医学][谷歌学者]
Cherry JM、Adler C、Ball C、Chervitz SA、Dwight SS、Hester ET、Jia Y、Juvik G、Roe T、Schroeder M等。SGD：酵母基因组数据库。核酸研究。1998;26:73–79. [PMC免费文章][公共医学][谷歌学者]
Dwight SS、Harris MA、Dolinski K、Ball CA、Binkley G、Christie KR、Fisk DG、Issel-Tarver L、Schroeder M、Sherlock G等。酿酒酵母基因组数据库（SGD）使用基因本体（GO）提供二级基因注释核酸研究。2002;30:69–72. [PMC免费文章][公共医学][谷歌学者]
Eisen MB、Spellman PT、Brown PO、Botstein D.全基因组表达模式的聚类分析和显示。美国国家科学院程序。1998;95:14863–14868. [PMC免费文章][公共医学][谷歌学者]
FlyBase。果蝇基因组项目和社区文献的FlyBase数据库。核酸研究。2002;30:106–108. [PMC免费文章][公共医学][谷歌学者]
Gelbart WM、Crosby M、Matthews B、Rindone WP、Chilemi J、Russo Twombly S、Emmert D、Ashburner M、Drysdale RA、Whitfield E等。FlyBase:a果蝇属数据库。FlyBase财团。核酸研究。1997;25:63–66. [PMC免费文章][公共医学][谷歌学者]
Hill DP、Davis AP、Richardson JE、Corradi JP、Ringwald M、Eppig JT、Blake JA。项目描述：哺乳动物系统的生物注释策略：在小鼠基因组信息学中实现基因本体。基因组学。2001;74:121–128.[公共医学][谷歌学者]
Hvidsten TR，Komorowski J，Sandvik AK，Laegerid A.从基因表达和本体论预测基因功能。太平洋交响乐生物计算机。2001:299–310.[公共医学][谷歌学者]
Jenssen TK，Laegried A，Komorowski J，Hovig E.高通量分析基因表达的人类基因文献网络。自然遗传学。2001;28:21–28.[公共医学][谷歌学者]
MacCallum RM、Kelley LA、Sternberg MJ。SAWTED：带文本描述的结构分配-通过自动SWISS-PROT注释比较增强远程同源物的检测。生物信息学。2000;16:125–129.[公共医学][谷歌学者]
Manning CM，Schütze H。统计自然语言处理基础。麻省理工学院出版社；马萨诸塞州剑桥：1999年。[谷歌学者]
Raychaudhuri S、Chang JT、Sutphin PD、Altman RB。使用生物医学文献的最大熵分析将基因与基因本体代码相关联。基因组研究。2002a年；12:203–214. [PMC免费文章][公共医学][谷歌学者]
Raychaudhuri S、Schütze H、Altman RB。使用文本分析来识别功能连贯的基因组。基因组研究。2002年b；12:1582–1590. [PMC免费文章][公共医学][谷歌学者]
Raychaudhuri S，Schütze H，奥特曼RB。在多维数据集分析中包含文本文档：应用于基因表达数据。机器学习。2003新闻界。[谷歌学者]
Rosenfeld R.二十年的统计语言建模：我们从哪里开始？IEEE程序。2000;88:1270–1278. [谷歌学者]
Schug J、Diskin S、Mazzarelli J、Brunk BP、Stoeckert CJ、。，Jr从ProDom和CDD蛋白域预测基因本体功能。基因组研究。2002;12:648–655. [PMC免费文章][公共医学][谷歌学者]
Stein L、Sternberg P、Durbin R、Thierry-Mieg J、Spieth J.WormBase:基因组和生物学的网络访问秀丽隐杆线虫.核酸研究。2001;29:82–86. [PMC免费文章][公共医学][谷歌学者]
谢赫（Xie H）、瓦瑟曼（Wasserman）A、莱文（Levine）Z、诺维克（Novik）A、格列宾斯基（Grebinskiy）V、肖珊（Shoshan）A和明茨（Mintz）L。通过基因本体论进行大规模蛋白质注释。基因组研究。2002;12:785–794. [PMC免费文章][公共医学][谷歌学者]