跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年7月1日;38(Web服务器问题):W275–W280。
2010年5月28日在线发布。 doi(操作界面):10.1093/nar/gkq438
预防性维修识别码:项目经理2896106
PMID:20511592

基因集的TransFind靶向转录调控因子

摘要

通过分析协同调控基因启动子区的假定转录因子结合位点,可以推断出基因表达变化背后的转录因子。虽然这些分析构成了电子版在描述转录调控网络时,仍然缺乏能够将最先进的预测方法与系统发育分析和适当的多重测试校正统计相结合的简单易用的web服务器,这些服务器能够在短时间内返回结果。考虑到这些目标,我们开发了TransFind,可在http://transfind.sys-bio.net网站/.

简介

几十年来,在启动子区域寻找功能性转录因子结合位点一直是一个亟待解决的问题。然而,由于大多数脊椎动物转录因子识别的序列基序长度较短,并且这些基因组中的非编码DNA区域过大,因此对单个启动子中结合位点的注释主要是错误的预测(1). 提高单个结合位点预测特异性的一种可能方法是考虑不同物种之间结合位点的进化保守性(2). 这种系统发育分析在寻找远端增强子区域方面的实用性已经得到证实(). 然而,当涉及到近端启动子时,使用保守性的优势仍然存在争议。研究表明,不同转录因子之间的结合位点保守性差异很大(4). 可以说,进化压力不一定导致个体结合位点的保护,而是转录因子结合启动子某处并相应调节基因的一般能力的保护。因此,缓解这一问题的一种可能方法源于预测转录因子对整个启动子区域的亲和力,而不是对其内单个结合位点的亲和力的方法。这种基于亲和性的方法避免了转录因子结合位点和非结合位点之间的人工分离,并证明可以模拟体内绑定行为比基于hit的方法更量化(58). 通过根据预测的亲和力对基因组的所有启动子进行排序,可以提取特定转录因子的可能候选靶基因。

统计荟萃分析(例如测试一组共调控基因或一组具有共享功能的基因中预测位点或目标基因的富集)已被证明最有助于发现观察到的表达模式背后的转录因子(9,10). 这种方法利用了一种特定的转录因子可能同时调节多个基因的想法。因此,相应的预测目标基因应在共同调控的基因集中得到丰富。

为了解决识别调节一组给定基因的转录因子的问题,已经提出了许多方法,这些方法要么使用离散结合位点的注释,要么使用连续结合亲和力(1114). 为了确定结果的统计显著性,大多数方法依赖于计算成本高昂的重采样程序,或使用离散的结合位点而不是亲和力得分来预测每个单个转录因子的目标基因。相比之下,我们提出了一种通过易于使用的web界面提供的方法,该方法结合了亲和力度量(5)并支持严格统计的系统发育分析(9),并在短时间内返回结果。此外,TransFind还具有启动子序列的GC和CpG含量以及结合位点的可视化功能,允许检查和解释输入序列集和矩阵的核苷酸组成。TransFind可通过以下网站免费访问:http://transfind.sys-bio.net网站/.

TransFind服务器

TransFind服务旨在方便地解决一个定义明确的生物学问题:哪个转录因子(TF)可能是一组给定基因的调节器(以下称为阳性组)?例如,这些组由微阵列实验中发现的在扰动后上调的基因组成。为了回答这个问题,我们设置了一个分析管道和web服务器(如所示图1).

保存图片、插图等的外部文件。对象名为gkq438f1.jpg

算法的一般概述。

开始分析时,要求用户提供阳性组的基因列表。列表以Ensembl中可用作交叉引用的任何流行标识符的形式接受,例如Entrez基因ID或名称、Ensembol标识符或相应的Affymetrix探针ID。提交后,TransFind测试该列表是否包含任何支持的转录因子的假定靶基因数量显著增加。作为靶点,我们定义了启动子对各自转录因子具有最高亲和力的基因。

富集度是根据另一组基因(阴性组)进行测量的,默认情况下,该组基因包含生物体的所有其他基因。通常,只将所有基因的一个子集定义为负集合可能更合适。用户可以提供这样的列表。典型的用户定义阴性集由微阵列研究中发现表达的所有基因组成,但这些条件之间的表达没有变化。由于基因只能位于阳性集或阴性集,TransFind自动将阳性集中的基因从阴性集中排除。

我们使用费希尔精确测试(图2)以量化阳性集合中转录因子的推定高亲和力靶标的富集。由于我们测试了多种转录因子矩阵的富集情况,因此对多重测试进行校正是一个问题。我们之前已经建立了一种分析方法(9)以确定错误发现率(FDR)。

保存图片、插图等的外部文件。对象名为gkq438f2.jpg

TransFind识别的转录因子在受调控基因集中相对于非调控基因集中具有显著丰富的预测靶点数量。(A类)因子1的假定靶点在调节基因(阳性组)和非调节基因(阴性组)之间随机分布。(B类)相反,因子2的最高靶点在被调节的基因中强烈富集。

经过多次测试校正后,TransFind将结果报告为转录因子矩阵表,该表根据阳性集中预测目标的富集程度进行排序。默认情况下,只显示重要结果。如果相应的FDR小于0.05,我们将任何转录因子矩阵定义为显著,这将错误预测的比例限制为5%。此外,还提供了一个链接,链接到列出所有分析的转录因子矩阵的详细结果的表格。

包含支持统计细节的输出示例如下所示表1对于每个转录因子矩阵,服务器报告阳性组中有多少基因具有与该因子具有强预测亲和力的启动子。这可以与预测的与阴性组中因子高度亲和的启动子的数量相比较。统计测试的结果在其他列中提供,包括相应的P(P)-Fisher精确检验值、FDR和预期假阳性数(FP)。TransFind还显示转录因子识别的序列基序的徽标(15). 可以以简单的文本格式或包含输入基因标识符映射的其他详细信息的XML格式获得结果。

表1。

TransFind结果的一个示例显示了所有预测调节已知51 c组的重要转录因子矩阵-myc公司目标

排名TF矩阵P(P)-价值财务总监FP公司阳性集ES命中率(%)负集ES命中率(%)
1V$NMYC_01/N-Myc公司0.0000010.0000010.00000111 (22.45)489 (0.98)

分析了每个转录因子的前500个预测靶点。矩阵集仅限于每个Transfac因子信息量最大的矩阵。在矩阵和因子名称之后P(P)-报告值、FDR和预期FP数。此外,还显示了正集合和负集合中因子的高亲和力匹配的数量,以及它们的相对丰度。

为了便于快速计算,我们使用包含对所有启动子区域预先计算的亲和力得分的阵列。此外,我们还为系统发育保守区域提供了预先计算的分数。通过取两种生物的平均亲和力或最小亲和力,计算出在另一选定脊椎动物物种中具有同源基因的所有基因的得分。这种方法允许检测启动子,其中单个结合位点可能不保守,但转录因子在两种生物体中仍以高亲和力结合。

先前已经发现,功能性转录因子结合位点的最强富集位于转录起始位点上游的前几个100个碱基对内(16). 因此,我们的默认启动子集包含的启动子序列范围从Ensembl中注释的基因起点上游300 nt到基因起点下游100 nt。此外,用户可以选择另一个启动子集,该启动子集由基因启动子上游800nt到下游200nt的序列组成。

我们提供了三组不同的转录因子矩阵。首先,用户可以选择Transfac数据库中包含的一整套脊椎动物转录因子矩阵(17). 由于这个完整的矩阵集是高度冗余的,因此结果通常很难解释(18). 因此,我们创建了一组简化的矩阵,其中只包含每个脊椎动物Transfac转录因子的一个信息量最大的矩阵。第三组基质已从快速发展的自由转录因子结合图谱数据库Jaspar下载(19).

绩效评估

根据已发表的实验数据,我们收集了以下转录因子的六组靶基因:c-myc公司(20)、E2F(21),核因子κB(22),Hif1a(23),Hnf4(http://www.sladeklab.ucr.edu/hnf43.pdf)和其他1(24).表1说明了从TransFind获取的c集合的输出-myc公司-调控基因。根据长度为400 bp的短启动子的亲和力预测,计算了51个输入基因和每个TF的前500个靶点之间的重叠富集度。对于这个数据集,TransFind预测myc相关转录因子N-myc与之密切相关。

此外,对于Hif1a、Hnf4和E2F目标的每个文献测试集。TransFind正确地将相应的TF矩阵识别为最丰富的矩阵。在E2F和Transfac矩阵的完整集合的情况下,我们可以获得E2F矩阵的所有21个变体作为显著关联。相反,对于简化的矩阵集,该算法只返回E2F转录因子中信息量最大的三个矩阵。E2F靶点集还表明,当在所提供基因的启动子中发现异常CpG成分时,TransFind会向用户发出警告。然后可以检查显示CpG-或GC成分偏差的直方图(见下文)。同样,对于NFκB靶点集和简化矩阵集,TransFind报告了四个类似的NFκ)B基序以及相关因子c-REL和HMG作为该组的可能调节因子。相比之下,当使用完整的矩阵集时,TransFind返回21个冗余的NFκB矩阵。

最后,当使用标准FDR截止值0.05时,TransFind报告Ets1靶点组没有显著相关的TF,这表明没有任何转录因子矩阵对Ets1目标启动子的亲和力增强。然而,当显著性截止放松时,在与转录因子AP1对应的几个矩阵以及来自BACH1的矩阵之后,正确的TF基序在位置6处恢复。

我们验证了有多少基因足以识别相关转录因子。因此,我们生成了文献衍生E2F、NFκB和c的随机子集-myc公司不同大小的基因集并在其上运行TransFind。然后,我们将敏感性定义为恢复正确转录因子的运行分数。结果如所示图3结果表明,最小阳性集大小取决于转录因子,然而,对于E2F靶点集,即使是10个基因的小子集也往往足够。

保存图片、插图等的外部文件。对象名为gkq438f3.jpg

TransFind对不同大小的阳性基因集的敏感性。我们对文献衍生E2F,c的随机子群使用TransFind-myc公司κB靶基因,以确定足以正确鉴定调节转录因子的最小数量的基因。我们将敏感性定义为随机选择的亚组的分数,这导致对各自转录因子的显著预测。我们使用默认的TransFind设置(500个顶级相似性,Transfac矩阵的子集,信息含量最高)。

总之,TransFind在六分之五的可用实验数据集中提供了符合生物学知识的预测。这些预测对于参数的变化是稳健的。借助加载实验数据集的示例按钮,可以轻松地重复分析。

为了评估TransFind的性能,我们准备了带有相同基因本体术语注释的基因集。通过将集合限制为用接近本体论根源的术语注释的基因(距离生物过程、分子功能或细胞位置不超过2步),并仅取具有10个以上基因的集合,我们构建了397个基因集合,并对其进行了系统分析。我们预计这些集合中的许多集合在表达式中是不相关的。然而,其中一些集合将被协同调节,因此由共享转录因子的基因组成。因此,这些集合可用于系统分析不同参数设置下TransFind的性能,但必须记住,灵敏度将被低估。我们发现(例如,使用前200个基因作为靶基因,默认启动子集长度为400 nt)23%的基因集预计受至少一个转录因子调控。在217个转录因子矩阵的非冗余集合中,预测有121个至少调节一组,这表明在分析中占主导地位的不是一小群矩阵。

接下来,我们研究了系统发育信息是否提高了预测性能。当使用人类和小鼠的平均亲和力时,我们观察到预测数量略有减少。相反,当使用最小亲和力时,预测会有更多的调节转录因子。我们将这些结果总结为图4.

保存图片、插图等的外部文件。对象名为gkq438f4.jpg

TransFind的性能。我们定义了397组用顶级基因本体术语注释的基因,并使用不同参数搜索丰富的假定转录因子靶点。原始数据的结果(深灰色)与洗牌矩阵或启动子序列的结果(中灰色)或相同大小分布的随机基因集(浅灰色)进行比较。面板A显示了具有至少一个显著因子的GO集合的分数,面板B显示了GO集合中发现因子的平均数。

使用不同的随机化场景估计错误预测的比例。首先,我们改变了每个转录因子矩阵中的位置。这种方法对错误预测因子的比例给出了最高的估计。然而,我们将此结果解释为高估,因为随机矩阵通常与原始矩阵非常相似(特别是对于重复或倾斜矩阵)。接下来,我们在启动子集合上运行TransFind,每个启动子中的核苷酸序列被洗牌。由此产生的错误预测比例小于5%。如果通过使用人类和小鼠直系同源物之间的平均亲和力来考虑保守性,那么错误预测的比例甚至更小。相反,当使用最小相似性时,错误预测的数量会增加,预测的数量也会增加。最后,我们还抽样了与参考397个基因集具有相同大小分布的随机基因集。因为在这些随机基因集中,只有大约2%是发现的任何重要因素,与是否使用保育无关。总的来说,结果表明,对于大约5-8%的提交的基因集,会返回错误的预测。选择最小的相似性,结果显示出更多的预测,但代价是错误预测的数量增加。相反,通过使用平均亲和力,可以减少错误预测的数量。

根据洗牌启动子的结果,可以推断错误预测主要是因为启动子序列的核苷酸组成有偏差。在对397个基因本体组的分析中,我们发现17个组(5%)的启动子显示CpG-或GC含量异常高或低。因此,TransFind还提供了一种带有偏置启动子的基因集测试,并在发生如此显著的富集时显示警告。然后,用户应仔细考虑转录因子是否仅因整体启动子组成而被发现,以及是否应研究其他调控模式,如表观遗传调控。

为了评估短核心启动子区域是否足以预测调节因子,我们对一组长度为1000nt的启动子重复了分析,但没有显示出更好的性能。直接上游的短核心启动子区域(从基因起始位点上游700 nt到上游300 nt)的比较也支持这一观察。对这些移位区域的预测几乎不比对洗牌启动子序列的预测好。

总之,我们的系统分析表明,将短核心启动子(基因启动子上游300 nt到下游100 nt)与小鼠和人类的最小亲和力结合起来,可以提供最佳的敏感性,而不会出现许多错误预测。

实施细节

启动子序列的提取

Ensembl数据库(25)在其当前版本中,57被用作基因组序列和相应基因注释的来源。我们提取了两组假定的启动子:短覆盖上游300 nt到下游100 nt的范围,长覆盖最上游转录起始点上游800 nt到下游200 nt的范围。

结合亲和力的预测

我们使用以前发布的方法(5)计算转录因子与基因启动子的结合亲和力。由于这个计算很耗时,我们预先计算了所有启动子和所有转录因子的亲和力数组。我们使用Transfac中的所有脊椎动物转录因子矩阵(17)2009.4版或Jaspar核心的非冗余脊椎动物矩阵(19). 此外,由于Transfac是高度冗余的,我们使用了矩阵子集,对于每个转录因子,我们选择信息含量最高的矩阵。除了计算不同转录因子结合亲和力外,我们还测定了GC-和CpG含量(26)然后在统计测试中使用这些值和亲和力。

系统发育分析

TransFind提供了一种仅考虑系统发育保守调控的选项。在这种模式下,一个因子对一个基因的亲和力与同一因子对选定有机体中基因同源物的亲和力相结合。计算两个仿射的最小值或平均值。在最小模式下,两种生物体中具有高亲和力的基因排名最高。

标识符映射

在分析的第一步中,TransFind地图为亲和阵列中的基因提供了输入基因名。映射表是根据Ensembl中每个基因可用的交叉参考注释构建的。如果一个输入标识符映射到多个基因,则所有这些基因都将被包括在进一步的分析中。同一基因的多次出现是自动统一的。为了保证阳性和阴性集合之间没有重叠,两个集合共同的所有基因都被排除在阴性基因集合之外。因此,用户可以简单地将他们的基因集粘贴到输入表单中,而无需事先进行任何转换,然后立即启动TransFind。如果没有提供阴性集,则取基因组中不在阳性集中的所有基因。

统计分析

对于每个转录因子,我们根据预先计算的亲和力确定选定数量的顶级基因。随后,使用多重测试修正的Fisher精确测试,我们检查与阴性基因组相比,在提交的阳性基因组中是否存在富含排名靠前的基因的转录因子(27).

Web服务器

结果以排名表的形式呈现,链接到提供位置频率矩阵和相应转录因子更多信息的页面。我们还显示序列标识以可视化位置频率矩阵,并提供正负序列集的GC和CpG含量直方图。在内部,所有计算结果都以XML格式保存。web服务器的功能嵌入到内容管理系统(Joomla)中,该系统允许高效地管理多个会话,并快速更改描述和帮助页面,以更新网站并纳入用户建议。

结论

我们已经实现了一个易于使用的网络服务器,允许使用最先进的方法预测调节一组基因的转录因子。该方法已在各种数据集上成功评估。该网站是免费的,对所有用户开放http://transfind.sys-bio.net网站/并且没有登录要求。

基金

德国国家基因组研究网络(NGFN-Plus,赠款01GS0815);德国联邦教育和研究部(BMBF)(授予FORSYS-Partner);Deutsche Forschungsgemeinschaft(授予SFB 618);欧洲委员会(批准号:CancerSys HEALTH-F4-2008-223188);分子网络基因组学和系统生物学国际研究培训小组。开放接入费用的资金:NGFN-Plus(拨款01GS0815)。

利益冲突声明。未声明。

致谢

我们要感谢拉尔夫·姆罗卡提出的宝贵意见和建议。

参考文献

1Wasserman WW,Sandelin A.应用生物信息学鉴定调控元件。Nat.Rev.基因。2004;5:276–287.[公共医学][谷歌学者]
2Dieterich C,Rahmann S,Vingron M.保守预测转录因子结合位点的非随机分布的功能推断。生物信息学。2004;20(补充1):i109–i115。[公共医学][谷歌学者]
三。Mrowka R,Steege A,Kaps C,Herzel H,Thiele BJ,Persson PB,Blüthgen N。分析进化保守非编码区对肾素启动子活性的作用。核酸研究。2007;35:5120–5129. [PMC免费文章][公共医学][谷歌学者]
4Sauer T,Shelest E,Wingender E.评估人类啮齿动物比较的系统发育足迹。生物信息学。2006;22:430–437.[公共医学][谷歌学者]
5Roider HG,Kanhere A,Manke T,Vingron M.从生物物理模型预测转录因子与DNA的亲和力。生物信息学。2007;23:134–141.[公共医学][谷歌学者]
6Ward LD,Bussemaker HJ公司。通过同源启动子序列的无对齐和基于亲和力的分析预测功能转录因子结合。生物信息学。2008;24:i165–i171。 [PMC免费文章][公共医学][谷歌学者]
7Tanay A.酵母基因组中广泛的低亲和力转录相互作用。基因组研究。2006;16:962–972. [PMC免费文章][公共医学][谷歌学者]
8Granek JA,Clarke ND。转录因子结合和基因调控的显式平衡模型。基因组生物学。2005;6:R87。 [PMC免费文章][公共医学][谷歌学者]
9Blüthgen N,Kielbasa SM,Herzel H.推断硅片中转录的组合调控。核酸研究。2005;33:274–279. [PMC免费文章][公共医学][谷歌学者]
10Tullai J、Schaffer M、Mullenbrock S、Kasif S、Cooper G。磷脂酰肌醇3-激酶和mek/erk信号通路调节的人类基因上游转录因子结合位点的鉴定。生物学杂志。化学。2004;279:20167–20177.[公共医学][谷歌学者]
11Sui SJH、Fulton DL、Arenillas DJ、Kwon AT、Wasserman WW。OPOSSUM:用于分析调控基序过度表达的集成工具。核酸研究。2007;35:W245–W252。 [PMC免费文章][公共医学][谷歌学者]
12Roider HG、Manke T、O'Keeffe S、Vingron M、Haas SA。面食:识别与共同调控基因集相关的转录因子。生物信息学。2009;25:435–442. [PMC免费文章][公共医学][谷歌学者]
13Chang L-W,Fontaine BR,Storno GD,Nagarajan R.Pap:哺乳动物转录调控序列分析的综合工作台。核酸研究。2007;35:W238–W244。 [PMC免费文章][公共医学][谷歌学者]
14Frith MC,Fu Y,Yu L,Chen J-F,Hansen U,Weng Z。通过统计过度表示检测功能性DNA基序。核酸研究。2004;32:1372–1381. [PMC免费文章][公共医学][谷歌学者]
15Schneider TD,Stephens RM。序列标识:显示一致序列的新方法。核酸研究。1990;18:6097–6100. [PMC免费文章][公共医学][谷歌学者]
16Roider HG、Lenhard B、Kanhere A、Haas SA、Vingron M.CpG缺失启动子携带组织特异性转录因子结合信号——对基序过度表达分析的影响。核酸研究。2009;37:6305–6315. [PMC免费文章][公共医学][谷歌学者]
17Matys V、Kel-Margoulis O、Fricke E、Liebich I、Land S、Barre-Dirrie A、Reuter I、Chekmenev D、Krull M、Hornischer K等。Transfac及其模块跨计算机:真核生物中的转录基因调控。核酸研究。2006;34:D108–D110。 [PMC免费文章][公共医学][谷歌学者]
18Kielbasa SM,Gonze D,Herzel H.测量转录因子结合位点之间的相似性。BMC生物信息学。2005;6:237. [PMC免费文章][公共医学][谷歌学者]
19Portales-Casamar E、Thongjuea S、Kwon AT、Arenillas D、Zhao X、Valen E、Yusuf D、Lcnhald B、Wasserman WW、Sandelin A.Jaspar 2010:大大扩展的转录因子结合谱开放存取数据库。核酸研究。2010;38:D105–D110。 [PMC免费文章][公共医学][谷歌学者]
20.Fernandez PC、Frank SR、Wang L、Schroeder M、Lill S、Greene J、Cocito A、Amati B。人类c-myc蛋白的基因组靶点。基因发育。2003;17:1115–1129. [PMC免费文章][公共医学][谷歌学者]
21Bracken AP、Ciro M、Cocito A、Helin K.E2F靶基因:揭示生物学。生物化学趋势。科学。2004;29:409–417.[公共医学][谷歌学者]
22Wu JT、Krai JG。NF-κb/Iκb信号系统:乳腺癌治疗的分子靶点。外科研究杂志。2005;123:158–169.[公共医学][谷歌学者]
23Semenza GL.针对HIF-I进行龋齿治疗。Nat.Rev.癌症。2003;:721–732.[公共医学][谷歌学者]
24YI Sementchenko,Watson DK.等靶基因:过去、现在和未来。致癌物。2000;19:6533–6548.[公共医学][谷歌学者]
25Hubbard TJP、Aken BL、Ayling S、Ballester B、Beal K、Bragin E、Brent S、Chen Y、Clapham P、Clarke L等,2009年合奏。核酸研究。2009;37:D690-697。 [PMC免费文章][公共医学][谷歌学者]
26Saxonov S、Berg P、Brutlag DL。人类基因组中cpg二核苷酸的全基因组分析区分了两类不同的启动子。程序。国家。阿卡德。科学。美国。2006;103:1412–1417. [PMC免费文章][公共医学][谷歌学者]
27Blüthgen N、Brand K、Cajavec B、Swat M、Herzel H、Beule D。利用基因本体论对基因组进行生物学分析。基因组信息。2005;16:106–115.[公共医学][谷歌学者]

来自的文章核酸研究由以下人员提供牛津大学出版社