TFM-Explorer: mining cis-regulatory regions in genomes

Laurie Tonon; Hélène Touzet; Jean-Stéphane Varré

doi:10.1093/nar/gkq473

核酸研究。2010年7月1日；38（Web服务器问题）：W286–W292。

2010年6月3日在线发布。 doi（操作界面）：10.1093/nar/gkq473

预防性维修识别码：项目经理2896114

PMID：20522509

TFM-Explorer:挖掘顺式-基因组中的调控区

劳里·托恩,¹ 赫莱恩·图泽特,^1,²和Jean-Stéphane Varré^1,^2,^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

DNA-结合转录因子（TF）在转录调控中起着核心作用，有助于阐明控制这一基本生物过程的复杂机制的计算方法非常有用。从这个角度来看，我们提出了TFM Explorer网络服务器，它是一个工具箱，可以在一组共享一些调控机制的基因上游调控序列中识别假定的TF结合位点。TFM-Explorer查找显示过度表达结合位点的本地区域。接受的生物体有人、鼠、鼠、鸡和果蝇。服务器使用了许多功能来帮助用户分析其数据：可视化基因组序列上选定的结合位点，以及选择顺式-监管模块。TFM-Explorer位于http://bioinfo.lifl.fr/TFM网站.

简介

解读顺式-调控元件是理解基因表达调控的关键。然而，生物信息学检测顺式-调控元件是一项众所周知的困难任务，尤其是在高等真核生物中。与转录因子结合位点（TFBS）相对应的基序信息含量较低，这是因为DNA与结合蛋白之间的亲和力不应太强，并且结合机制非常复杂。它由序列模式驱动，也由染色质结构和转录因子（TF）之间的协作驱动。成功的方法结合了几个互补的预测策略。他们利用数据库中可用的已知DNA-蛋白质结合基序、系统发育足迹和多物种比较、顺式-涉及协作TF的监管模块（CRM）。在存在一组共表达或共调控基因的情况下，寻找过表达的结合基序也很有成效。基本假设是，具有相似表达谱的基因应该在其上游调控区域共享共同的TFBS。这种方法可以在几个程序工具中使用。参见（参考。1–4)例如。一项详尽的调查最近出现在(5).

在本文中，我们介绍了TFM-Explorer工具箱。与其他工具相比，TFM-Explorer能够分析来自不同物种的一组同源上游序列，而无需任何预处理步骤，如对齐或保守性搜索。支持的生物体包括人类、小鼠、大鼠、鸡和果蝇。另一个特殊性是TFM-Explorer可以发现TFBS过度表达的局部区域，并使用空间守恒来提高预测的准确性。局部过度表达可以识别参与转录调控的短或长区域。空间保守性利用了这样一个事实，即基础TF的活性取决于核心启动子中的结合位点到转录起始位点（TSS）的距离(6)例如。

TFM-Explorer能够在TSS周围分析多达15 kb的可用物种的所有RefSeq基因。最后，TFM Explorer提供了许多功能来帮助用户分析他们的数据：基因组序列上所选TFBS的可视化和CRM的选择。

方法

TFBS由位置权重矩阵（PWM）建模，如Transfac中提供的(7)或贾斯帕(8)数据库。

过度代表的TFBS集群

该方法的第一步是在上游调控序列集中搜索局部超表达的TFBS。对于本任务，所有PWM均单独考虑。该算法的工作原理如下。

首先，对于给定的PWM，在两条绞线上扫描输入序列，以使用PWM的简单得分阈值找到所有潜在的TFBS。选择此分数阈值是为了给出P（P）-值等于或大于2×10⁻³对于每个序列的每个位置[如中所述(9)].
然后，对于与TSS相关的每个位置，我们将该数字进行离散x个对于从该位置开始的给定PWM，输入序列具有TFBS，并且我们计算至少观察到的概率x个偶然发生在那个位置。这个演算使用位置和物种相关的背景模型，这些背景模型是从基因组中所有注释的上游区域为每个可用物种预先计算的。
最后，我们使用考虑了先前计算的概率的对数比滑动评分系统来检索TFBS密度相对较高的局部区域。

有关TFM-Explorer策略的更多详细信息，请参阅(10).

因此，TFM-Explorer返回一组选定的集群。簇的特征是与单个TF相对应的PWM，以及基因组序列上显示TFBS在相关PWM中显著过度表达的区域。每个集群都分配了一个P（P）-衡量其质量的价值。请注意，TFM-Explorer可以为同一PWM输出多个集群，对应于上游序列的不同区域。在这种情况下，每个集群都分配了自己的P（P）-值。

成对相关性

TFM资源管理器能够识别算法为过度表示的TFBS找到的一组重要聚类中的所有相关聚类对。相关性演算是基于与每个聚类相关联的输入序列的子集。假设用户给定的输入序列集包含n个序列。然后可以为每个簇分配一个大小为的二进制向量n个如下：我如果我第个输入序列包含集群区域中PWM的出现，否则为0。只要两个簇各自的二进制向量不是随机分布的，就认为它们是相关的。相关系数的值在-1和1之间。绝对值越高，两个簇之间的相关性越高。正值表示簇共享的序列比预期的多。例如，这对应于协同作用的TF。负值表示簇共享的序列少于预期的序列。在这种情况下，簇对应于显示不同调节机制的两个互补序列子集。

客户关系管理

还可以从所有潜在TFBS中选择和可视化CRM。这里，CRM被定义为选择PWM的TFBS的组合，无论它们的顺序或它们之间的成对距离如何。更准确地说，CRM由以下功能定义。

一组相关PWM；
CRM的长度：CRM第一个元素的起始位置与CRM最后一个元素的开始位置之间的最大位置数；
开始搜索CRM的序列上的5′位置；
搜索CRM结束的序列上的3′位置；和
CRM中不同PWM的最小数量：该数量应小于或等于第一项中所选PWM的数量。

我们使用一种高效的线性运行时间算法来找出所有指定的CRM，这允许用户交互式地修改CRM的参数。

WEB服务器

实施和要求

TFM-Explorer是一个完全用Python编写的web工具，位于Apache web服务器上，实现客户机-服务器模型。一些Javascript和AJAX方法可以提供友好易用的界面。TFM-Explorer已在多种浏览器上进行了测试，包括Firefox、Safari、Chrome、Opera和Internet Explorer，并已通过w3C设施的验证。您必须在浏览器上启用Javascript才能使用所有可视化工具。

输入表单

TFM-Explorer需要一组调控上游DNA序列作为输入。这些序列可以以标准FASTA格式或使用基因的RefSeq登录号提供(11). 在这两种情况下，可以使用文件将数据上传到服务器上，也可以直接将其粘贴到表单中。

该系统接受来自以下生物体和集合的DNA序列和RefSeq登录号：人类(汞19)，鼠标(毫米9)，大鼠(rn4型)，鸡肉(加仑加仑3)和果蝇(立方分米).

用户还应指定TSS相关给定序列的位置。这些信息对于使用正确的背景模型分析数据至关重要。接受值范围为−10 000 bp至+5000 bp。

最后，必须选择用于扫描序列的PWM集。2009年JASPAR脊椎动物数据库的PWM(8)和6.0 TRANSFAC数据库(7)可用。

输出

TFM-Explorer运行可能需要几分钟时间。搜索结束后，结果将显示在新的网页上。每次运行都会分配一个唯一的标识符，结果将存储在服务器上一周。所有结果都可以下载为包含XML和CSV文件的存档，用于存储和自动解析。

主要结果页面

它包含由TFM-Explorer根据其P（P）-值。对于每个簇，有关PWM、相关转录因子、簇边界、PWM TFBS出现的序列数、P（P）-值和相关簇列表被给出。通过在结果中导航，可以获得有关每个集群的详细信息。

可点击的图形有助于可视化输入序列上所有簇的位置(图1)系统地计算了所有簇之间的成对相关性，并以二维数组表示。

在单独的窗口中打开

图1。

输入序列上簇的紧凑可视化。每个彩色矩形对应一个簇。给定矩阵使用唯一的颜色。

群集的详细结果

对于每个集群，都提供了其他信息。这包括与群集相关的PWM信息，如信息内容、序列徽标(12)、GC百分比、TFBS的位置和结合序列以及与其他簇的相关性列表。

TFBS和CRM的可视化

对于主结果页面中的一个或多个簇，可以可视化输入序列上的所有TFBS。此任务有一个交互式工具。默认情况下，将显示包含选定集群PWM的所有TFBS的输入序列图。该图纸附有以可导出文本格式显示的所有选定TFBS的位置和DNA序列。

用户可以选择其他PWM，修改输入序列区域的边界以进行调查，并刷新图形以显示更多TFBS或扩展其限制。除了TFBS的简单可视化之外，该工具还可以用于识别和显示CRM中出现的TFBS，方法是简单地指定CRM的功能，如前一节所述，并刷新图形(图2).

在单独的窗口中打开

图2。

特定于皮肤的模块结果。TiGER中的模块被红色矩形包围。蓝色：E47；灰色：Lmo2复合物；绿色：MyoD；粉红色：Areb6。

帮助页面

所有页面都有上下文帮助链接（在网页上用[？]表示），这些链接提供了关于参数值、输入和输出格式的更详细解释。

使用示例

TFM-Explorer中实现的方法已被几个独立的研究小组成功使用(13–16). 我们在这里用三个简单的例子说明了该方法的相关性。我们还与Pscan获得的结果进行了一些比较(4)、oPOSSUM(三)和PASTAA(2). web服务器上的示例部分提供了所有数据集序列。

肌肉特异性基因分析

肌肉数据集最初由Wasserman和Fickket介绍(7)并且在文献中经常用于评估CRM预测工具的准确性。它也出现在一般评估文件中(18). 我们使用后一个来源，并在可用时检索RefSeq登录号。这导致了一组来自人类、小鼠、大鼠和鸡的19个基因。已知调节这些基因的TF有：Mef-2、Myf、Mzf、Sp1、SRF和Tef。

我们使用所有默认参数值启动了TFM-Explorer：JASPAR PWM，位置从−2000 bp到+200 bp。在TFM-Explorer排名的六个最重要的集群中，其中五个对应于前面提到的TF(表1). 在第8列，TFM-Explorer还在位置[−56:−2]为TBP识别集群，该位置对应于TATA-盒。在图3，我们显示了这些集群的TFBS的位置。该图形是通过TFM-Explorer可视化工具获得的。它清楚地表明，该方法能够识别大区域或短区域，并且一些TF具有TSS的首选位置。

在单独的窗口中打开

图3。

肌肉特定数据集——集群可视化。每个彩色矩形对应于TFM-Explorer找到的TFBS。蓝色：SP1，粉色：SRF，灰色：EBF1，绿色：Myf，黄色：MZF1，洋红：MEF2A，红色：TBP。

表1。

肌肉特定数据集—TFM-Explorer发现的顶级簇

排名	TF公司	位置	P（P）-价值
⋆ 1	SP1型	[−1115:−0934]	5.38e-10页
⋆ 2	SRF公司	[−0246:−0025]	2009年5月9日
三	EBF1（EBF1）	[−0982:−0773]	2007年1月39日
⋆ 4	我的（Myf）	[−0143:−0015]	2.89e-07
⋆ 5	MZF1_1型	[−1348:−0202]	2007年3月5日
⋆ 6	MEF2A公司	[−0064:−0026]	3.87e-07日

在单独的窗口中打开

已知标有星号的TF参与序列的调节。

在表2，我们给出了使用Pscan（人类和小鼠基因）和oPOSSUM（人类基因）获得的结果。我们无法在此示例上运行PASTAA，因为它不接受JASPAR矩阵。从全球来看，TFM-Explorer对感兴趣的TF进行了更好的排名。

表2。

使用Pscan和oPOSSUM的肌肉数据集的结果

Pscan公司		oPOSSUM公司
排名	TF公司	排名	TF公司
1	我的（Myf）	1	我的（Myf）
三	SRF公司	三	MZF1_1型
10	MZF1_5型	6	MZF1_5型
13	SP1型	10	MEF2A公司
19	MEF2A公司
22	MZF1_1型

在单独的窗口中打开

仅显示已知在肌肉中表达的TF。使用TFM-Explorer可以找到所有这些TF(表1).

皮肤特异性基因分析

第二个数据集与皮肤组织中优先表达的基因有关，可从TiGER数据库获得(19). 它由27个人类序列组成。我们使用了TRANSFAC中的脊椎动物基质（一些预期的PWM在Jaspar中不存在），并在TSS之前搜索了5000 bp的潜在TFBS。

TFM-Explorer提供的前四个集群(P（P）-低于3e-7的值）对应于参与调节皮肤特异性基因的四个TF(表3). 位置（TSS之前在1500bp和3200bp之间）与TiGER数据库中报告的数据一致。此外，集群2和集群3涉及两个TF AREB6和Lmo2，它们在TiGER数据库中引用的模块中的出现率最高（在49个模块中分别为24和36个模块）。我们进一步研究了这四个簇。为此，我们在涉及四个不同TF的位置−3112和−1528之间寻找最大长度为100的CRM。结果显示在图2发现的CRM与TiGER数据库中预测的一致。此外，该图显示CRM中的事件经常重叠，无论是在同一条链上还是在相反的链上(表4). 通过两两相关性的研究证实了这一观察结果。例如，Lmo2杂岩与Areb6的共有64%的产状，与MyoD的共有53%。这是因为Areb6和MyoD的PWM非常相似，E47和Lmo2复合体的PWM在反向补充时也对应相同的一致序列。TFM-Explorer中提供了这四个PWM的序列徽标图4.

在单独的窗口中打开

图4。

PWM标志V$AREB6_03、V$MYOD_Q6（顶部）、V$LMO2COM_01和V$E47_01（底部），从左到右。

表3。

为皮肤数据集计算的四个最佳簇

排名	TF公司	位置	P（P）-价值
1	E47型	[−2989:−1528]	1.33e-15号机组
2	区域6	[−3112:−1797]	8.53e-11日
三	Lmo2复合物	[−3022:−2355]	8.81e-10
4	MyoD公司	[−2953:−2537]	2007年2月27日

在单独的窗口中打开

表4。

已找到序列的CRMNM_005530号

脉宽调制	职位	圣。	顺序
V$AREB6_03	−3106	+	`CCGCACCTGCC公司`
V$AREB6_03	−3055	+	`GCACACCTGGAT公司`
伏$E47_01	−3107	+	`accgcacctggctc公司`
伏$E47_01	−3057	−	`AAGCACACCTGGATT公司`
V$LMO2COM_01	−3106	−	`CCGCACCTGCC公司`
V$LMO2COM_01	−3055	−	`GCACACCTGGAT公司`
V$MYOD_Q6	−3105	+	`CGCACCTGGC公司`

在单独的窗口中打开

我们仅与PASTAA进行了比较。事实上，oPOSSUM不接受TRANSFAC矩阵，Pscan在TSS之前最多分析1000 bp。结果见表5.PASTAA标识五个TF，TFM-Explorer标识六个TF。此外，TiGER提供的CRM中涉及最多的TF与TFM-Explorer的排名更好。

表5。

PASTAA皮肤数据集的结果

TFM浏览器	帕斯塔
等级	等级	TF公司	客户关系管理
2		区域6	36
三	17	Lmo2复合物	24
1	1	E47型	7
4		MyoD公司	6
	12	厄尔巴哈	三
18	18	Srebp公司	2
21		希腊	1
	8	麋鹿-1	1

在单独的窗口中打开

仅显示TiGER数据库中引用的TF。空白单元格表示该方法未找到TF。CRM列表示TiGER给定的CRM中涉及相应TF的次数。

神经特异性基因分析

第三组数据与脑组织中高表达而其他组织中低表达的基因有关，来自(20). 作者选择了9个突触前基因，这些基因显示出强烈的神经元表达。我们用TRANSFAC PWM对这九个基因启动了TFM-Explorer。由于预期的簇数很高，我们更改了参数并选择了4的比率，以获得具有更高TFBS密度的簇。

TFM Explorer给出的大多数簇都涉及已知调节突触前特异性基因的转录因子。此外，聚类之间的成对相关演算揭示了其中一些聚类之间的显著相关性。出现了两组集群，如所示表6有趣的是，这些集合涉及与实验确定的调控元件区域相对应的两个不同区域(20) (图5，坐标差与(20)由于零的位置不同）。

在单独的窗口中打开

图5。

与中给出的两组相关簇相对应的TFBS的出现表6.棕色：CP2；橙色：Sp1；粉红色：Sp1；青色：v-Jun；红色：NGFI-C；灰色：CREB。

表6。

为神经特异性数据集计算的两组相关聚类

排名	TF公司	位置	P值
2	转速1	[−1062:−0957]	7.50e-06日
8	NGFI-C公司	[−0211:−0012]	8.57e-05日
22	CP2型	[−1296:−0937]	2004年5月20日
三	裂缝	[−0163:−0023]	2005年1月20日
15	转速1	[−1211:−1168]	2.72e-04日
25	v-Jun公司	[−0199:−0023]	5.78e-04年

在单独的窗口中打开

该数据集与使用FASTA序列作为输入的CRM分析有关，这超出了上述三种软件的范围。因此，我们没有进行任何比较。

下载

我们已经介绍了TFM-Explorer web服务器。TFM-Explorer也可以在Cecill许可证下下载。这个用Python编写的命令行应用程序提供了TFM-Explorer的高度可配置使用，可以计算新物种的新背景模型，添加PWM，并将TFM-Explorer集成到自动生物信息管道中。它在Windows、Linux和Mac OS下运行。

利益冲突声明。未声明。

参考文献

1Chang L-W，Nagarajan R，Magee JA，Milbrandt J，Stormo GD。一个基于转录因子结合谱过度表达预测转录调控机制的系统模型。基因组研究。2006;16:405–413. [PMC免费文章][公共医学][谷歌学者]

2Roider HG、Manke T、O'Keeffe S、Vingron M、Haas SA。PASTAA：识别与共同调控基因集相关的转录因子。生物信息学。2009;25:435–442. [PMC免费文章][公共医学][谷歌学者]

三。Ho Sui SJ、Fulton DL、Arenillas DJ、Kwon AT、Wasserman WW。oPOSSUM：用于分析调控基序过度表达的集成工具。核酸研究。2007;35：W245–W252。 [PMC免费文章][公共医学][谷歌学者]

4Zambelli F、Pesole G、Pavesi G.Pscan：在共调控或共表达基因序列中发现过度表达的转录因子结合位点基序。核酸研究。2009;37：W247–W252。 [PMC免费文章][公共医学][谷歌学者]

5Nguyen TT，Androulakis IP。转录因子结合位点的计算发现的最新进展。算法。2009;2:582–605. [谷歌学者]

6刘易斯B。基因。美国：Jones&Bartlett Publishers；2007[谷歌学者]

7Matys V、Fricke E、Geffers R、Gling E、Haubrock M、Hehl R、Hornischer K、Karas D、Kel AE、Kel-Margoulis OV等。Transfac：转录调控，从模式到剖面。核酸研究。2003;31:374–378. [PMC免费文章][公共医学][谷歌学者]

8Bryne JC、Valen E、Tang MH、Marstrand T、Winther O、da Piedade I、Krogh A、Lenhard B、Sandelin A.Jaspar，转录因子结合图谱开放存取数据库：2008年更新中的新内容和工具。核酸研究。2008;36：D102–D106。 [PMC免费文章][公共医学][谷歌学者]

9Touzet H，VarréJ-S。位置权重矩阵的高效准确p值计算。算法分子生物学。2007;2 [PMC免费文章][公共医学][谷歌学者]

10Defrance M，Touzet H。使用局部过度表达和比较基因组学预测转录因子结合位点。BMC生物信息学。2006;7 [PMC免费文章][公共医学][谷歌学者]

11Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列（RefSeq）：基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2006;35：D61–D65。 [PMC免费文章][公共医学][谷歌学者]

12Crooks GE，Hon G，Chandonia JM，Brenner SE。Weblogo：序列徽标生成器。基因组研究。2004;14:1188–1190. [PMC免费文章][公共医学][谷歌学者]

13Endale Ahanda M-L、Ruby T、Wittzell H、Bed’Hom B、Chauss A-M、Morin V、Oudin A、Chevalier C、Young JR、Zoorob R.在鉴定与鸡免疫反应相关的基因时发现的非编码RNA。免疫遗传学。2009;61:57–70.[公共医学][谷歌学者]

14Naamane N、van Helden J、Eizirik DL。胰腺β细胞中Nf-kappaB调节基因的电子鉴定。BMC生物信息学。2007;8 [PMC免费文章][公共医学][谷歌学者]

15Romero DG、Plonczynski MW、威尔士BL、Gomez-Sanchez CE、Zhou MY、Gomezz-Sanchez-EP。醛固酮促分泌剂刺激的大鼠肾上腺肾小球带细胞的基因表达谱。生理学。基因组学。2007;32:117–127.[公共医学][谷歌学者]

16Wang Y、Couture OP、Qu L、Uthe JJ、Bearson SMD、Kuhar D、Lunney JK、Nettleton D、Dekkers JCM、Tuggle CK。猪对霍乱血清沙门氏菌的转录反应分析表明，肠系膜淋巴结中激活了NFkappaB的新靶点。BMC基因组学。2008;9 [PMC免费文章][公共医学][谷歌学者]

17Wasserman WW，Fickett JW。识别赋予肌肉特异性基因表达的调控区域。分子生物学杂志。1998;278:167–181.[公共医学][谷歌学者]

18Klepper K，Sandwe GK，Abul O，Johansen J，Drablos F.复合基序发现方法评估。BMC生物信息学。2008;9:123. [PMC免费文章][公共医学][谷歌学者]

19Liu X，Yu X，Zack DJ，Zhu H，Qian J.Tiger：组织特异性基因表达和调控数据库。BMC生物信息学。2008;9 [PMC免费文章][公共医学][谷歌学者]

20.Liu R，Hannenhalli S，Bucan M.基序和顺式调节模块介导突触前神经元中共表达的基因的表达。基因组生物学。2009;10 [PMC免费文章][公共医学][谷歌学者]

来自的文章核酸研究由以下人员提供牛津大学出版社