跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2006年7月1日;34(Web服务器问题):W369–W373。
2006年7月14日在线发布。 数字对象标识:10.1093/nar/gkl198
预防性维修识别码:项目编号1538909
PMID:16845028

MEME:发现和分析DNA和蛋白质序列基序

摘要

MEME(Multiple EM for Motif Elicitation)是在生物序列集合中搜索新“信号”的最广泛的工具之一。应用包括发现新的转录因子结合位点和蛋白质结构域。MEME的工作原理是搜索用户提供的DNA或蛋白质序列中出现的重复的、未加标签的序列模式。用户可以通过国家生物医学计算资源托管的web服务器执行MEME搜索(网址:http://meme.nbcr.net)和几个镜像站点。通过同一个网络服务器,用户还可以访问Motif Alignment和Search Tool,在序列数据库中搜索与几种流行格式编码的图案的匹配。通过点击MEME输出中的按钮,用户可以将其输入序列中发现的图案与已知图案的数据库进行比较,搜索序列数据库中与图案匹配的图案,并以各种格式显示图案。本文描述了可自由访问的web服务器及其体系结构,讨论了如何有效地使用MEME在生物序列中发现新的序列模式并分析其意义。

简介

MEME(Multiple EM For Motif Elicitation)的目的(与“team”押韵)(1,2)允许用户发现DNA或蛋白质序列中的信号(称为“模体”)。MEME的用户输入一组被认为共享某些(未知)序列信号的序列。例如,来自共表达和/或同源基因的一组启动子中的一些或全部可能包含同一转录因子的结合位点(“信号”)(). 类似地,一组与单个宿主蛋白质相互作用的蛋白质可能通过类似的结构域(“信号”)来实现这一目的(4). 这两种类型的序列信号通常可以表示为未映射的近似序列模式。MEME使用一种类似于无间隙、局部、多序列比对的过程,在输入序列集中搜索具有统计意义的模体。通过这种方式,MEME可以发现启动子组中共享转录因子的结合位点或蛋白质组中常见的蛋白质-蛋白质结合结构域。除转录因子结合位点和蛋白质-蛋白质相互作用域外,MEME还可用于发现描述许多其他类型DNA或蛋白质信号的基序。

要通过网站使用MEME,用户可以通过上传文件或剪切粘贴的方式以FASTA格式提供一组序列。唯一需要的其他输入是将发送结果的电子邮件地址。(计划的未来版本将通过在web服务器上提供预设时间段的结果临时存储来消除此要求。)默认情况下,MEME最多查找三个图案,每个图案可能出现在一些或所有输入序列中。MEME自动选择每个图案的宽度和出现次数,以将“E类-模体的值-在随机序列中找到同样保守的模式的概率。默认情况下,仅考虑6到50之间的图案宽度,但用户可以更改此设置以及搜索图案的其他几个方面。

MEME输出是HTML,并以输入序列(子集)的局部多重对齐以及其他几种格式显示图案(图1). ‘方块图显示了每个输入序列中图案的相对位置。MEME HTML输出上的按钮允许将一个或所有主题转发给其他基于web的程序进行分析。点击一个按钮可以将所有的主题发送到MAST网络服务器,在那里可以搜索各种序列数据库(或上传的序列),寻找与主题匹配的序列。这在某些情况下很有用,例如,当用户想知道感兴趣的基序是否也存在于其他基因或基因组中时。

保存图片、插图等的外部文件。对象名为gkl198f1.jpg

MEME输出示例。MEME HTML输出形式的这一部分显示了MEME在输入序列中发现的蛋白质基序。标识为属于该基序的位置被指明,其上方是基序的“一致性”和一个彩色编码条形图,显示基序中每个位置的守恒性。屏幕截图的底部可以看到一些超链接按钮,这些按钮允许以其他方式查看和分析图案。

MAST是一种基于网络的工具,可用于搜索与一个或多个图案匹配的序列。它可以用于查找包含MEME、其他模体发现工具或从模体数据库中获取的模体的序列。MAST网站通过与MEME网站相同的URL访问,提供了大量用于搜索的核苷酸和蛋白质数据库。MAST查询可能包含任意数量的基序,它使用所有基序对所选数据库中的每个序列进行评分。在上面的第一个例子中,MAST可以搜索DNA序列以匹配MEME在一组启动子序列中发现的假定转录因子结合位点(TFBS)基序。MAST可以在蛋白质序列中搜索与第二个MEME示例中发现的假定蛋白质-蛋白质相互作用基序的匹配。

通过网站或本地安装版本的MEME用户被要求引用本文以及MEME的主要参考文献(5)。MAST用户被要求引用本文和参考文献(6).

MOTIF发现战略

主题的发现可以被视为“大海捞针”的问题。基序发现算法是在一组更长的序列(干草堆)中寻找一组相似的短序列(针)。当motif实例较长且彼此非常相似时,问题更容易出现。当motif实例较短和/或退化,或者输入序列很长时,这会变得更加困难。

在一组DNA序列(例如基因上游的基因组区域)中发现TFBS基序是一项困难的任务,因为结合位点往往较短且退化,并且由于启动子区域通常难以准确识别。这个问题在真核生物中往往比在原核生物和酵母中更严重,因为真核生物的TFBS往往更短,更易变(7).

为了用MEME成功地发现TFBS基序,有必要仔细选择和准备输入序列。候选序列可以是基因的启动子,根据表达微阵列实验的证据,这些基因被认为是共同调控的,或者根据染色质免疫沉淀实验,这些序列似乎与转录因子结合。序列应尽可能短,并包含尽可能少的“噪音”序列(不包含任何基序的序列)。理想情况下,序列长度应<1000 bp(8). 包含40个以上的基序序列通常不会提高MEME和类似算法的TFBS基序发现(9). 如果序列包含不包含感兴趣基序的低信息片段,则使用DUST程序(R.L.Tatusov和D.J.Lipman,未发表的NCBI/Toolkit)删除它们可能会有所帮助,该程序可在http://blast.wustl.edu/pub/dust/。还应使用RepeatMasker程序(A.Smit、R.Hubley和P.Green,未发布的数据)从输入到MEME的序列中删除重复的DNA元素,该程序可通过Web访问(http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker网站).

值得注意的是,MEME不适合于全基因组TFBS基序的发现。由于TFBS基序的短和简并性,在整个基因组的背景下,TFBS基元在统计上变得“不可见”。使用“高阶背景序列模型”可以提高搜索TFBS图案的敏感性,但此选项仅在用户下载MEME源代码并在本地安装时可用。MEME网站上提供了安装说明(http://meme.nbcr.net/meme/website/meme-download.html)单击“查看MEME手册页”;请参阅那里的“-bfile”开关文档。

由于蛋白质字母表的长度和氨基酸组之间的化学相似性,蛋白质基序通常更容易发现。这使得较短的基序具有更大的统计意义,并且更容易区分功能基序和统计伪影。为了使用MEME来发现蛋白质模体,与DNA模体一样,也适用相同的基本准则——使序列尽可能短,并在MEME的输入中包含尽可能少的不可能包含模体的序列。使用SEG程序可以从蛋白质输入序列中删除低复杂性区域(10).

使用MEME输出超链接分析动机

MEME HTML输出包含按钮,便于分析发现的主题。通过点击每个基序后面标有“Compare PSPM to known motives in JASPAR database”的按钮,可以将DNA基序与JASPAR数据库中的每个基序进行比较(11)已知TFBS基序。类似地,蛋白质基序可以与蛋白质基序的BLOCKS数据库中的蛋白质基序进行比较(12)通过单击MEME表单上每个图案后面的“提交BLOCK”按钮。这会将用户带到“BLOCKS服务器”,在那里单击“LAMA”将该图案与BLOCKS数据库中的图案进行比较。BLOCKS服务器还允许用户以多种不同的方式显示蛋白质基序,包括LOGOS(13)或系统发育树,方法是单击BLOCKS服务器窗体上的相应按钮。通过单击Logos下的一种文件输出格式,用户可以获得类似于中所示的Logos图图2.

保存图片、插图等的外部文件。对象名为gkl198f2.jpg

蛋白质基序的LOGO。LOGOS是一种图案可视化工具。字母的高度表示其在给定位置的相对频率(x个-轴)在图案中。

要搜索与MEME发现的图案匹配的序列,用户可以点击MEME输出表单顶部的“MAST”按钮。这将带用户进入MAST网站,在那里他们可以选择要搜索的数据库。由于MAST是序列导向的,TFBS基序只能用于搜索启动子区域。这些在MAST数据库下拉菜单中列为“上游序列数据库”。目前,只支持少数生物。然而,用户可以上传自己的启动子序列数据库,以便使用MAST进行搜索。蛋白质基序可用于搜索MAST网站提供的任何序列数据库,因为MAST可以搜索带有蛋白质基序的蛋白质或核苷酸数据库。MAST数据库每周更新一次。

WEB服务器和用户支持

从MEME 3.5版开始,使用Autoconf大大简化了MEME(包括web服务器)的配置和安装(http://www.gnu.org/software/autocf/autocnf.html)和自动制造(http://www.gnu.org/software/automake/automeke.html)来自GNU构建系统。MEME和MAST web服务器的安装会话可能如下所示:

光盘存储器3.5.2

./configure--前缀=$HOME/meme--with-url=网址:http://www.nbcr.net/

模因—enable-web

制作

进行测试

进行安装

现在支持的平台包括Linux、Solaris、MacOS X、Cygwin和Irix。

NBCR托管的MEME web服务器每月约有800个不同的用户(基于唯一的电子邮件地址)进行查询。自1996年首次推出该服务以来,使用量一直在稳步增长。图3显示了自2000年以来NBCR服务器的使用量增长。

保存图片、插图等的外部文件。对象名为gkl198f3.jpg

在NBCR web服务器上使用MEME。该图显示了自2000年12月以来每月向NBCR MEME网络服务器提交作业的不同用户数量。2006年3月的使用数据仅包括截至3月20日的数据。

满足不断增长的用户需求并利用新兴的网格计算资源(14),我们已经使用RPM包管理器或Rocks在Linux集群上安装了MEME。RPM包管理器是一种工具,用于管理运行多种版本Linux操作系统的计算机上的软件安装。岩石(网址:http://www.rocksclusters.org)是一个高度定制的工具包,供计算生物学家和工程师构建和维护Linux集群。当前的NBCR MEME web服务器集群是使用MEME roll for Rocks构建的,需要最少的维护工作量。

学术用户可以通过以下网站免费下载和安装MEME和MAST:(http://meme.nbcr.net/meme/website/me-download.html). 每月大约有300名用户下载MEME/MAST软件。MEME支持团队通过论坛向MEME和MAST用户社区提供帮助(http://nbcr.net/forum/viewforum.php?f=5)或邮件列表(十.rcbn@emem). 我们鼓励有兴趣建立MEME镜像站点的机构联系我们以获取任何帮助。

未来发展方向

为了提高MEME搜索的敏感性,我们将在web服务器中添加一个选项,让用户向MEME上传一个背景序列模型。我们希望在MEME网站中添加用于删除低复杂度区域(SEG和DUST)和重复元素(RepeatMasker)的算法,以方便用户。这些服务还将作为web服务公开,并使用NBCR开发的工作流工具进行集成。

我们还计划在MEME输出中添加按钮,以允许TFBS图案用于搜索顺式-通过MCAST等算法实现的监管模块(15). MCAST将被配置为能够搜索与MAST相同的DNA数据库。除此之外,我们将在MAST/MCAST网站上添加许多其他生物体的上游序列数据库,以便于分析通过使用MEME发现的TFBS基序。

NBCR开发了一套构建在开源软件之上的工具,允许生物信息学应用程序轻松部署为Web服务(S.Krishnan、B.Stearn、K.Bhatia、W.W.Li和P.Arzberger,提交了手稿),并透明地利用Cyberinfrastructure组件(14). 使用MEME作为科学驱动程序部署了一个原型(16)它为用户提供了分布式计算资源的动态池、工作流管理控制台和友好的用户界面。该门户将在将来部署到生产web服务器。

致谢

作者感谢NCRR颁发的NBCR奖,NIH P41 RR08605,以支持MEME和MAST网站。TLB确认NIH R01 RR021692-01的拨款,以支持MEME和相关序列分析工具的持续开发。T.L.B.还承认ARC生物信息中心(ACB)(ARC CE0348221)为ACB的MEME镜像站点提供基础设施支持。NIH为支付本文的开放获取出版费用提供了资金。

利益冲突声明。未声明。

参考文献

1Bailey T.L.,Elkan C.使用EM对生物聚合物中的多个基元进行无监督学习。机器。学习。1995;21:51–80. [谷歌学者]
2Bailey T.L.,Elkan C.先验知识在发现MEME主题中的价值。收录人:罗林斯·C、克拉克·D、奥尔特曼·R、亨特·L、伦高·T、沃达克·S编辑。第三届分子生物学智能系统国际会议论文集,7月;加利福尼亚州门罗公园:AAAI出版社;1995年,第21-29页。[公共医学][谷歌学者]
三。Lyons T.J.、Gasch A.P.、Alex Gaither L.、Botstein D.、Brown P.O.、Eide D.J.酵母中Zap1p锌响应调节子的基因组特征。程序。美国国家科学院。科学。美国。2000;97:7957–7962. [PMC免费文章][公共医学][谷歌学者]
4Fang J.、Haasl R.J.、Dong Y.、Lushington G.H.从蛋白质相互作用数据中发现蛋白质序列特征。BMC生物信息学。2005;6:1–8. [PMC免费文章][公共医学][谷歌学者]
5Bailey T.L.,Elkan C.通过期望最大化拟合混合物模型,以发现生物聚合物中的基序。收件人:Altman R.B.、Brutlag D.L.、Karp P.D.、Lathrop R.H.、Searls D.B.,编辑。第二届分子生物学智能系统国际会议论文集,8月;加利福尼亚州门罗公园:AAAI出版社;1994年,第28-36页。[公共医学][谷歌学者]
6Bailey T.L.,Gribskov M.'使用P(P)-值:应用于序列同源性搜索。生物信息学。1998;14:48–54.[公共医学][谷歌学者]
7Tompa M.、Li N.、Bailey T.L.、Church G.M.、De Moor B.、Eskin E.、Favorov A.V.、Frith M.C.、Fu Y.、Kent W.J.等人,《发现转录因子结合位点的计算工具评估》。自然生物技术。2005;23:137–147.[公共医学][谷歌学者]
8Pevzner P.A.,Sze S.H.发现DNA序列中细微信号的组合方法。编辑:Bourne P.E.、Gribskov M.、Altman R.B.、Jensen N.、Hope D.、Lengauer T.、Mitchell J.C.、Scheeff E.D.、Smith C.、Strande S.、Weissig H。第八届分子生物学智能系统国际会议论文集,8月。;加利福尼亚州门罗公园:AAAI出版社;2000年,第269-278页。[公共医学][谷歌学者]
9Hu J.,Li B.,Kihara D.当前模体发现算法的局限性和潜力。核酸研究。2005;33:4899–4913. [PMC免费文章][公共医学][谷歌学者]
10Wootton J.C.,Federhen S.序列数据库中成分偏倚区域的分析。方法酶制剂。1966;266:554–571.[公共医学][谷歌学者]
11Sandelin A.、Alkema W.、Engström P.、Wasserman W.W.、Lenhard B.JASPAR:真核转录因子结合图谱的开放存取数据库。核酸研究。2004;32:D91–D94。 [PMC免费文章][公共医学][谷歌学者]
12Henikoff J.G.,Pietrokovski S.,Henikoff S.区块数据库服务器的最新增强功能。核酸研究。1997;25:222–225. [PMC免费文章][公共医学][谷歌学者]
13.Schneider T.D.、Stephens R.M.序列标识:显示一致序列的新方法。核酸研究。1990;18:6097–6100. [PMC免费文章][公共医学][谷歌学者]
14福斯特一世、凯塞尔曼C。网格2:新计算基础设施蓝图。第2版。加利福尼亚州旧金山:Morgan Kaufmann Publishers,Inc。;2004[谷歌学者]
15Bailey T.L.、Noble W.S.寻找具有统计意义的监管模块。生物信息学。2003;19(补充2):II16–II25。[公共医学][谷歌学者]
16Li W.W.、Krishnan S.、Mueller K.、Misleh C.、Arzberger P.使用面向服务的架构构建生物信息学的网络基础设施。作者:Bu Sung F.L.、Abramson D.、Cai W.、Graupner S.、Jin H.、Slot P.,编辑。IEEE集群计算和网格国际研讨会论文集,5月;美国:IEEE出版社;2006年(出版中)[谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社