简介
微RNA(miRNA)是一类由基因组编码的小的、约20 nt的单链RNA,是基因表达的负调控因子。三年前发现(1–三)miRNAs已经引起了人们的广泛关注,最近的大量综述总结了在动植物中发现的miRNA的生物发生、系统发育关系和功能(4–11). MiRNAs通过与mRNA靶点的碱基连接相互作用来运作。然而,只有在一些植物mRNA中观察到miRNA的完美序列互补性(12),但在大多数残留病例中,包括首次确定的miRNA靶对(13)mRNA靶点和核糖调节器之间的碱基连接相互作用是不完美的。miRNA的5′端似乎偏好强相互作用(14)首选对称相互作用(15)最有可能的是,RNA-RNA相互作用需要蛋白质因子的帮助。到目前为止,已经为植物、线虫、昆虫和哺乳动物总共鉴定了1500多个miRNAs。这大量被识别的miRNA与只有几十个靶RNA形成对比,其中调控性miRNA结合已被实验验证。一些miRNAs有望形成控制多个mRNA靶点的调控网络。赖(16)发现一些以前被认为是翻译基因表达负调节剂的短序列元件(盒)实际上是某些类别miRNAs的结合位点。例如K(K)box在几个基因家族中负调控基因表达,这些基因家族参与黑腹果蝇和至少四个miRNA(百万平方米,英里R6,百万R11和百万R13)在其5′端与K(K)框。然而,并非所有的miRNAK(K)-box系列将绑定到每个K(K)含有信使核糖核酸的盒子,这表明至少有一些miRNA亚群由至少两个模块化元件组成,我们称之为“名字”和“家族”基序(17). 已经进行了几次尝试,通过生物信息学来鉴定miRNA靶点(18–22). 在拟南芥,这种方法非常成功,因为植物miRNAs似乎具有更高的严格性(23,24). 对于动物miRNA,特别是哺乳动物miRNA,这种计算策略将只识别那些具有高度序列互补性的mRNA靶点。然而,一些经基因验证的miRNA/mRNA相互作用(13,25)在RNA-RNA相互作用方面不是特别强。另一方面,如果允许弱交互,计算屏幕中的假阳性点击数就会增加。布伦内克和科恩(26)通过将系统发育参数纳入计算机算法,改善了目标识别,解决了这些困难。
在这里,我们描述了一种不同的计算方法来识别miRNA/mRNA相互作用。虽然大多数可用的程序都是从一个特定的miRNA开始,并试图识别尽可能多的mRNA靶点,但我们通过分析在给定的mRNA序列中是否可以找到源于该生物体且在数据库中可用的任何miRNA的结合位点,提出了一个不同且更温和的问题。这个微型检验员该程序将生成一个可能的目标站点列表,按自由能源值排序。调整温度和自由能设置,然后目视检查二级结构,以便进行详细分析。这种方法可以对mRNA序列进行更详细的检查,识别较弱的相互作用,然后进行实验测试。一些含有经验证的miRNA结合位点的mRNA由微型检验员软件,所有这些交互都可以被识别。然而,在许多其他情况下,我们发现到目前为止,未描述的相互作用的能量值低于验证的靶点,这表明可能存在更多的miRNAs/mRNA相互作用。它们的生物学相关性需要随后的实验验证。
程序的使用
MicroInspector是一个基于网络的工具,用于搜索目标RNA序列中的miRNA结合位点,这些位点可能受这样一个小RNA的调控。该程序的界面在用户需要遵循几个简单的步骤来寻找潜在的miRNA结合位点。第一步是“进入序列”进行分析,这通常是一个mRNA(程序将DNA序列视为RNA)。这可以通过两种方式实现,一种是提供GenBank或TAIR登录号,另一种是简单地键入或粘贴序列(程序设计为忽略所有间隙、数字和未定义字符),这对于分析未知序列或详细分析某些mRNA域很有用,例如,3′-未翻译区域(3′-UTR)。
这个微型检验员接口。用户必须输入三类输入参数,以扫描目标RNA的miRNA结合位点。有一个帮助弹出窗口,其中包含每个数据字段的简要说明。
下一步,用户需要设置“杂交温度”:默认值为37°C,但显然该值与植物和昆虫无关,我们建议使用此外,需要输入“自由能”截止值(默认值−20 kcal/mol),以表征miRNA/mRNA相互作用的稳定性。仅显示能量低于截止值的结果,因此此参数将影响点击次数。能量值应根据温度变化作为一种指示,补充一点可能有助于验证miRNA/mRNA相互作用的自由能范围为-17 kcal/mol(矮脚鸡/hid25°C时为5-黑腹果蝇)至−41 kcal/mol(CUC/miR164基因在25°C时-拟南芥).
不同物种杂交温度的建议设置(°C)和相应的自由能截止值(kcal/mol)。
最后,用户需要选择一个“miRNA数据库”,以匹配目标序列的生物起源。这些本地miRNA数据库(以multifasta格式)基于“miRNA注册”的条目(http://www.sanger.ac.uk/Software/Rfam/mirna/index.shtml). 除非能够自动检索新的miRNA条目,否则我们将定期手动更新数据库。
程序原理
初始扫描和过滤
用户定义的目标序列以连续的方式分析所选数据库的每个miRNA序列。用两个6 nt的窗口同时独立扫描靶序列。第一个6 nt窗口表示核苷酸1-6(来自miRNA的5′),第二个窗口表示核苷酸2-7。它们在目标序列中滑动(以1nt为步长),程序执行互补性分析。众所周知,与miRNA的5′部分配对,尤其是与核苷酸2-7配对,似乎对脊椎动物miRNA的目标识别最为重要。大多数5′端miRNA核苷酸可能参与或不参与结合。
互补预过滤器为具有5个Watson–Crick碱基对或4个Watson-Crick碱基对且至少有一个额外G:U对的域寻找两个6-nt窗口中的每一个。如果两个窗口都不满足这一要求,则忽略数据,将6-nt窗口向mRNA的5′端移动1 nt。当序列分析确定至少一个6-nt窗口如上所述时,程序将启动对此位置的详细分析。它提取mRNA的32-nt序列,终止于与miRNA的5′端相匹配的核苷酸,即第一个6-nt窗口的5′末端核苷酸。随后,对miRNA序列和32-nt潜在靶序列域进行成对杂交折叠算法。
滤后2D分析
该程序的第二个过滤器可以丢弃不符合miRNA-mRNA双工体已知特征的结合位点。该过滤器在折叠后检查RNA–RNA结构,并消除miRNA序列5′或3′侧的两个未配对核苷酸的任何命中。该过滤器还将排除折叠能量值较低的结构,这些结构是两条RNA链之一中的自互补的结果。例如,当目标结构域形成分子内发夹时,这适用。此外,如果预测到过大的内环或凸起环,或者如果大环太靠近二级结构末端(>10个未配对核苷酸),则条目将被消除。即使环路尺寸较大,也可以容忍中央内部环路。
程序的输出
为了说明以下给出的输出微型检验员作为一个例子,我们对3′-UTR序列的miRNA结合位点进行了分析秀丽隐杆线虫基因林-41已知与miRNA相互作用让7(条目名称3CEL000914 3′-UTR in秀丽隐杆线虫LIN41A(lin41A)mRNA,完整cds,来自LION SRS数据库)。
这项研究的主要结果微型检查员查询表示为一个表(请参见中的示例). 表的第一列列出了目标RNA中结合位点5′端的“位置”。第二列指明了“目标RNA名称”(登录号),该名称可用作访问GenBank数据库序列条目的链接。如果通过键入或粘贴输入序列,则此列将为空。第三列指示可能与miRNA交互的域的“目标序列”(大写字母),后跟“miRNA名称”(根据“miRNA注册”)和“miRNA序列”(小写字母)第四列和第五列中匹配的miRNA。两个序列均为5′至3′。
的数据输出示例微型检验员在3′-UTR序列中寻找miRNA结合位点的分析秀丽隐杆线虫基因林-41请注意,miRNA的验证相互作用let-7在位置726处识别。此外,程序还确定了其他交互,包括与miR-38型(表中的顶部结果),这比与let-7。可以通过激活链接来分析每个已识别交互的重要性,该链接将显示特定交互的二级结构,如; 有关更多详细信息,请参阅正文。
在“自由能”列中,吉布斯自由能(ΔG公司)双相结构的单位为kcal/mol。条目按自由能排序(顶部的最小值)。然而,ΔG公司值并不是一个好的绑定站点的唯一特征。例如,较长的miRNA或富含GC的miRNA更有可能产生预测的低能结合位点。此外,结合的对称性也是一个重要因素,miRNA 5′端的碱基布线的稳定性也是一个因素。这些限制要求对特定的结合位点进行详细的手动检查。因此,最右边的列包含一个链接,指向显示实际RNA–RNA相互作用二级结构的图形(PostScript格式),如.对单个结构的检查表明miR-38(位于中的列表顶部)尽管自由能较低,但可能无法正常工作(),而与miR-249型(排名第6)结果a为对称RNA-RNA相互作用()这可能与生物学有关。
表达miRNA和mRNA靶点之间的成对相互作用。结果表中右列的链接时可以显示的二级结构图形示例(请参见)已激活。(一个)此特定示例显示了miR-38型具有林-41(表中排名靠前的结果)表明miRNA与靶mRNA的相互作用仅限于miRNA的5′端;在3′端,相互作用很弱。尽管Δ很低G公司值时,此交互可能不起作用。(B类)相互作用miR-249型具有林-41对称且更有可能相关。(C类)示意图中与(B)中相同的交互作用;这个RNA–RNA相互作用的简化说明用于可下载的结果文件“results in”中。CSV格式”(参见).
这个微型检验员该程序还提供下载结果作为一个单独的文件进行离线分析。结果文件的链接位于表底部-“Results in”。CSV格式”。可以将文件格式“逗号分隔值”导入Excel表。结果文件包含其他有用信息,如分析日期、二级结构图的文件名和双面打印二级结构的示意图,如所示.
在结果页面的最底部,miRNAs结合位点相对于mRNA靶点的位置显示为概述。每个潜在的相互作用都列出了miRNA的名称和结合强度(ΔG公司值)。如果结合位点重叠,潜在的相互作用将被分类,从而使那些自由能最低的位于顶部。
实施(计算机数据)
该程序是以Perl CGI脚本的形式实现的,利用了模块化设计,允许使用专门的包,如BioPerl(用于生命科学研究的基于Perl的软件开发人员的模块)。该程序在搭载英特尔奔腾IV处理器2.8 GHz和1 GB RAM内存的PC上进行了测试。操作系统是Red Hat Linux的Fedora Core 2.0。Perl使用的版本是5.8.5(网址:www.perl.com)BioPerl的1.4版(网址:www.bioterl.org). 对多快速格式序列文件和在线数据库的访问由BioPerl模块完成。每个会话的结果和所有其他信息都保存在mySQL数据库中。具有二级结构的表格和文件将在研究人员查询后3天内保持可用。每个目标分析都加载到相应的mySQL数据库中的单个表中。