摘要

动机:RNA二级结构分析通常需要在大量序列数据中搜索潜在螺旋。

结果:我们提出了一个实用程序GUGle,它可以根据RNA碱基配对规则(包括Watson–Crick和G–U对)有效地定位潜在的螺旋区域。它接受一组正负序列,并根据RNA规则确定超过指定长度的正负序列之间的所有精确匹配。GUGle算法也可以用于使用正序列集的预计算后缀数组。我们展示了如何将该程序有效地用作更昂贵的计算任务(如miRNA目标预测)之前的过滤器。

可利用性:GUGle可通过Bielefeld生物信息服务器获取,网址为作者网页

联系人: robert@TechFak.Uni-Bielefeld.DE(德国)

1动机

DNA互补规则下的精确序列匹配很容易,因为每个序列都有唯一的反向Watson–Crick互补。当涉及到基因组规模上的有效匹配时,索引方法,如REPuter(库尔茨., 2001)和Vmatch(Abouelhoda公司., 2002)只需计算基因组及其反向补体的后缀树或后缀数组。然后可以从索引中读取反向互补匹配,与基因组大小无关。例如霍雷什. (2003)从后缀树计算潜在螺旋,但忽略G–U对。由于G–U和U–G对的存在,RNA碱基配对规则下的匹配是不同的。像AGUCAAGG这样的序列不仅匹配它的(反向)Watson–Crick补码CCUUGACU,还匹配其他七个包含一个或多个G–U对的序列。编写一个朴素的程序来查找这样的匹配仍然很简单。当涉及到大数据量时,似乎缺少一种有效的算法。STAN计划(尼古拉斯., 2005)还使用后缀树有效地将模式(相当通用的类型)与目标序列进行匹配,并允许出现可能是G–U对的配对错误。不支持对两个序列集进行完全匹配。

在这里,我们为这个任务提供了一个算法和一个实用程序,都称为GUGle。该算法接受一组目标序列和一组查询序列,以及一个长度阈值k个。它报告目标和查询序列的反向之间的所有匹配(根据RNA规则)k个或多个连续的碱基对。GUGle的算法思想可以应用于预计算的索引(后缀树或数组)。作为一个独立的实用程序,我们的GUGle程序的实现从无索引序列开始,并与匹配阶段并行模拟部分后缀树构造。

该方法的应用场景是快速确定分子间或分子内杂交的潜在区域,以加快二级结构或络合物形成的预测。为了证明GUGle作为过滤器的有效性,我们报告了它与流行的miRNA靶预测程序RNAhybrid的结合(雷姆斯迈耶., 2004).

2算法

GUGle的思想可以解释为以交叉方式运行两个只写自顶向下(WOTD)后缀树构造的副本(吉格里奇., 2003). 一个副本是应用于目标序列的常规WOTD算法。当使用目标的预计算索引时,可以替换此部分。另一个副本是应用于反向查询的修改后的WOTD。因此,我们从回顾WOTD结构开始解释。

2.1 WOTD审查

WOTD以自顶向下的方式构造后缀树。由于它是通过对后缀数组进行递归内部排序来实现的,因此它还构造了后缀数组。

t吨是字母∑上的字符串u个¯是的后缀树中的节点t吨.然后u个表示从根到的路径上所有边标签的串联u个¯.每个节点u个¯在后缀树中,表示具有前缀的所有后缀的集合u个共同点,即。R(右)(u个¯).评估以下儿童u个¯,必须将集合分开R(右)(u个¯)根据每个后缀的第一个字符分成四组。对于每个字符clet组(u个¯,c):={w个*连续波R(右)(u个¯)}成为c-组R(右)(u个¯)。只包含一个后缀的组对应于一个叶。开始的边的标签u个给孩子向上的¯c并通过计算最长公共前缀(lcp)进行计算第页包含在c-组。

用于表示后缀的数据结构是一个称为后缀的全局数组。它包含指向所有后缀的指针t吨按增加后缀长度排序。通过执行countingsort并只查看每个后缀的第一个字符,指针以这样的方式排序,即以相同字符开头的所有后缀在一个间隔内分组在一起。通过计算以相同字符开头的每个后缀间隔的lcpc∈∑,一取全部c-组。

要计算所有节点,该过程是递归的:对于第一阶段的每个间隔,算法都会再次执行countingsort。排序键现在是c-组。只要间隔包含多个后缀,就可以递归完成。

虽然它的平均案例运行时间是O(运行)(n个日志n个),WOTD与O(运行)(n个)后缀树算法。吉格里奇. (2003)对于长度不超过4MB的序列,它的性能与McCreight算法类似。这源于现代缓存CPU体系结构上的简单性和良好的局部性行为。我们的新算法继承了这些属性。

2.2仪表

设∑={A类,G公司,C类,U型, #,N个}成为字母表。要素A类,G公司,C类,U型代表标准RNA碱基、精氨酸、鸟嘌呤、胞嘧啶和尿嘧啶。N个表示任何字符。每个未知字符都将替换为N个.#表示相邻序列之间的分隔符。我们在字母表上定义了以下顺序:A类<G公司<C类<U型< # <N个.

其思想是并行开发两个后缀数组,target和query。只有当查询中相应的互补间隔不为空时,才会构建目标中的间隔,反之亦然。这些互补区间表示两个序列之间的反向互补匹配。为了解释“反向”,在查询后缀数组中为后缀选择的偏移量正好是目标中偏移量的负值。

如果是A类-间隔,则查询中的补足间隔为U型-具有相应负偏移量的间隔。同样C类目标中的组与G公司组。对于G公司U型这有点复杂,因为它们都有两个互补的基。如果后缀数组是按字典顺序排列的G公司,C类U型将分为两个间隔。对于目标中的每个间隔,当我们递归进行时,我们必须跟踪查询中爆炸性的间隔数。通过选择顺序A类<G公司<C类<U型小组A类+G公司,以及C类+U型是连续的间隔,我们避免了这种分裂。

虽然WOTD中的递归可以进行深度优先或宽度优先,但GUGle必须在深度优先模式下工作(图1). 派生自A类/U型在进入阶段3之前,必须完全确定阶段1中的组。由于每个间隔都在适当的位置重新排序,因此第3阶段在关节中洗牌后缀C类+U型间隔,破坏了他们最初的分离C类组和U型组。

图1

后缀数组target(左)和query(右)的开发。粗矩形表示在区间上执行计数排序和递归。带点的矩形表示已经排序的区间。

在每个递归步骤中,用#s或N个将不再考虑实际偏移处的s,因为#s表示后缀的末尾并与匹配N个s会产生太多的人工制品。这是通过将这些后缀排序到间隔的右端并从下一个递归步骤中排除它们来完成的。当偏移量达到阈值时,将报告匹配k个然后,对于每对后缀,程序会检查左最大值和右最大值,因为只会报告无法扩展的匹配项。

3实验结果

众所周知,微小RNA在基因调节和细胞分化中发挥着重要作用。许多microRNAs是已知的,但它们在基因组中的一些靶位点仍有待发现。基于能量的折叠算法[如完全的.(2003年);恩赖特. (2003);Rajweski和Socci(2004)和RNA杂交(雷姆斯迈耶., 2004)]是一种很有希望找到这种结合位点的方法。据观察,结合位点保存在其3′位点(靶点),并与microRNA 5′末端形成α链,这是因为该区域的碱基主要是从核苷酸2到核苷酸7或8(雷姆斯迈耶., 2004). 因此,对于一些算法来说,一对microRNA和可能的靶位点需要一个完美螺旋的“种子”。研究表明,这种结构约束通过减少搜索空间增加了统计显著性(刘易斯., 2003).

利用这个事实,应该可以通过使用GUGle进行过滤来加速RNA杂交。GUGle搜索目标序列中的所有匹配项并报告它们,包括比赛前后的20个基地。此输出比原始序列小得多,因为它只包含具有匹配项的区域。我们比较了RNA杂交在GUGle-output和原始Fasta文件中找到microRNA靶点所需的时间。

该测试是在Sun Fire V20z下进行的,带有1.8 GHz AMD Opteron 244处理器和6 GB RAM。根据hsa-let-7a microRNA中的2-8种子七肽“GAGGUAG”搜索了27 692个人下游UTR(总计约200 MB)。

对于原始的fasta文件,RNAhybrid耗时2860秒。在第二次运行中,我们使用GUGle过滤数据,耗时约20秒。对于过滤的数据,RNAhibrid现在耗时约163秒。这比不进行过滤的速度快15倍以上。

作者感谢约翰·马蒂克(John Mattick),他首先指出了缺乏这样一个程序,并感谢马克·雷姆斯迈尔(Marc Rehmsmeier)帮助进行了测量。支付开放获取出版费用的资金由比勒费尔德大学提供。

利益冲突:未声明。

参考文献

Abouelhoda公司
M.I.公司。
库尔茨
美国。
奥勒布什
E.公司。
增强后缀数组及其在基因组分析中的应用
2002
生物信息学算法第二次研讨会论文集,LNCS 2452
施普林格Verlag
(第
449
-
463
)
恩赖特
A.J.公司。
MicroRNA靶向果蝇属
基因组生物学。
2003
,卷。 
5
第页。 
R1级
 
吉格里奇
R。
惰性后缀树的有效实现
软件实践。支出。
2003
,卷。 
33
(第
1035
-
1049
)
霍雷什
年。
一种快速检测基因组数据中假定RNAi靶基因的方法
生物信息学
2003
,卷。 
19
 
补充2
(第
二73
-
II80型
)
库尔茨
美国。
REPuter:基因组规模重复分析的多种应用
核酸研究。
2001
,卷。 
29
(第
4633
-
4642
)
刘易斯
业务伙伴。
哺乳动物microRNA靶点的预测
单元格
2003
,卷。 
115
(第
787
-
798
)
尼古拉斯
J。
后缀树分析仪(STAN):寻找染色体中的核苷和肽模式
生物信息学
2005
,卷。 
21
(第
4408
-
4410
)
拉杰韦斯基
N。
索奇
未注明。
microRNA靶点的计算机识别
开发生物。
2004
,卷。 
267
(第
529
-
535
)
雷姆斯迈耶
M。
快速有效预测microRNA/靶标双工体
核糖核酸
2004
,卷。 
10
(第
1507
-
1517
)
完全的
答:。
的标识果蝇属微RNA靶点
《公共科学图书馆·生物》。
2003
,卷。 
1
(第
1
-
60
)

作者注释

副主编:Martin Bishop

本文的在线版本是在开放存取模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系journals.permissions@oxfordjournals/org