ProSplign标志
概述 下载 文档 算法 常见问题解答 联络

ProSplign是Boris Kiryutin博士开发的全球校准工具。它产生精确的剪接排列,并计算相似性较低的远亲蛋白质的排列。额外的负担是用来定位移帧位置的。

ProSplign算法是NCBI真核生物基因组注释管道的一个重要组成部分,已被用于注释包括许多不同动植物物种(如人类、小鼠、奶牛等)的关键基因组。这条管道被海胆基因组测序中心用于对发表于科学类2006年。与现有的基因组注释方法相比,ProSplign与基因组注释管道的集成显著提高了基因组注释的质量。由于该方法的成功,将其用于板栗的注释(自然,2008),牛磺酸牛(科学类,2009),阿昔洛韦(PLoS生物学,2010年),纳索尼亚(科学类,2010),以及许多其他基因组。

此外,ProSplign是流感病毒基因组自动流水线的核心部分,也是流感基因组测序项目的重要组成部分。流感项目由美国国立卫生研究院赞助,是一项对公共卫生至关重要的国际合作项目。它已经在流感的最新演变和发病机制方面取得了多个新发现,这些新发现已经发表在包括病毒学杂志,PLoS生物学,和自然.

概述 下载 文档 算法 常见问题解答 联络

ProSplign是一种计算蛋白质与基因组核苷酸序列比对的实用工具。这种比对可以包括真核细胞的剪接。特别是心脏信号的拼接算法。正是由于这种算法,ProSplign能够准确地确定剪接位点,并且能够容忍测序误差。

ProSplign使用BLAST hits来识别基因的可能位置及其在基因组序列上的重复,然后加速核心动态规划。

请访问以下链接之一或使用本页顶部的菜单栏导航。

这个网站是一个关于ProSplign的单点信息来源,ProSplign是计算蛋白质与基因组比对的工具,包括对mRNA剪接的解释。ProSplign的开发目标如下:

  • 确定拼接信号的精度
  • 在可行的情况下识别短外显子和非一致性剪接
  • 能够识别和分离代表基因复制事件的多个部分
  • 移帧检测

ProSplign用于NCBI真核生物基因组注释管道计算拼接蛋白排列原核生物基因组注释寻找移码基因并在基因组上定位移码位置。

ProSplign有多种不同的使用方式。ProSplign没有在线版本。您必须下载并安装可用于Linux的控制台版本(也可能适用于其他一些平台—请请求)。由于ProSplign是ncbic++工具包的一部分,因此您还可以从自己的应用程序以可移植的方式链接到ProSplign库。最后,prosplica工作台提供了prosplica插件。

参考文献:ProSplign-蛋白质到基因组比对工具。B、 Kiryutin,A.Souvorov,T.Tatusova。正在准备的手稿

概述 下载 文档 算法 常见问题解答 联络

二进制文件(更新日期:2015年2月23日)
预生成的可执行文件可用于Linux/i386(64位)

来源
普林克比是为普罗辛基写的预言书。两个版本之间没有向后兼容的努力。
ProSplign包含在NCBI C++工具包中。有关如何下载、配置和构建工具箱的详细信息,请参阅NCBIC++工具包手册.
您可以通过LXR公司编程辅助工具源浏览器. 搜索cproplign C/C++符号以直接转到ProSplign源。

图形视图
NCBI基因组工作台提供图形对齐视图。观看NCBI基因组工作台ProSplign教程。
视频教程也可以在Youtube上看到。

概述 下载 文档 算法 常见问题解答 联络

使用控制台版本

控制台ProSplign可以以两种模式启动-成对和批处理。如果需要快速对齐几个序列,并且不想为它们计算单独的爆炸命中,则成对模式非常有用。批处理模式是执行大量转录比对工作的最佳选择,例如作为基因组注释过程的一部分。要查看运行“./prosplign-help”的参数,大多数参数是用于NCBI基因预测过程的。
在成对模式下,将您的蛋白质查询和核酸主题序列放在两个文件中(每个文件中只有第一个序列将对齐)和命令行“./prosplign-full-nfa nuc.fa-pfa prot.fa-out aln.txt-fasn aln.asn”。nfa参数是核酸主题的文件,pfa参数是蛋白质查询的文件。输出是文本输出到out参数中指定的文件,ASN1输出到fasn参数中指定的文件。
分三步组织。
  1. 运行BLAST程序生成12列、制表符分隔的输出。确保输出按主题和查询排序。 例如(可以找到输入fasta文件在这里):
    makeblastdb-dbtype nucl-in subject.fa 
     tblastn-query query.fa-db subv.fa-outfmt 6 | sort-k2,2-k1,1>blast.hit
    导致:
    以| | 6679997 |参考| NPU 032143.1 | gi | 37544107 |参考| NT | U 010783.14 | Hs17 35.000 000 140 57 58 58 163 20639910 20639910 20639491 2.87e-11 62.0 | gi |667999997 |参考| NPU 032143.1 | gi | 37544107 |参考| NT || NT| 14 | Hs17|U 10940 42.400 125 39 3 58 149 20602325 20601951 1 1.35e-1574.7 
     gi | 6679997 |参考| NP U 032143.1 | gi | 37544107 |参考| NT U 010783.14 | Hs17 42.400 125 125 39 3 58 14920622212062624847 1.44e-14 71.6 | gi |参考| NP | NU 032143.1 | gi | 37544107 |参考| NT | NT | NT | | _010783.14 | Hs17|U 10940 45.455 88 44 3 108 191 20647262 20646999 2.94e-1224.7 
     gi | 6679997 |参考| NP U032143.1 | gi | 37544107 |参考| NT | Ntu 010783.14 | Hs17 47.500 40 40 20 20 58 96 2061059 2061049 206104040 1.44e-05 45.1 | gi | 6679997 | | NP | NPU 032143.1 | gi | 37544107 |参考|参考u010783.14 | Hs17|U 10940 52.500 40 40 19 0 22 61 20602657 20602538 1.20e-0545.1 
     gi | 6679997 |参考| NP U032143.1 | gi | 37544107 |参考| NT | Ntu 010783.14 | Hs17 109 40 52.500 40 20 20 22 21 206255553 206254434 4 1.44e-05 45.1 E-05 45.1 | gi |参考| NP |基| 37544107 |参考| | |新台币010783.14 | Hs17|U 10940 52.500 40 40 19 0 22 61 20640242 20640123 3.08e-0543.9 
     gi | 6679997 |参考| NP U032143.1 | gi | 37544107 | | NT | U 010783.14 | Hs17 U10940 55.000 40 40 17 17 17 17 17 17 58 96 20647507 20647388 6.43e-08 52.0 | gi |6679997 |参考| | NP | | | | | | | |新台币010783.14 | Hs17|U 10940 56.897 58 23 2 108 163 20610274 20610101 4.94e-1161.2 
     gi | 6679997 |参考| NP U032143.1 | gi | 37544107 | | NT | Ntu 010783.14 | Hs17 60.976 41 16 0 22 62 206108837 20610717 20610715 5 5 5.15e-10 58.2 | gi |参考| | NP | | |基| 37544107 |参考| | | |;新界010783.14 | Hs17|U 10940 63.235 68 24 1 149 216 20609895 20609695 5.39e-239.3.3.3.3.3.3.3.3.3.3.3.3.3.3.2.6679997 | NPU 032143.1 | gi | gi | gi | 37544107 | | NP | NP | NP | | NP | | NP | | | | | | | | | |;新台币010783.14 | Hs17|U 10940 65.000 40 14 0 22 61 20647824 20647705 7.01e-10第二条124 ;天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天天北卡罗来纳州东经12466-216696.3 
     gi | 6679997 |参考| NP | 032143.1 | gi | 37544107 |参考| NT|010783.14 | Hs17 | 67.647 68 21 1 149 216 20646883 20646683 5.12e-25 102
    
  2. 运行compartment工具来查找蛋白质实例在核酸上的大致位置(catblast.hit |./procompart-t>comp)。输出文件的每一行表示一个实例,或“间隔”。
    1 NT_010783.14 NP_032143.1 20601000 20603157-195 210.778 
     2 NT_010783.14 NP_032143.1 20609195 20611337-184 238.625 
     3 NT_010783.14 NP_032143.1 20623896 20626053-195 207.712 
     4 NT_010783.14 NP_032143.1 206385520640742-195 183.236 
     5 NT
    010783.14 NP_032143.1 20646183 20648324-184 238.046
    制表符分隔的列是
    室号,基因组id,蛋白质id,间隔起始,间隔到,链,蛋白质覆盖率,间隔爆破得分
    最后两列供内部使用,被ProSplign忽略。

  3. 用间隔文件和fasta文件运行ProSplign,为每个间隔生成对齐 (./ProSplign-i comp-fasta sub.fa,query.fa-nogenbank-o pro.asn-eo pro.txt)。.asn文件包含asn格式的对齐。txt文件是为人类阅读而设计的。

    当ProSplign在没有“-full”选项的情况下运行时,输出文件显示“partial”对齐。 通过抛出对齐的低标识部分并保留保留部分,从完全全局对齐进行部分对齐。保存的部分 在文本'pro.txt'文件中以星号标记在状态行中。例如,蛋白质片段后面的圆点是用内含子标记的
    1 NT_.14 NP_032143.1 20601000 20603157-
     20602957 CCTTTGGGCAAACGTCTCTGGGGGGAGGCACGCCCTGTAGGATGGACGACGGGGGCGCACTAACCCTCAGGGTTTGGCTTATGAGATCGCCA 20602858-----------------M A T D------------------------------------------------------------
     20602857tctaaggcagatttggcagagaggagagaaaaaaacaacagtctctgagcaggagaggaaaaaaacaagcctctggaggagagaggctg 20602758-------------------------------------------------------------------------------------------------------------20602757 GCCTTCTCTCGGCTCCCTCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTTGCTCTCTCTCTCTTGCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCS R T S L L L A F A L L C L P W L 
     | | | | | | | | | | | | | | | | | | | | | | | | | | | |************************************************************************************************************。年。20602657年。年。20602657年。中国。中国。中国。中国。中国。中国。一个G。A。V。V。V。V。V。V。P P P P P P L。L L。F D。H A M M L Q A H H。H Q Q Q Q Q L L L L。D D H A A M L Q A H H H Q Q L L A I D T Y。Y。。(。(124;(124;(12;(12;(12;(12;(12;(12;(12;(12;(12;(12;(12;(12;(12)Q E A G A G A V Q T V Q P P P P P P P L L L L L L L L在|| | | | | | | | | | | | | | | | | | | | Q E A A S A F A F P P A M P P L L S S L F S N A N A V L L R A Q H H H Q L L L A A D T Y Y 
     
     | | | | | | ; | | | | | | | | | |**************************************20602557aggagttgttagttcttggggatgggggtgggggtgagtgagtgttcccccccctgggaggagtaatgggaggacttc20602458 
     Q E F 
    +|K。E。F。K。K。E。F。年。***************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************AGCTGTCTCCAGCATAGAACAG20602358                                                                                                      
                                                                                                                    
                ....................................................................................................
                ****************************************************************************************************20602357 CAGTCCTTCTTGGTGGGGTCTTCTCCTAGGAAACCATATCCCAAGACCAGATTCTCTCTCTCTCTTGCTT 20602258 
     E T Y I P K D Q K Y F L H D S Q T S F C F                                  |        |  |  |  +     |  +  |  |     +     +  +  |     +  |  |  |
                ................................ E R A Y I P E G Q R Y S---I Q N A Q A F F C F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F。。。
    意味着前四个氨基酸(MATD)没有对齐。校准从SRT开始。。。在蛋白质上。第一个外显子结束于KEF。第二个外显子以ERA开头。。。在蛋白质上。带有GT/AG拼接的内含子用点标记。
概述 下载 文档 算法 常见问题解答 联络

算法细节

ProSplign以成对的方式处理输入序列。换句话说,对于每个查询和主题,外显子/内含子结构是独立确定的。

仅动态规划在确定拼接接头时是准确的,但计算成本很高。另外,如果一个基因的拷贝具有相同的基因组序列和链,直接应用可能会通过连接来自不同拷贝的外显子而产生错误的结果。

因此,对于每一个输入查询/主题对,必须在prosplicn使用BLAST hits划分算法实现的基因组序列上定位基因。这些初步了解了隔室的结构。将同一股线分开,并分成两组。为此,我们从基因组序列覆盖率的角度对优化问题进行了形式化的定义,然后用一种动态规划算法来求解,该算法的运行时间比上述核心动态规划算法要短。

概述 下载 文档 算法 常见问题解答 联络

常见问题解答

问:我为什么要“找不到XXX”例外情况?
答:请确保输入命中文件中的序列标识符与索引文件中的序列标识符匹配。在为fasta文件编制索引时,ProSplign记录的序列id与前面“>”后面的序列号完全相同,而blast程序的打印方式可能略有不同。

:什么'找不到隔室'日志文件消息是什么意思?什么是隔间?
答:间隔区是基因组序列上的一个局部区间,为ProSplign寻找外显子提供了边界。分区是根据输入的爆炸命中来标识的,因此当没有足够的命中或命中太弱或彼此不一致而无法形成分区时,将生成此消息。



NCBI Home NCBI Search NCBI SiteMap