标志商标
简介 下载 文档 算法 常见问题 联系

PROSPRIGN是Boris Kiryutin博士开发的全球定位工具。它产生精确的拼接比对和计算远距离相关蛋白的相似度低的比对。额外的负担被用来定位移码位置。

PROSPRIGN算法是NCBI真核基因组注释管道的一个组成部分,用于注释包括许多不同的植物和动物物种(如人、鼠、牛等)的关键基因组。该管道被海胆基因组测序中心用于对海胆的814兆碱基基因组的序列分析。科学2006。PROSPRIN与基因组注释流水线的集成显著提高了现有注释方法的基因组注释质量。由于该方法的成功,它被用来注释Tribolium castaneum(自然,2008),Taurine Cattle(科学,2009),Acyrthosiphon Pisum(PLoS生物学,2010),Nasonia(科学(2010)和许多其他基因组。

PROSPRIGN是流感病毒基因组自动管道的核心部分,是流感基因组测序项目的重要组成部分。由国家卫生研究院主办的流感项目是一项国际合作,对公众健康至关重要。它已经引起了关于流感的最近进化和发病机制的多个新发现。病毒学杂志PLoS生物学自然.

简介 下载 文档 算法 常见问题 联系

PROSPRIGN是计算蛋白质与基因组核苷酸序列比对的实用工具。这种排列可以包括真核剪接。在程序的核心是一个全局对齐算法,特别是内含子和拼接信号。正是由于这种算法,PROSPRIGN在确定剪接位点和容忍测序误差方面是准确的。

PROSPRIN使用爆破命中,以确定可能的位置的基因和它们的基因组序列上的重复,然后加速核心动态规划。

请使用下面的链接之一,或者使用页面顶部的菜单栏导航。

这个网站是一个单点信息源的PROSPRIN,计算蛋白质基因组比对的工具,包括努力解释mRNA剪接。PrPrSigg是根据以下目标开发的:

  • 确定拼接信号的准确性
  • 在可行的情况下识别短外显子和非一致性拼接
  • 识别和分离典型代表基因拷贝事件的多个隔室的能力
  • 移码检测

使用PROSPRIGNNCBI真核基因组注释管道计算拼接的蛋白质比对NCBI原核基因组注释管道寻找基因重组基因并定位基因组上的移码位置。

PROSPRIGN可用于多种不同的方式。没有PROSPRIN的在线版本。您必须下载并安装可用于Linux的控制台版本(并且还可用于其他几个平台-请请求)。由于PROSPRIN是NCBI C++工具包的一部分,您还可以以可移植的方式从自己的应用程序链接到PROSPRIN库。最后,PROSPRIN可以作为NCBI基因组工作台的插件。

参考蛋白质-基因组对齐工具。B. Kiryutin,A. Souvorov,T. Tatusova。准备稿件

简介 下载 文档 算法 常见问题 联系

二进制文件更新02/23/15
预构建的可执行文件可用于Linux/i38(64位)

来源
在NCBI中为基因预测编写PROSPRIGN。没有努力包含版本之间的向后兼容性。
PROSPRIN包含在NCBI C++工具包中。有关如何下载、配置和生成工具包的详细信息,请参阅NCBI C++工具书.
您可以通过工具箱浏览工具包的代码LXR编程辅助工具源浏览器. 搜索CPROSPIGN/C/C++符号直接到PROSPION源。

图形视图
NCBI基因组工作台提供图形对齐视图。观察NCBI基因组工作台初级教程。
视频教程也可以在YouTube上使用。

简介 下载 文档 算法 常见问题 联系

使用控制台版本

控制台PROSPRIGN可以在两种模式下启动成对和批处理。如果需要快速对齐几个序列,并且不想为它们计算单独的爆炸命中,成对模式是有用的。批处理模式是执行大规模转录校准任务的最佳候选者,例如作为基因组注释过程的一部分。为了查看参数运行“//PROSPRIGN -帮助”,大多数参数是针对内部NCBI基因预测过程的。
在成对模式下,将蛋白质查询和核酸主题序列放在两个文件中(只有每个文件中的第一个序列将对齐)和命令行“./PROSPRUNG-全NFA NUC.FA -PFA Po.F.OF.ON.TXT-FASN-ALN.ASN”。NFA参数是核酸主题的文件,PFA参数是蛋白质查询的文件。输出是输出到OUT参数中指定的文件和ASN1输出到FASN参数指定的文件的文本输出。
批处理模式由三个步骤组成。
  1. 运行BLASH程序生成12列,选项卡分离输出。确保输出按主题和查询排序。例如,可以找到输入FASTA文件。在这里):
    JavaBasdB-dBType NUCL在Suj.F.TBLASTN中-查询QU.FA-DB受试者FA -OutfMT 6分类-K 2,2-K,1,1> BLAST.HIT
    导致:
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 35.000  140     57      5       58      163     20639910        20639491        2.87e-11        62.0
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 42.400  125     39      3       58      149     20602325        20601951        1.35e-15        74.7
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 42.400  125     39      3       58      149     20625221        20624847        1.44e-14        71.6
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 45.455  88      44      3       108     191     20647262        20646999        2.94e-12        64.7
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 47.500  40      20      1       58      96      20610519        20610400        1.44e-05        45.1
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 52.500  40      19      0       22      61      20602657        20602538        1.20e-05        45.1
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 52.500  40      19      0       22      61      20625553        20625434        1.44e-05        45.1
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 52.500  40      19      0       22      61      20640242        20640123        3.08e-05        43.9
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 55.000  40      17      1       58      96      20647507        20647388        6.43e-08        52.0
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 56.897  58      23      2       108     163     20610274        20610101        4.94e-11        61.2
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 60.976  41      16      0       22      62      20610837        20610715        5.15e-10        58.2
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 63.235  68      24      1       149     216     20609895        20609695        5.39e-23        96.3
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 63.235  68      24      1       149     216     20639285        20639085        4.97e-21        90.5
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 65.000  40      14      0       22      61      20647824        20647705        7.01e-10        57.8
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 66.176  68      22      1       149     216     20601700        20601500        4.58e-23        96.3
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 66.176  68      22      1       149     216     20624596        20624396        4.58e-23        96.3
    gi|6679997|ref|NP_032143.1|     gi|37544107|ref|NT_010783.14|Hs17_10940 67.647  68      21      1       149     216     20646883        20646683        5.12e-25        102
    
  2. 运行隔间工具找到核酸上的蛋白质实例的近似位置(CAT BLAST.HIT./PROPLATET-T> COMP)。输出文件的每一行代表一个实例,或“隔室”。
    1 NTZ010783.14 NP0032 143.1 20601000,20603157 - 195 195 210.778,2 NT100783.14,NP0032 143.1 20609195 20611337 - 184 238.625 238.625 3 3 NT100783.14 NP0032 143.1 20623896 20623896 -nt100783.14NP032,143.1α-αnt100783.14np0032 143.1α-*
    选项卡分离的列是
    室数、基因组ID、蛋白质ID、隔室、隔室、股、蛋白质覆盖率、室间隔爆破评分
    最后两列是内部使用的,忽略了PROSPRIGN。

  3. 运行与车厢文件和FASTA文件,以产生一个对齐每个隔室(./PROSPRIGN-I COMP - FASTA。J,FA,Que.FA - NoGeNeBoto-O ASN-EO PRO.TXT)。TXT文件是为人类阅读而设计的。

    当PROSPRIN在没有“满”选项的情况下运行时,输出文件显示“部分”对齐方式。保守部分在文本“PRO.TXT”文件中用状态线中的星星标记。内含子在蛋白线上标记有点。
    1	NT_010783.14	NP_032143.1	20601000	20603157	-
    20602957    CCTTTGGGCACAACGTGTCCTGAGGGGAGAGGCAGCGCCCTGTAGATGGGACGGGGGCACTAACCCTCAGGTTTGGGGCTTATGAATGTGAGTATCGCCA   20602858
                                                                                                                    
                                                                                                                    
                ------------------ M  A  T  D ----------------------------------------------------------------------
                                                                                                                    
    20602857    TCTAAGGCCAGATATTTGGCCAATCTCTGAATGTTCCTGGTCTCTGGAGGGATGGAGAGAGAGAAAAAAACAAACAGCTCCTGGAGCAGGGAGAGCGCTG   20602758
                                                                                                                    
                                                                                                                    
                ----------------------------------------------------------------------------------------------------
                                                                                                                    
    20602757    GCCTCTTCCTCTCCGGCTCCCTCCATTGCCCTCCGGTTTCTCCCCAGGCTCCCGGACGTCCCTGCTCCTGGCTTTTGCCCTGCTCTGCCTGCCCTGGCTT   20602658
                                                                  S  R  T  S  L  L  L  A  F  A  L  L  C  L  P  W  L 
                                                                  |  |  |  |     |  |        +  |  |  |  |     |    
                ------------------------------------------------- S  R  T  S  W  L  L  T  V  S  L  L  C  L  L  W  P 
                                                                 ***************************************************
    20602657    CAAGAGGCTGGTGCCGTCCAAACCGTTCCGTTATCCAGGCTTTTTGACCACGCTATGCTCCAAGCCCATCGCGCGCACCAGCTGGCCATTGACACCTACC   20602558
                 Q  E  A  G  A  V  Q  T  V  P  L  S  R  L  F  D  H  A  M  L  Q  A  H  R  A  H  Q  L  A  I  D  T  Y  
                 |  |  |     |           +  |  |  |     |  |     +  |  +  |  +  |           |  |  |  |     |  |  |  
                 Q  E  A  S  A  F  P  A  M  P  L  S  S  L  F  S  N  A  V  L  R  A  Q  H  L  H  Q  L  A  A  D  T  Y  
                ****************************************************************************************************
    20602557    AGGAGTTTGTAAGTTCTTGGGGAATGGGTGCGGGTCAGGGGTGGCAAGAAGGGGTGACTTTCCCCCACTGGGGAAGTAATGGGAGGAGACTAAGGAGCTC   20602458
                Q  E  F                                                                                             
                +  |  |                                                                                             
                K  E  F ............................................................................................
                ****************************************************************************************************
    20602457    AGGGTTGTTTTCTGAAGCGAAAATGCAGGCAGATGAGCATAGGCTGAGCCAGGTTCCCAGAAAAGCAACAATGGGAGCTGGTCTCCAGCATAGAAACCAG   20602358
                                                                                                                    
                                                                                                                    
                ....................................................................................................
                ****************************************************************************************************
    20602357    CAGTCCTTCTTGGTGGGGGGTCCTTCTCCTAGGAAGAAACCTATATCCCAAAGGACCAGAAGTATTCATTCCTGCATGACTCCCAGACCTCCTTCTGCTT   20602258
                                                 E  E  T  Y  I  P  K  D  Q  K  Y  S  F  L  H  D  S  Q  T  S  F  C  F
                                                 |        |  |  |  +     |  +  |  |     +     +  +  |     +  |  |  |
                ................................ 我方是………………
    这意味着前四个氨基酸(MAD)没有对齐。对齐从SRTS开始…关于蛋白质。第一个外显子在KEF结束。第二个外显子从时代开始。关于蛋白质。具有GT/Ag拼接的内含子用点表示。
简介 下载 文档 算法 常见问题 联系

算法细节

PROSPRIGN与输入序列在成对的基础上工作。换句话说,对每个查询和主题独立地确定外显子/内含子结构。

单独的动态编程是准确的确定拼接结,但计算昂贵。此外,如果基因的拷贝共享相同的基因组序列和链,则直接应用可能通过连接来自不同拷贝的外显子而产生不正确的结果。

因此,对于每一个输入查询/主题对,重要的是在基因组序列上定位基因,该基因通过算法来划分爆炸命中。这些初步洞察舱室的结构。命中被分成两个相同的串集,然后在每个链中识别出隔室。为了做到这一点,我们正式定义的基因组序列覆盖范围的优化问题,然后解决它的动态规划算法,其运行时间短于核心动态规划相比,上述。

简介 下载 文档 算法 常见问题 联系

常见问题

问:为什么我会得到“找不到XXX”例外情况?
A请确保输入命中文件中的序列标识符与索引文件中的序列标识符匹配。在索引FASTA文件时,PROSPRIGN记录序列ID,就像它们在引导“>”之后出现的,而您的BLAST程序可以略微不同地打印它们。

Q什么?“没有发现隔间”日志文件消息意味着什么?什么是隔间?
A隔室是基因组序列上的一个局部间隔,为寻找外显子提供了PROSPRIN的界限。根据输入的爆炸命中来确定隔室,因此当没有足够的命中或命中太弱或彼此不一致而形成隔室时,生成该消息。



NCBI Home NCBI Search NCBI SiteMap