1.关于本工程

特征提取或特征编码是构建基于机器学习的高质量模型的基本步骤。具体来说,这一步是确定生物信息学应用中训练模型有效性的关键(Chou,2011)。在过去的二十年中,为了从蛋白质序列中挖掘有用的模式,人们提出了各种特征编码方案。这种方案通常基于序列信息或物理化学性质的表示。尽管来自序列本身的直接特征(如氨基酸组成、二肽组成和k-mers计数)被视为训练模型的基本要素,越来越多的研究表明,PSSM图谱形式的进化信息比单独的序列信息更具信息性(an等人,2016)。因此,基于PSSM的特征描述符通常被用作构建模型不可或缺的主要特征,填补了当前生物信息学研究的一大空白。例如,基于PSSM的特征描述符在广泛的生物信息学应用中成功地提高了蛋白质结构和功能属性的预测性能。这些包括例如蛋白质折叠识别(Lobley等人,2009)和蛋白质结构类预测(Liu等人,2010)、蛋白质相互作用(Zahiri等人,2013)、蛋白质亚细胞定位(Xie等人,2005)、RNA结合位点(Cheng等人,2008)和蛋白质功能(Radivojac等人,2013年),举几个例子。

已经开发了许多服务器和独立软件包,以从蛋白质、DNA和RNA序列中导出各种特征描述符,包括PROFEAT(Rao等,2011)、PseAAC(Shen和Chou,2008)、propy(Cao等,2013)、repDNA(Liu等,2015)、progre/ProtrWeb(Xiao等,2015,repRNA(Liu等人,2016)和Pse-Analysis(Liu等,2017)。尽管这些工具很有用,也很流行,但它们主要侧重于生成与基于序列和/或物理化学描述符相关的特征,而不是基于PSSM轮廓的特征。事实上,有20多种不同的基于PSSM的算法用于计算和建模基于PSSM-的特征描述符。然而,据我们所知,目前还没有统一的web服务器或工具包可用于生成这些基于PSSM的特征描述符。在这里,我们提出了一个生物信息学工具包POSSUM,这是一个有效的工具,使用户能够为蛋白质序列生成基于PSSM的广泛数字表示方案。它实现了文献中提供的各种算法,提供了易于使用的界面,并为用户导出和自定义这些描述符提供了急需的功能和灵活性。我们演示了POSSUM计算的PSSM特征用于预测细菌分泌效应蛋白。

1.web服务器的体系结构

POSSUM web服务器的体系结构由两部分组成:客户端和服务器端。客户端接口由Jquery、Bootstrap、Struts和Hibernate实现,它们与用户交互并将用户提交的作业转发到服务器端。对于服务器端,Perl CGI程序将队列中的作业排成一行,并为每个作业调用一个Perl守护进程来执行描述符生成过程。这种体系结构保证了多个作业可以同时执行(允许的最大线程数在POSSUM中预定义),而其余作业将依次排队。

2.工具包的体系结构

POSSUM独立工具包的体系结构如下图所示。该工具包是用Python(用于核心功能实现)和Perl(用于通用命令行接口)实现的。


该工具包的主要组件简述如下:

  • 命令行界面:提供此模块是为了提供一个通用且用户友好的命令行界面,用户可以通过该界面与工具箱进行有效交互。该模块允许用户指定和应用不同的参数,并调用描述符生成过程。
  • 基于PSSM轮廓的特征描述符生成模块:此模块可用于根据用户特定的参数,基于原始描述符向量(由矩阵转换模块生成)包装和输出描述符文件。
  • 矩阵变换模块:此模块可用于转换PSSM矩阵(从原始PSSM配置文件中提取),以生成用户特定的原始描述符向量。此模块中提供了行转换、列转换以及行和列转换混合组中的各种适用矩阵转换函数。
  • PSSM配置文件格式模块:此模块可用于从PSSM配置文件中提取PSSM矩阵。
  • PSSM配置文件索引构建模块:此模块是程序的基本部分,它扫描FASTA序列和PSSM配置文件文件夹,为每个查询序列及其相应的PSSM配置创建哈希图。
  • PSSM配置文件加载模块:此模块查找哈希表(由PSSM配置文件索引构建模块构建),以检查序列的PSSM配置的可用性,并将相应的PSSM概要文件加载到内存中。

1.文本区输入

1.1输入格式

POSSUM允许两种类型的输入:FASTA格式的序列(推荐)或原始序列。

对于FASTA格式的序列,可以输入以下内容:

>gi|52628659|gb|AAU27400.1|假设蛋白lpg1317[费城嗜肺军团菌嗜肺亚种街道1]|1
MKQKIDYIARYFKLMSPIINREINNIVKAQDELEITGAPEHGSHKSIVKELETGFEYVQKKKNKQETEKEFMMASFLNKVNPNHPKKLVETEKVETNGSVSSILSRKQENTQDVEQFVRAGRTNELLEKVIGLEDTLIADNILGKQSDTKLANMLVFSNIDHERANNLPTFSLFNSGQRRYPTSAHELVSGIADLYEPSDDNRSGLAGDKREKEFGEVATKVIKQEKVANADIDSLYKCSSLSQNSTFGKNNCYRQYFKEAADTVSKFDL
>gi|33594166|ref|NP_881810.1|核酮糖磷酸3-差向聚合酶[Bordetella pertussis Tohama I]|-1
MHIMPPEIANTMSTQPASTRIAPSILSADFARLGEEVRVRVAVAAAGADWIHFDVDVDNHYVPNLTINGPMVCAAIRPHVQVPIDVHLMVEPVDEIVPQFAKAGANVITFHPEASRHVDRTLILIRRDHGCKALVFNPATPLHYMDYVMDKLDVVLLMSVNPGGGQAFIPATLAKLRDARARIDRWRAAGQPILLEVDGGVKVDNIAEIAGADTFVAGSAIFGKPDYAQVIGQLRAEIARGETIAV

此外,以下输入(这是从Uniprot数据库下载的原始格式)

>gi|52628659|gb|AAU27400.1|假设蛋白lpg1317[费城嗜肺军团菌嗜肺亚种街道1]|1
MKQKIDYIARYFKLMSPIINREEINIVKAQDELEITGAPEHGSHKLSIVKELETGFEYVQKTKNQTETEKE公司
FMMASFLNKVNPNHPKKLVETNNGSVSILSRKQENTQDVEQFVRAGRTNELLEKVIGLEDTLIADNILGKQSDTKLAN公司
MLVKDEGDTLVFSNIDHERANLPTFSLFNSGQRRYPTSAHELVSGIADLYEPSDDNRSGLAGDKRAKEFGEVATKVIKQEKIKS公司
AYEKVANADIDSVYKKCSSLSQNSTFGGKNNCYRQYFKEIQKEAADTVSKFDLKK
>gi|33594166|ref|NP_881810.1|核酮糖磷酸3-差向聚合酶[Bordetella pertussis Tohama I]|-1
MHIMPPEIANTMSTQPASTRIAPSILSADFARLGEEVRVAVAAGADWIHFDVDMDNHYVPNLTINGPMVCAAIRPHVQVPIDVHLMV公司
EPVDEIVPQFAKANVITFHPEASRHVDRTLAIRDHGCKALVFNPATPLHYMDYVMDKLDVVLLMSVNPGFGQAFIPATLAKLRD公司
ARARIDRWRAAGGQPILLEVDGGVKVDNIAEIRAAGADTFVAGSAIFGKPDYAQVIGQLRAEIARGETIAV公司

将被格式化为(序列中没有换行符):

>gi |52628659|gb|AAU27400.1|假设蛋白lpg1317[嗜肺军团菌嗜肺亚种费城1]|1
MKQKIDYIARYFKLMSPIINREINNIVKAQDELEITGAPEHGSHKSIVKELETGFEYVQKKKNKQETEKEFMMASFLNKVNPNHPKKLVETEKVETNGSVSSILSRKQENTQDVEQFVRAGRTNELLEKVIGLEDTLIADNILGKQSDTKLANMLVFSNIDHERANNLPTFSLFNSGQRRYPTSAHELVSGIADLYEPSDDNRSGLAGDKREKEFGEVATKVIKQEKVANADIDSLYKCSSLSQNSTFGKNNCYRQYFKEAADTVSKFDL
>gi|33594166|ref|NP_881810.1|核酮糖磷酸3-差向聚合酶[Bordetella pertussis Tohama I]|-1
影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素

对于原始序列,可以按如下方式输入:

MKQKIDYIARYFKLMSPIINREINNIVKAQDELEITGAPEHGSHKSIVKELETGFEYVQKKKNKQETEKEFMMASFLNKVNPNHPKKLVETEKVETNGSVSSILSRKQENTQDVEQFVRAGRTNELLEKVIGLEDTLIADNILGKQSDTKLANMLVFSNIDHERANNLPTFSLFNSGQRRYPTSAHELVSGIADLYEPSDDNRSGLAGDKREKEFGEVATKVIKQEKVANADIDSLYKCSSLSQNSTFGKNNCYRQYFKEAADTVSKFDL
影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素影响因素

POSSUM将对其进行如下格式化:

>输入1
MKQKIDYIARYFKLMSPIINREINNIVKAQDELEITGAPEHGSHKSIVKELETGFEYVQKKKNKQETEKEFMMASFLNKVNPNHPKKLVETEKVETNGSVSSILSRKQENTQDVEQFVRAGRTNELLEKVIGLEDTLIADNILGKQSDTKLANMLVFSNIDHERANNLPTFSLFNSGQRRYPTSAHELVSGIADLYEPSDDNRSGLAGDKREKEFGEVATKVIKQEKVANADIDSLYKCSSLSQNSTFGKNNCYRQYFKEAADTVSKFDL
>输入2
MHIMPPEIANTMSTQPASTRIAPSILSADFARLGEEVRVRVAVAAAGADWIHFDVDVDNHYVPNLTINGPMVCAAIRPHVQVPIDVHLMVEPVDEIVPQFAKAGANVITFHPEASRHVDRTLILIRRDHGCKALVFNPATPLHYMDYVMDKLDVVLLMSVNPGGGQAFIPATLAKLRDARARIDRWRAAGQPILLEVDGGVKVDNIAEIAGADTFVAGSAIFGKPDYAQVIGQLRAEIARGETIAV
1.2输入限制
  • 每个提交序列的长度应在50到5000个字符之间。
  • 由于基于PSSM的特征计算是一项耗时的工作,特别是生成PSSM的过程,因此每次提交的最大序列数不应超过500个。
  • 提交的序列不应包含非法字符,如“B”、“J”、“O”、“U”、“X”和“Z”。

2上传fasta格式的文件

用户也可以上传fasta格式的文件,而不是直接在文本区域中输入序列。

注意:请不要同时通过文本区和文件上传提交序列。用户应为每次提交选择一个或另一个。

3选择生成描述符的算法

基于PSSM的算法是在原PSSM的矩阵变换基础上设计的,根据矩阵变换的思想可分为三类:行变换、列变换和行与列混合变换。对于POSSUM,这些描述符分为四组。第一组由AAC-PSSM、D-FPSSM、平滑PSSM、AB-PSSM、PSSM组合、RPM-PSSM和S-FPSSM组成,它们是通过原始PSSM的行转换生成的。第二组包含由列转换生成的描述符,包括DPC-PSSM、k-separated-bigrams-PSSM、tri-gram-PSSM、EEDP和TPC。第三组包括EDP、RPSSM、Pse-PSSM、DP-PSSM,PSSM-AC和PSSM-CC,它们是通过行和列混合转换生成的。第四组由AADP-PSSM、AATP和MEDP组成,它们只是将前三组中的描述符组合在一起。

有6种算法需要用户输入参数,包括平滑PSSM、k-separated-bigrams-PSSM、Pse-PSSM、DP-PSSM,PSSM-AC和PSSM-CC。

  • 对于平滑PSSM,smoothing_window表示平滑窗口的大小,应该是奇数;slidingwindow表示滑动窗口的大小。
  • 对于k-separated-bigrams-PSSM,k表示氨基酸位置之间的距离,默认值为1。
  • 对于Pse-PSSM,ξ表示蛋白链上ξ最相邻的PSSM得分,默认值为1。
  • 对于DP-PSSM,α表示随后的第α-个氨基酸,默认值为5。
  • 对于PSSM-AC和PSSM-CC,LG表示序列中两个残基的最大距离,默认值为10。
如果用户不知道如何调整参数,可以使用默认值。有关这些算法的详细信息,请参阅以下论文:

  • AAC-PSSM/DPC-PSSM/AADP-PSSM:
  • D-FPSSM/S-FPSSM:
  • 平滑PSSM:
  • AB-PSSM/RPM-PSSM:
  • PSSM组成:
  • k-分隔图-PSSM:
  • 三粒度PSSM:
  • EDP/EEDP/MEDP:
  • TPC/AATP:
  • RPSSM公司:
  • Pse-PSSM:
  • DP-PSSM公司:
  • PSSM-AC/PSSM-CC:
  • 4为BLAST选择数据库

    目前,POSSUM中有三个数据库(uniref50、uniref90、uniref100)可用。用户可以为BLAST选择uniref50以更高效的方式生成PSSM,或者通过选择uniref90或uniref100以牺牲速度为代价生成更准确的PSSM文件。

    通常,对于示例中的两个序列,分别使用uniref50、uniref90和uniref100完成作业需要6分钟、35分钟和71分钟。

    5输出

    计算结果有三种类型的输出页面:结果页面、警告页面和错误页面。

    5.1结果页

    结果页面由三部分组成:作业信息、PSSM文件下载和基于PSSM的功能文件下载。

    5.2警告页面

    如果在生成PSSM文件期间丢失任何序列(此概率非常小,但有限。)。用户将收到一个警告页面,其中包含4个部分:作业信息、遗漏的fasta序列文件、剩余序列的PSSM文件和剩余序列基于PSSM的特征文件。

    5.3错误页面

    如果计算过程由于任何意外的系统错误而异常停止,用户将得到一个包含两部分的错误页面:作业信息和错误详细信息。

    1.概述

    POSSUM的源代码可以在下载页面.

    2.使用POSSUM

    对于喜欢将自己的参数设置应用于特定研究目的的用户,以及有能力使用本地计算机为非常大的数据集执行高吞吐量PSSM文件生成的用户,也可以使用开源独立软件工具包。POSSUM的独立版本是使用Python和Perl开发的,可以在Unix/Linux、Windows和Mac OS上执行。作为一个开源软件,用户可以访问、修改和重新发布源代码,允许用户根据自己的特定需求定制POSSUM。

    2.1系统要求

    2.2下载目录中的文件描述

    • 输入:输入文件文件夹(用户可以使用“-i”指定自己的输入文件文件夹)。
      • pssm_文件:PSSM文件夹(用户可以使用`-p`指定自己的PSSM文件文件夹),其中包含示例PSSM文件。
        • 示例1.pssm,示例2.pssm:PSSM文件示例。
      • 例如.fasta:用于生成描述符的示例fasta文件。
    • 输出:用于存储POSSUM计算结果的文件夹(用户可以使用“-o”指定自己的输出文件夹)。
      • *.csv文件文件(例如示例_aac_pssm.csv,示例平滑pssm.csv,示例k分开的bigrams_pssm.csv,示例_pse_pssm.csv,示例_dp_pssm.csv,示例pssmac.csv,示例pssm_cc.csv):示例fasta文件的计算结果文件例如.fasta.
    • 型钢混凝土:源代码文件夹。
      • possum.py、possum_ft.py、featureGenerator.py、matrixTransformer.py:用于生成原始描述符的Python脚本。
      • headerHandler.py头:用于为原始描述符添加标头的Python脚本。
    • 实用程序:用于存储一系列实用程序脚本的文件夹,这些脚本帮助用户将fasta序列形式化。
      • 删除非法序列.pl:一个Perl 5脚本,用于删除包含非法字符的fasta序列,例如“B”、“J”、“O”、“U”、“X”和“Z”。
      • #用法示例:perl removeIllegalSequences.pl-i example.fasta-o example _corrected.fasta
      • 删除短序列.pl:用于删除短于给定阈值的fasta序列的Perl 5脚本。
      • #用法示例:perl removeShortSequences.pl-i示例.fasta-o示例_corrected.fasta-n 50perl removeShortSequences.pl-i示例.fasta-o示例_corrected.fasta-n 100
    • 临时:在程序操作过程中用于缓存临时文件的文件夹。
    • 文档:用于存储帮助文档的文件夹。
      • 用户指南.pdf:POSSUM独立工具包的详细描述文件。
    • possum_standalone.pl系列:一个Perl 5脚本,使用户可以调用和运行POSSUM独立工具包。

    2.3使用

    数据准备以下为:
    POSSUM需要两种类型的输入文件:

    • fasta文件:fasta文件应包含fasta格式的一个/多个蛋白质序列。用户可以使用-i参数指定fasta文件作为输入。
    • pssm_文件:应在特定文件夹中提供fasta文件的PSSM文件(对uniref 50/90/100数据库使用BLAST),该文件夹将由用户使用-p参数指定。

    命令行示例以下为:
    对于Unix/Linux/Mac OS X用户:

    perl possum_standalone.pl-i输入/example.fasta-o输出/exampe_aac_pssm.csv-t aac_pssm-p输入/pssm_files-h tperl possum_standalone.pl-i输入/example.fasta-o输出/examplesmoothed_pssm.csv-t平滑_pssm-p输入/pssm_files-h t-a 7-b 50perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_k_separated_bigrams_pssm.csv-t k_separted_bigrams_pssm-p输入/pssm_files-h t-a 1perl possum_standalone.pl-i输入/example.fasta-o输出/example_pse_pssm.csv-t pse_pssm-p输入/pssm_files-h t-a 1perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_dp_pssm.csv-t dp_pssm-p输入/pssm_files-h t-a 5perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_pssm_ac.csv-t pssm_ac-p输入/pssm_files-h t-a 10perl possum_standalone.pl-i输入/example.fasta-o输出/example_pssm_cc.csv-t pssm_cc-p输入/pssm_files-h t-a 10

    对于Windows用户:

    perl possum_standalone.pl-i输入/example.fasta-o输出/exampe_aac_pssm.csv-t aac_pssm-p输入/pssm_files-h tperl possum_standalone.pl-i输入/example.fasta-o输出/example_smoothed_psm.csv-t smoothd_pssm-p输入/pssm_files-h t-a 7-b 50perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_k_separated_bigrams_pssm.csv-t k_separted_bigrams_pssm-p输入/pssm_files-h t-a 1perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_pse_pssm.csv-t pse_pssm-p输入/pssm_files-h t-a 1perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_dp_pssm.csv-t dp_pssm-p输入/pssm_files-h t-a 5perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_pssm_ac.csv-t pssm_ac-p输入/pssm_files-h t-a 10perl possum_standalone.pl-i输入/example.fasta-o输出/examplet_pssm_cc.csv-t pssm_cc-p输入/pssm_files-h t-a 10
    或者
    perl possum_standalone.pl-i输入\示例.fasta-o输出\示例_aac_pssm.csv-t aac_pssm-p输入\ pssm_files-h tperl possum_standalone.pl-i输入\example.fasta-o输出\example平滑_pssm.csv-t平滑_pssm-p输入\pssm_files-h t-a 7-b 50perl possum_standalone.pl-i输入\example.fasta-o输出\example _k_separated_bigrams_pssm.csv-t k_separted_bigrams_pssm-p输入\pssm_files-h t-a 1perl possum_standalone.pl-i输入\示例.fasta-o输出\示例_pse_pssm.csv-t pse_pssm-p输入\ pssm_files-h t-a 1perl possum_standalone.pl-i输入\示例.fasta-o输出\示例_dp_pssm.csv-t dp_pssm-p输入\ pssm_files-h t-a 5perl possum_standalone.pl-i输入\示例.fasta-o输出\示例_pssm_ac.csv-t pssm_ac-p输入\ pssm_files-h t-a 10perl possum_standalone.pl-i输入\示例.fasta-o输出\示例_pssm_cc.csv-t pssm_cc-p输入\ pssm_files-h t-a 10
    或者
    perl possum_standalone.pl-i输入\\example.fasta-o输出\\exampel_aac_pssm.csv-t aac_pssm-p输入\\pssm_files-h tperl possum_standalone.pl-i输入\\example.fasta-o输出\\examplesmoothed_pssm.csv-t平滑_pssm-p输入\\pssm_files-h t-a 7-b 50perl possum_standalone.pl-i输入\\example.fasta-o输出\\example _k_separated_bigrams_pssm.csv-t k_seprated_bigrams_pssm-p输入\\pssm_files-h t-a 1perl possum_standalone.pl-i输入\\example.fasta-o输出\\examples_pse_pssm.csv-t pse_pssm-p输入\\pssm_files-h t-a 1perl possum_standalone.pl-i输入\\example.fasta-o输出\\example _dp_pssm.csv-t dp_pssm-p输入\\pssm_files-h t-a 5perl possum_standalone.pl-i输入\\example.fasta-o输出\\examples_pssm_ac.csv-t pssm_ac-p输入\\pssm_files-h t-a 10perl possum_standalone.pl-i输入\\example.fasta-o输出\\examples_pssm_cc.csv-t pssm_cc-p输入\\pssm_files-h t-a 10

    注意:Windows和其他操作系统之间的主要使用差异是文件路径格式。POSSUM允许根据用户习惯在窗口上使用/、\、\\作为路径分隔符。

    参数:

    • -我:以fasta格式指定文件的输入文件路径。
    • -o个:指定计算结果的输出文件路径。
    • -吨:指定21个算法中的一个来生成描述符,包括aac_pssm、d_fpssm、smooshed_pssm、ab_pssm,pssm_composition、rpm_pssm、s_Fpsm、dpc_pssm、k_separated_bigrams_pssm和tri_gram_pssm。
    • -第页:指定PSSM文件文件夹路径。
    • -小时<T/F>:是否添加页眉。默认值=T。
    • 对于-我,-o个-第页,允许绝对路径和相对路径。

    对于平滑PSSM算法:
    如果您设置-吨作为smoodd_pssm,我们的程序可以使用以下参数来指定:

    • -一个:指定smooting_window。smoothing_window表示平滑窗口的大小,应该是奇数。默认值为7。
    • -b条:指定滑动窗口。sliding_window表示滑动窗口的大小。默认值为50。

    对于k-separated-bigrams-PSSM算法:
    如果您设置-吨作为k_separated_bigrams_pssm,我们的程序可以使用以下参数来指定:

    • -一个:指定k。k表示氨基酸位置之间的距离。默认值为1。

    对于Pse-PSSM算法:
    如果您设置-吨作为pse_pssm,我们的程序可以使用以下参数来指定:

    • -一个:指定ξ。ξ表示沿着蛋白质链的ξ最接近的PSSM得分。默认值为1。

    对于DP-PSSM算法:
    如果您设置-吨作为dp_pssm,我们的程序可以使用以下参数来指定:

    • -一个:指定α。α表示随后的第α-个氨基酸。默认值为5。

    对于PSSM-AC算法:
    如果您设置-吨作为pssm_ac,我们的程序可以使用以下参数来指定:

    • -一个:指定LG。LG表示序列上两个残基的最大距离。默认值为10。

    对于PSSM-CC算法:
    如果您设置-吨作为pssm_cc,我们的程序可以使用以下参数来指定:

    • -一个:指定LG。LG表示序列上两个残基的最大距离。默认值为10。

    对于其他算法:
    如果您设置-吨作为aac_pssm、dfpssm、ab_pssm,pssm_composition、rpmpssm、sfpsm、dpcpssm、trigrampssm,eedp、tpc、edp、rpssm、aadppsm、aatp或medp,您无需输入其他参数。

    2.4输入文件检查

    对于fasta格式的输入文件,如果存在短于50的序列或包含非法字符,例如B类,J,O(运行),U型,XZ轴,程序将退出并显示相应的提示。

    请参考输出消息,相应地使用中的实用程序脚本实用程序文件夹以释放fasta序列,然后重试。

    2.5计算结果注释:
    • 计算结果表示为脑脊液病毒格式。