跳到内容

rgyoung6/MACER示例

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 

存储库文件导航

R(MACER)信息和示例中的分子采集、清洗和评估。

描述:

此存储库包含位于rgyoung6/MACER的MACER包的示例文件和输出。R中的分子采集、清洗和评估(MACER)是一种从BOLD和GenBank中组装、对齐、修剪和评估分子序列数据集的工具。

功能:

auto_seq_download()
创建_快速()
对齐_引用()
条形码清理()

安装

1.从CRAN安装

install.软件包('MACER')
库(devtools)

2.通过GitHub安装

在R终端中运行以下命令。。。

install.packages(“devtools”)
库(devtools)
devtools::install_github(“rgyoung6/MACER”)

注:如果已经安装了“devtools”,则可能不需要安装第一个命令。

3.从GitHub下载安装。

导航到MACER公司GitHub页面。将与此页面相关的文件下载到本地计算机,并将它们放在名为MACER的主文件文件夹中。然后,通过将HERE替换为以下命令中的路径,运行指向本地计算机上该位置的以下命令。。。

库(“MACER”,lib.loc=“HERE”)

功能描述:

auto_seq_download()

该功能获取用户提供的属列表,并从BOLD和Genbank中搜索和下载分子序列数据。

创建_快速()

此函数接受输入fasta文件,并基于大于四分位范围1.5倍的值删除属级离群值和物种离群值。如果选中,它还可以使用氨基酸翻译检查序列,并可以选择删除具有非IUPAC代码的序列。最后,程序计算提交数据集中物种的条码间距。

对齐_引用()

此函数获取带有目标序列的FASTA文件,并将其与提交给程序的参考序列对齐。输出是一个对齐的fasta文件,它被修剪为引用序列的长度。删除没有完全覆盖的序列(具有前导或尾随间隙的序列的记录)。包含IUPAC以外字符的记录也将被删除。最后,根据用户提供的pigl参数中提供的字符位置的提交多序列对齐(MSA)百分比覆盖率,从序列中删除内部间隙。

条形码清理()

此函数接受输入fasta文件,并基于大于四分位范围1.5倍的值删除属级离群值和物种离群值。如果选中,它还可以使用氨基酸翻译检查序列,并可以选择删除具有非IUPAC代码的序列。最后,程序计算提交数据集中物种的条码间距。

运行MACER

注意:运行MACER脚本时,所选文件的路径不能有空格!文件命名中包含空白的任何文件都可能导致程序无法运行并以错误结束,或者可能导致意外输出。

包装管道示例:

下面的示例将详细介绍MACER包中四个主要函数的使用。为了说明包装的使用,本示例将以花栗鼠为例。使用Eutamias、Neotamias和Tamias这三个属来搜索BOLD和GenBank。尽管Eutamias和Neotamias目前还不是公认的分类学属,但它们被保留下来,以评估具有较旧分类学命名惯例的潜在数据。运行此示例所需的所有相关文件以及运行此示例的输出都包含在GitHub MACER存储库和“example”文件文件夹中。

使用auto_seq_Download()下载目标记录

使用文件Chipmunk.txt作为本例的分类。此文件包含花栗鼠、尤塔米亚、新塔米亚和塔米亚的属列表。运行auto_seq_download()函数,并在出现提示时按enter键,然后指向Chipmunk.txt文件。程序将运行并使用下载结果填充同一目录中的文件。虽然此函数有三个潜在参数,但此示例将不使用任何参数。未包含参数的原因是,需要默认包含BOLD和GenBank搜索以及使用默认搜索算法。以下是本例R屏幕上的输出。

>auto_seq_download()选择要下载的具有感兴趣的类别的文件。按回车键继续。。。“C:\\A_MACER\\Chipmunk.dat”“开始时间-2021-06-16 14:51:20-尤塔米亚斯”“尝试BOLD下载-2021-06-16 14:51:20-Eutamias”“BOLD下载错误:无法填充数据表或没有数据”“尝试NCBI下载-Eutamias”“这是搜索字符串的值……(Eutamias[ORGN]OR Eutamias[ALL])NOT(鸟枪[ALL]OR基因组[ALL〕OR组装的[ALLneneneea OR微卫星[ALL')”“下载1000条Eutamias NCBI记录,从…第1条开始,共3248条-2021-06-16 14:51:22”“下载1000条Eutamias NCBI记录,从第1001条开始,共3248条-2021-06-16 14:52:05”“下载1000条Eutamias NCBI记录,从……2001开始,共3248-2021-06-16 14:53:19”“下载1000条Eutamias NCBI记录,从…3001开始,共3248条-2021-06-16 14:54:28”“下载完成:清理NCBI数据表-Eutamias”“开始时间-2021-06-16 14:54:39-塔米亚斯”“尝试BOLD下载-2021-06-16 14:54:39-Tamias”“下载完成:清理BOLD数据表-Tamias”“正在尝试NCBI下载-Tamias”“这是搜索字符串的值……(Tamias[ORGN]OR Tamias[ALL])NOT(鸟枪[ALL]OR基因组[ALL]OR组装的[ALL]OR微卫星[ALL')”“下载1000条Tamias NCBI记录,从第1条开始,共3459条-2021-06-16 14:54:46”“下载1000条Tamias NCBI记录,从第1001条开始,共3459条-2021-06-16 14:55:20”“下载1000条Tamias NCBI记录,从……2001开始,共3459-2021-06-16 14:56:31”“下载1000条Tamias NCBI记录,从…3001开始,共3459条-2021-06-16 14:57:58”“下载完成:清理NCBI数据表-Tamias”“开始时间-2021-06-16 14:58:21-Neotamias”“尝试BOLD下载-2021-06-16 14:58:21-Neotamias”“BOLD下载错误:无法填充数据表或没有数据”“尝试NCBI下载-Neotamias”“这是搜索字符串的值…(Neotamias[ORGN]或Neotamias[ALL])NOT(霰弹枪[ALL]或基因组[ALL]或组装[ALL]或微卫星[ALL])”“下载1000条Neotamias NCBI记录,从第1条开始,共3245条-2021-06-16 14:58:23”“下载1000条Neotamias NCBI记录,从第1001条开始,共3245条-2021-06-16 14:59:01”“下载1000条Neotamias NCBI记录,从……2001开始,共3245条-2021-06-16 15:00:09”“下载1000条Neotamias NCBI记录,从…3001/3245开始-2021-06-16 15:01:31”“下载完成:清理NCBI数据表-Neotamias”

从下载脚本获得的结果表明,NCBI-GenBank数据库中存在每个属名的记录。然而,BOLD数据库中没有Eutamias和Neotamias的记录。auto_seq_download()函数的输出文件A_Summary.txt将包含有关下载记录的信息。此文件将位于Seq_auto_dl_#####_MMM_DD文件文件夹和子文件夹Total_Tables中。对于本例,文件文件夹名为Seq_auto_dl_063034_Jun_07。以下是本例中该文件的内容。

开始时间-2021-06-07 06:30:34-尤塔米亚斯尝试BOLD下载-2021-06-07 06:30:34-Eutamias尝试下载NCBI-2021-06-07 06:30:35-尤塔米亚斯尝试下载NCBI-2021-06-07 06:30:35-尤塔米亚斯记录数量-3355物种-阿莫努斯、微小目、西伯利亚目、纹状体、帕尔默里目、莫纳塞西斯、卢西塔尼亚目、塞内克斯目、海参目、阿尔卑斯山、鲁菲卡杜斯、汤森迪目、伞形目、索诺玛目、西斯基尤目、鲁弗斯、四眼目、四斑目、巴拿马目、赭罗根目、蒙昧目、梅里亚米目、杜兰加目、多尔塞利斯目、金丝兰科利目、犬科动物、斗牛目、鼠目、-分子标记物-细胞色素B、细胞色素-B、细胞色素COX酶亚单位II、16SRIBOSOMALRNA、SIRTUIN6、细胞色素氧化酶亚单位I、VONWILLEBRANDFACTOR、重组激活蛋白1、生长激素受体、搪瓷素、载脂蛋白NB、α2B肾上腺素能受体、光受体间视黄醇结合蛋白、EDG1、12S核糖核酸酶、酪氨酸酶,重组激活蛋白2、前前列腺素、磷脂酶β4、CAMPRESSIVE元件调节剂、Cannabinoid受体1、BMI1、脑源性嗜酸细胞因子、ATP7A、淀粉样β前体蛋白、腺苷3受体、β2A肾上腺素能受体、柠檬酸合成酶、细胞色素氧化酶亚单位1、核受体亚家族BMEMBER2、锌蛋白ZFX、C-MYC、,C-肌钙蛋白、肌动蛋白、酸性磷酸酶5、TRNA-PHE、过氧化物酶体活化受体γ、RAG1蛋白、甲状腺球蛋白、β-葡萄糖蛋白、PRKC1、促甲状腺素β亚单位、促甲氧基化上乳糜肌球蛋白重链、促甲酰化上乳汁肌球蛋白轻链2、胚胎肌球蛋白链1、光受体间结合蛋白、包膜蛋白结合蛋白-MAR1、细胞色素氧化酶DASE、,细胞色素氧化酶亚群2、乳酸脱氢酶亚群、血红蛋白、血红蛋白α、SMCYPROTEIN、乳腺癌敏感性1、乳腺癌易感性1、牙本质蛋白1、细胞色素氧化酶亚群1、带胞杆菌糖蛋白2、带粘连蛋白、TTN、GPROTEINBETA亚群5短变异体、伴发性磷酸二酯酶β亚群、ORFII、,蛋白原激活调节器RGS9-1、冬眠特异性蛋白27、FBN1、BCHE、HP-55、α1-抗胰蛋白酶样蛋白、光敏受体结合蛋白、RAG1、冬虫夏草特异性蛋白-25、MGF、小亚单位核糖核酸酶NA、HP-20、HP-25、肝细胞趋化因子4、NADHEHYDROGENASESUBUNIT1、HP-27、转录因子SP1、甘油脱氢酶-3-磷酸脱氢酶、,热休克因子1、热休克70K载脂蛋白1A、血清白蛋白前蛋白、血清白蛋白预蛋白结束时间-2021-06-07 06:35:17-尤塔米亚斯开始时间-2021-06-07 06:35:17-塔米亚斯尝试BOLD下载-2021-06-07 06:35:17-Tamias下载完成:清洁BOLD数据表-2021-06-07 06:35:30-Tamias尝试NCBI下载-2021-06-07 06:35:30-Tamias尝试NCBI下载-2021-06-07 06:35:30-Tamias记录数-3741物种-西伯利亚、纹状体、阿蒙努斯、微小体、伞形体、四眼体、背足类、鲁弗斯、金丝雀、犬科、鲁菲卡杜斯、吞噬细胞、福克斯、伯格多费里、兰内、比塞提亚、尼罗提斯、萨皮恩、阿卡西亚斯、莫纳克斯、帕尔梅里、塞内克斯、speciosus、阿尔皮努斯、汤森迪、索诺玛、西斯基尤、四斑鱼、巴拿马鱼、赭虫、蒙氏、梅里亚米、杜兰加、斗牛、怪诞、,帕尔武姆、哈德逊犬、microti、tamias、ezoensis、hermsii、sciuricola、washoeensis、bovis、身份不明-分子标记-COI-5P、ND3、ND4L、ND6、COII、ND2、ND5-0、COXIII、CYTB、ND1、ND4、细胞色素B、细胞色素-B、细胞色素COXIDAESUBUNITII、热休克蛋白、16SRIBOSOMALRNA、FLAGELLIN、SIRTUIN6、细胞色素氧化酶UBUNITI、VONWILLEBRANDFACTOR、重组激活蛋白1、生长激素受体、ENAMELIN、APOLIPROTEINB、α2BA接收器,光受体间视黄醇结合蛋白、EDG1、12核糖肉瘤蛋白、酪氨酸酶、重组激活蛋白2、前列腺素、磷酸酯酶β4、CAMPRESPONSIVEEM调节剂、类胡萝卜素受体1、BMI1、脑源性嗜酸细胞因子、ATP7A、淀粉样β前体蛋白、腺苷A3受体、β-2A能受体、细胞色素氧化酶亚单位1、,核受体亚家族组BMEMBER2、锌蛋白ZFX、C-MYC、C-肌动蛋白、肌动蛋白ACROSIN、酸性磷酸酶E5、TRNA-PHE、NADHDYDROGENASESUBUNIT1、过氧化物酶体活化受体γ、α1-抗胰蛋白酶-LIKEPROTEIN、RAG1蛋白、甲状腺球蛋白、β-葡萄糖蛋白、PRKC1、促甲状腺激素β-亚单位、促性腺激素因子1-α、细胞色素氧化酶UBUNITI公司,乳糜蛋白酶结合肌球蛋白重链、乳糜酶结合肌球蚴轻链2、胚胎肌球蛋白轻链1、光感受器结合蛋白、柠檬酸合成酶、富含多凝血酶原的lycoprotein、二氢叶酸还原酶、18SRIBOSOMALRNA、HISTONE3、细胞色素氧化酶亚单位1,28SRIBOSMALRNA、因子结合蛋白、可变TICPROTEIN、,糖类磷酸二酯酶、脱氧核糖核酸酶亚单位B、16S-23核糖核糖体LRNA基因间隔子、包膜蛋白结合蛋白-MAR1、细胞色素氧化酶、细胞色素结合酶亚单位2、乳酸脱氢酶EC、血红蛋白、血红蛋白α、热休克蛋白结合物5、信号识别颗粒蛋白54K、SMCYPROTEIN、乳腺癌敏感性1、,乳腺癌肌肉敏感性1、牙本质基质蛋白1、透明带糖蛋白2、带粘连蛋白、TTN、外表面蛋白、核糖核酸聚合酶β亚基、核黄素合酶、60kdaheatshock蛋白、细胞分裂蛋白、18ssmallsubnitribosomallrna、gproteinβ亚基5短变体、磷酸二酯酶β亚基或fii、调节蛋白信号传导9-1,冬眠特异性蛋白27、FBN1、BCHE、HP-55、光受体间质结合蛋白、RAG1、冬眠特异蛋白-25、MGF、HP-20、小亚单位瘤细胞抗原、HP-25、肝细胞核因子4、HP-27、聚合酶、转录因子SP1、甘油醛-3-磷酸脱氢酶、热休克因子1、热休克70KDAPROTEIN1A、血清白蛋白前蛋白、,血清白蛋白前蛋白、RPOB、外胚层蛋白、17-KDAGENUSSPECIFICATIGEN、肌动蛋白、包膜蛋白、FT'55MS蛋白酶抑制剂'FT、FT'HP-55蛋白酶抑制剂'FT、FT'55蛋白酶抑制剂'FT'、FT'55RS蛋白酶抑制剂'结束时间-2021-06-07 06:40:01-塔米亚斯开始时间-2021-06-07 06:40:01-Neotamias尝试BOLD下载-2021-06-07 06:40:01-Neotamias尝试下载NCBI-2021-06-07 06:40:01-Neotamias尝试下载NCBI-2021-06-07 06:40:01-Neotamias记录数-3352物种-阿莫努斯、微小目、西伯利亚目、纹状体、巴马利亚目、塞内克斯、镜象亚目、阿尔卑斯山、鲁菲卡杜斯、汤森黛亚目、伞形目、索诺玛目、西斯基尤、鲁弗斯、四维他目、四斑目、巴拿马亚目、赭龙亚目、蒙氏目、梅里亚目、杜兰加目、多尔萨利亚目,金枪鱼科利亚目、犬科、大疱亚目和侧翼亚目-分子标记物-细胞色素B、细胞色素-B、细胞色素COX酶亚单位II、16SRIBOSOMALRNA、SIRTUIN6、细胞色素氧化酶亚单位I、VONWILLEBRANDFACTOR、重组激活蛋白1、生长激素受体、搪瓷素、载脂蛋白NB、α2B肾上腺素能受体、光受体间视黄醇结合蛋白、EDG1、12S核糖核酸酶、酪氨酸酶,重组激活蛋白2、前致癌肽、磷脂酶cbeta4、Campresponsiveelement慢化剂、大麻素受体1、BMI1、脑驱动的神经营养因子、ATP7A、淀粉样β前体蛋白、腺苷3受体、β2肾上腺素受体、细胞色素氧化酶亚基1、核受体亚家族0组bmember2、锌蛋白fx、C-MYC、C-MYC蛋白、顶体蛋白,酸性磷酸酶E5、TRNA-PHE、过氧化物酶体活化受体γ、RAG1蛋白、甲状腺球蛋白、β-葡萄糖蛋白、PRKC1、促甲状腺激素β亚单位、促乳糖分解酶、促乳糖酶肌球蛋白轻链2、胚胎炎肌球蛋白轻链1、光受体结合蛋白、包膜蛋白结合蛋白-MAR1、细胞色素氧化酶、,细胞色素氧化酶亚群2、乳酸脱氢酶亚群、血红蛋白、血红蛋白α、SMCYPROTEIN、乳腺癌敏感性1、乳腺癌易感性1、牙本质蛋白1、细胞色素氧化酶亚群1、带胞杆菌糖蛋白2、带粘连蛋白、TTN、GPROTEINBETA亚群5短变异体、伴发性磷酸二酯酶β亚群、ORFII、,蛋白原激活RGS9-1、冬眠特异性蛋白27、FBN1、BCHE、HP-55、α1-抗胰蛋白酶样蛋白、光感受器内酯结合蛋白、RAG1、冬虫夏草特异性蛋白-25、MGF、HP-20、HP-25、肝细胞生成因子4、NADHEHDROGENASSUBUNIT1、HP-27、转录因子SP1、甘油醛-3-磷酸脱氢酶、热休克因子1、,热休克70K载脂蛋白1A、血清白蛋白前蛋白、血清白蛋白预蛋白结束时间-2021-06-07 06:44:23-Neotamias

总数据结果也与文件A_total_Table.dat中的A_Summary.txt位于同一文件夹中。此文件具有以下格式。

uniqueID DB ID登录属_种属物种BIN_OTU基因序列标记2 GenBank MT262677 MT262677-Tamias minimus Tamias minimus GenBank细胞色素体AGCT错误_Taxa

“Flags”列包含几个不同的潜在变量,包括no_marker、no_taxa、no_seq、name_issue、taxa_digits、taxa_punct、wrong_taxa或“-”。“-”结果表明该记录适合包含在没有潜在标志的数据集中。

使用create_fastas()函数选择感兴趣的记录以创建分子序列数据的fasta文件。

使用auto_seq_download()函数中的A_summary.txt文件,需要手动组装目标分子标记的目标属和相关名称表。由于命名约定的差异,同一分子标记很可能有多个名称。构建文件的格式如下所示。本例中使用的文件包含在example file文件夹中,名为Chipmunk_marker_table.dat。

尤塔米亚斯细胞色素B细胞色素COXIDASESUBUNITI细胞色素COI-5P细胞色素B细胞色素-B细胞色素氧化酶亚单位1细胞色素氧化酶细胞色素氧化酶亚群细胞色素氧化酶细胞色素氧化酶亚单位1细胞色素氧化酶亚单位

运行create_fastas()函数后出现提示时,选择了A_Total_Table.dat和构造的Chipmunk_marker_Table.dat。对于本例,当运行create_fastas()函数时,没有使用任何参数,因为需要所有默认参数。这些默认值不包括任何带有标志的记录,指示潜在的非目标或有问题的序列。有问题的标志是no_marker、no_taxa、no_seq、name_issue、taxa_digits、taxa_punct、wrong_taxa。只有带有“-”的记录被用于构造fasta文件。以下是本例R屏幕上的输出。

>创建_快速()请选择总表文件。按回车键继续。。。请选择带属的文件和感兴趣的分子标记列表。按回车键继续。。。“Eutamias-无法创建fasta文件,没有该属和分子标记的记录”“Eutamias-无法创建fasta文件,没有该属和分子标记的记录”“完成,请查看输入表中的文件位置以获取结果。”“完成,请查看输入表中的文件位置以获取结果。”Neotamias-无法创建fasta文件,没有该属的记录和分子标记“Neotamias-无法创建fasta文件,没有该属的记录和分子标记”

create_fastas()函数的输出是创建fasta文件。在本例中,创建了两个fasta文件Tamias_COI-5P.fas和Tamias-CYTB.fas,它们都包含在“example”文件文件夹中。使用create_fastas()函数和上述步骤创建感兴趣的fasta文件后,需要手动对其进行排序,并将其放入每个目标分子标记的文件夹中。在该示例中,它们被放置在COI和CytB中。

使用Align_to_ref()MACER函数将fasta文件与引用序列对齐。

在这个例子中,我们将把COI序列与紧密相关的Sciurus carolinensis分类群对齐。本例中使用的参考fasta文件包含在“example”文件夹中。请注意,引用序列的标头需要反映与create_fastas()函数中创建的fasta文件中的格式相同的格式。此外,参考fasta文件的命名中不能有空格。此格式如下所示。

>ABMC288-05 | | Sciurus | carolinensis | JF457099 | COI-5P

运行align_to_ref()后,将提示选择包含目标序列和参考序列的文件文件夹。此外,将请求R程序的外部MAFFT和本地计算机上程序的文件文件夹位置。调用align_to_ref()函数时可以包含两个参数。第一个是“pigl”参数。这表示在删除负责创建间隙的记录之前,在特定位置允许存在间隙的记录的百分比。在本例中,使用了0.95%的默认值。第二个变量是op变量。这表示MAFFT对齐中使用的开口间隙惩罚。对于保守区域,可以将其设置为更高的值。本例使用默认值1.53。然而,由于这个例子使用的是COI-5P区域,一个编码蛋白质的基因,这个区域可能会增加到大约10。以下是本例R屏幕上的输出。

>对齐_引用()选择要对齐的fasta文件所在的文件夹位置。按回车键继续。。。选择您的fasta参考文件(注意,这必须是一个修剪文件,所有序列的长度都相同,并且没有前导或尾随空格字符)。按回车键继续。。。选择MAFFT(.bat文件)所在的文件夹位置。按回车键继续。。。“C:\\A_MACER\\Seq_auto_dl_063034_Jun_07\\Total_Tables\\COI/Tamias_COI-5P.fas,2021-06-17 05:47:14”“核苷酸1539中报告的fasta文件长度和记录数217”“核苷酸600中对齐和修剪的多序列比对(MSA)的长度和记录数189”“输出位于子文件夹MAFFT和MAFFT_trimmed中的目标目录中”

align_to_ref()函数的输出将位于用户在函数运行期间选择的目标fasta文件所在的文件夹中。此文件夹中有三个项目。

  1. 对于每个输入目标fasta文件,具有与MSA fasta文件中的参考序列的所有MAFFT对准的文件文件夹。
  2. 一个文件夹,其中包含第一个文件夹中的对齐文件,但被修剪为引用序列长度,不包括引用序列。
  3. 包含MAFFT对齐日志的文件

使用barcode_clean()MACER函数评估下载序列的质量。

该过程的最后一步是使用对齐和修剪的序列,并检查记录是否适合包含在数据集中。barcode_clean()函数将用于评估由此产生的多序列比对(MSA)。barcode_clean()函数有两个参数。AA_code参数接受一个数字值,用于标识要使用的氨基酸编码矩阵。如果此功能设置为0,则不会完成氨基酸编码检查。如果使用此方法,则输入MSA必须位于读数框中,以获得准确的结果。如果用于构建MSA的参考序列位于阅读框中,则这不应成为问题。我们在这个例子中使用了这个参数,因为默认值是5,或无脊椎动物线粒体翻译矩阵,其中我们需要2个脊椎动物线粒体矩阵。第二个参数是AGCT_only参数。这将消除带有AGCT以外字符的序列(换句话说,删除所有具有不确定IUPAC核苷酸编码的字符)。此参数设置为1,启用或正在使用。我们没有使用此参数,因为on的默认值是必需的。当出现提示时,选择了align_to_ref()函数生成的MAFFT_trimmed文件文件夹。以下是本例R屏幕上的输出。

>条形码清理(AA_code=2)选择输入文件所在的文件夹位置。按回车键继续。。。“开始时间…2021-06-17 06:24:49”物种初始去重复AGCT AA属_外部物种_外部种内种间条形码_间隙1阿莫努斯21 12 12 12 12 10 0.06666666666 666667 0.0016666666667否2只狗6 6 6 6 6.6 6 0.00833333333333 0.025是3 cinereicolis 10 10 10 10 0 10 10 0.011666666666666 0否4背12 12 12 12 1 12 12 12 0.02166666666667 0否5最小值2 2 2 2 0.14 0.001666666666667 NO6四肢瘫痪12 12 12 12 12 12 0.0233333333333333 0否7 ruficaudus 2 2 2 2 0 0 3333333333 33 0.001666666666667编号8 rufus 6 6 6 6 0 0.011666666666666是9西伯利亚71 51 51 51 51 49 0.021666666666666 67 0.115是10纹状体36 19 19 19 19 19.19 0.02166666666667 0.00166666666 6667 NO11 umbrinus 11 11 11 11 11-11 11 0.021666666666666 0编号“开始时间…2021-06-17 06:24:49和结束时间…2021-17-06:24:50”

此函数的结果将放在MAFFT_trimmed文件文件夹中。每个输入fasta文件的结果在三个不同的文件中,运行函数的结果在一个日志文件中。日志文件的命名格式为A_Clean_file_YYY-MM-DDtttttt,此示例生成的文件为A_Clean_file_2021-06-17062449.dat。除此文件外,每个输入fasta的三个文件是:

  1. 在输入文件名的末尾附加“_data_table.dat”以进行指定的数据表文件
  2. 带有函数中使用的矩阵的距离矩阵文件,在输入文件名末尾附加“distmatrix.dat”以指示
  3. 一个删除了所有离群值的fasta文件,该文件使用输入文件名加上“no_outliers.fas”命名使用此函数生成的fasta文件将删除所有标识为非唯一或可能不准确的记录。首先取消复制文件,删除具有相同GenBank登录名的重复记录。然后,与auto_seq_download()函数一样,barcode_clean()函数标记剩余的记录。“Flags”列包含几个不同的潜在变量,包括non_AGCT、Stop_Codon、Genus_Outlier、Species_Outlier和“-”。“-”结果表明该记录适合包含在没有潜在标志的数据集中。生成的fasta文件将删除所有带有非“-”标志的记录。如果输出的fasta文件在删除记录方面过于严格,出于某些研究目的,可以在数据表文件中查看函数的结果以及与每个记录关联的标志。最后,还包括用于计算函数异常值的距离矩阵,因为此文件可能要用于MACER范围之外的其他分析。

关于

位于rgyoung6/MACER的MACER包装走查示例。

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包