跳到内容

R(MACER)中的分子采集、清洗和评估(Molecular Acquisition,Cleaning,and Evaluation in R)是一个R包,用于帮助生物研究人员组装分类和标记分子序列数据集。MACER接受属的列表作为用户输入,并使用NCBI-GenBank和BOLD作为资源来下载和组装分子序列数据集。这些数据集…

通知 您必须登录才能更改通知设置

rgyoung6/MACER

存储库文件导航

R(MACER)信息和示例中的分子采集、清洗和评估。

描述:

此存储库包含位于rgyoung6/MACER的MACER包。R中的分子采集、清洗和评估(MACER)是一种从BOLD和GenBank中组装、对齐、修剪和评估分子序列数据集的工具。

引用

Young RG、Gill R、Gillis D、Hanner RH(2021)R(MACER)中的分子采集、清洗和评估-从BOLD和GenBank中组装分子标记数据集的工具。生物多样性数据期刊9:e71378。https://doi.org/10.3897/BDJ.9.e71378

功能:

auto_seq_download()
创建_快速()
对齐_引用()
条形码清理()

安装

MACER可以通过三种方式安装。

1.从CRAN安装

install.packages(“MACER”)

2.通过GitHub安装

在R终端中运行以下命令。。。

install.packages(“devtools”)
库(devtools)
devtools::install_github(“rgyoung6/MACER”)

注:如果已经安装了“devtools”,则可能不需要安装第一个命令。

3.从GitHub下载安装。

导航到MACER公司GitHub页面。将与此页面相关的文件下载到本地计算机,并将其放在名为MACER的主文件文件夹中的某个位置。然后,通过将HERE替换为以下命令中的路径,运行指向本地计算机上该位置的以下命令。。。

库(“MACER”,lib.loc=“HERE”)

功能描述:

auto_seq_download()

此函数获取用户提供的属列表,并从BOLD和Genbank搜索和下载分子序列数据。

创建_快速()

此函数从auto_seq_download()函数获取输出文件和用户提供的所需分类和标记名称表,并输出带有目标记录的fasta文件。

对齐_引用()

此函数获取带有目标序列的FASTA文件,并将其与提交给程序的参考序列对齐。输出是一个对齐的fasta文件,该文件被修剪为参考序列的长度。删除没有完全覆盖的序列(具有前导或尾随间隙的序列的记录)。最后,根据用户提供的pigl参数中提供的字符位置的提交多序列对齐(MSA)百分比覆盖率,从序列中删除内部间隙。

条形码清理()

此函数接受输入fasta文件,并基于大于属和种四分位范围1.5倍的值,删除属级异常值和种级异常值。如果选中,它还可以使用氨基酸翻译检查序列,并可以选择删除具有非IUPAC代码的序列。最后,程序计算提交数据集中物种的条码间距。

运行MACER

注意:运行MACER脚本时,所选文件的路径不能有空格!文件命名中包含空白的任何文件都可能导致程序无法运行并以错误结束,或者可能导致意外输出。

包管道示例:

相关GitHub存储库rgyoung6/MACER_example中提供了MACER函数的示例演练。

包函数详细信息

下载–auto_seq_Download()

输入

包含要下载的类别列表的文件。将这些属放在单个列中的文件中。

论据

BOLD_database–TRUE表示包含,FALSE表示排除;默认为TRUE
NCBI_database–TRUE表示包含,FALSE表示排除;默认为TRUE
search_str–NULL使用默认字符串,除NULL之外的任何其他字符串都将用于GenBank搜索;默认NULL
默认字符串…
(ORGN属)NOT(鸟枪[ALL]或基因组[ALL]/组装[ALL'或微卫星[ALL[ALL])
注意:当使用NCBI的自定义搜索字符串时,一次只能使用一个属。
input_file–NULL通过点击提示提示用户指示输入文件的位置,除NULL以外的任何内容都将用于该位置;默认NULL
output_file–NULL通过点击提示提示用户指示输出文件的位置,除NULL以外的任何内容都将用于该位置;默认NULL
seq_min—较低的序列长度值。核苷酸字符数少于此数的序列将在最终输出中标记。默认值100
seq_max—序列长度上限值。核苷酸字符数超过此数量的序列将在最终输出中标记。默认值100

输出

一个主文件夹包含其他三个文件夹。
主文件夹-Seq_auto_dl_TTTTT_MMM_DD
三个子文件夹
BOLD-包含从BOLD系统下载的每个属的原始数据的文件。
NCBI-包含从GenBank下载的原始数据的每个属的文件。
Total_tables-包含用于运行这些脚本的文件。
A_Summary.txt-此文件包含有关下载的信息。
A_Total_Table.tsv–这是一个文件,有一个单独的表(以制表符分隔),其中包含搜索到的所有类别的累积数据。

注意:A_Total_Table.tsv文件包含获得的所有记录,最后一列是auto_seq_download()函数结果的标记文件

依赖关系

rentrez用于从NCBI的GenBank访问和下载序列

Fasta表格–create_fastas()

输入

在分类群下面列出带有分子标记名称的属。可以从下载脚本结果的A_Summary.txt文件中获取创建此参数文件的信息。例如,请参见以下内容…
塔米亚斯·塔米亚斯
CYTB COI-5P公司
细胞色素B细胞色素氧化酶亚单位1
细胞色素-B细胞色素氧化酶亚单位

论据

data_file–NULL提示用户以auto_seq_download输出的格式指示数据文件的位置,除NULL以外的任何内容都将用于该位置;默认NULL
input_file–NULL提示用户指示用于通过点选择的输入文件的位置,然后单击提示,除NULL以外的任何内容都将用于该位置;默认NULL
output_folder–NULL通过点击提示提示用户指示输出文件的位置,除NULL以外的任何内容都将用于该位置;默认NULL

no_marker–如果设置为TRUE,则将包括由于没有标记数据而过滤掉的记录。默认值为FALSE,不包括没有标记数据的记录。
no_taxa–如果设置为TRUE,则将包括由于没有分类数据而被过滤掉的记录。默认为FALSE,不包括没有分类数据的记录。
no_seq–如果设置为TRUE,则将包括由于没有序列数据而过滤掉的记录。默认值为FALSE,不包括没有序列数据的记录。
name_issue–如果设置为TRUE,则将包括因属和物种名称超过两个术语而过滤掉的记录。默认值为FALSE,表示不包括存在分类命名问题的记录。
taxa_digits–如果设置为TRUE,则将包括因属或物种名称包含数字而过滤掉的记录。默认值为FALSE,表示分类命名中不包括带数字的记录。
taxa_punct–如果设置为TRUE,则将包括因属或物种名称中存在标点符号而过滤掉的记录。默认值为FALSE,不在分类命名中包含带标点符号的记录。
wrong_taxa–如果设置为TRUE,则将包括根据最初提交给下载程序的分类单元列表中的错误属过滤掉的记录。默认为FALSE,不包括非目标分类群的记录。

输出

此脚本为提交的参数文件中的每个列输出一个序列的fasta文件。这些文件以感兴趣的类别和参数文件列中的第一个标记名命名。这些文件位于Total_tables.tsv文件所在的文件夹中。

依赖关系

不适用

对齐-Align_to_ref()

输入

包含fasta文件的文件文件夹位置,这些文件需要使用提供的引用序列进行对齐和修剪。请注意,将分析此文件夹中的所有fasta文件(名为*.fas)。
具有序列或MSA的参考序列文件,所有序列具有相同的长度。
MAFFT可执行文件的位置(https://mafft.cbrc.jp/alignment/software网站/)

论据

data_folder–此变量可用于为包含所有要对齐的fasta文件的文件提供位置。默认值设置为NULL,程序将提示用户通过点击选择文件夹。
ref_seq_file–此变量可用于提供参考序列文件的位置。默认值设置为FALSE,程序将提示用户通过点击选择文件夹。
MAFFT_loc–此变量可用于为MAFFT程序提供位置。默认值设置为NULL,程序将提示用户通过点击选择文件夹。
output_file–此变量可用于设置程序输出文件的位置。默认值设置为NULL,程序将把输出文件放在与目标文件相同的位置。

pigl–这是内部间隙回路参数的百分比。这提供了一个百分比,该百分比将删除导致内部间隙大于分配给此参数的百分比值的记录。如果此值设置为0,则不会删除内部间隙。该值的默认值为0.95。
op–这是使用MAFFT时的差距扩大惩罚。该值越大,对齐中的惩罚越大。此值的默认值设置为10。MAFFT程序中的默认值为1.53。对于预期没有间隙的高度保守区域的对齐,应将其设置为更高的数字,对于像COI-5P这样的条形码区域,建议使用10。

输出

在提交的文件文件夹位置中,将有一个名为“MAFFT_log”的日志文件。
此脚本的序列输出文件被放置在两个子文件夹中。这些文件夹位于提交的文件位置,感兴趣的fasta文件位于该位置。创建的两个文件夹是MAFFT和MAFFT_trimmed。在MAFFT文件夹中,提交的文件文件夹中的文件名将附加“_MAFFT”。
MAFFT_trimmed文件将包含与提交文件夹中的文件具有相同命名约定的文件,并附加“MAFFT_tremmed”。

依赖关系

虽然不是R依赖项,但需要使用安装在本地计算机上的MAFFT程序。

清洁-条形码清洁()

输入

包含一个或多个感兴趣的fasta文件的文件夹

论据

  • AA_code–这是用于检查序列中终止密码子的氨基酸翻译矩阵。以下代码可用。默认值为无脊椎动物矩阵2。
    • std(ape中为1)是标准代码
    • vert(类人猿中为2)是脊椎动物线粒体
    • 反转(类人猿中为5)是无脊椎动物线粒体
    • FALSE跳过AA清洁部分
  • AGCT_only–这仅保留带有AGCT的序列,而不保留IUPAC字符。
    • TRUE打开
    • FALSE接受所有IUPAC字符
  • data_folder此变量可用于为包含所有要对齐的fasta文件的文件提供位置。默认值设置为NULL,程序将提示用户通过点击选择文件夹。
  • dist_model-这是ape程序将使用的核苷酸进化模型(有关选项,请参阅ape文档。默认值为“raw”
  • replicates(复制)-这是引导将执行的复制数。注意:更多复制将花费更长的时间。默认值为1000
  • 替换-这表明MSA核苷酸柱的替换将在随机重采样中被替换。默认设置为TRUE
  • conf_level-这是初始MSA核苷酸长度的百分比。当设置为1时,引导重采样的长度将与初始MSA的长度相同。默认设置为1
  • numCores—这是用户希望在多线程可用的情况下使用的内核数。默认设置为1,表示只使用一个线程。

输出

用于运行名为A_Clean_file_YYYY-DD-TTTTTTTTT的函数的单个日志文件。该函数还将为每个提交的fasta文件输出三个文件。第一个是计算并用于评估DNA条形码间隙的距离矩阵。此文件的名称与输入文件的名称相同,名称末尾附加了“_dist_table.dat”。第二个文件是总数据表文件,它提供了每个数据集的所有提交记录的表,以及每个分析部分的结果。该文件的名称与输入fasta相同,末尾附加了“_data_table.dat”。最后,为每个输入fasa文件生成一个删除了所有离群值和标记记录的fasta文件。此输出文件的名称与输入fasta相同,末尾附加“_no_outlier.fas”。可能的标志包括non_AGCT、Stop_Codon、Genus_Outlier、Species_Outlier和'-'。

依赖关系

距离矩阵构造需要ape。图形生成需要ggplot2使用多个处理器需要并行需要pbapply来应用带有时间条的函数

关于

R(MACER)中的分子采集、清洗和评估(Molecular Acquisition,Cleaning,and Evaluation in R)是一个R包,用于帮助生物研究人员组装分类和标记分子序列数据集。MACER接受属的列表作为用户输入,并使用NCBI-GenBank和BOLD作为资源来下载和组装分子序列数据集。这些数据集…

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包

语言文字