STAT: a fast, scalable, MinHash-based k-mer tool to assess Sequence Read Archive next-generation sequence submissions

Katz, Kenneth S.; Shutov, Oleg; Lapoint, Richard; Kimelman, Michael; Brister, J. Rodney; O’Sullivan, Christopher

doi:10.1186/s13059-021-02490-0

方法
开放式访问
出版：2021年9月20日

STAT：基于MinHash的快速、可扩展的k个-mer工具用于评估Sequence Read Archive下一代序列提交

基因组生物学 体积 22，物品编号：270(2021)引用本文

8747访问
34引文
31海拔高度
韵律学细节

摘要

向国家生物技术信息中心提交的序列读取档案通常缺乏有用的元数据，这限制了这些提交的实用性。我们描述了序列分类分析工具（STAT），它是一个可扩展的k个-基于mer的工具，用于快速评估提交文件固有的分类多样性，与元数据无关。我们展示了基于MinHash的k个-mer工具准确且可扩展，为有效选择数据以供科学界进一步分析提供了可靠的标准，可以立即验证提交的数据，同时还可以使用可靠的、可搜索的分类术语扩充样本元数据。

背景

成立于2007年的国家生物技术信息中心（NCBI）序列读取档案（SRA）直接接受来自高通量测序平台的原始测序数据[1]. 下一代测序（NGS）设备本身就很大，改进后的技术对污染非常敏感。必须在解释或质量评估之前处理提交的文件，以提供提交人反馈和提交验证。数据提交呈指数级增长（大约每12年翻一番个月[2])由于成本和规模限制，特别是考虑到提交处理的时间限制，使得使用计算昂贵的方法（如重新组装后对齐）不切实际。

我们认为，关于给定NGS运行质量的问题可以从该集合内读取的分类分布中合理推断出来，无论是基于单个生物体还是基于宏基因组设计。这通常足以回答基本的实验或临床问题，并为后续资源密集型评估方法的优点提供决策依据。带有生物标签的读取集可用于选择数据进行进一步分析。此外，将读取放入分类桶可以识别污染读取和超出所述实验范围的读取。在进行下游处理之前，可以从样本中过滤此类识别的读数。此建议的分类分析独立于元数据，并且是运行固有的，能够验证提交并使用可靠、可搜索的分类术语补充样本元数据。

根据这些原则，我们开发了一个k个-基于mer的序列分类分析工具（STAT）。基于MinHash[三]受Mash启发[4]，STAT使用引用k个-从可用的测序生物构建的mer数据库，允许将查询读数映射到NCBI分类层次[5]. 我们使用MinHash原理将具有代表性的分类序列按数量级压缩为k个-mer数据库，然后是生成一组诊断信息的过程k个-每个生物体的mers。这允许以最小的诊断集显著覆盖分类群k个-默斯。我们的结果表明，STAT是一种及时、可扩展地检查提交的NGS数据的可靠方法。

结果

STAT是为了与提交者共享SRA提交文件的质量评估而开发的，要求理想情况下，分析所需时间不超过现有提交处理所需时间，同时最小化资源使用。我们的设计从MinHash原则开始，即在散列后随机选择池中值最低的组成块代表父对象的签名。建筑物内k个-mer数据库从指定了特定NCBI分类id（TaxId）的序列集中读取32个碱基对（bp）k个-mers作为64位FNV-1散列[6]，选择最小哈希值以标识k个-mer代表窗口，然后迭代合并k个-从分类叶到根的mers（参见“方法，“图。1和2).

仅使用人口稠密的初始分析k个-mer数据库表现良好。然而，尽管平均值比输入序列数据库大小小一个数量级（见下文），但我们确定加载整个密集合并的“tree_filter.dbs”由于大多数运行只需要完整数据库的一小部分，因此不必要地将数据存储到内存中进行分析会导致较长的I/O读取时间和较大的内存成本。此外，与许多计算管道一样，STAT作业也被提交给本地计算机场集群调度程序（“网格引擎”），或者通过调度基于云的虚拟机。在这两种情况下，作业调度通常需要明确的所需资源声明，如CPU和内存。初始屏幕能够评估样本的多样性和详细分析所需的资源需求，从而最大限度地降低成本并提高计算效率。出于这些原因，我们进行了选择性的两步分析，在第一步中使用稀疏过滤数据库来确定是否存在任何（a）真核生物（如果一个物种的生物读数超过100），（b）细菌或古生菌的生物读数大于10，以及（c）病毒（如果有1-2个生物读数）。第一步既不是定性的，也不是详尽的，但可以让我们在第二步中快速确定重点分类群（图。三).

为了促进这两步过程，并进一步减少资源需求，我们减少了k个-mer数据库大小增加33%，只存储8字节k个-mers，分别存储成对的TaxId、total TaxIdk个-在辅助“注释”文件中分别对每个TaxId进行mer计数。这个k个-mer数据库/k个-mer-count注释文件对被指定为“dbss”，数据库按TaxId排序，每个TaxId集按k个-梅尔。第一步确定的税号k个-在第二步中，mer数据库仅用于将那些TaxId加载到内存中k个-mers使用注释文件提供的计数作为偏移量。MinHash采样与仅必要的密集TaxId数据库的动态加载相结合k个-mers为cpu和内存需求带来了显著的好处。此外，要加载的TaxId的选择可能会通过启发式方法来增强，例如故意阻止TaxId受到先前过滤步骤中检测到的污染。

STAT报告了映射到特定分类节点的生物读取的分布，作为分析运行中映射的总生物读取的百分比。由于结果与测序基因组的大小成正比，因此包含数个拷贝数相等的生物体的混合样本有望发现更多来自较大基因组的读取。这意味着报告的百分比可能反映样本基因组大小，用户必须根据测序样本的基因组复杂性进行考虑。

与所有采用“最小共同祖先”分析的基于序列的分类方案一样，STAT反映并依赖于准确的序列分类归属、分类关系以及分类深度和广度。适应NCBI参考序列（RefSeq）数据模型的重大成就[7]和国际公认的分类法，以纳入宏基因组病毒序列[8,9]从根本上受益于STAT和其他类似的分类工具。

合并的一个重要后果k个-mer数据库的构建是为了避免生物复杂性引起的并发症。例如，大多数k个-从人类输入参考基因组中发现的内源性逆转录病毒衍生的mers可能会与那些k个-病毒超级王国也会发现mers。

此外，在分析结果时，每次水平读取运行都需要集成不太理想的信号。在一个生物读数中发现多个TaxId是很常见的，理想情况下，对于给定的血统来说是一致的。是那些吗小家鼠Murinae和Mammal有信心宣布宣读小家鼠。如果一个读取映射到多个相关分类节点，则报告为源于最接近的共享分类节点。例如，对兄弟物种进行点击的读取可能被报告为它们的共同属，在歧义之前保守地定位最接近的共同节点（图。4). 同样，当整合来自所有生物读取的信号以报告运行时，需要这种保守的启发式方法。如果运行对象是单个生物体，预计STAT将识别整个谱系的分类节点，并且映射到更高级别节点的读取次数将多于映射到末端节点的读取次数。

STAT被设计为评估任何SRA提交，并已发展成为一种工具，它也大大提高了用户的理解力。许多k个-mer工具是为了宏基因组分类分配而创建的[10]STAT开发期间，包括一些基于MinHash的[11,12]. 与其他基于MinHash的元基因组工具不同，STAT报告每个点的分类命中数^脚注1分类分类器平衡速度、准确性和内存需求。虽然STAT既不是主要用于宏基因组分析，也不是用于分布的工具，但也存在同样的问题。使用MinHash采样并最多每64次保存1次 k个-由输入序列生成的mers产生k个-mer数据库比其来源的亲本参考核苷酸数据库小1-2个数量级。例如，当前使用的BLAST®refseq_genomes数据库为1.4 tb，而代表性的稀疏和密集STATk个-mer数据库分别约为1.5gb和75gb。

统计局k个-mer数据库在合并之前包含248426个TaxId。我们完整的合并后75 gb密集数据库（“tree_filter.dbss”）表示合并后的130817个TaxIds（所有数据都反映了20200518版本）。Kraken默认的70GB数据库仅包含“RefSeq完整基因组，其中有2256个，而Kraken-gb包含8517个基因组”[13]. 尽管我们的稀疏索引数据库（“tree_index.dbs”）大小为1.5gb，但它仍然包含k个-119982出租车司机。

我们使用Wood等人描述的应变排除试验将STAT精度与Kraken 2进行比较[14]. 虽然仅限于以“每个片断”为基础报告分类分配的NGS分类工具，但使用此测试可以直接与以前发布的结果进行比较，如图。2in Wood等人[14]. STAT显示了Kraken 2对细菌和病毒的准确度相同（见图。5). 正如预期的那样，STAT的敏感性显著降低，因为我们选择了最广泛的分类广度进行采样。STAT在准确性测试结果中从未产生假阳性细菌鉴定，这进一步反映了我们对保守分类分配的渴望（附加文件三，S1）。虽然NCBI参考细菌基因组用于STAT数据库输入，但代表性RefSeq病毒基因组的严重缺乏导致我们输入非参考病毒记录。在病毒准确性测试结果中可以看到假阳性，尽管其中大约一半可能代表宿主生物基因组中的真实生物鉴定，而其余可能表明数据库受到污染（附加文件三、S2、S3）。

我们发现没有必要应用相同的选择k个-从查询序列中提取mer散列最小值以构成相似度索引[三,4,11,12]，而不是精确k个-mer匹配。我们表明，准确性是稳健的，但仍反映了我们在分类分配方面的保守偏见。尽管性能与Kraken 1输入速度（2160万读/分钟）和运行时间（132.5 s）特征，STAT（最大驻留集大小830304 KB）分别只需要Kraken 1和Kraken 2所需内存的8%和1%[14]. 不出所料，准确度测试（参见“方法“）提取请求的TaxId所需的额外时间k个-mers随需应变。精度测试期间的最大驻留集大小大约比Kraken 2（14，数据未显示）大一个数量级，尽管加载了k个-mer数据库是“strain_excluded”FASTA文件大小的20倍（3.9gb），是“straine_exclused.dbs”大小的100倍（545兆字节（mb））。

我们提供了两个预期和意外污染的对称示例，以说明STAT的有效性。

大流行期间的污染

像世界各地的许多公共卫生机构一样，英国公共卫生局（PHE）使用NGS程序性地监测感染性病原体，并向SRA提交有针对性的参考基因组分析。SARS-CoV-2大流行于2019年12月出现，中国以外的许多国家在2020年初发现了第一例病例[15]. 英国首批病例于2020年1月30日确定[16]. 我们开始利用STAT结果开发科学大流行资源，以确定SARS-CoV-2提交文件（参见“方法”），当这些记录的元数据中列出了单一的细菌源生物体时，他们感到惊讶。2020年初提交的常规STAT分析发现，2000多份PHE监测细菌NGS提交可能受到SARS-CoV-2序列的污染。其中最早的病例发生在2020年2月11日，距离英国首次确诊病例不到2周。PHE被提醒注意可能的遗留污染，迅速采取行动限制进一步的事件。随后的调查证实SARS-CoV-2感染，范围从至少1个阳性点包含1个阳性点击，到4233个阳性点，包含18270个点击（参见“方法，”和其他文件1). 该示例强调了STAT在监控提交文件中可能存在的污染方面的实用性，使策展人能够联系提交人，以警告和纠正污染源。

识别并删除潜在的个人识别信息

随着低成本显著扩大人类基因组测序，公众对公共存储库中潜在的个人识别信息的认识提高[17]. 使用NGS诊断和监测人类健康或检测SARS-CoV-2等致病性疫情的巨大努力，使临床样本提交者担心是否包含人类序列。作为前面讨论的污染示例的对应项，我们寻求了一种基于STAT的工具来查找和删除临床病原体样本中不可避免的人类序列读取。

我们从构建k个-使用人类参考序列的mer数据库抑制了先前描述的迭代合并。大多数（约80%，见方法)第页，共页k个-衍生的mers代表保守的祖先序列，但我们的目标是积极识别人类序列。然后我们减去了任何k个-mer还在合并的王国数据库中发现病毒和细菌，以防止针对临床病原体的假阳性点击。在测试了几个窗口大小后，我们发现使用32的段可以获得最佳性能 bp（密度是标准分类数据库的两倍）。

由于意外污染从来都不是均匀的，我们选择了预期人类含量谱的不同端进行测试（见表1). 从可疑SARS-CoV-2患者的支气管肺泡灌洗液中提取了两次RNA_Seq检测结果。活动性感染患者的下呼吸道冲洗液预计含有患者免疫细胞、脱落的患者上皮细胞、肺部微生物群和可疑的临床病原体。每次运行包含超过500万个点，约85%的真核生物含量（参见附加文件2，第5章）。表1表明对于SRR11092056STAT人类序列删除工具去除92%（45234589/5239723）的斑点，去除90%（4683473/5184909）的SRR11092057斑点。对所有可能的人类来源的32个碱基进行3%的选择 k个-mers识别了超过90-92%的随机选择的可能人类斑点，并使用MinHash进行了验证，强调了其效率。这些例子说明了一项困难的测试，我们将剩下的5–6%的斑点确定为人类（表1).

表1 STAT人类序列删除工具结果汇总

全尺寸桌子

与前面的例子不同，如表所示，预期病原体的扩增定向测序含有较少的非预期人类成分1在这两种情况下，0.1%或更少的斑点被去除，而在剩下的斑点中，0.01%或更少的被识别为人类斑点。在任何情况下，目标信号都没有任何有害损失（参见附加文件2，S5分类汇总）。

据估计，只有30到80个统计上独立的单核苷酸多态性（SNP）可以唯一地识别单个人类[18]. 平均序列错误率[19]大于估计的人类（谱内）变异[20]. 考虑到样本中非预期人类含量的覆盖率很低，即使在极端灌洗液示例中，确定为人类的点对齐的总长度极不可能显示出能够进行个体识别的经验证的、统计独立的SNP。绝大多数景点都是人类最受欢迎的景点，虽然不是前五名中唯一的生物（表中的“保护血统景点”1)与相关灵长类动物有高度显著的一致性，约20%的灵长类动物共享相同的低水平eValue公司对于所有成员（请参阅附加文件2，S1-S4）。这些可能代表不适合SNP定位的保守区域[21].

结论

STAT为我们的SRA NGS提交管道提供了一个成功的框架。有时实际的样本内容可能未知，提交的元数据通常不完整，质量较差[22,23]. 如上所述，污染可能会使进一步的分析复杂化或混淆。认识到这些局限性，促使我们的首要目标是为了用户的利益，获得能够验证和准确描述提交数据的信号。反映美国国立卫生研究院（NIH）发现、实验和可持续性科学技术研究基础设施（STRIDES）倡议[24]确保NIH资助的研究数据可查找、可访问、可互操作和可重用（FAIR）[25]，STAT的结果可通过Amazon Web Services的Athena和Google Cloud Platform的BigQuery查询服务获得。可以对两者进行搜索，以识别包含特定有机体成分的跑步记录[26]尽管元数据不足、不完整或不正确，但允许科学界有效地选择数据进行进一步分析。在大约5年的时间里，我们已经处理了27.9个以上的Peta碱基对，平均大小为1.1 Giga碱基对。平均总处理吞吐量为3 每次运行的最小值。虽然到目前为止，大约20%的分析运行被提交者请求扣留，直到准备发布，但近1080万是可公开查询的记录，现在通过STAT分析进行了大量注释。

建立STAT数据库是灵活的；它可以根据具体需求进行定制。例如，我们目前正在测试STATk个-mer数据库设计用于识别NGS中的抗微生物耐药性（AMR）。AMR_CDS FASTA文件包含NCBI病原体组整理的序列[27]用作生成32的输入英国石油公司 k个-窗口大小为1的mers；也就是说，完全非冗余k个-mer集合。为了从临床病原体筛查样本中去除人类读数，我们提出了一种结合STAT的工具对齐（_to）具有特定于人类的数据库。作为NIH最近打击SARS-CoV-2工作的一部分，我们发布了一个检测工具，其中包括对齐（_to）以及允许用户映射的病毒“dbs”k个-在冠状病毒科分类群的NGS数据中发现的mers[28]. 我们选择最大化分类覆盖率，同时最小化k个-mer计数证明是一种合理有效的平衡。在设计中使用MinHash原理，我们提供了一个其他人可能会觉得有用的框架，并提供了可自由使用的工具集合。

我们和其他人所经历的成功与随机模型的概念是一致的k个-mer发生[29]. 然而，正如布雷特维瑟等人（Breitwieser et al[30],唯一k-mer点击量是信息量最大的。在准备这份手稿的过程中，我们的同事约翰·斯普格（John Spouge）通过偶然发现启发了我们，他用非参数统计方法评估NGS运行，使用独特的点击来自信地测量分类任务^脚注2。我们刚刚开始探索STAT中的这一实施，并期待着在未来报告结果。

方法

总体设计

STAT是指用于构建的工具集合k个-mer数据库，查询这些数据库，并使用前者报告SRA提交管道的结果。下面描述的详细信息基于我们的标准管道设置。

k个-mer尺寸

STAT使用32 英国石油公司 k个-mers（即。，k个=32）用于数据库生成，并作为比较单位。大多数未对齐的SRA数据的读取介于60和150之间长度为bp，平均误差率为0.18%[19]：这样的读取可以产生许多正确的32 英国石油公司k个-mers用于可靠的鉴定。从32减少英国石油公司k个-mers到16 英国石油公司k个-mers减少了结果数据库的大小，显著降低了特异性（10⁹)每k个-mer，需要显著增加处理以解决分类分配。相比之下，使用64 英国石油公司k个-mers的选择性特别强，但数据库大小变得不切实际。最后，每个基以2位编码，32 英国石油公司k个-mers完全紧凑地适合64位整数，而17位之间的任何整数 bp和32 bp需要相同的64位整数存储，导致内存效率和性能较差。

k个-mer数据库

两种类型k个-mer数据库被构建（如下所述）。全部唯一k个-生成mer和最小散列值k个-选择表示段大小的mer。一个密集的数据库选择一个k个-每64摩尔输入序列的bp段（“treefilter”），而稀疏数据库（“treeindex”）选择一个k个-每64摩尔 bp（病毒），8000 bp（真核生物）和2000 bp（细菌和古生菌）片段，注意片段大小与基因组大小大致成比例。

k个-mer生成

k个-mer是使用源自MinHash的迭代方法选择的[三]. 为了组成STAT数据库，对于输入核苷酸序列的每个固定长度片段（“窗口”），一个重叠的列表k个-mers（有效段长加右k个-1 生成bp“wings”）。32人英国石油公司k个-mer使用每基2位编码为64位（8字节），较小的值k个-选择mer链并用于生成FNV-1散列值[6]. 这个k个-选择具有最小64位散列值的mer来表示该段（参见图。1).

分类学k个-mer数据库生成

的结构k个-mer数据库由NCBI分类数据库指导[5]特别是四个超级王国：古生菌（722种，共1330个节点）、细菌（20259种，共29835个节点），真核生物（455421种，共638336个节点）和病毒（4656种，共7583个节点）[31]].

从每个（超级王国）根开始，谱系路径遍历节点，其中终端节点是仅包含子叶的节点。输入序列（见下文）具有指定的NCBI分类Id（TaxId），并表示这些树上的叶子。这些沿袭关系在称为“父节点”的两列文件中表示，其中每个节点TaxId（第一列）报告其父节点TaxId（第二列）。

附加到特定TaxId的所有序列（参见“数据库输入序列”）都输入到k个-如前所述，使用段（“窗口”）大小生成mer数据库。对于分配了TaxId的每个序列输入集，直接输出是一个包含唯一32的字典英国石油公司k个-mers如所述导出（我们将其指定为“db”文件扩展名）。每个字典进一步转换为二进制文件，每32个进行编码英国石油公司k个-mer是一个8字节（64位）的整数，每基使用2位，后跟以4字节（32位）整数表示的TaxId。因此，每个k个-mer记录存储为一个12字节对(k个-mer，TaxId）在指定为“dbs”文件扩展名的数据库文件中，按k个-mer用于二进制搜索优化。

接下来，使用分类节点关系（位于“parents”文件中），从叶子开始递归合并每个二进制（“dbs”）文件，该文件表示一组唯一的k个-从单个TaxId派生到同级节点的mers，然后是父节点。合并每个同级叶，以便k个-特定于叶片的mers仍然作为该TaxId的诊断信息，而在相邻（兄弟物种）叶片中发现的mers则向上移动（“合并”）到公共父节点TaxId（见图。2). 此过程会产生一个合并的数据库文件（“tree_filter.dbs”），表示所有k个-mers分配了一个TaxId。

虽然很难概括，但我们注意到，当合并过程完成时，大约20%的智人32 英国石油公司k个-mer对人类来说仍然是独一无二的；也就是说，80%的人不是对该物种进行诊断，而是合并到真核生物树中。

数据库生成可以使用构建索引*工具（请参阅github），每个工具都接受窗口大小和k个-mer大小。合并过程使用合并db.

数据库输入序列

我们使用NCBI BLAST®“refseq_genomes”数据库[32]补充了从BLAST®“nt/nr”数据库中提取的病毒序列，作为稀疏（“索引”）和密集（“过滤器”）分类鉴定的输入源k个-mer数据库[33]. 病毒记录从“nt/nr”中提取，只加载分配给TaxId的序列，TaxId世系根为超级王国“病毒”。

查询分类k个-mer数据库（STAT）

要查询k个-mer数据库使用输入的SRA登录或FASTA序列生成唯一的查询集32 英国石油公司k个-mers读取为64位整数以查找相同值k个-来自指定的k个-mer数据库使用工具对齐（_to）。近似结果是每个特定分类的计数k个-mer hit（参见“结果，”图。三). 通过SRA登录后，使用NCBI NGS库支持构建的STAT将检索查询序列和对齐（_to）选项-仅未对齐可用于将分析限制为SRA对象中发现的未对齐读取。

数据库筛选

我们确定需要删除低复杂性k个-由>组成的单体 50%均聚物或二核苷酸重复序列（例如，AAAAAA或ACACACACA）。这是通过使用过滤器db。我们还研究了“除尘”输入序列[34]并发现它是对过滤的补充，尽管目前我们的管道中没有使用它。

绩效衡量

如Wood等人所述，收集了STAT性能指标（参见方法, 14). A“稠密”k个-mer数据库是使用排除的分类群序列创建的[14]. 简单地说，我们使用了Mason 2[35]生成500000个模拟Illumina 100 bp对每个排除的菌株TaxId进行配对读取，使用模拟读取的ram-disk存储收集cpu和内存，使用16个线程（16 Intel®Xeon®2.8 GHz CPU 64 GB RAM）。使用对齐（_to）针对“tree_filter.dbss”（请参见“结果“），包括所有TaxId的列表，不包括测试的50个菌株（总共130769个TaxId，请参阅附加文件三，S4）使用命令对齐（_to）-dbss 20200518_树过滤器.dbs-tax_list出租车ID文件-输出精度_X.命中精度_X.fasta.使用“真正”（TP）、“真”进行测量计算

阴性“（TN）、”假阳性“（FP）、“假阴性”（FN）和”模糊阳性“（VP）定义如下：“敏感性”=TP/（TP+VP+FN+FP）；“正预测值（PPV）”=TP/TP+FP；“召回”=TP/TP+FN；“F1”=2×[（PPV×召回）/（PPV+召回）]（参见中的“应变排除实验准确性评估”方法, 13). Kraken 2的数据来自Wood等人[14]并在图中复制。5为了方便起见。

SARS-CoV-2污染识别和验证

通过在谷歌云平台的BigQuery中搜索STAT结果来识别包含SARS-CoV-2的提交[26]使用简单的select语句（例如。，从中选择*`nih-战略风险评估-datastore.sra_tax_analysis_tool.tax_analysis `其中name='严重急性呼吸综合征冠状病毒2').

那些通过元数据识别单一细菌源，表明受SARS-CoV-2污染的患者需要接受两种进一步的验证方法。使用当前的SARS-CoV-2检测工具（28，DockerHub标记1.1.2021-01-25，请参阅附加文件1). 使用STAT对照由32个碱基组成的严重急性呼吸系统综合征冠状病毒2型特异性数据库（“dbs”）进一步检查了在31份记录中观察到的低水平污染（1个点，1个或0个解析命中）k个-Wahba等人[36]. 使用这些18582 SARS-CoV-2特定k个-mers作为查询从未找到匹配项k个-mer运行完整的treefilter.dbs时（未显示数据）。

人类污染识别和清除

特殊用途k个-mer数据库使用限制为人类（TaxId 9606）的NCBI BLAST®“refseq_genomes”，通过32的“窗口”段进行输入 bp并按前面所述进行过滤。任何k个-在合并的细菌和病毒王国数据库中发现的mers也被删除。当前数据库包含80143408 k个-mers，容量为612mb。这个STAT人类序列删除工具(“战略风险评估-人类-洗涤器”）作为提交前的最后一步，以“fastq文件”作为输入，并输出“fastq.clean文件”，其中删除了所有识别为潜在人类源的读取[37].

“结果”和表中所示1与STAT人类序列删除工具码头集装箱(37,DockerHub标签1.0.2021-03-11). 对于每个文件，生成的“{file}.fastq.clean”被转换为一个fasta文件，然后接受NCBI序列比对分析2.10.0+使用（大爆炸）参数[-最大目标序列5, -安勤0.00001, -搁浅+]针对“refseq_genomes”BLAST®数据库[38]. 前五大热门eValue公司)对于每个包含人类最佳命中的点（所有命中eValue公司＜1e-10）可以在附加文件中找到2.

数据和材料的可用性

根据《美国版权法》的条款，该软件是“美国政府作品”。它是作者作为美国政府雇员的官方职责的一部分，因此不受版权保护。该软件可供公众免费使用。国家医学图书馆和美国政府没有对其使用或复制施加任何限制。

可下载用于再现精度测试结果的Zenodo快照[39].

◦https://github.com/ncbi/ngs-tools/tree/tax/tools/tax/src[40]

◦https://hub.docker.com/r/ncbi/sra-human洗涤器[37]

◦https://hub.docker.com/r/ncbi/SARS-CoV-2-detection-tool[41]

笔记

我们使用单词“spot”来表示未分裂的成对生物读取或单个未配对生物读取。
John Spouge，统计计算生物学小组，国家医学图书馆，国家卫生研究院，个人通信。

工具书类

Shumway M，Cochrane G，Sugawara H。归档下一代测序数据。核酸研究2010；38（数据库问题）：D870–1可从以下网站获得：https://doi.org/10.1093/nar/gkp1078.
第条中国科学院谷歌学者
Kodama Y、Shumway M、Leinonen R，国际核苷酸序列数据库合作。序列读取档案：测序数据的爆炸性增长。《核酸研究》2012；40（数据库问题）:D54–6可从以下网站获得：https://doi.org/10.1093/nar/gkr854.
第条中国科学院谷歌学者
Broder AZ。识别和过滤接近重复的文档。在：COM’00第11届组合模式匹配年度研讨会论文集，第1848卷。伦敦：斯普林格；2000年，第1-10页。可从以下位置获得：https://doi.org/10.1007/3-540-45123-4_1.
第章谷歌学者
Ondov BD，Trengen TJ，Melsted P，et al.Mash:使用MinHash快速基因组和元基因组距离估计。基因组生物学。2016;17:–132可从以下网站获得：https://doi.org/10.1186/s13059-016-0997-x.
NCBI分类浏览器[互联网]。分类[Internet]。可从以下位置获得：https://www.ncbi.nlm.nih.gov/taxonomy网站/.
Eastlake D，Hansen T，Fowler G，Vo K，Noll L.FNV非加密哈希算法[Internet]。2019年。有效期至：https://datatracker.ietf.org/doc/html/draft-ecastrake-fnv-17.html.
Brister JR、Ako-Adjei D、Bao Y、Blinkova O.NCBI病毒基因组资源。核酸研究2015；43（数据库问题）:D571–7可从以下网站获得：https://doi.org/10.1093/nar/gku1207.
第条中国科学院谷歌学者
Simmonds P、Adams MJ、BenkőM、Breitbart M、Brister JR、Carstens EB等。共识声明：宏基因组时代的病毒分类。《自然微生物评论》。2017;15（3）：161–8可从以下网站获得：https://doi.org/10.1038/nrmicro.2016.177.
第条中国科学院谷歌学者
病毒学的巨大变化。《自然微生物评论》。2017;15(3):129. 可从以下位置获得：https://doi.org/10.1038/nrmicro.2017.13.
Breitwieser FP，Lu J，Salzberg SL.宏基因组分类和组装方法和数据库综述。简要生物信息。2019;20:1125–36可从以下网站获得：https://doi.org/10.1093/bb/bbx120.
第条中国科学院谷歌学者
Ondov BD、Starrett GJ、Sappington A、Kostic A、Koren S、Buck CB等。Mash Screen：高通量基因组发现序列包含估计。基因组生物学。2019;20（1）：232可从以下网站获得：https://doi.org/10.1186/s13059-019-1841-x网址.
第条谷歌学者
Pierce NT、Irber L、Reiter T、Brooks P、Brown CT。与sourcemash的大尺度层序比较。F1000研究。2019;8:1006可从以下网址获得：https://doi.org/10.12688/f1000research.19675.1.
第条中国科学院谷歌学者
Wood DE，Salzberg SL.Kraken：使用精确比对进行超快速宏基因组序列分类。基因组生物学。2014;15:R46可从以下渠道获得：https://doi.org/10.1186/gb-2014-15-3-r46.
第条谷歌学者
Wood DE，Lu J，Langmead B.用Kraken 2改进了宏基因组分析。基因组生物学。2019;20（1）：257可从以下网站获得：https://doi.org/10.1186/s13059-019-1891-0.
第条中国科学院谷歌学者
Al-Qahtani AA。严重急性呼吸系统综合征冠状病毒2型（严重急性呼吸系统综合征冠状病毒2型）：出现、历史、基本和临床方面。沙特生物科学杂志。2020;27（10）：2531–8可从以下网站获得：https://doi.org/10.1016/j.sjbs.2020.04.033.
第条中国科学院谷歌学者
Lillie PJ、Samson A、Li A、Adams K、Capstick R、Barlow GD等。新型冠状病毒病（Covid-19）：英国首两名人际传播患者。J感染。2020;80（5）：578–606可从以下网站获得：https://doi.org/10.1016/j.jinf.2020.02.020.
第条谷歌学者
Shabani M，Marelli L.基因组数据的可重新识别性和GDPR：根据《欧盟通用数据保护条例》评估基因组数据的可重新识别性。2019年EMBO报告；20（6）：e4831可从以下网址获得：https://doi.org/10.15252/embr.201948316.
第条谷歌学者
Lin Z、Owen AB、Altman RB。遗传学。基因组研究和人类主体隐私。科学。2004;305（5681）：183网址：https://doi.org/10.1126/science.1095019.
第条中国科学院谷歌学者
Pfeiffer F、Gröber C、Blank M、Händler K、Beyer M、Schultze JL等。下一代测序中短样本错误率和原因的系统评估。2018年科学报告；8（1）：10950可从以下网址获得：https://doi.org/10.1038/s41598-018-29325-6.
第条谷歌学者
Chakravarti A.从多样性和种族的角度看待人类变异。冷泉Harb Perspect生物。2015;7（9）：a023358可从以下网站获得：https://doi.org/10.1101/cshperspect.a023358.
第条谷歌学者
JC城堡。SNP发生在基因组序列保存较少的地区。公共科学图书馆一号。2011;6（6）：e20660。https://doi.org/10.1371/journal.pone.0020660.
第条中国科学院公共医学公共医学中心谷歌学者
Bernstein MN，Doan A，Dewey CN.MetaSRA：序列读取档案的标准化人类样本特定元数据。生物信息学。2017;33（18）：2914–23可从以下网站获得：https://doi.org/10.1093/bioinformatics/btx334.
第条中国科学院谷歌学者
Bernstein MN、Gladstein A、Latt KZ、Clough E、Busby B、Dillman A.Jupyter基于笔记本的工具，用于从序列读取档案构建结构化数据集。F1000研究。2020;9:376网址：https://doi.org/10.12688/f1000research.23180.2.
第条中国科学院谷歌学者
NIH数据科学战略办公室[互联网]。迈步。可从以下位置获得：https://datascience.nih.gov/strides网站.
Wilkinson MD、Dumoniter M、Aalbersberg IJ、Appleton G、Axton M、Baak A等。科学数据管理和管理的公平指导原则。科学数据。2016;3:160018网址：https://doi.org/10.1038/数据.2016.18.
第条谷歌学者
NCBI序列读取档案（SRA）[互联网]。云中的SRA。可从以下位置获得：https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud-based-examples网站/.
NCBI国家抗生素耐药生物数据库（NDARO）。AMR CD快速播放。可从以下位置获得：https://ftp.ncbi.nlm.nih.gov/cathy/Antimicrobial_resistance/AMRInderPlus/data/latest/AMR_CDS.
新冠肺炎。序列读取档案（SRA）[互联网]。SRA检测工具。可从以下位置获得：https://www.ncbi.nlm.nih.gov/sra/docs/sra-detection-tool.
Fofanov Y、Luo Y、Katili C、Wang J、Belosludtsev Y、Powdrill T等。n-mers在不同基因组中的出现有多独立？生物信息学。2004;20（15）：2421–8网址：https://doi.org/10.1093/bioinformatics/bth266.
第条中国科学院谷歌学者
Breitwieser FP、Baker DN、Salzberg SL、KrakenUniq：使用独特的k-mer计数进行自信快速的宏基因组分类。基因组生物学。2018;19:198网址：https://doi.org/10.1186/s13059-018-1568-0.
第条中国科学院谷歌学者
NCBI分类浏览器。分类统计[Internet]。分类节点（所有日期）。可从以下位置获得：https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomychome.html/index.cgi？chapter=statistics&uncultured=hide&unspecified=hide.
Pruitt KD、Tatusova T、Brown GR、Maglott DR.NCBI参考序列（RefSeq）：现状、新特征和基因组注释政策。《核酸研究》2012；40（数据库问题）：D130–5可从以下网站获得：https://doi.org/10.1093/nar/gkr1079.
第条中国科学院谷歌学者
NCBI FTP[互联网]。BLAST®数据库。可从以下位置获得：https://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html.
Morgulis A，Gertz EM，Schäffer AA，Agarwala R.一种快速对称的DUST实现，用于屏蔽低复杂性DNA序列。计算机生物学杂志。2006 ;13（5）：1028-40。可从以下位置获得：https://doi.org/10.1089/cmb.2006.13.1028
Holtgrewe M.Mason-第二代测序数据的读取模拟器。2010年技术报告；可从以下位置获得：https://doi.org/10.17169/refubium-22374.
Wahba L、Jain N、Fire AZ、Shoura MJ、Artiles KL、McCoy MJ等。广泛的Meta-Meta基因组搜索确定穿山甲肺病毒组中的SARS-CoV-2同源序列。m球体。2020;5（3）：e0160–20可从以下位置购买：https://doi.org/10.1128/mSphere.00160-20.
第条中国科学院谷歌学者
Docker Hub[互联网]。美国国立生物技术信息中心战略风险评估-人类-洗涤器Docker图像。可从以下位置获得：https://hub.docker.com/r/ncbi/sra-human洗涤器.
Morgulis A、Coulouris G、Raytselis Y、Madden TL、Agarwala R、Schäffer AA。用于生产MegaBLAST搜索的数据库索引。生物信息学。2008;24（16）：1757–64可从以下网站获得：https://doi.org/10.1093/bioinformatics/btn322.
第条中国科学院谷歌学者
Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT：一种快速、可扩展、基于MinHash的k-mer工具，用于评估序列读取存档下一代序列提交。泽诺。https://doi.org/10.5281/zenodo.5260009.
Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT：一种快速、可扩展、基于MinHash的k-mer工具，用于评估序列读取存档下一代序列提交。github。https://github.com/ncbi/ngs-tools/tree/tax/tools/tax/src.
Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT：一种快速、可扩展、基于MinHash的k-mer工具，用于评估序列读取存档下一代序列提交。码头工人。https://hub.docker.com/r/ncbi/SARS-CoV-2-detection-tool.

下载参考资料

致谢

Vadim Zalunin、Alex Efremov和Andrey Kochergin负责建设、维护和改进STAT管道。Ryan Connor总是鼓励谈话。Christiam Camacho感谢NCBI BLAST®的慷慨支持。大卫·利普曼（David Lipman）的想法，以及（总是）激烈的讨论。本杰明·兰米德（Benjamin Langmead）负责提供应变排除快速文件。苏珊·J·罗伯茨（Susan J.Roberts）和莉迪娅·弗利什曼（Lydia Fleischmann）为我们提供了不可或缺的编辑协助。

回顾历史

审查历史记录作为附加文件提供4.

同行评审信息

安德鲁·科斯格罗夫（Andrew Cosgrove）是这篇文章的主编，与编辑团队的其他成员合作管理其编辑过程和同行评审。

基金

这项工作得到了国立卫生研究院国家医学图书馆校内研究项目的支持。国家卫生研究院（NIH）提供的开放获取资金。

作者信息

作者和附属机构

美国马里兰州贝塞斯达国立卫生研究院国家医学图书馆国家生物技术信息中心，邮编：20894
Kenneth S.Katz、Oleg Shutov、Richard Lapoint、Michael Kimelman、J。罗德尼·布里斯特和克里斯托弗·奥沙利文

作者

肯尼思·卡茨
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
奥列格·舒托夫
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
理查德·拉彭特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
迈克尔·基梅尔曼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
J.罗德尼·布里斯特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯托弗·奥沙利文
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

KSK准备了包括数字在内的手稿，执行了性能和准确性分析，并生成了所有补充数据。OS编写了大多数C++/python STAT工具。JRB和CO参与了设计和实现的讨论。RL测试了早期版本的工具。作者阅读并批准了最终稿。

通讯作者

通信至肯尼思·卡茨.

道德声明

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

不适用。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

补充信息

附加文件1。

Microsoft Excel：第一张表格（S1）包含使用SARS-CoV-2检测工具的输入结果，如方法; 第二张（S2）包含来自S1的那些材料，这些材料使用STAT进行验证，如方法.S1 SARS-CoV公司-2污染。S2 SARS-CoV公司-2验证。

附加文件2。

Microsoft Excel：前四张表（S1-S4）包含每个登录点的前五个NCBI BLAST®点击，其中至少有一个是人为点击。最后一页包含四份材料在人类污染去除工具处理前后的STAT分类数据摘要，如方法.S1 SRR11092056爆破®结果。S2 SRR11092057爆破®结果。S3 SRR13402847爆炸®结果。S4 SRR13444106爆炸®结果。S5 STAT分类切片。

附加文件3。

Microsoft Excel：第一页（S1）包含STAT精度测试原始数据；接下来的两张纸（S2、S3）包含两个测试中每一个测试的病毒假阳性解析分类群；最后一页（S4）包含精度测试中使用的TaxId。

附加文件4。

回顾历史。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的，该许可证允许以任何媒体或格式使用、共享、改编、分发和复制，只要您对原始作者和来源给予适当的信任，提供指向Creative Commons许可证的链接，并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中，除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料，并且您的预期用途不被法律法规允许或超出了允许的用途，则您需要直接获得版权所有者的许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/by/4.0/.知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非数据的信贷额度中另有规定。

转载和许可

关于这篇文章

引用本文

卡茨，K.S.，舒托夫，O.，拉波因特，R。等。STAT：基于MinHash的快速、可扩展的k个-mer工具用于评估Sequence Read Archive下一代序列提交。基因组生物学 22, 270 (2021). https://doi.org/10.1186/s13059-021-02490-0

下载引文

收到:2021年4月26日
认可的:2021年9月8日
出版:2021年9月20日
内政部:https://doi.org/10.1186/s13059-021-02490-0

STAT：基于MinHash的快速、可扩展的k个-mer工具用于评估Sequence Read Archive下一代序列提交

摘要

背景

结果

大流行期间的污染

识别并删除潜在的个人识别信息

结论

方法

总体设计

k个-mer尺寸

k个-mer数据库

k个-mer生成

分类学k个-mer数据库生成

数据库输入序列

查询分类k个-mer数据库（STAT）

数据库筛选

绩效衡量

SARS-CoV-2污染识别和验证

人类污染识别和清除

数据和材料的可用性

笔记

工具书类

致谢

回顾历史

同行评审信息

基金

作者信息

作者和附属机构

贡献

通讯作者

道德声明

道德批准和参与同意

出版同意书

竞争性利益

其他信息

出版商备注

补充信息

附加文件1。

附加文件2。

附加文件3。

附加文件4。

权利和权限

关于这篇文章

引用本文

分享这篇文章

关键词

基因组生物学

联系我们