方法 -
开放式访问 出版:
STAT:基于MinHash的快速、可扩展的 k个 -mer工具用于评估Sequence Read Archive下一代序列提交
摘要
背景
结果
大流行期间的污染
识别并删除潜在的个人识别信息
结论
方法
总体设计
k个 -mer尺寸
k个 -mer数据库
k个 -mer生成
分类学 k个 -mer数据库生成
数据库输入序列
查询分类 k个 -mer数据库(STAT)
数据库筛选
绩效衡量
SARS-CoV-2污染识别和验证
人类污染识别和清除
数据和材料的可用性
笔记
我们使用单词“spot”来表示未分裂的成对生物读取或单个未配对生物读取。 John Spouge,统计计算生物学小组,国家医学图书馆,国家卫生研究院,个人通信。
工具书类
Shumway M,Cochrane G,Sugawara H。归档下一代测序数据。 核酸研究2010; 38(数据库问题):D870–1可从以下网站获得: https://doi.org/10.1093/nar/gkp1078 . Kodama Y、Shumway M、Leinonen R,国际核苷酸序列数据库合作。 序列读取档案:测序数据的爆炸性增长。 《核酸研究》2012; 40(数据库问题):D54–6可从以下网站获得: https://doi.org/10.1093/nar/gkr854 . Broder AZ。识别和过滤接近重复的文档。 在:COM’00第11届组合模式匹配年度研讨会论文集,第1848卷。 伦敦:斯普林格; 2000年,第1-10页。 可从以下位置获得: https://doi.org/10.1007/3-540-45123-4_1 . Ondov BD,Trengen TJ,Melsted P,et al.Mash:使用MinHash快速基因组和元基因组距离估计。 基因组生物学。 2016; 17:–132可从以下网站获得: https://doi.org/10.1186/s13059-016-0997-x . NCBI分类浏览器[互联网]。 分类[Internet]。 可从以下位置获得: https://www.ncbi.nlm.nih.gov/taxonomy网站/ . Eastlake D,Hansen T,Fowler G,Vo K,Noll L.FNV非加密哈希算法[Internet]。 2019年。有效期至: https://datatracker.ietf.org/doc/html/draft-ecastrake-fnv-17.html . Brister JR、Ako-Adjei D、Bao Y、Blinkova O.NCBI病毒基因组资源。 核酸研究2015; 43(数据库问题):D571–7可从以下网站获得: https://doi.org/10.1093/nar/gku1207 . Simmonds P、Adams MJ、BenkőM、Breitbart M、Brister JR、Carstens EB等。共识声明:宏基因组时代的病毒分类。 《自然微生物评论》。 2017; 15(3):161–8可从以下网站获得: https://doi.org/10.1038/nrmicro.2016.177 . 病毒学的巨大变化。 《自然微生物评论》。 2017; 15(3):129. 可从以下位置获得: https://doi.org/10.1038/nrmicro.2017.13 . Breitwieser FP,Lu J,Salzberg SL.宏基因组分类和组装方法和数据库综述。 简要生物信息。 2019; 20:1125–36可从以下网站获得: https://doi.org/10.1093/bb/bbx120 . Ondov BD、Starrett GJ、Sappington A、Kostic A、Koren S、Buck CB等。Mash Screen:高通量基因组发现序列包含估计。 基因组生物学。 2019; 20(1):232可从以下网站获得: https://doi.org/10.1186/s13059-019-1841-x网址 . Pierce NT、Irber L、Reiter T、Brooks P、Brown CT。与sourcemash的大尺度层序比较。 F1000研究。 2019; 8:1006可从以下网址获得: https://doi.org/10.12688/f1000research.19675.1 . Wood DE,Salzberg SL.Kraken:使用精确比对进行超快速宏基因组序列分类。 基因组生物学。 2014; 15:R46可从以下渠道获得: https://doi.org/10.1186/gb-2014-15-3-r46 . Wood DE,Lu J,Langmead B.用Kraken 2改进了宏基因组分析。 基因组生物学。 2019; 20(1):257可从以下网站获得: https://doi.org/10.1186/s13059-019-1891-0 . Al-Qahtani AA。严重急性呼吸系统综合征冠状病毒2型(严重急性呼吸系统综合征冠状病毒2型):出现、历史、基本和临床方面。 沙特生物科学杂志。 2020; 27(10):2531–8可从以下网站获得: https://doi.org/10.1016/j.sjbs.2020.04.033 . Lillie PJ、Samson A、Li A、Adams K、Capstick R、Barlow GD等。新型冠状病毒病(Covid-19):英国首两名人际传播患者。 J感染。 2020; 80(5):578–606可从以下网站获得: https://doi.org/10.1016/j.jinf.2020.02.020 . Shabani M,Marelli L.基因组数据的可重新识别性和GDPR:根据《欧盟通用数据保护条例》评估基因组数据的可重新识别性。 2019年EMBO报告; 20(6):e4831可从以下网址获得: https://doi.org/10.15252/embr.201948316 . Lin Z、Owen AB、Altman RB。 遗传学。 基因组研究和人类主体隐私。 科学。 2004; 305(5681):183网址: https://doi.org/10.1126/science.1095019 . Pfeiffer F、Gröber C、Blank M、Händler K、Beyer M、Schultze JL等。下一代测序中短样本错误率和原因的系统评估。 2018年科学报告; 8(1):10950可从以下网址获得: https://doi.org/10.1038/s41598-018-29325-6 . Chakravarti A.从多样性和种族的角度看待人类变异。 冷泉Harb Perspect生物。 2015; 7(9):a023358可从以下网站获得: https://doi.org/10.1101/cshperspect.a023358 . JC城堡。 SNP发生在基因组序列保存较少的地区。 公共科学图书馆一号。 2011; 6(6):e20660。 https://doi.org/10.1371/journal.pone.0020660 . Bernstein MN,Doan A,Dewey CN.MetaSRA:序列读取档案的标准化人类样本特定元数据。 生物信息学。 2017; 33(18):2914–23可从以下网站获得: https://doi.org/10.1093/bioinformatics/btx334 . Bernstein MN、Gladstein A、Latt KZ、Clough E、Busby B、Dillman A.Jupyter基于笔记本的工具,用于从序列读取档案构建结构化数据集。 F1000研究。 2020; 9:376网址: https://doi.org/10.12688/f1000research.23180.2 . NIH数据科学战略办公室[互联网]。 迈步。 可从以下位置获得: https://datascience.nih.gov/strides网站 . Wilkinson MD、Dumoniter M、Aalbersberg IJ、Appleton G、Axton M、Baak A等。科学数据管理和管理的公平指导原则。 科学数据。 2016; 3:160018网址: https://doi.org/10.1038/数据.2016.18 . NCBI序列读取档案(SRA)[互联网]。 云中的SRA。 可从以下位置获得: https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud-based-examples网站/ . NCBI国家抗生素耐药生物数据库(NDARO)。 AMR CD快速播放。 可从以下位置获得: https://ftp.ncbi.nlm.nih.gov/cathy/Antimicrobial_resistance/AMRInderPlus/data/latest/AMR_CDS . 新冠肺炎。 序列读取档案(SRA)[互联网]。 SRA检测工具。 可从以下位置获得: https://www.ncbi.nlm.nih.gov/sra/docs/sra-detection-tool . Fofanov Y、Luo Y、Katili C、Wang J、Belosludtsev Y、Powdrill T等。n-mers在不同基因组中的出现有多独立? 生物信息学。 2004; 20(15):2421–8网址: https://doi.org/10.1093/bioinformatics/bth266 . Breitwieser FP、Baker DN、Salzberg SL、KrakenUniq:使用独特的k-mer计数进行自信快速的宏基因组分类。 基因组生物学。 2018; 19:198网址: https://doi.org/10.1186/s13059-018-1568-0 . NCBI分类浏览器。 分类统计[Internet]。 分类节点(所有日期)。 可从以下位置获得: https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomychome.html/index.cgi?chapter=statistics&uncultured=hide&unspecified=hide . Pruitt KD、Tatusova T、Brown GR、Maglott DR.NCBI参考序列(RefSeq):现状、新特征和基因组注释政策。 《核酸研究》2012; 40(数据库问题):D130–5可从以下网站获得: https://doi.org/10.1093/nar/gkr1079 . NCBI FTP[互联网]。 BLAST®数据库。 可从以下位置获得: https://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html . Morgulis A,Gertz EM,Schäffer AA,Agarwala R.一种快速对称的DUST实现,用于屏蔽低复杂性DNA序列。 计算机生物学杂志。 2006 ; 13(5):1028-40。 可从以下位置获得: https://doi.org/10.1089/cmb.2006.13.1028 Holtgrewe M.Mason-第二代测序数据的读取模拟器。 2010年技术报告; 可从以下位置获得: https://doi.org/10.17169/refubium-22374 . Wahba L、Jain N、Fire AZ、Shoura MJ、Artiles KL、McCoy MJ等。广泛的Meta-Meta基因组搜索确定穿山甲肺病毒组中的SARS-CoV-2同源序列。 m球体。 2020; 5(3):e0160–20可从以下位置购买: https://doi.org/10.1128/mSphere.00160-20 . Docker Hub[互联网]。 美国国立生物技术信息中心 战略风险评估 - 人类 - 洗涤器 Docker图像。 可从以下位置获得: https://hub.docker.com/r/ncbi/sra-human洗涤器 . Morgulis A、Coulouris G、Raytselis Y、Madden TL、Agarwala R、Schäffer AA。用于生产MegaBLAST搜索的数据库索引。 生物信息学。 2008; 24(16):1757–64可从以下网站获得: https://doi.org/10.1093/bioinformatics/btn322 . Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT:一种快速、可扩展、基于MinHash的k-mer工具,用于评估序列读取存档下一代序列提交。 泽诺。 https://doi.org/10.5281/zenodo.5260009 . Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT:一种快速、可扩展、基于MinHash的k-mer工具,用于评估序列读取存档下一代序列提交。 github。 https://github.com/ncbi/ngs-tools/tree/tax/tools/tax/src . Katz KS、Shutov O、Lapoint R、Kimelman M、Brister JR、O'Sullivan C.STAT:一种快速、可扩展、基于MinHash的k-mer工具,用于评估序列读取存档下一代序列提交。 码头工人。 https://hub.docker.com/r/ncbi/SARS-CoV-2-detection-tool .