从序列读取档案（SRA）提交中清除人类序列污染-NCBI Insights

您是否使用人类衍生序列数据？您是否经常需要确定您的数据是否没有人类序列，因此是否适合公开发布？我们鼓励提交者在提交给SRA之前，从数据文件中筛选并删除受污染的人为读取。为了支持调查人员的这项工作，我们提供了一种工具，可以从您提交的SRA中去除人类序列污染！

人工读取清除工具（HRRT；也称为人工洗涤器）可在github和DockerHub接口HRRT基于SRA分类分析工具（STAT）将以fastq文件作为输入，并生成fastq.clean文件作为输出，在该文件中，所有识别为潜在人类源的读取都用“N”屏蔽。

您还可以要求NCBI将HRRT应用于链接到您提交的所有SRA数据生物项目（更多信息见下文）。如有要求，之前提交给BioProject的所有数据都将排队等待清理，而任何未来提交给BioSProject的数据都将在加载时自动清理。

当提交的内容可能被未经同意公开展示的人类阅读内容所污染时，此工具尤其有用。临床病原体和人类宏基因组样本是常见的提交类型，可从应用人类洗涤器工具中获益。

有关基因组数据共享政策的更多信息，请咨询机构审查委员会和美国国立卫生研究院基因组数据共享政策提交方有责任确保他们对公开发布人类序列数据有适当的同意，而无需访问控制。

如果您希望将HRRT应用于您提交的SRA，请发送电子邮件至SRA服务台并请求为您的生物项目激活HRRT。请在请求中包含您的生物项目加入或提交ID，以避免延误。至少在预期发布日期前一周提交序列数据，以确保有足够的时间进行筛选。

DockerHub和GitHub存储库包含一个最低限度的测试，确保所有组件都能正常工作。此外，核心洗涤器二进制(对齐（_to）)受持续集成（CI）方案的约束，该方案使用自动测试来进行任何代码更改。

欲了解更多信息，请阅读我们最近的STAT出版物.

如果您有问题或想提供反馈，请联系SRA服务台.

关于“从序列读取档案（SRA）提交文件中清除人类序列污染”

cwarden45号机组 说：

2023年2月6日下午3:59

你好，

当我存放一些Amplicon-Seq数据（带有非目标人工读取）时，我发现可以通过首先运行cutadapt来最大限度地清理数据。

在这种情况下，我相信我也保存了基于人类参考与人类+病毒联合比对不一致的数据。

虽然我通常希望保存原始数据，但这减少了要保存的内容（至少在几年前）。因此，如果人工读数偏离目标，那么也许值得考虑HRRT上游适配器修剪的影响（GitHub代码可以帮助在上传到SRA之前在本地测试它）？

最美好的祝福，
查尔斯

加载。。。

答复
1. NCBI员工 说：
  
  2023年2月7日下午5:56
  
  谢谢你的建议！
  
  加载。。。
  
  答复