<trans data-src="The P10K database: a data portal for the protist 10 000 genomes project">P10K数据库：原生生物10000基因组项目的数据门户

介绍

原生动物是一个高度多样化的单细胞真核生物群，包括原生动物王国，1969年由罗伯特·惠塔克提出，是生命的五个王国之一(1). 自17世纪以来，微生物学家一直在描述和编目这些不同的真核生物(2). 原生生物在维持地球生物圈的生态平衡、环境健康和能量运输方面发挥着至关重要的作用，特别是在海洋和淡水栖息地等水生生态系统中，它们是细胞学、遗传学、遗传学、生物学、遗传学、生物医学和生物医学研究的重要模式，发育生物学和进化生物学。

近年来，人们在不同的生命王国，如植物，进行了大量的基因组测序工作(三)，真菌(4)不同分支的动物(5–8)和原核生物(9,10). 因此，已经为这些王国建立了基因组数据库。然而，已测序的真核生物基因组在不同王国之间的分布明显不均衡，在原生动物中基因组和转录体严重匮乏。目前，NCBI分类系统(https://www.ncbi.nlm.nih.gov/taxonomy网站) (11)记录了超过6万种记录在案的原生生物。原生生物基因组学领域的研究人员在研究各种原生生物群体方面做出了显著贡献，并建立了各种资源来支持他们的研究。已经开发了30多个原生生物基因组数据库，其中包括纤毛虫基因组数据库TGD(四膜虫基因组数据库，网址：https://tet.ciliate.org) (12)，藻类基因组数据库FWAlgaeDB（淡水藻类数据库，网址：http://www.fwalagedb.com)，寄生原生动物基因组数据库VEuPathDB（真核病原体、载体和宿主信息资源，https://veupathdb.org) (13)和MMETSP（海洋微生物真核生物转录组测序项目，http://marinemicro真核生物.org) (14). 尽管做出了这些努力，但原生生物基因组和转录组数据集的可用性仍然相对有限，截至2022年，可用数据集不超过2000个。这表明许多原生生物基因组尚未被探索，尽管它们在生物学和生态学上具有重要意义。此外，跨越数十个门的原生生物的分类多样性，在整合额外基因组方面构成了一个巨大的挑战。因此，显然需要一个专门为原生生物量身定制的专用基因组数据存储库。

为了解决这一差距，2019年启动了Protist 10000基因组项目（P10K）(15). 其主要目标是对10000多个原生生物基因组进行测序，特别强调使用单细胞基因组/转录组测序技术来克服与培养原生生物相关的挑战。为了促进实现这一目标并能够有效使用生成的数据，P10K数据库(https://ngdc.cncb.ac.cn/p10k/)作为一个全面的数据门户网站建立。P10K数据库作为一个中央存储库，存储由P10K计划生成的测序数据、组装基因组序列和注释。其主要目的是提供高质量原生生物基因组的精心收集，并提供用户友好的功能，实现轻松访问、直观浏览和在线分析。

材料和方法

样品采集和排序

在中国的各个地区，如青海高原地区、青海湖地区以及中部和东部地区，不断进行大规模采样，以收集各种各样的原生生物标本。这些样品采集自各种栖息地，包括湖泊、河流、湿地、海洋和温泉。根据形态特征，从水样和苔藓样品中分离出原生细胞。共获得1101份原生生物样本。其中，1078个样本是单细胞分离物，因为难以在实验室培养或富集。有关这些样本的详细元信息可以通过P10K数据库的样本页面访问。此外，还对可在实验室成功培养或富集的原生动物进行了DNA/RNA提取测序。

利用MGISEQ-2000测序平台对单个细胞进行了多重置换扩增（MDA）以进行基因组测序。Smart-seq2用于使用Illumina NovaSeq 6000和Illuminia HiSeq 4000平台从单个细胞生成cDNA用于转录组测序。对于培养样本，使用Illumina、Oxford Nanopore或PacBio SequelⅡ等平台提取大块DNA/RNA进行测序。

补充方法中包含了有关样品采集和测序的其他详细信息。

使用标准化管道进行数据处理和注释

为了分析单细胞基因组/转录组数据，开发了一条标准化管道，以简化为原生生物量身定制的组装、净化和注释过程(补充图S1). 概述的程序如下，更多细节可在补充方法中找到。

Fsatp公司(16)用于筛选出低质量读取并删除适配器以用于下一代测序读取。用于基因组/转录组组装，MEGAHIT(17)用于单细胞基因组组装，Trinity(18)用于单细胞转录组组装(19)和卡努(20)分别在短读和长读中组装批量基因组测序。

iGDP(https://github.com/GWang2022/iGDP) (21)用于净化纤毛虫基因组，而MMseqs2(22)用于搜索NR（NCBI非冗余蛋白质序列数据库），以清除非纤毛虫基因组和所有转录组的细菌、古细菌和病毒污染。此外，短于1Kb的contigs被从基因组组合中移除。

对于物种注释，nhmmer(23)用于将序列与rDNA hmm剖面对齐，以提取SSU序列。然后，使用NT（NCBI核苷酸序列数据库）搜索提取的SSU序列(24)、SILVA(25)和PR2(26)由BLASTN提供(27,28)以确定最佳分类注释。对于基因预测，使用codetta估计遗传密码（密码子表）(29)和面部(30). 我们管道中基因组的基因预测过程使用了基于同源性的两种方法（GenomeThreader(31)和AAT(32))和从头预测方法（PASA(33)，奥古斯都(34)、闪光HMM(35)和SNAP(36)). 最后，使用EVidenceModeler创建了一组完整的基因模型(37)通过合并所有预测的基因模型和RNA-seq转录本（如果可用）。对于转录组集合，使用getorf预测ORF(http://浮雕.bioinformatics.nl/cgi-bin/浮雕/help/getorf).

使用InterProScan注释基因功能(38). 使用Diamond识别正记录和副记录(39)截止恒等式超过30%E类-值小于1e–5。

当分析来自培养的原生动物的基因组测序数据（如长读测序数据）时，该管道的去污和基因预测过程仍然适用(40–42).

对于基因组/转录组质量评估，由BUSCO估计基因组完整性(43)CDS完整性（带有起始密码子和终止密码子的基因模型的比率）是基因组质量（GQ）的完整性。计算方法如下。

$$\begin{eqnarray*}&&Genome\Quality\\left（\%\right）=基因组\完整性\\left$$

根据GQ值的范围，基因组完整性分为三个水平：高（GQ≥80%）、中（50-80%）和低（GQ<50%）。

公共数据检索和管理

除了最新测序的原生动物基因组和转录组外，我们还为原生动物收集了公开可用的测序数据。总而言之，P10K数据库包含了1858个来源于多个公共数据库的公共原生生物基因组/转录组。其中，从NCBI下载了1193个基因组(https://www.ncbi.nlm.nih.gov/assembly网站/)从Ciliate.org下载了1个基因组(https://ciliates.org/)而MMETSP生成了659个转录组(14)和5个转录本游仆虫属源自盖杜科娃的研究等。(44). 该公共数据的样本来自世界各地的国家和地区。在这些公共基因组中，获得了428个基因组的组装序列和基因注释，而其余766个基因组仅获得了组装序列。对于MMETSP中只有组装序列的659个转录组(14)，使用我们的分析管道（如上所述）执行重新注释过程，包括净化和基因注释步骤。

数据库实施

P10K数据库是使用Spring Boot开发的(https://spring.io/projects/spring-boot)作为后端框架。所有数据都使用MySQL存储和管理(https://dev.mysql.com). 为了确保无缝的用户体验和高度交互式的web应用程序，使用HTML5构建网页并使用JSP呈现(https://jakarta.ee/规范/pages/3.0/). 前端接口是使用语义UI构建的(https://semantic-ui.com)和JQuery(https://jquery.com网站). 此外，基因组浏览器由igv.js实现(https://github.com/igvteam/igv.js#igvjs)，并使用HighCharts实现了数据可视化(https://www.highcharts.com)和数据表(https://datatables.net). BLAST搜索由国家基因组数据中心（NGDC）BLAST在线服务提供支持(https://ngdc.cncb.ac.cn/blast/).

数据库内容和功能

地理、生境和分类方面的广泛覆盖

P10K数据库已成功整合2959个原生物基因组/转录组，包括1601个基因组和1358个转录组。这些数据来源于各种各样的栖息地，其中1101个由P10K团队生成，分布在中国，1858个数据可从世界各地公开获得（图1安培). 值得注意的是，P10K数据集的一部分是从以极端条件为特征的地区收集的，如高海拔、温泉温度升高以及镉和汞等重金属污染的环境（图1B年). 这些特定的数据采集对于我们更好地理解在这种挑战性环境中蓬勃发展的原生生物具有重要意义。根据当前NCBI分类(11)，原生生物被分为10个超群和27个门（图1摄氏度). 基于这一分类框架，P10K数据库显示出全面的包容性，包括9个超群和24个门，但不包括芽囊真菌门、半乳突门和Picozoa门。就可获得的基因组/转录组数据的数量而言，纤毛虫属、枕类植物、蚜虫门和卵菌门最为丰富，每个都超过了200条记录（图1摄氏度). 相比之下，Imbridgea、Preaxostyla、Parabasalia和有孔虫门的记录相对较少，每个门的记录不到十个（图1摄氏度). 就订单或类的覆盖范围而言，P10K数据库包含45%（174/385）的订单和75%（64/85）的原生分类类（图1摄氏度). 统计分析表明，肺泡菌（47/84）、Stramenopiles（47/100）、变形虫（13/19）、Discoba（8/13）和触觉菌（8/11）超群在有序水平上的覆盖率超过或接近50%。相比之下，Rhizaria（7/37）仅实现了约19%的覆盖率（图1摄氏度).

P10K数据库中样本和数据的地理、栖息地和分类覆盖范围。（A）样品采集地点。新测序的基因组和转录组以及公开的对应物用不同的颜色和形状标记。使用ArcMap 10.8绘制采样点地图，以进行视觉表示。（B）生境统计。注意，基因组/转录组数据集少于十个的栖息地被归为“其他”。（C）分类覆盖范围。根据NCBI分类系统确定原生动物类群，根据之前的报告确定不同类群之间的关系。对于10个超群（用不同颜色的曲线表示），括号中列出了覆盖类的数量和类的总数（用斜线分隔），以及覆盖的阶数和总阶数（用斜杠分隔）。在内圈中，显示了不同的类群/门。列出了每个组/门的涵盖订单数量和数据集数量，以逗号分隔。来自10个未分配给任何门/组的现有超组的样本被标记为“其他”，并用虚线框括起来。（D） 1101个新测序的基因组和转录组在不同组/门之间的分布。蓝色数字表示新排序数据集的计数，而黑色数字表示门/组内数据集的总数。（E）纤毛虫基因组/转录组的分布。类和顺序从内到外以不同的圆圈列出。外圆中显示的数字表示每个订单的集成数据集总数。P10K项目中新包含的14个订单用红星表示，而未分配给现有类别中任何订单的未分类订单被命名为“其他”，并用蓝色三角形表示。

图1。

P10K数据库中样本和数据的地理、栖息地和分类覆盖范围。 (A类)样本采集位置。新测序的基因组和转录组以及公开的对应物用不同的颜色和形状标记。使用ArcMap 10.8绘制采样点地图，以进行视觉表示。(B类)生境统计。请注意，少于10个基因组/转录组数据集的栖息地被归类为“其他”。(C类)分类范围。根据NCBI分类系统确定原生动物类群，根据之前的报告确定不同类群之间的关系。对于10个超群（用不同颜色的曲线表示），括号中列出了覆盖类的数量和类的总数（用斜线分隔），以及覆盖的阶数和总阶数（用斜杠分隔）。在内圈中，显示了不同的类群/门。每个类群/门的涵盖目的数量和数据集的数量都用逗号分隔。来自10个未分配给任何门/组的现有超组的样本被标记为“其他”，并用虚线框括起来。(D类)1101个新测序的基因组和转录组在不同组/门之间的分布。蓝色数字表示新排序数据集的计数，而黑色数字表示门/组内数据集的总数。(E类)纤毛虫基因组/转录组的分布。类和顺序从内到外以不同的圆圈列出。外圆中显示的数字表示每个订单的集成数据集总数。P10K项目中新包含的14个订单用红星表示，而未分配给现有类别中任何订单的未分类订单被命名为“其他”，并用蓝色三角形表示。

P10K团队包含了1101个新测序的基因组/转录组，这代表着数据集中37%的显著扩展，涵盖了12个类群/门的物种（图一维). 该数据集突出地显示了纤毛虫门、管藻门和盘藻门的大量基因组/转录组，特别强调纤毛虫（纤毛虫）。

纤毛虫门或纤毛虫是P10K数据库中最具代表性的生物类群，包括985个基因组/转录组，其中90%（884）是新测序的（图一维). 值得注意的是，P10K的最新序列数据已经涵盖了14个新订单（图1E级)导致与当前公开数据相比大幅增加。基因组/转录组分布在10个纲和30个目中，约占所有纲的71%（10/14），占卷叶猴门内所有目的53%（30/57）（图1E级). 在涵盖的类别中，寡膜翅目、鞘翅目和荔枝目的数据集最为广泛。值得注意的是，Nassoporea和Litostomatea类的所有订单都包含在内。在涵盖的目中，Sessionlida和Colpodida各包含>100个基因组/转录组，这意味着最高的数据代表性。紧随其后的是触手类、前齿类、异毛类和膜壳类，每个都拥有40多个基因组/转录体（图1E级).

基于量身定制方法的高质量策划和注释

98%的新测序数据集（包括385个基因组和693个转录组）是使用先进的单细胞测序技术生成的，我们专门为这些基因组/转录组组装、净化、物种鉴定、，基因注释和评估（详见材料和方法）。

GC含量分布分析表明，管道内的净化过程非常有效。最终组装显示出单一GC峰，表明没有污染物。相比之下，原始组件通常显示出多个GC峰，表明存在污染物（图2安培).

基因组质量评估。（A）基因组纯度。GC含量分布用于评估基因组的纯度。左侧面板显示原始基因组集合的GC含量分布，而右侧面板显示净化后最终基因组集合的分布。值得注意的是，对单个连续体的GC含量进行了调整，以减去每个组件的平均GC含量。（B）基因组完整性。根据BUSCO估计确定的完整性水平显示了基因组（G）和转录组（T）数据，以及新测序数据（P10K）和公共可用数据（公共）。（C）基因组完整性。基因组质量（GQ）度量通过整合基因组和CDS完整性来评估基因组的整体完整性。显示了基因组（G）和转录组（T）数据、新测序数据（P10K）和公开可用数据（Public）的注释水平。（B）和（C）中的质量分为高、中和低。统计中使用的数量列在条形图下方。

图2。

基因组质量评估。(A类)基因组纯度。GC含量分布用于评估基因组的纯度。左侧面板显示原始基因组集合的GC含量分布，而右侧面板显示净化后最终基因组集合的分布。值得注意的是，对单个连续体的GC含量进行了调整，以减去每个组件的平均GC含量。(B类)基因组完整性。根据BUSCO估计确定的完整性水平显示了基因组（G）和转录组（T）数据，以及新测序数据（P10K）和公共可用数据（公共）。(C类)基因组完整性。基因组质量（GQ）度量通过整合基因组和CDS完整性来评估基因组的整体完整性。基因组（G）和转录组（T）数据以及新测序数据（P10K）和公共可用数据（Public）的注释水平显示。（B）和（C）中的质量分为高、中和低。统计中使用的数量列在条形图下方。

就BUSCO完整性而言，新测序数据和公开可用数据显示出相当比例的中等和高水平基因组组装完整性。它表明，约23%（94/406）的新测序基因组和30%（364/1194）的公开基因组显示了80%至100%（高水平）的完整性水平（图第2页). 此外，48%（193/406）的新测序基因组和39%（461/1194）的公开基因组的完整性水平在50%到80%之间（中等水平）（图第2页).

整体基因组完整性评估显示，新测序数据的质量也可与公开可用数据相比较。为了评估基因组完整性，通过考虑基因组/转录组组装和CDS完整性来使用基因组质量（GQ）度量（参见材料和方法中的详细信息）。据观察，35%（140/400）的新测序基因组和16%（47/289）的公开基因组显示GQ在80%到100%之间变化（高水平）（图2摄氏度). 此外，41.5%（166/400）的新测序基因组和78%（225/289）的公开基因组显示GQ在50%至80%之间（中等水平）（图2摄氏度). 对于转录组，在新测序数据和公开可用数据之间观察到可比较的完整性水平。对于基因组，尽管与公开数据相比，新测序数据显示的中高水平比例略低，但值得注意的是，大多数公开可用的基因组都是从大量DNA样本中生成的。

纤毛虫遗传密码变异

纤毛虫（纤毛虫门）中观察到的一个显著特征是利用各种替代遗传密码。密码子表的精确估计对提高纤毛虫基因组结构注释的准确性具有重要意义。通过分析P10K数据库中纤毛虫基因组/转录组中的密码子表，发现纤毛虫之间存在更高程度的遗传密码变异，这超出了我们之前的理解(45). 图三展示了纤毛虫进化树的推断模式，列出了P10K基因组注释期间每个属内估计的遗传代码类型。

纤毛虫的遗传密码。根据先前的一项研究（49），已经建立了不同纤毛虫之间的进化关系。包含有基因组或转录组数据的所有属。分配给每个属的数字标签表示该属内物种使用的密码子表（翻译表）的编号。如果存在替代密码子用法，则用逗号分隔多个数字标签。蓝色星号表示该属已被报道包括缺乏终止密码子的物种。P10K估计值和NCBI分类系统之间的密码子表存在差异的实例用红色箭头突出显示。

图3。

纤毛虫的遗传密码。根据先前的一项研究，不同纤毛虫之间的进化关系已经建立(49). 所有具有基因组或转录组数据的属都包括在内。分配给每个属的数字标签表示该属内物种使用的密码子表（翻译表）的编号。如果存在替代密码子用法，则用逗号分隔多个数字标签。蓝色星号表示该属已被报道包括缺乏终止密码子的物种。P10K估计值和NCBI分类系统之间的密码子表存在差异的实例用红色箭头突出显示。

共有七个密码子表（除了没有终止密码子的物种(46))被发现用于纤毛虫，编号为1、4、6、10、12、27和30（图三). 其中，Spirotrichea类在密码子使用方面表现出相当大的变异性，使用了四个密码子表（1,6,10,12）。值得注意的是，螺菌纲的大多数属主要使用密码子表6。在异鞭毛虫纲、荔枝目、鞘翅目、前列腺目和叶咽目中，标准密码子表（密码子表1）似乎最受欢迎。在寡膜翅目中，物种主要使用密码子表6或30。值得注意的是，只有少数属在不同物种的密码子表中表现出差异，而这一趋势在整个纤毛虫中是一致的（图三). 根据我们的数据，纤毛虫的一个特定属通常以单个密码子表为主要特征，这表明在属于同一属的物种中，替代密码子表是罕见的。总的来说，我们的数据集为许多纤毛虫的遗传密码提供了有价值的见解，特别是包含了14个新目。将P10K估计密码子表与NCBI分类系统中的密码子表进行比较(11)，我们发现了31种纤毛虫的差异，主要在异毛纲（图三). 为了解决这个问题，我们与NCBI分类小组进行了讨论(11)和NGDC基因组仓库（GWH）集团(https://ngdc.cncb.ac.cn/gwh网址/) (47,48). 我们希望共同探索和开发有效的方法，使我们能够准确地纠正和验证密码子表的分配，确保这些纤毛虫物种以及其他原生物种的遗传密码的准确表示。

用户友好的web界面

P10K数据库提供了一个用户友好的网络界面，由四个主要模块组成：浏览、基因组可视化、统计和BLAST工具，使用户能够轻松浏览和检索序列并进行在线分析（图4). 为了帮助用户最大限度地利用数据库，我们在帮助页面上提供了一个分步教程和教学视频。

图4。

P10K数据库的功能模块和功能。该图简要概述了P10K数据库的模块、数据库组织和功能。

浏览

浏览模块具有样本、基因组和基因网页，这些网页经过精心设计，确保轻松导航和直观访问。这些页面提供了组织良好的特色项目和信息表，允许用户轻松浏览和检索所需信息。样本页面以表格的方式展示了22个主题，如生物关系、栖息地、极端环境。用户可以选择要显示的所需列，对列内容进行排序，并下载元数据。通过在“搜索”框中输入关键字或浏览表上方列出的特色项目，可以应用自定义过滤器。类似地，表中显示了10个受试者的基因组页面允许按预设组进行浏览，如“新物种测序”、“基因组重新命名”、“单细胞基因组”。基因页面允许用户选择感兴趣的物种或样本，以表格格式查看所有相关基因。基因位置和结构可以通过基因组浏览器进行探索。

此外，P10K数据库提供样本和基因的单独页面，可通过使用主页中的样本ID或基因ID或表中的相关超链接进行搜索来访问。单个样本页面由七个部分的44个主题组成，包括摘要、生物特征、地理信息、联系信息、测序细节、基因组组装和注释信息以及可视化。单个基因页面显示基因摘要，如基因组位置、使用的遗传代码、CDS和蛋白质序列，还提供GO注释、同源和同源基因。

数据下载

为了增强用户访问每个样本不同级别数据的便利性，我们在单个样本页面中提供了一个单击下载功能。此功能允许用户轻松下载基因组组装、基因组注释、CDS序列、蛋白质序列、同源和同源基因以及基因注释详细信息。此外，用户可以连接到基因组仓库（GWH）(47,48)使用程序集ID并访问外部链接，如NCBI序列读取存档（SRA）(https://www.ncbi.nlm.nih.gov/sra网址)获取相关数据。对于每个基因，也可以方便地从单个基因页面本地下载CDS和蛋白质序列。

基因组可视化

基因组可视化模块允许用户展开物种分类树，以查看与每个分类单元关联的样本。括号内列出了每个分类单元及其子类别的相关样本数。当用户单击分类单元或子类别时，右下角的表格会同步并显示相关样本的基因组组装和注释信息。此外，用户可以使用树顶部的搜索栏搜索特定的分类法。点击查看按钮，用户可以可视化所选样本的基因、mRNA、CDS和外显子的基因组位置。

BLAST工具

它还集成了用于序列搜索的BLAST工具和高级功能，如距离树和多序列比对（MSA查看器），用于对获得的序列进行彻底分析和比较。目前，该平台提供四个程序：BLASTN、BLASTP、BLASTX和TBLASTN，以及基因组、基因、CDS和蛋白质数据库的P10K集合。值得注意的是，结果可以根据生物体、身份、，E类-值和查询覆盖率。从BLAST结果中选择特定序列后，用户可以生成距离树并通过MSA查看器查看多序列比对。

讨论和未来方向

凭借丰富的信息和用户友好的设计，P10K数据库站在原生生物研究的前沿，在推进原生生物基因组学研究方面具有巨大潜力。它为全球科学界提供了宝贵的资源，使研究人员能够探索原生生物的遗传复杂性，并加速这一动态领域的发现。展望未来，P10K项目的下一阶段将集中于来自其他分类群的原生生物，目标是实现每个分类群中代表物种的广泛基因组覆盖。这些庞大的原生生物基因组资源将不断更新并整合到P10K数据库中。为此，我们将不断从数据库和相关文献中收集数据，建立年度批量搜索系统，并采用人工筛选，以确保综合文献数据的可靠性。同时，P10K数据库的数据表示和交互可视化将进一步完善，并将开发更多的生物信息学工具，如多序列比对、保守域预测和系统发育分析，为用户提供方便的在线服务。如果P10K数据库和NCBI分类系统之间的密码子表分配存在差异(11)，我们希望与NCBI分类小组建立密切合作(11)以及其他相关组织，共同解决这一问题，并确保原生动物物种遗传密码的精确表示。此外，我们将在P10K平台上开发一个系统，以便于无缝访问其他原生生物基因组平台，使用户能够访问与原生生物研究相关的更广泛的数据。总而言之，P10K数据库作为原生动物的专用数据门户，对于破译原生动物基因组序列、重建真核生物树以及解决人们广泛关注的基本科学问题具有重要意义和实用价值。

数据可用性

P10K数据库的程序集可以访问https://ngdc.cncb.ac.cn/p10k/本文报告的原始序列数据已保存在基因组序列档案中(50)国家基因组数据中心(51)，中国国家生物信息中心/中国科学院北京基因组研究所（PRJCA017400项目下），可在https://ngdc.cncb.ac.cn/gsa.

补充数据

补充数据可从NAR Online获取。

致谢

我们感谢Protist 10000基因组项目（P10K）联盟的成员提出的有益建议。生物信息学分析得到了中国科学院超级计算中心武汉分院的支持。原生细胞的培养和维护得到了国家水生生物资源中心（NABRC）的支持。我们衷心感谢NGDC GSA和GWH Group，特别是Meili Chen、Xuetong Zhao、Yanling Sun、Yanqing Wang和Lili Dong，感谢他们在存储原始测序、基因组组装和注释数据方面的帮助，并感谢Zhoojing Fan在web界面设计方面的贡献。此外，我们还要感谢NCBI分类小组在遗传密码分配方面的帮助。

基金

国家重点研发计划[2020YFA0907400]；中国科学院战略优先研究计划项目[XDPB18，XDB38030400]；中国科学院青年创新促进会[2019104]；中国科学院国际合作项目[153F11KYSB20160008]；国家自然科学基金项目[32122015，32030021，3187221，31900339]；IUBS开放生物多样性与健康大数据项目。开放获取费用资助：中华人民共和国科学技术部；国家重点研发计划。

利益冲突声明。未声明。

工具书类

1

惠塔克

相对湿度。

生物界的新概念

.

科学类

.

1969

;

163

:

150

–

160

.

2

海克尔

E.公司。

,

哈特曼

钢筋混凝土。

,

布雷德巴赫

O。

,

埃布尔·伊贝斯菲尔德

一、。

《自然的昆斯特福尔门》（Kunstformen der Natur:Die einhundert Farbtafeln）

.

1998

;

慕尼黑

普雷斯特尔

.

三。

程

美国。

,

梅尔科宁阶

M。

,

史密斯

南非。

,

布罗金顿

美国。

,

阿奇博尔德

J.M.公司。

,

德洛

下午

,

锂

F.W.公司。

,

梅尔科尼亚语

B。

,

马夫罗迪耶夫

电动汽车。

,

太阳

西。

等。

10KP：一个藻类基因组测序计划

.

Gigascience公司

.

2018

;

7

:

2013年7月31日

.

4

阿劳霍

R。

,

桑帕约-迈亚

B。

真菌基因组与基因分型

.

高级申请。微生物。

2018

;

102

:

37

–

81

.

5

i5K联盟

i5K倡议：推进节肢动物基因组学知识、人类健康、农业和环境

.

J.赫里德。

2013

;

104

:

595

–

600

.

公共医学

6

奥斯特兰德

E.A.公司。

,

王

通用数据。

,

拉尔森

G.公司。

,

冯霍尔特

B.M.公司。

,

戴维斯

B.W.公司。

,

纳森

五、。

,

希特

C、。

,

韦恩

R.K.（英国）。

,

张

第页。

Dog10K：一项国际测序工作，旨在推进犬的驯化、表型和健康研究

.

国家。科学。版次。

2019

;

6

:

810

–

824

.

7

风扇

G.公司。

,

歌曲

年。

,

杨

L。

,

黄

十、。

,

张

美国。

,

张

M。

,

杨

十、。

,

张

年。

,

张

H。

,

锂

年。

等。

10000鱼类基因组项目（Fish10K）的初始数据发布和公告

.

Gigascience公司

.

2020

;

9

:

吉亚080

.

8

张

G.公司。

,

拉贝克

C、。

,

坟墓

G.R.公司。

,

雷

F。

,

贾维斯

E.D.公司。

,

吉尔伯特

麻省理工学院。

基因组学：鸟类测序项目启动

.

自然

.

2015

;

522

:

34

.

9

施

西。

,

气

H。

,

太阳

问：。

,

风扇

G.公司。

,

线路接口单元

美国。

,

王

J。

,

朱

B。

,

线路接口单元

H。

,

赵

F。

,

王

十、。

等。

gcMeta：支持微生物组数据存档、标准化和分析的宏基因组学全球目录平台

.

核酸研究。

2019

;

47

:

D637号

–

D648型

.

10

吉尔伯特

J.A.公司。

,

杨松

J.K.（英国）。

,

骑士

R。

地球微生物组项目和全球系统生物学

.

M系统

.

2018

;

三

:

零二一七

.

11

费德亨

美国。

NCBI分类数据库

.

核酸研究。

2011

;

40

:

D136号

–

D143号

.

12

斯托弗

不适用。

,

普尼亚

相对应力。

,

鲍文

医学硕士。

,

Dolins公司

S.B.公司。

,

克拉克

T.G.公司。

四膜虫基因组数据库Wiki：社区维护的模型生物数据库

.

数据库

.

2012

;

2012

:

巴斯007

.

13

阿莫斯

B。

,

金雷切亚

C、。

,

巴巴

M。

,

巴雷托

答：。

,

巴森科

每年。

,

巴ż蚂蚁

西。

,

贝尔纳普

R。

,

布莱文斯

美国科学院。

,

伯赫梅

美国。

,

布雷斯特利

J。

等。

VEuPathDB：真核病原体、载体和宿主生物信息学资源中心

.

核酸研究。

2022

;

50

:

D898号

–

D911电话

.

14

龙骨

P.J.公司。

,

伯基

F。

,

威尔科克斯

H.M.公司。

,

阿拉姆

B。

,

艾伦

E.E.公司。

,

阿马拉·泽特勒

洛杉矶。

,

阿姆布鲁斯特

电动汽车。

,

阿奇博尔德

J.M.公司。

,

巴蒂

英国。

,

潜水钟

C.J.公司。

等。

海洋微生物真核生物转录组序列测定项目（MMETSP）：通过转录组测序阐明海洋真核生物的功能多样性

.

《公共科学图书馆·生物》。

2014

;

12

:

电话：1001889

.

15

苗族

西。

,

歌曲

L。

,

文学士

美国。

,

张

L。

,

关

G.公司。

,

张

Z.公司。

,

宁

英国。

Protist 10000基因组项目

.

创新

.

2020

;

1

:

100058

.

16

陈

美国。

,

周

年。

,

陈

年。

,

顾

J。

fastp：一种超快速一体化FASTQ预处理器

.

生物信息学

.

2018

;

34

:

i884型

–

i890型

.

17

锂

D。

,

线路接口单元

客户经理。

,

罗

R。

,

定兼

英国。

,

林

总重量。

MEGAHIT：通过简洁的de Bruijn图实现大型复杂宏基因组组装的超快速单节点解决方案

.

生物信息学

.

2015

;

31

:

1674

–

1676

.

18

抓斗

M.G.公司。

,

哈斯

B.J.公司。

,

亚苏尔

M。

,

莱文

J.Z.公司。

,

汤普森

D.A.公司。

,

阿米特

一、。

,

阿迪科尼属

十、。

,

风扇

L。

,

雷乔杜里

R。

,

曾

问：。

等。

无参考基因组的RNA-Seq数据的全长转录组组装

.

自然生物技术。

2011

;

29

:

644

–

652

.

19

罗

R。

,

线路接口单元

B。

,

谢

年。

,

锂

Z.公司。

,

黄

西。

,

元

J。

,

他

G.公司。

,

陈

年。

,

平移

问：。

,

线路接口单元

年。

等。

SOAPdenovo2：一种经验性改进的节省内存的短读从头汇编程序

.

Giga科学

.

2012

;

1

:

18

.

20

科伦

美国。

,

瓦伦茨

业务伙伴。

,

柏林

英国。

,

米勒

J.R.公司。

,

伯格曼

不适用。

,

菲利普

上午。

Canu：通过自适应k-mer加权和重复分离实现可扩展且准确的长读汇编

.

基因组研究。

2017

;

27

:

722

–

736

.

21

江

C、。

,

王

G.公司。

,

张

J。

,

顾

美国。

,

王

十、。

,

秦

西。

,

陈

英国。

,

元

D。

,

柴

十、。

,

杨

M。

等。

iGDP:野生纤毛虫基因组综合净化管道

.

摩尔生态。资源。

2023

;

23

:

1182

–

1193

.

22

施泰因格尔

M。

,

索丁

J。

MMseqs2支持对大量数据集进行敏感的蛋白质序列搜索分析

.

自然生物技术。

2017

;

35

:

1026

–

1028

.

23

惠勒

总工程师。

,

埃迪

S.R.公司。

nhmmer：利用简档HMM进行DNA同源性搜索

.

生物信息学

.

2013

;

29

:

2487

–

2489

.

24

奥利里

不适用。

,

赖特

M.W.公司。

,

布里斯特

J.R.公司。

,

丘福

美国。

,

哈达德

D。

,

麦克维

R。

,

拉吉普特

B。

,

罗伯茨

B。

,

史密斯-怀特

B。

,

阿科·阿杰伊

D。

等。

NCBI的参考序列（RefSeq）数据库：当前状态、分类扩展和功能注释

.

核酸研究。

2016

;

44

:

D733型

–

D745号

.

25

奎斯特

C、。

,

普鲁西

E.公司。

,

伊尔马兹

第页。

,

格肯

J。

,

施韦尔

T。

,

雅尔扎

第页。

,

佩普利斯

J。

,

格勒克纳

F.O.公司。

SILVA核糖体RNA基因数据库项目：改进数据处理和基于网络的工具

.

核酸研究。

2013

;

41

:

D590型

–

D596型

.

26

吉尤

L。

,

巴哈尔

D。

,

奥迪

美国。

,

低音

D。

,

伯尼

C、。

,

比特纳

L。

,

鲍特

C、。

,

比尔戈

G.公司。

,

德瓦尔加斯

C、。

,

德塞勒

J。

等。

原生核糖体参考数据库（PR2）：单细胞真核生物小亚单位rRNA序列目录及分类

.

核酸研究。

2013

;

41

:

D597型

–

D604型

.

27

阿尔特舒尔

S.F.公司。

,

吉什

西。

,

米勒

西。

,

迈尔斯

E.W.公司。

,

利普曼

D.J.公司。

基本本地对齐搜索工具

.

分子生物学杂志。

1990

;

215

:

403

–

410

.

28

卡马乔

C、。

,

库洛里斯

G.公司。

,

阿瓦吉安

五、。

,

妈妈

N。

,

帕帕佐普洛斯

J。

,

比勒

英国。

,

马登

T.L.公司。

BLAST+：体系结构和应用程序

.

BMC生物信息。

2009

;

10

:

421

.

29

舒尔吉纳

年。

,

埃迪

S.R.公司。

Codetta：从核苷酸序列预测遗传密码

.

生物信息学

.

2023

;

39

:

英国电信协会802

.

30

迪蒂

英国工程师协会。

,

侏罗纪

R。

,

Szklarczyk公司

R。

,

范·希尤姆

南非。

,

哈汉吉

H.R.公司。

,

施密德

M。

,

德怀尔德

B。

,

弗朗索伊斯

K.J.公司。

,

Stunnenberg公司

H.G.公司。

,

斯特劳斯

M。

等。

FACIL：快速准确的遗传代码推断和标志

.

生物信息学

.

2011

;

27

:

1929

–

1933

.

31

格雷梅

G.公司。

,

布伦德尔

五、。

,

火花

机械工程师。

,

库尔茨

美国。

构建高等生物基因结构预测软件工具

.

通知。柔和。Technol公司。

2005

;

47

:

965

–

978

.

32

黄

十、。

,

亚当斯

医学博士。

,

周

H。

,

洗煤

阿拉伯联合酋长国。

用于分析和注释基因组序列的工具

.

基因组学

.

1997

;

46

:

37

–

45

.

33

哈斯

B.J.公司。

,

德尔谢

A.L.公司。

,

安装

S.M.公司。

,

沃特曼

J.R.公司。

,

史密斯

R.K.（英国）。

年少者,

汉尼克

L.I.有限责任公司。

,

梅蒂

R。

,

Ronning公司

客户经理。

,

鲁施

D.B.公司。

,

城镇

客户尽职调查。

等。

利用最大转录比对组合改进拟南芥基因组注释

.

核酸研究。

2003

;

31

:

5654

–

5666

.

34

斯坦克

M。

,

迪坎

M。

,

贝尔茨

R。

,

豪斯勒

D。

利用天然和同步定位的cDNA比对改进从头发现基因

.

生物信息学

.

2008

;

24

:

637

–

644

.

35

马约洛斯

W.H.公司。

,

珀蒂亚

M。

,

萨尔茨堡

S.L.公司。

TigrScan和GlimmerHMM：两个开源从头算真核基因导入者

.

生物信息学

.

2004

;

20

:

2878

–

2879

.

36

科尔夫

一、。

新基因组中的基因发现

.

BMC生物信息。

2004

;

5

:

59

.

37

哈斯

B.J.公司。

,

萨尔茨伯格

S.L.公司。

,

朱

西。

,

珀蒂亚

M。

,

艾伦

J.E.公司。

,

奥维斯

J。

,

白色

O。

,

布尔

首席风险官。

,

沃特曼

J.R.公司。

使用EVidenceModeler和组装拼接比对程序的真核生物基因结构自动注释

.

基因组生物学。

2008

;

9

:

R7级

.

38

琼斯

第页。

,

宾斯（Binns）

D。

,

张

香港。

,

弗雷泽

M。

,

锂

西。

,

麦卡努拉

C、。

,

麦克威廉

H。

,

马塞伦

J。

,

米切尔

答：。

,

努卡语

G.公司。

等。

InterProScan 5：基因组尺度蛋白质功能分类

.

生物信息学

.

2014

;

30

:

1236

–

1240

.

39

布奇芬克

B。

,

路透社

英国。

,

Drost公司

H.G.公司。

使用DIAMOND在生命树尺度上进行敏感蛋白比对

.

自然方法

.

2021

;

18

:

366

–

368

.

40

熊

J。

,

王

G.公司。

,

程

J。

,

田

M。

,

平移

十、。

,

沃伦

答：。

,

江

C、。

,

元

D。

,

苗族

西。

通过水平基因转移，兼性盾形纤毛虫病原体假锥虫的基因组提供了对其毒力的深入了解

.

科学。代表。

2015

;

5

:

15470

.

41

熊

J。

,

杨

西。

,

陈

英国。

,

江

C、。

,

妈妈

年。

,

柴

十、。

,

雁鸣声

G.公司。

,

王

G.公司。

,

元

D。

,

线路接口单元

年。

等。

形态物种中隐藏的基因组进化——快速进化基因的景观四膜虫

.

《公共科学图书馆·生物》。

2019

;

17

:

电子3000294

.

42

张

J。

,

陈

英国。

,

江

C、。

,

杨

西。

,

顾

美国。

,

王

G.公司。

,

卢

年。

,

苗族

西。

,

熊

J。

细菌源性溶血相关基因广泛存在于鳞毛虫中

.

微生物

.

2020

;

8

:

1838

.

43

曼尼

M。

,

伯克利

M.R.公司。

,

Seppey公司

M。

,

西芒

联邦航空局。

,

兹多布诺夫

E.M.公司。

BUSCO更新：新颖、简化的工作流程以及更广泛、更深入的系统发育覆盖率，用于真核生物、原核生物和病毒基因组的评分

.

分子生物学。进化。

2021

;

38

:

4647

–

4654

.

44

盖杜科娃

南非。

,

摩尔多瓦

文学硕士。

,

瓦列西

答：。

,

赫菲

S.M.公司。

,

阿特金斯

J.F.公司。

,

盖尔芬德

医学硕士。

,

巴拉诺夫

P.V.公司。

遗传密码的非三联体特征游仆虫属纤毛虫是中性进化的结果

.

程序。国家。阿卡德。科学。美国。

2023

;

120

:

2012年2月22日

.

45

陈

西。

,

耿

年。

,

张

B。

,

雁鸣声

年。

,

赵

F。

,

苗族

M。

,

夏

十、。

停止与否：纤毛虫中重新分配的停止密码子的全基因组分析

.

分子生物学。进化。

2023

;

40

:

msad064号

.

46

斯瓦特

E.C.公司。

,

塞拉

五、。

,

彼得罗尼

G.公司。

,

诺瓦基

M。

无专用终止密码子的遗传密码：上下文相关的翻译终止

.

单元格

.

2016

;

166

:

691

–

702

.

47

陈

M。

,

妈妈

年。

,

吴

美国。

,

郑

十、。

,

康

H。

,

唱歌

J。

,

徐

十、。

,

郝

L。

,

锂

Z.公司。

,

龚

Z.公司。

等。

基因组仓库：存放基因组规模数据的公共存储库

.

基因组蛋白质组学生物信息学

.

2021

;

19

:

584

–

589

.

48

CNCB-NGDC成员和合作伙伴

2023年中国国家生物信息中心国家基因组数据中心数据库资源

.

核酸研究。

2023

;

51

:

第18天

–

第28页

.

公共医学