Naïve Bayesian Classifier for Rapid Assignment of rRNA Sequences into the New Bacterial Taxonomy

Qiong Wang; George M. Garrity; James M. Tiedje; James R. Cole

doi:10.1128/AEM.00062-07

应用环境微生物。2007年8月；73(16): 5261–5267.

2007年6月22日在线发布。数字对象标识：10.1128/AEM.00062-07

预防性维修识别码：项目经理1950982

PMID：17586664

用于rRNA序列快速分配到新细菌分类中的朴素贝叶斯分类器^▿ ^†

王琼（音）,¹ 乔治·M·加里蒂,^1,² 詹姆斯·蒂吉,^1,²和詹姆斯·科尔^1,^*

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 【补充材料】

aem73_16_5261_index.html（1.2公里）
GUID:93013986-1B1A-4002-BB0B-6496A18D9D71

aem_73_16_5261_错误分类.zip（9.8K）
GUID:E10635BD-EFC2-432D-A101-21E378706017

aem_73_16_5261__summary_byHierarchy.zip（9.8K）
GUID:D3AB83A1-5282-44B0-8129-25B509F5B010

aem_73_16_5261 _最接近序列_差异_类别.zip（8.8公里）
GUID:EAEDB47B-E6CD-4E1E-A072-E01000FC225B

摘要

核糖体数据库项目（RDP）分类器是一种朴素的贝叶斯分类器，可以快速准确地将细菌16S rRNA序列分类为Bergey提出的新的高阶分类法原核生物分类大纲（第二版，5.0版，Springer-Verlag，纽约州纽约市，2004年）。它提供了从领域到属的分类分配，以及每个分配的置信度估计。大多数分类（98%）具有较高的估计置信度（≥95%）和较高的准确度（98%）。除了使用Bergey大纲中5014种类型菌株序列的语料库进行测试外，RDP分类器还使用NCBI分配到其替代高阶分类中的23095 rRNA序列的语料进行测试。对两个语料库的leave-on-out测试结果表明，近全长和400碱基片段在所有置信水平上的总体准确率在属水平上均为89%或以上，大多数分类错误似乎是由于当前分类法中的异常所致。对于较短的rRNA片段，例如可能由焦磷酸测序产生的片段，错误率在16S rRNA基因的长度上变化很大，V2和V4可变区周围的片段错误率最低。RDP分类器既适用于分析单个rRNA序列，也适用于分析数千个序列库。另一个相关工具RDP文库比较是为了促进基于16S rRNA基因序列文库的微生物群落比较而开发的。它将RDP分类器与统计测试相结合，以标记样本之间差异代表的分类群。RDP分类器和RDP库比较可在线获取，网址为http://rdp.cme.msu.edu/.

从20世纪80年代中期开始，卡尔·沃斯（Carl Woese）以rRNA为基础的系统发育比较描述了生命的三个主要分支，从而彻底改变了微生物学领域(28). 如今，基于rRNA的分析仍然是微生物学的中心方法，不仅用于探索微生物多样性，还用作细菌鉴定的日常方法。从概念上来说，鉴定方法比分子系统发育分析更容易解释，并且在对类群有很好的了解时，通常会首选鉴定方法。与系统发育（聚类）方法相反，大多数rRNA鉴定（分类）方法都是基于最近邻的分类方案(10,18; 然而，请参阅参考4). 在某种程度上，这是由于缺乏一致的、更高级别的细菌分类结构（分类学）。最近的几起事件帮助改变了这种情况。2002年，细菌学物种定义重新评估特设委员会(24)建议所有新的细菌物种描述都包括来自该型菌株的rRNA序列，并且在2001年，Bergey’s Trust发表了一份修订后的高阶分类法，试图将细菌分类与基于rRNA的系统发育相协调(12,13).

朴素的贝叶斯分类方法简单，但效率极高。“天真”是指（天真）假设数据属性是独立的。多明戈斯和帕萨尼(11)结果表明，即使违反了这种属性独立性，贝叶斯方法仍然是最优的。据报道，该方法在与序列数据分类类似的问题上表现良好，例如文本文档的分类，这些文档具有高维特征空间和稀疏数据(16).

核糖体数据库项目II（RDP）为研究界提供与rRNA序列相关的数据、工具和服务。截至2007年1月，RDP保持了超过300000个细菌序列，平均每月超过5000个新序列。为了处理这一数量的序列，我们开发了一种朴素的贝叶斯分类器，用于将细菌rRNA序列分类为新的Bergey细菌分类法。该分类器速度快，不需要序列比对，并且可以很好地处理部分序列。（公共数据库中绝大多数rRNA序列是部分的。）它能够分类到属级的近全长和400碱基片段，总准确率超过88.7%。

基于16S rRNA基因序列库的微生物群落比较已成为微生物生态学中的普遍现象。然而，大多数比较方法，无论是来自传统宏观生态学，如Sorensen指数和Jaccard指数，还是专为序列数据设计的，如LIBSHUFF(22)、马丁P和F测试(19)和UniFrac(17)，仅提供社区之间差异程度的摘要信息。这些方法未能将差异放在分类上下文中。库比较使用RDP分类器对两个样本库中的序列进行快速分类。对两个样本的赋值进行比较，以估计使用统计检验偶然观察到每个分类单元表示差异的概率。

材料和方法

使用Bergey分类法键入序列。

小亚单位rRNA序列由988属5014个细菌种型菌株序列组成（表（表1），1)以及相关的分类学分配信息都是从Bergey的原核生物分类大纲（第5.0版[2004]）(13). 序列平均长度为1460个碱基，范围为1200到1833个碱基。这些序列形成了伯杰语料库。每个序列都用一组从域到属的分类群进行标记。从最高等级到最低等级，主要的正式分类等级为领域、门、纲、目、科、属和种。偶尔会出现中间等级，如“子类”和“子目”。

表1。

不同等级的分类群数量

分类学	语料库中的序列数	编号：
分类学	语料库中的序列数	域	菲拉	课程	订单	家庭	Genera公司
伯杰氏	5,014	1	24	33	79	211	988
美国国立生物技术信息中心	23,095	1	24	31	82	209	1,187

在单独的窗口中打开

用NCBI的分类法完成rRNA数据库序列。

所有可用的（23095）近全长（≥1200碱基）16S rRNA序列都是从2004年1月发布的RDP中获得的。这些序列的分类信息来自2004年1月发布的GenBank。这些序列在NCBI分类中被分为1187属(三,26). NCBI分类法的初始位置是基于序列提交者提供的信息，并由NCBI工作人员进行修改。序列平均长度为1454个碱基。这些序列构成了NCBI语料库。

算法。

分类器使用由所有可能的8基子序列（单词）组成的特征空间。在初步实验中测试了6到9个碱基之间的单词大小。8个和9个碱基的大小给出了几乎相同的结果，而6个和7个碱基大小的结果不太准确，尤其是在测试序列较短的情况下（未显示）。由于大小为8的单词可能少于大小为9的单词，因此选择了大小为8来进行所有进一步的工作，以减少内存需求。忽略单词在序列中的位置。与基于文本的贝叶斯分类器一样，只有查询中出现的单词才会影响分数(16). 一个类似的基于单词的分类方案被用于搜索全基因组序列中的水平基因转移事件(21).

特定于单词的优先级。

让W公司= {周₁,周₂, …,周_d日}是所有可能的八个字符子序列（单词）的集合。来自由以下内容组成的语料库N个序列，让n个(周_我)是包含子序列的序列数周_我.使用以下公式计算整个语料库中每个单词的预期似然估计值（根据杰弗里斯-珀克斯连续定律确定）P（P）_我= [n个(周_我) + 0.5]/(N个+1）被用作观察单词可能性的特定单词的事先估计周_我在rRNA序列中。分子中的值0.5和分母中的值1将概率保持在0的范围内<P（P）_我<1。

特定于基因的条件概率。

对于属G公司训练集包括M（M）序列，让米(周_我)是包含单词的这些序列的数量周_我。成员的条件概率G公司包含周_我用公式估算P（P）(周_我|G公司) = [米(周_我) +P（P）_我]/(M（M）+ 1). 忽略单个序列中单词之间的依赖性，从属观察的联合概率G公司a（部分）序列，S公司，包含一组单词，五= {v（v）₁,v（v）₂, …,v（v）_（f）} (五⊑W公司)，估计为P（P）(S公司|G公司)=πP（P）(v（v）_我|G公司).

天真的贝叶斯赋值。

根据贝叶斯定理，未知查询序列，S公司，是属的成员G公司是P（P）(G公司|S公司)=P（P）(S公司|G公司) ×P（P）(G公司)/P（P）(S公司)，其中P（P）(G公司)是序列成为成员的先验概率G公司和P（P）(S公司)观测序列的总概率S公司（来自任何属）。假设所有属的概率相等（先验相等），常数项P（P）(G公司)和P（P）(S公司)可以忽略。我们将序列归类为给出最高概率分数的属的成员，但我们忽略了实际的数值概率估计。

引导置信估计。

对于每个查询序列，首先计算查询中所有八个字符的子序列（单词）的集合。通常，当数据由独立的特征组成时，会选择与原始样本中特征数量相等的引导样本大小。在这种情况下，完全独立特征的数量等于不重叠单词的数量。因此，在每次引导试验中，随机选择八分之一单词的子集（进行替换），然后使用该子集中的单词计算联合概率。从100个自举试验中选择一个属的次数被用作对该属分配的置信度的估计。对于高库赋值，我们将每个分类单元下所有属的结果相加。

库比较。

对于1000个以上的细菌分类群中的每一个，将这两个样本进行比较，以估计观察到的成员可能是从单个潜在分布中偶然得出的概率。

对于分配了五个以上序列的分类群，使用标准的两种群比例检验来估计观察到差异的概率(7). 这个P（P）根据Z轴临界值，其中

以及在哪里N个₁和N个₂分别是库1和库2的序列总数，x个和年是分配给分类单元的序列数T型分别来自库1和库2，μ等于(x个+年)/(N个₁+N个₂).

对于分配了少于五个序列的分类群，首先开发了一种统计测试，用于比较“数字北方”分析中的转录水平(2)使用。观察到的分类单元分配差异的概率T型估计如下：

由于每个分类单元都要进行测试（多次测试），因此必须谨慎解释报告的显著性值。分类群（以及测试）是嵌套的，没有尝试对多个测试进行更正。

SeqMatch k-NN分类器。

RDP SeqMatch工具是一个k近邻（k-NN）分类器(8). 它使用不需要对齐的匹配策略来确定查询和序列数据库成员之间共享的七个字符单词的百分比。此工具将查询分配给最高核k数据库序列共享的最低分类单元。对于这里描述的测试，使用Bergey语料库作为数据库，并将查询分配给与Bergey数据库中最接近匹配序列相同的属（有效地，k个= 1). 设置k个到1确保所有查询都按所有分类等级分类，以便与RDP分类器进行比较。

系统发育分析。

在RDP网站上选择对齐的16S rRNA序列，并使用RDP树生成器工具进行分析。此工具使用Weightbor(5)该算法采用加权邻域连接算法进行系统发育重建。Weightbor参数设置为字母大小4和有效序列长度1000，并采用Jukes-Cantor距离校正。Tree Builder使用100个引导样本合并了分支序置信度估计。生成的树以PostScript格式下载，并用Adobe Illustrator进行了修饰。

实施和可用性。

分类器引擎和相关软件是用Java（API v1.4.1）编写的，并使用Sun和Apple的Java虚拟机在Solaris（2.8）、Linux（2.4.23）、Macintosh（OS 10.4）和Microsoft Windows XP操作系统上进行了测试。在线版本的分类器和库比较基于Java技术，包括Java服务器页面和Java Servlet技术（Sun Microsystems）。

分类器的在线版本位于http://rdp.cme.msu.edu/分类器。用户可以提交一个序列或一组序列进行分类。序列可以保存在文件中以进行文件上传或插入到起始页的文本区域。在线分类器要求序列长度至少为200个碱基。最多可以以Fasta、GenBank和EMBL格式提交10000个查询序列。也可以以原始文本格式提交单个序列。分类器会自动检查序列的正向和反向方向，并仅返回正确方向的结果。高于用户特定置信阈值的分类赋值显示在交互式分类层次结构中。层次结构中的每一行都包含摘要信息，包括分类单元的等级和名称以及分配给该分类单元的查询序列数。用户可以通过单击各种分类单元来浏览层次结构。单击“显示分配详细信息”链接将显示用户查询的所有或指定子集的详细分类结果。每个结果都包含用户序列的名称、指定分类群的列表以及相应的置信度估计。在详细视图中，序列名称后的“−”表示序列的负链是由用户提交的。结果可以以文本格式下载，并导入电子表格程序进行进一步分析。

Library Compare的在线版本位于http://rdp.cme.msu.edu/comparation。用户可以从两个库上载包含序列的两个文件。对序列进行分类后，根据默认的置信阈值80%进行统计比较分析。比较结果以分类层次结构显示，便于导航。层次结构视图显示了赋值的摘要和比较的重要性值。标记了在表现上有显著差异的分类群。比较结果也可以显示在按重要性排序的表中。用户可以从这两个页面中选择更改分类置信阈值。然后，将根据用户特定的置信度重新计算分配给每个分类单元的序列数，并进行比较，以获得一组新的统计结果。比较结果和分类赋值都可以以文本格式下载，并导入电子表格程序进行进一步分析。

经过Bergey 5.0版数据培训的Classifier命令行程序，以及源代码、javadoc、示例分类法和序列文件以及帮助文件，可从以下网站免费获得：http://sourceforge.net/projects/rdp-classifier/并根据GNU通用公共许可证的条款发布(http://www.gnu.org/copyleft/gpl.html).

结果

我们通过对整个Bergey语料库进行详尽的leave-on-out测试来测试分类器。对于每个测试，我们从语料库中保留一个序列作为测试序列，并对其余序列重新训练分类器。对语料库中的所有序列重复该过程。该语料库包含453个属，以单个序列表示。对于这些序列，汇总统计中没有考虑（明显）错误的属分配，但结果包括了包含其他具有有效训练集的属的更高等级（图。（图1）。1). 除了测试近全长序列外，我们还对从测试序列中随机选择的400、200、100和50个碱基的小邻接区域重复了RDP分类器的leave-on-out测试。近全长和400碱基片段的总体准确率在属水平上高于88.7%。对于200个碱基片段，准确率在科水平上仍高于92.1%，而在属水平上准确分类的准确率为83.2%。在门水平上，50个碱基片段的准确率仅为94.1%，在属水平上，准确率急剧下降至51.5%。

在单独的窗口中打开

图1。

按查询大小划分的总体分类准确性（使用Bergey语料库进行详尽的leave-on-out测试）。数字是正确分类的测试的百分比。

Bootstrap分析用于估计每个任务的置信度。总的来说，对于近全长序列，97.5%的分类单元分配在100个引导试验中的95个或更多匹配，这些分配98%的时间是正确的（表（表22和和3三).

表2。

Bergey语料库分类器准确性与自举置信度

节段长度（底座）	%在bootstrap置信范围内正确的分类器分配^一:
节段长度（底座）	100-95%	94-90%	89-80%	79-70%	69-60%	59-50%
已满	98	66.4	69.2	41.8	46.2	34.7
400	98.3	86.1	75.9	65.4	61.1	49.2
200	98.2	90.1	83	75.6	64.6	55.7
100	97.4	89.8	82.5	75.6	64.7	55.6
50	94.9	83.9	76.8	67.9	59.5	49.7

在单独的窗口中打开

^一引导置信度反映了100个引导抽样中最常见分配的频率。显示了所有级别和在此引导置信范围内的正确分配百分比。

表3。

Bergey语料库各种查询长度的匹配引导分配百分比

节段长度（底座）	%自举置信范围内的分类测试^一:
节段长度（底座）	100-95%	94-90%	89-80%	79-70%	69-60%	59-50%
已满	97.5	0.5	0.5	0.4	0.4	0.4
400	93.4	1.5	1.4	1	0.9	0.9
200	86.3	3.2	2.8	2	1.9	1.6
100	70.5	6.5	6.6	4.2	3.7	3.1
50	46.2	10.1	10.6	7.4	6.8	6.2

在单独的窗口中打开

^一100个引导抽样中最常见的分配的频率。显示了在最常见引导分配的指定范围内的分类测试百分比。

我们还使用RDP-SeqMatch工具进行了一系列类似的详尽的leave-on-out测试。近全长测试序列的总体准确度与RDP分类器的结果相似：门、纲、目、科和属的等级分别为99.5%、98.8%、97.8%、95.1%和91.9%。

使用RDP 9对齐(8)，我们提取了对应于100个基本区域的大肠杆菌参考序列J01695号以25个基本间隔，并独立使用每个区域进行详尽的leave-on-out测试，从每次测试的训练中删除相应的全长序列。一般来说，映射到16S高变区的区域的准确性更高（图。（图2A）。2年). 在高变量区域，平均引导置信估计值同样较高（图。（图2B2B型).

在单独的窗口中打开

图2。

（A） Bergey语料库的分类准确率，其序列段为100个碱基，每次移动25个碱基。上的灰色条x个axis定义了高变量区域。在所有100个基区中，属级的平均分类准确率为70%。（B）每个段的平均引导置信估计。

对于393个在属水平上被错误分类的近全长序列中的每一个，我们通过使用RDP网站上对应的对齐序列计算序列之间的成对恒等式来确定与Bergey语料库其他成员的距离。对于250个错误分类的序列，不同属中的一个或多个序列比分类学中该序列所属的所有其他序列更接近（表（表44).

表4。

按门划分的近全长序列的属错误分类数（Bergey语料库）

门^一	总计^b条	错误分类的数量（%）	分类异常数量（%）^c（c）
厚壁菌属	1,295	165 (12.7)	80 (6.2)
变形杆菌属	1,641	154 (9.4)	115 (7.0)
放线菌门	1,220	31（2.5）	23（1.9）
拟杆菌纲	192	27 (14.1)	20 (10.4)
蓝藻	14	6 (42.9)	6 (42.9)
梭杆菌门	33	4 (12.1)	2 (6.1)
产水菌门	12	2 (16.7)	1 (8.3)
螺旋体	50	2（4.0）	2（4.0）
绿菌门	12	2 (16.7)	1 (8.3)
其他门	92	0（0）	0 (0)
总体	4,561	393 (8.6)	250 (5.5)

在单独的窗口中打开

^一只列出至少有一个错误分类的门。

^b条属级测试序列的数量，不包括单子序列。

^c（c）不同属中与其最近邻的错误分类序列的数量，表明该属不是单系。

为了理解其中三个错误分类的性质，我们研究了脂环杆菌科家庭。我们选择这个系列是因为它包含三个被RDP分类器错误分类的序列，其中只有一个被SeqMatch错误分类。Bergey对这三个序列的分类位置似乎与衍生的系统发育不一致（图。（图3三).

在单独的窗口中打开

图3。

的系统发育分析脂环杆菌科，包括属硫杆菌属和脂环杆菌11种类型菌株的序列脂环杆菌科在Bergey的分类大纲5.0版中提供，以及四个脂环杆菌科大纲发布后可用的物种类型菌株（用星号标记），以及两个芽孢杆菌用加权邻接法分析种型菌株(5). 树的根是使用大肠杆菌序列J01695为外群。显示了超过85%的引导置信估计。RDP分类器所做的三个错误分类被突出显示，原始（5.0版）描述附加了一个更正的描述。二硫过氧化物链球菌^T型成为A.二硫氧化物^T型2005年，二硫过氧化物链球菌正式重新分类为新组合，A.二硫氧化物(14).热硫氧化物链球菌VKM 1269号^T型成为“A.耐受性K1。“在版本5中，序列Z21979被列为来自热硫氧化物链球菌这与该序列的原始出版物一致(25). 同一组后来报道，该序列可能来自热硫氧化物链球菌应变K1，而非VKM 1269(15). 型菌株的两个独立序列（X91080和AB089844）热硫氧化物链球菌可用。它们几乎相同（0.2%差异），与Z21979的差异为19%。2005年，热硫氧化物链球菌菌株K1被重新分类为一新种的类型菌株，A.耐受性(14). 然而，在我们的分析中，命名论文（登录号AF137502）中给出的K1序列与Z21979的序列相差8%。尽管自年起仍列在GenBank记录中A.耐受性菌株K1、Z21979很可能不是来自菌株K1，甚至不是来自该物种的成员A.耐受性。A.酸杆菌^T型成为芽孢杆菌sp.序列X60602发表于1991年，来自用于嗜酸土霉(1). GenBank记录也列出了来自菌株DSM 3922的菌株，但1992年报道了DSMZ提供的培养物中的菌株混合(27). 2005年，对类型菌株（ATCC 49025，DSMZ列出为等同于DSM 3922）进行了重新排序（AY573797[9]). 这两个序列相差14%，GenBank现在将X60602描述为芽孢杆菌服务提供商。

我们在由NCBI在其分类数据库中分类的23095个16S rRNA序列组成的更加多样化的语料库上测试了分类器的性能。如上所述，我们随机选择了其中20%（4619）的测试集进行离场测试。使用NCBI分类数据库和各种查询长度的准确性与前面的结果非常相似（表（表55).

表5。

不同查询长度的分类器准确性（NCBI的分类法）

节段长度（底座）	%准确识别的节段：
节段长度（底座）	门	等级	订单	家庭	属
已满	99.8	99.3	98.6	97.1	92.1
400	99.7	99.3	98.5	97	90.4
200	99.7	99.2	98.1	95.7	86.6
100	99.2	98.4	95.7	88.9	74.9
50	94.6	90.9	81.6	69.2	52.8

在单独的窗口中打开

讨论

RDP分类器的开发是为了根据rRNA序列数据提供快速的分类位置。随着技术的进步，rRNA数据的获取变得更加容易，这些数据的使用已经超出了专门的分子系统发育学家的范围。对于许多这样的用户来说，完整彻底的系统发育分析可能不是一个选择。相反，这些用户可能只需要一种快速的方法，为他们的未知项提供分类位置。此外，高通量环境rRNA项目通常会在每个样本中产生数百到数十万个序列。想象所有这些序列都会被详细检查是不现实的。对于这些高通量实验，RDP分类器可以提供快速的分类位置和摘要数据，包括属于每个分类单元的输入序列数。

对于接近全长和400个碱基的部分rRNA序列，分类器精确到属水平，而即使有200个碱基的部分序列，分类器也精确到科水平。分类器对于长度为50个碱基的部分序列表现不佳，这可能是由于这种短部分序列提供的特征不足。

对于较短的序列，通过使用bootstrap估计分类可靠性，分类置信度大大提高（表（表2）。2). 在我们的测试中，大多数分类作业都是以高度自信的方式完成的。对于近全长序列，大多数错误分类可能是由于基础分类法中的错误（见下文），但对于较短的序列，错误分类可能反映出缺乏数据。引导程序有助于确定可用数据是否足以进行可靠的分类。大多数可用的rRNA序列都很短（长度小于1200个碱基），短的部分序列通常用于环境调查测序。

朴素贝叶斯分类器是监督分类方法的一个例子。k-NN方法是另一种有监督的分类方法，可以说更简单，并且在实践中通常效果良好(16). 我们比较了RDP朴素贝叶斯分类器和RDP SeqMatch k-NN分类器。我们选择使用SeqMatch进行比较，因为它与RDP分类器一样，是通过RDP提供的。此外，SeqMatch已被证明比BLAST更准确地找到由成对对齐距离定义的最相似rRNA序列(8). RDP分类器和RDP SeqMatch的总体错误率几乎相同。然而，这些错误中只有大约三分之二是常见的（未显示）。对于这两种分类器，许多错误分类似乎都是由基础分类法中的错误造成的（未显示）；然而，这两个分类器对特定分类异常的反应往往不同。

RDP分类器使用Bergey语料库对393个错误分类中的许多（如果不是大多数的话）可能是由于潜在的（16S rRNA）系统发育和Bergey分类之间的差异。超过60%的错误分类序列实际上与其他属的序列更相似，而不是与本属的序列相似，这有力地证明了这些属可能不是单系的。这些错误分类在分类群中的分布并不均匀。在三个最具代表性的门中(厚壁菌属,变形杆菌属、和放线菌门)，的放线菌门错误最少（3%，或1220个试验中的31个），而厚壁菌属约为其5倍（13%，或1295次试验中的165次）。在厚壁菌属，超过三分之二的错误发生在课堂上梭菌属（449个试验中的108个），在该类别中真杆菌属在41个试验中有30个错误分类（见补充材料）。

为了确定分类学中错误来源的例子，我们对该家族中的分类错误进行了系统发育分析脂环杆菌科（图。（图3）。三). RDP分类器从脂环杆菌科:二硫氧化物硫杆菌和嗜热硫氧化硫化杆菌，这两个都被错误地归类于该属脂环杆菌、和耐热菌，在属中被错误分类芽孢杆菌.SeqMatch仅分类错误嗜酸土霉有趣的是，RDP分类器所犯的这三个“错误”似乎与系统发育分析一致。文献检索证实，在Bergey 5.0版分类学大纲出版之后，所有三个分类学概要都按照RDP分类器给出的分类进行了重新评估。菌株最初归因于硫杆菌属都在2005年重新评估并重新分配到该属脂环杆菌，匹配RDP分类器的分类，但不再匹配SeqMatch中的分类。该序列最初归因于A.酸杆菌是文化融合的结果，属于该属芽孢杆菌，由两个分类器指定。与SeqMatch最近邻分类器不同，RDP朴素贝叶斯分类器使用整个属的平均信息，因此受个别错误放置的训练序列的影响较小。

焦频现在可以在不到8小时内产生高达100 Mb的电流（罗氏产品文献）。Sogin及其同事最近使用了第一个版本的焦磷酸测序技术，该技术提供了高达100 bp的读数，可以快速分析环境样本中大量的16S rRNA V6可变区域(23). 在该研究中，通过与经审查的V6序列参考数据库成员的比对来评估分类多样性。沿着16S rRNA分子的不同区域，RDP分类器对100碱基片段的分类精度差异很大（图。（图2）。2). 一般来说，可变区域的分类比更多保护区域更准确。可变区域V2和V4(20)在属和科水平上（在所有置信水平下），正确分类的比率分别高达82%和90%，而包含V6区域的片段的准确度则不太可靠（在属水平上为73%）。V6区域相当小（46个碱基），两侧是高度保守的区域(6). 相反，V2区两侧各有一个，而V4区在3′侧各有一部分半晶区。这些区域可能解释了这些可变区域的精确度增加和峰值变宽的原因。随着焦磷酸测序技术读取长度的增加，这些区域可能成为良好的靶区。

在细菌学中，虽然命名法由官方代码管理，但并没有明确或官方的分类法。RDP分类器不仅限于使用Bergey提出的细菌分类法原核生物分类大纲(13). 我们选择使用Bergey的分类法，因为它很容易获得，而且伯杰氏系统细菌学手册在微生物界广受尊重。在接受NCBI分类法培训时，RDP分类器同样工作良好。这两种分类法之间有着显著的一致性，并且两者至少部分地基于系统发育原理。RDP分类器可能适用于未来可能获得认可的其他系统发育相关细菌分类。

对于来自分类法定义较少的细菌多样性区域的查询序列，RDP分类器倾向于提供具有低置信度估计的分类结果。例如，在一个酸性细菌环境克隆序列中，77个序列中有72个被分类，即使在门的水平上也不到80%的置信度（未显示）。这样的低置信度分类结果可能有助于确定更彻底的分析可能会产生最高回报的序列。

RDP分类器的速度足以处理大量样本。例如，在2.66-GHz Apple Intel Xeon处理器上，该程序每秒分类大约9个序列（每个序列有100个引导样本）。分类器的在线版本在几分钟内返回多达10000个用户序列的提交结果，并提供摘要和详细的分类分配。Library Compare工具能够根据分类组的分配来分析微生物群落的组成。此工具利用分类器快速比较两个样本，每个样本包含多达5000个序列。结果可以交互浏览，也可以以适合导入通用电子表格程序的形式下载。

RDP在内部使用RDP分类器和Bergey分类法已有4年多的时间，以便收集300000多个细菌rRNA序列。在此期间，RDP更新了分类器，以使用Bergey分类大纲的三个连续版本中的数据。随着物种的重新评估和差异的解决，这种分类学仍在发展。随着这些更新的发布，重新培训分类器并更新RDP库中序列的赋值相对简单。随着细菌分类法的不断发展，我们预计分类器的性能将继续提高。

补充材料

[补充材料]

单击此处查看。

致谢

本研究得到了美国能源部科学办公室（BER）的资助，资助项目为DE-FG02-99ER62848，国家科学基金会资助项目为DBI-0328255。

我们感谢Sue Barnes允许我们访问她未发表的序列数据，并感谢Phillip Neal提出的建设性建议。

脚注

^▿2007年6月22日提前出版。

^†本文的补充材料可以在http://aem.asm.org/.

参考文献

1Ash，C.、J.A.E.Farrow、S.Wallbanks和M.D.Collins。通过小亚单位核糖体RNA序列的比较分析揭示了芽孢杆菌属的系统发育异质性。莱特。应用。微生物。 13:202-206年。[谷歌学者]

2Audic，S.和J.M.Claverie。1997年。数字基因表达谱的意义。基因组研究。 7:986-995. [公共医学][谷歌学者]

三。Benson，D.A.、I.Karsch-Mizrachi、D.J.Lipman、J.Ostell、B.A.Rapp和D.L.Wheeler。2000.GenBank。核酸研究。 28:15-18.[PMC免费文章][公共医学][谷歌学者]

4布朗，M.P.S。1999使用随机无上下文文法进行RNA建模。博士论文。加州大学圣克鲁斯分校。

5Bruno，W.J.、N.D.Socci和A.L.Halpern。加权邻域连接：一种基于距离的系统发育重建方法。分子生物学。进化。 17:189-197. [公共医学][谷歌学者]

6Cannone，J.J.，S.Subramanian，M.N.Schnare，J.R.Collett，L.M.D'Souza，Y.Du，B.Feng，N.Lin，L.V.Madabusi，K.M.Muller，N.Pande，Z.Shang，N.Yu和R.R.Gutell。2002.比较RNA网站（CRW）：核糖体、内含子和其他RNA比较序列和结构信息的在线数据库。BMC生物信息学三:2[PMC免费文章][公共医学][谷歌学者]

7H.B.克里斯滕森。1992统计学导论：基于计算的方法第1版，第510-512页。佛罗里达州奥兰多市Harcourt Brace Jovanovich公司。

8Cole、J.R.、B.Chai、R.J.Farris、Q.Wang、S.A.Kulam、D.M.McGarrell、G.M.Garrity和J.M.Tiedje。2005.核糖体数据库项目（RDP-II）：用于高通量rRNA分析的序列和工具。核酸研究。 33:D294-D296。[PMC免费文章][公共医学][谷歌学者]

9康纳·C·J、H·罗、B·B·M·加德纳和H·H·王。2005.针对16S rRNA基因序列开发基于实时PCR的系统，用于快速检测脂环杆菌果汁制品中的spp。国际食品微生物学杂志。 99:229-235. [公共医学][谷歌学者]

10DeSantis、T.Z.、I.Dubosarskiy、S.R.Murray和G.L.Andersen。2003.使用16S rDNA自动设计有效探针（CASCADE-P）的综合比对序列构建。生物信息学 19:1461-1468. [公共医学][谷歌学者]

11多明戈斯、P.和M.帕扎尼。1997。关于零损失下简单贝叶斯分类器的最优性。机器学习 29:103-130.[谷歌学者]

12Garrity，G.M.、J.A.Bell和D.B.Searles。2001.原核生物分类大纲。伯杰系统细菌学手册，第2版，1.0版。Springer-Verlag，纽约州纽约市。

13Garrity，G.M.，J.A.Bell和T.G.Lilburn。2004年。原核生物分类大纲。伯杰系统细菌学手册第2版，5.0版。Springer-Verlag，纽约州纽约市。

14Karavaiko，G.I.，T.I.Bogdanova，T.P.Tourova，T F.Kondrat′eva，I.A.Tsaplina，M.A.Egorova，E.N.Krasil'nikova和L.M.Zakharchuk。2005年重新分类嗜热硫氧化硫化杆菌第（b）小节。耐热性'应变K1为耐脂环杆菌sp.11月和二硫氧化物硫杆菌Dufresne等人，1996年二硫过氧化物脂环杆菌梳子。11月，修订了该属的描述脂环杆菌.国际期刊系统。进化。微生物。 55:941年至947年。[公共医学][谷歌学者]

15卡拉瓦ĭko，G.I.，T.P.Turova，I.A.Tsaplina和T.I.Bogdanova。2000.硫杆菌属中需氧、中度嗜热细菌氧化铁的系统发育位置²⁺，S⁰和硫化物矿物。米克罗比奥里亚 69:857-860. [公共医学][谷歌学者]

16Li、Y.H.和A.K.Jain。1998年文本文件的分类。计算。J。 41:537-546.[谷歌学者]

17Lozupone，C.和R.Knight。2005.UniFrac：一种用于比较微生物群落的新系统发育方法。应用。环境。微生物。 71:8228-8235.[PMC免费文章][公共医学][谷歌学者]

18Maidak，B.L.、N.Larsen、M.J.McCaughey、R.Overbeek、G.J.Olsen、K.Fogel、J.Blandy和C.R.Woese。1994年，核糖体数据库项目。核酸研究。 22:3485-3487.[PMC免费文章][公共医学][谷歌学者]

19马丁·A·P。2002。描述和比较微生物群落多样性的系统发育方法。应用。环境。微生物。 68:3673-3682.[PMC免费文章][公共医学][谷歌学者]

20Neefs，J.M.、Y.Van de Peer、P.de Rijk、S.Chapelle和R.de Wachter。小核糖体亚单位RNA结构的编译。核酸研究。 21:3025-3049.[PMC免费文章][公共医学][谷歌学者]

21Sandberg，R.、G.Winberg、C.I.Branden、A.Kaske、I.Ernberg和J.Coster。2001.使用朴素贝叶斯分类器在短序列中捕获全基因组特征。基因组研究。 11:1404-1409.[PMC免费文章][公共医学][谷歌学者]

22Singleton，D.R.、M.A.Furlong、S.L.Rathbun和W.B.Whitman。2001.环境样品16S rRNA基因序列库的定量比较。应用。环境。微生物。 67:4374-4376.[PMC免费文章][公共医学][谷歌学者]

23Sogin，M.L.、H.G.Morrison、J.A.Huber、D.M.Welch、S.M.Huse、P.R.Neal、J.M.Arrieta和G.J.Herndl。2006.深海和未充分开发的“稀有生物圈”中的微生物多样性程序。国家。阿卡德。科学。美国 103:12115-12120.[PMC免费文章][公共医学][谷歌学者]

24Stackebrandt，E.、W.Frederiksen、G.M.Garrity、P.A.D.Grimont、P.Kämpfer、M.C.J.Maiden、X.Nesme、R.Rosselló-Mora、J.Swings、H.G.Trüper、L.Vauterin、A.C.Ward和W.B.Whitman。2002.重新评估细菌学物种定义特设委员会的报告。国际期刊系统。进化。微生物。 52:1043-1047. [公共医学][谷歌学者]

25Turova，T.P.，A.B.Poltoraus，I.A.Lebedeva，E.S.Bulygina，I.A.Tsplina，T.I.Bogdanova和G.I.Karavaiko。1995.确定嗜热硫氧化硫化杆菌在5S和16S核糖体RNA分析的基础上。米克罗比奥里亚 64:366-374. [公共医学][谷歌学者]

26Wheeler，D.L.，C.Chappey，A.E.Lash，D.D.Leipe，T.L.Madden，G.D.Schuler，T.A.Tatusova和B.A.Rapp。2000.国家生物技术信息中心的数据库资源。核酸研究。 28:10-14.[PMC免费文章][公共医学][谷歌学者]

27Wisotzkey，J.D.、P.Jurtshuk、G.E.Fox、G.Deinhard和K.Poralla。1992年。16S rRNA（rDNA）的比较序列分析嗜酸乳杆菌,酸杆菌s、和环庚芽孢杆菌并建议创建一个新属，脂环杆菌第11代。国际期刊系统。细菌。 42:263-269. [公共医学][谷歌学者]

28Woese、C.R.、O.Kandler和M.L.Wheelis。1990.朝向生物的自然系统：古生菌、细菌和真核生物领域的提议。程序。国家。阿卡德。科学。美国 87:4576-4579.[PMC免费文章][公共医学][谷歌学者]

文章来自应用与环境微生物学由以下人员提供美国微生物学会（ASM）

用于rRNA序列快速分配到新细菌分类中的朴素贝叶斯分类器▿ †

王琼（音）

乔治·M·加里蒂

詹姆斯·M·蒂杰

詹姆斯·科尔

关联数据

摘要

材料和方法

使用Bergey分类法键入序列。

表1。

用NCBI的分类法完成rRNA数据库序列。

算法。

特定于单词的优先级。

特定于基因的条件概率。

天真的贝叶斯赋值。

引导置信估计。

库比较。

SeqMatch k-NN分类器。

系统发育分析。

实施和可用性。

结果

表2。

表3。

表4。

表5。

讨论

补充材料

致谢

脚注

参考文献

用于rRNA序列快速分配到新细菌分类中的朴素贝叶斯分类器^▿ ^†