摘要

小结:多位点序列分型(MLST)是一种广泛应用的细菌分离鉴定方法。已应用于50多个不同物种的50000多个分离株。在这里,我们提出了一种联合方法来联合模拟MLST数据和产生样本的克隆谱系。

可用性和实施:SimMLST是用C++和Qt4实现的图形用户界面。它是根据GNU通用公共许可证的条款分发的。Windows和Linux的源代码和二进制文件可从http://go.warwick.ac.uk/SimMLST. 程序提供了用户指南和算法的技术说明。

联系人:十、 Didelot@warwick.ac.uk

1简介

多位点序列分型(MLST)是由Maiden提出的等等。(1998)作为一种鉴定特定物种细菌分离物的方法。它依赖于多个400-500bp的管家基因片段的测序来确定一个分离物的类型。MLST最初被提出用于分离菌株的分型脑膜炎奈瑟菌(少女等等。,1998),但已应用于50多个不同物种的50000多个分离物(处女,2006乌温和少女,2003). MLST结果很容易在实验室之间共享和比较(Urwin和Maiden,2003),并定期在http://pubMLST.org/牛津大学主办的网站http://www.mlst.net/帝国理工学院和http://web.mpib-berlin.mpg.de/mlst/由马克斯普朗克研究所主办的网站。

在中性模型下模拟MLST的能力有助于解释采样数据集,例如,推断进化参数(Fearnhead)的值等等。,2005;弗雷泽等等。,2005),来分析选择所扮演的角色(巴基等等。,2008),应用近似贝叶斯计算方法(Marjoram等等。,2003;威尔逊等等。,2009)或者是为了测试系谱推断的方法(狄德罗和法鲁什,2007;假动作等等。,2006;特纳等等。,2007). 对于最后一项任务,有必要模拟克隆系谱(Guttman,1997)这就产生了数据以及数据本身。

MLST仿真的几种方法已经被描述过。两个弗雷泽等等。(2005)还有法鲁什等等。(2006)使用了一种时间向前的方法,它需要模拟整个群体(而不仅仅是一个样本)并等待达到平衡。费恩黑德等等。(2005)使用反向时间(联合)模拟程序MS(Hudson,2002)产生一个大的遗传区域,其中包含彼此相距较大(10kb)的MLST基因座。在这里,我们提出了一种更有效的方法来模拟MLST数据。

2型号

我们假设的基本模型是结合基因转化(Wiuf和Hein,2000). 这个模型类似于流行的结合重组(Hudson,1983),但假设当两个细胞重组时,产生的基因组除了来自供体的一个(小)相邻片段外,与受体基因组完全相同。由于细菌中的重组是这样发生的(无论是通过接合、转化还是转导),结合基因转化是模拟MLST数据的合适模型。我们跟着维夫和海因(2000)假设一个基因转化事件在基因组上的任何一点都有同样的可能性,并且输入的长度是几何分布的参数δ,这与经验证据(Falush)一致等等。,2001;费恩黑德等等。,2005;乔利等等。,2005).

3算法

威夫和海因(2000)提出了一种基于基因转化的单基因座模拟算法。这里我们从三个方面扩展了他们的算法。利用dideloush的多轨迹模拟结果进行了仿真(2007,式4),即复合的起始点是在轨迹开始处的可能性比在轨迹内某个位置的可能性大δ倍。第二,我们只模拟祖先的材料(哈德逊,1983;2002)每个血统的效率,也就是说,在样本中至少有一个个体的祖先位置。我们使用排斥抽样来忽略任何没有将血统的祖先物质分裂成两个非空子集的重组事件。第三,我们共同模拟克隆谱系(Guttman,1997)有了数据。克隆谱系是通过追踪每个重组事件中的受体谱系获得的。克隆系谱的正确模拟需要允许它不携带任何祖先材料,不像上面描述的其他血统。

图1举例说明了我们的算法对三个分离株和两个基因的作用。样本的祖先可以追溯到时间上,直到所有分离物在所有地点找到一个共同的祖先。克隆系谱用黑体字表示图1. 第二个分离物是重组的结果,其中第二个基因片段被导入,第一个分离物的第一个基因从克隆根上方导入。重组使不同的基因片段具有不同的谱系:尽管分离株2和3在第一个基因中的亲缘关系最密切,但在第二个基因的插入片段中,菌株1和2的亲缘关系最为密切。

图1。

三个分离株和两个基因座模拟样本的系谱史。每个基因座都由一个方框表示,其中祖先的物质是灰色的。克隆谱系以粗体显示。

图1。

三个分离株和两个基因座模拟样本的系谱史。每个基因座都由一个方框表示,其中祖先的物质是灰色的。克隆谱系以粗体显示。

我们的算法通过简单地重新调整祖先图中的时间尺度(Griffiths和Tavare,1994)我们允许通过使用类似于MS(Hudson,2002). 然后通过在祖先图上添加突变作为Poisson过程来生成数据。我们使用朱克斯和康托的突变模型(1969)默认情况下,但我们的程序可以与seq gen(Rambaut和Grass,1997)来模拟其他各种模型。

4结论

SimMLST联合模拟MLST数据和分离株之间的克隆关系。它以灵活的扩展多Fasta对齐(XMFA)格式输出MLST数据,并以Newick格式输出克隆系谱。SimMLST还可以与图形绘图包DOT(Gansner)一起使用等等。,1993)代表一个样本的全部谱系史(如图1).

SimMLST比以前的方法更有效,因为它只模拟对数据有影响的重组事件,而不是那些从测序区域或血统的祖先材料中掉出来的事件。因此,它生成的模拟数据的祖先图的大小是最优的。与所有基于聚结的方法一样,SimMLST的时间和内存需求随着总复合速率ρ的增加而线性增加。然而,它可以支持高达几千的ρ值,这比任何细菌种类(Didelot和Falush,2007;费恩黑德等等。,2005;弗雷泽等等。,2005;乔利等等。,2005).

SimMLST的高效性有助于从模拟中推断进化参数,这通常需要生成数千个参数范围广泛的数据集。它还需要生成比MLST更大的数据集(在测序位点的数量中),其中ρ将更高。假设每个位点的重组率与MLST数据中观察到的相似脑膜炎球菌,SimMLST可以生成多达几百千的数据集。然而,为了模拟频繁重组物种的整个基因组,需要一个近似的结合与基因转换过程。

致谢

作者感谢编辑和两位匿名评论员的深刻评论。

基金:威康信托。

利益冲突:未声明。

参考文献

巴基
一氧化碳
,等
选择在脑膜炎奈瑟菌谱系形成和毒力进化中的作用
程序。国家学院。科学。美国
2008
,卷
105
(第
15082
-
15087
)
迪德洛
法卢什
D
利用多位点序列数据推断细菌微进化
遗传学
2007
,卷
175
(第
1251
-
1266
)
法卢什
D
,等
长期胃定植过程中的重组和突变幽门螺杆菌:时钟频率、重组大小和最小年龄的估计
程序。国家学院。科学。美国
2001
,卷
98
(第
15056
-
15061
)
法卢什
D
,等
沙门氏菌错配诱导物种形成:模型和数据
菲洛斯。翻译。R、 Soc。B生物。科学。
2006
,卷
361
(第
2045
-
2053
)
费恩黑德
P
,等
重组分析空肠弯曲杆菌从MLST人口数据
J、 分子进化。
2005
,卷
61
(第
333
-
340
)
弗雷泽
C
,等
细菌病原菌的中性微流行病学进化
程序。国家学院。科学。美国
2005
,卷
102
(第
1968
-
1973
)
甘斯纳
E
,等
一种绘制有向图的技术
IEEE传输。软。工程。
1993
,卷
19
(第
214
-
230
)
格里菲斯
R
塔瓦雷
S
不同环境中中性等位基因的抽样理论
菲洛斯。翻译。R、 Soc。B生物。科学。
1994
,卷
344
(第
403
-
410
)
古特曼
D
大肠杆菌自然群体的重组与克隆性
趋势生态。进化。
1997
,卷
12
(第
16
-
22
)
哈德逊
RR
具有基因内重组的中性等位基因模型的性质
理论。平民。生物。
1983
,卷
23
(第
183
-
201
)
哈德逊
RR
基于Wright-Fisher中性遗传变异模型的样本生成
生物信息学
2002
,卷
18
(第
337
-
338
)
乔利
灵魂
,等
突变、重组、群体历史和选择对遗传多样性模式的影响脑膜炎奈瑟菌
生物分子。进化。
2005
,卷
22
(第
562
-
569
)
朱克斯
真实航向
康托
CR公司
门罗
HN公司
蛋白质分子的进化
哺乳动物蛋白质代谢。
1969
纽约,纽约
学术出版社
(第
21
-
132
)
少女
美赞臣
,等
多位点序列分型:鉴定病原微生物群内克隆的一种简便方法
程序。国家学院。科学。美国
1998
,卷
95
(第
3140
-
3145
)
少女
细菌多位点序列分型
每年。版次。微生物学。
2006
,卷
60
第页
561
-
588
)
马约兰
P
,等
无概率马尔可夫链蒙特卡罗
程序。国家学院。科学。美国
2003
,卷
100
(第
15324
-
15328
)
兰巴特
A
N
Seq-Gen:DNA序列进化树蒙特卡罗模拟的一个应用
生物信息学
1997
,卷
13
(第
235
-
238
)
特纳
K
,等
利用已知祖先的模拟群体评估爆发的可靠性
BMC微生物学。
2007
,卷
7
第页
30
 
乌温
R
少女
多位点序列分型:全球流行病学的工具
趋势微生物学
2003
,卷
11
(第
479
-
487
)
威尔逊
流行音乐播音员
,等
胃肠道致病菌空肠弯曲菌的快速进化及其重组的重要性
生物分子。进化。
2009
,卷
26
(第
385
-
397
)
威夫
C
海因
J
基因转化的结合
遗传学
2000
,卷
155
(第
451
-
462
)

作者笔记

副主编:马丁·毕肖普