跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2015年6月2日;112(22):7067–7072。
2015年5月4日在线发布。 数字对象标识:10.1073/pnas.1505691112
预防性维修识别码:项目经理4460456
PMID:25941365
来自封面

疟疾基因组学建模揭示了塞内加尔的传播下降和反弹

关联数据

补充资料

重要性

基于蚊子抽样的疟疾传播估计的传统方法没有标准化,在撒哈拉以南非洲许多国家也没有这种方法。当传播率较低时,此类研究尤其难以实施,而低传播率是消除疟疾的目标。塞内加尔的疟疾控制工作导致了种群基因组学的变化,寄生虫基因组间的等位基因共享增加证明了这一点,通常包括独立取样的寄生虫之间的基因组鉴定。根据观察到的数据拟合流行病学模型表明,2006年至2010年传播率下降,2012年至2013年出现显著反弹,这一推论得到了发病率数据的证实。这些结果表明,基因组方法可能有助于监测传播,以评估控制疟疾干预措施的初始和持续有效性。

关键词:疟疾、基因组学、流行病学

摘要

为了研究疟疾控制干预对疟原虫种群基因组的影响,我们检测了1007份疟原虫样本恶性疟原虫2006年至2013年在塞内加尔蒂耶斯收集。使用24个SNP的分子条形码对寄生虫样本进行基因分型。大约35%的样本被分为具有相同条形码的子集,条形码的大小逐年变化,有时会持续多年。条形码还形成了相关群体的网络。对164个完全测序的寄生虫的分析表明,基因组区域广泛共享。在至少两个案例中,我们发现样本中也存在基因组与父母基因组相似或相同的第一代重组后代。追踪寄生虫基因型的流行病学模型可以重现条形码子集的观察模式。模型中可能性的量化强烈表明2006年至2010年的传播减少,2012年至2013年出现显著反弹。Thisès的发病率数据直接证实了传播和反弹的减少。这些发现表明,为控制疟疾而进行的密集干预会导致寄生虫种群基因组学的快速而显著的变化。研究结果还表明,基因组学与流行病学建模相结合,可以快速、持续、经济高效地跟踪疟疾消除进展。

减少疟疾负担的强化干预措施在非洲一些国家已证明是成功的(1). 在塞内加尔的某些地区,2006年实施了一项重新设计的国家疟疾控制计划,其中包括快速诊断测试、青蒿素联合疗法、强化驱虫蚊帐和室内残留喷洒,到2009年,确诊病例数量减少了95%以上(2). 自2006年以来,我们每年都在其中一个地区收集寄生虫样本。这些样本提供了一个独特的机会,可以确定寄生虫群体遗传变化中的强化干预程度。遗传变化预计将包括寄生虫种群规模的瓶颈、随机遗传漂变的增加、遗传变异的减少、传播过程中的自我受精增加以及等位基因共享和血统身份的增加。

追踪疟疾消除情况的一个关键问题是,这种基因组变化是否足够大,以成本效益高的方式在合理大小的样本中检测到。如果在干预后寄生虫种群基因组的变化发生得足够快,并且变化幅度足够大,可以检测到,那么寄生虫基因组可以在消除疟疾方面发挥重要作用。鉴于寄生虫基因组学的变化具有足够快速的发生和可检测性,原则上可以使用包含寄生虫基因型的流行病学模型来估计与基因组观察结果最为匹配的流行病学参数。对传染强度等流行病学参数的估计将有助于了解当地的疾病情况,以便能够实时评估干预策略的效果,并在必要时进行调整。事实证明,这种方法在传播率低的地区尤其有用,因为在这些地区,经典的流行病学方法只能在非常困难的情况下应用,而在致力于疟疾控制的人员不容易或不安全地接触到的地区,这种方法尤其有用。

在本文中,我们表明,来自塞内加尔蒂耶斯纵向样本中24个SNP的条形码数据在8年内的适度样本数量(100-200个样本/年)揭示了加强干预后寄生虫种群基因组变化的快速且容易检测的信号。此外,包含寄生虫基因型的流行病学模型可以重现观察到的条形码模式。使用可能性对传播模型中的流行病学参数进行估计,强烈表明2006年至2010年传播减少,2012年至2013年出现显著反弹。Thisès的发病率数据直接证实了2006年至2010年加强干预后疟疾传播率下降,2012年至2013年出现反弹。我们的研究结果表明,基因组学与流行病学建模相结合,可以快速、连续、成本效益高地跟踪消除疟疾的进展。

结果

独立样本之间的基因组相关性。

为了寻找与干预相关的基因组信号,我们研究了恶性疟原虫2006年至2013年期间,来自塞内加尔蒂亚斯。

所有样本均进行了24个非连锁SNP的基因分型,构成了一个分子条形码,并对单个基因组(单基因组感染)或多个不同基因组(多基因组感染)的存在进行了分析(——5). 单基因组感染样本用于进一步分析。我们发现,2006年后,随着干预力度的加大,SNP等位基因的等位基因频率每年都会发生显著变化。等位基因频率的这种波动提供了对方差有效种群大小的估计,这是衡量寄生虫基因组间生殖成功一致性的一个指标:方差有效大小越小,生殖成功的变异越大。方差有效大小的最大似然估计值表明,2006年之后,方差有效大小至少减少了10倍,之后方差有效大小估计值在10-40左右波动(SI附录,表S1)。

有效种群数量减少的其他证据是,从不同患者、不同家庭、集水区不同地点以及整个传播季节(8月至1月)不同时间的单基因组感染中采集的寄生虫样本通常发生在每个寄生虫基因组显示相同24-SNP条形码的亚群中(SI附录,图S1A类数据集S1). 此外,在不同年份的寄生虫样本中发现了定义这些亚群的条形码,一种情况下,样本间隔为3年,另一种情况是样本间隔为7年(SI附录,图S2A类)。

对2006年至2013年样本的详细分析还显示,基于24-SNP条形码的相似性,许多寄生虫基因组显然与其他基因组密切相关。图中显示了一个网络,该网络显示了65个寄生虫基因组样本之间的条形码相关性,这些基因组也已全部测序图1A类(另请参见SI附录,图S3). 许多相关样本与子集共享多个条形码等位基因。图1A类,除灰色外的每种颜色对应于样本中重复三次或更多次的条形码;灰色对应于一个或两个样本中的条形码。在连接线中,边缘厚度的增加表明寄生虫类型之间的相关性更大,从95.8%到100%的相关性(零或一个SNP差异,由最粗的线表示),到79-87.4%的相关性(五个SNP差别,由最细的线指示)。

保存图片、插图等的外部文件。对象名为pnas.1505691112fig01.jpg

寄生虫分离物之间的相关性。(A类)基于条形码之间遗传距离的条形码相关性网络(19),其中边缘厚度表示同一程度。最厚的边连接95.8–100%相关(相同或一个SNP差异)的样本,最薄的边连接87.5%相关(五个SNP差别)以下的样本。彩色圆点表示条形码在样本中出现三次或三次以上;灰色表示出现一两次。(B类)基于全序列数据的样本相关性网络,其中边缘厚度表示通过下降相同的基因组部分;节点颜色对应于A类.红色方形和圆形表示包含寄生虫样本SenT120.11的双亲的簇。

为了确定单基因组感染中重复条形码的观察是否与传播强度有关,我们分析了2009-2010年从马拉维患者收集的97例单基因组感染的寄生虫中的24-SNP条形码(数据集S2). 与塞内加尔采集的样本不同,我们没有发现具有相同条形码的样本子集,如图1A类; 我们将这一发现归因于马拉维持续的高传播率(1)。

为了排除条形码相关性是基因分型伪影的可能性,仅对24个SNP、164个寄生虫基因组进行了完全测序(数据集S3)主要来自于2008年至2012年采集的寄生虫样本,包括所有条形码显示在图1A类(6). 共享重要序列块的基因组连接网络如所示图1B类(另请参见SI附录,图S4),其中颜色与中的条形码相对应图1A类毫不奇怪,与全基因组测序相比,24-SNP条形码提供的关于等位基因共享的信息不太完整,并且条形码检测到的一些较弱的关系没有得到基因组序列的确认。然而,通过24-SNP条形码网络检测到的主要相关寄生虫群在整个基因组中明显相关。

根据对来自Thisès的164个完全测序的寄生虫基因组的分析,在24-SNP条形码中选择最佳SNP可以自信地检测到基因组中相关性超过70%的寄生虫,而96个SNP的优化扩展条形码可以自信地探测到50%或更多的基因组相关性(SI附录,图S5). 对于24-SNP和96-SNP条形码,从条形码身份推断全基因组身份的限制因素是全基因组序列身份较低时的广泛条形码身份。

全基因组测序还显示了独立寄生虫样本之间共享的基因组序列块。图2A类显示了成对菌株之间共享的基因组序列块的大小分布。这些块的大小从10 kb到>3 Mb不等(寄生虫基因组大小为23 Mb),共享块长度的分布近似呈指数分布。这些共享序列块似乎也与传播强度有关,因为对23个来自马拉维的寄生虫基因组进行了分析,这些基因组是在它们的全部序列中测序的(数据集S3)没有显示共享序列块的证据,如图2A类

保存图片、插图等的外部文件。对象名为pnas.1505691112fig02.jpg

共享序列块的大小分布。(A类)已测序的分离物中不相同的分离物对之间按血统(共享序列块)划分的同一区域的大小分布。(B类)样本SENT120.11基因组片段的父母起源。彩色段通过血统显示身份(由隐藏的马尔可夫模型分配)到两种父类型(蓝色和橙色)、两种类型(黑色)或两者都不显示(灰色)。

测序基因组之一(SenT120.11,表示为图1B类)很明显,它是与两个相邻组相关的父母之间杂交的后代,实际上,与父母几乎相同的基因组包含在这两个组中(SenT036.10在椭圆形中,SenT136.11在方形中)。图2B类显示了大片段基因组与父母的明显分离。一些染色体在这种特殊的减数分裂中没有进行重组:例如,染色体3完全来自SenT036.10亲本,而染色体9完全来自SenT136.11亲本。顶端体和线粒体DNA的比较表明,SenT036.10亲本为这一杂交提供了雌性配子体。SI附录,图S6显示了SenT069.11基因组中大的共享区块的类似模式,这与该菌株是基本上与SenT131.10(雌性配子体)和SenT058.10(雄性配子体。在这种情况下,五条染色体来自父母中的一方或另一方,没有重组的证据。

疟疾流行病学的影响。

中的结果图1和2,2,以及SI附录,图S1A类,S2A类、S3、S4和表S1显示了预计伴随寄生虫种群数量急剧减少而出现的基因组特征,包括增加的随机遗传漂变、等位基因共享、近亲繁殖和血统鉴定。然而,假设有人不知道塞内加尔在抽样期间采取了积极的疟疾控制措施。仅仅基因组标志是否意味着发病率有了显著下降?或者假设在采取控制措施的人群中,这种基因组特征开始发生变化。这种变化是否意味着控制正在失去效力?

基于现有基于代理的模型中疟疾传播动力学的简化(7)为了解决这些问题,我们添加了寄生虫基因组动力学来构建一个联合的基因流行病学模型。遗传流行病学模型是随机的,包括寄生虫谱系灭绝、克隆繁殖存活、异交和迁移。在模型中()个体人类宿主经历相同的感染风险;(ii(ii))允许多基因感染的多种寄生虫的载体-宿主共传递;()多重感染个体中无关寄生虫之间的基因重组相当于从现有人群中随机选择的两个基因组之间的重组;和(iv(四))24个SNP条形码基因座是非连锁的,因此每对SNP等位基因独立分离。

校准收集的条形码数据时使用的自由参数包括血统灭绝率、移民率、人口规模、多年期开始时的繁殖率(R(右)0)2006年至2010年线性过渡后的价值(R(右)0b条)以及2012年以后的价值(R(右)0c(c)). 请注意R(右)0是季节性变化的繁殖率的最大值(SI附录,SI支持信息). 这个分段函数R(右)0使我们能够评估这些固定间隔之间的传播是否显著增加或减少。

实现了一种增量混合重要性抽样(IMIS)算法,以高效准确地将流行病学模型的参数拟合到蒂耶斯观察到的条形码模式(8,9). 首先,在参数空间的六个自由维中,从均匀先验中采样一组初始仿真参数。基于在参数空间中每个样本点计算的似然值,进行迭代过程,直到样本的加权混合足以表示指定精度的后验概率分布(SI附录,SI支持信息和表S2)。

对于参数空间中的每个点,从不同的随机种子开始进行了20次模拟,在旺季期间每年对随机寄生虫条形码进行采样,并按照蒂耶斯的实际数据进行分析。使用以下七个汇总统计数据,根据测量值和模型模拟之间的偏差构建了一个似然度量:()多基因感染的比例;(ii(ii))测量年份内唯一的采样条形码数量;()一年内采样两次的条形码数量;(iv(四))每年采样两次以上的条形码数量;(v(v))持续时间超过2、3、4、5和>5年的条形码数量(考虑到间隔内缺失的年份);(不及物动词)持续时间超过2年的新条形码数量;和(vii(七))至少2年后消失的持久条形码数量。详细信息见SI附录,SI支持信息

对于这些特征中的每一个,单独的偏差度量值被计算为归一化为估计方差的平方差之和。模拟数据中的方差是通过多次随机实现来估计的,实际数据中的不确定性是通过二项式统计来计算的,假设不同年份构成独立的测量值。

从模型拟合中采样的单个高似然模拟的结果如所示图3中的条形图图3A类显示样本中唯一或实际数据子集中存在的寄生虫条形码的年度比例,与中显示的模拟数据相比图3B类。有关模拟数据子集的数量和大小的更多详细信息,请参阅SI附录,图S1B类,多年来的坚持不懈表现在SI附录,图S2B类。相同模拟的模拟寄生虫基因组动力学如所示图4A类由于生育率季节性变化,2006年至2010年生育率下降,2012年至2013年出现反弹。

保存图片、插图等的外部文件。对象名为pnas.1505691112fig03.jpg

根据观察到的条形码数据校准模型输出。(A类)观察数据中唯一且重复的条形码子集。(B类)从拟合模型输出的数据中唯一且重复的条形码子集。

保存图片、插图等的外部文件。对象名为pnas.1505691112fig04.jpg

在符合条形码数据的流行病学模型中改变传播动力学。(A类)多年来受影响个体相对数量和唯一条形码的季节性变化。R(右)0是寄生虫增加的初始最大速率,假设其线性减少至最小速率(R(右)0b条)然后反弹到一定速度R(右)0c(c)所示曲线是三种寄生虫增加率的最大似然估计值。(B类)以下值的对数对数R(右)0b条R(右)0. (C类)以下值的对数对数R(右)0b条R(右)0c(c)

流行病学模型的一个关键发现是,观察到的条形码数据本身足以表明生育率下降,然后又反弹(R(右)0)多年来。图4B类显示了参数空间中迭代六维采样结果的投影,采样最密集的区域是最大似然区域。如对角线所示,基本上所有后验概率分布都要求在2006年至2010年期间传输强度显著下降。

模拟结果还表明,2012-2013年的生育率出现了显著反弹(图4C类). 基于三个拉丁超立方体采样的独立2400个模拟集R(右)0以人口规模、世代时间和进口率的最可能值进行的维度验证了2012-2013年反弹的重要性(P(P)= 0.0039) (SI附录,图S7). 估算年最大繁殖率R(右)0通过迭代重采样确认最小值R(右)0是在2010年至2011年,只有在2012年至2013年才能检测到反弹(方法见SI附录,SI支持信息并导致SI附录,图S7)。

根据发病率数据进行验证。

基因组流行病学的推论与2006-2013年泰斯观察到的疟疾发病率一致吗?为了解决这个问题,我们分析了在塞内加尔国家疟疾控制计划主持下汇编的数据(2). 仅来自Thiès和塞内加尔除Thiès以外的所有地区的2006-2013年数据被标准化为2006年观察到的人均疟疾发病率(当时Thiès的发病率为0.114,塞内加尔除Thiès外的发病率为0.132)然后将其拟合到由人均发病率指数下降加上反弹项组成的非线性模型。Thisès的结果如所示图5A类。虽然从2009年至2010年左右开始出现了轻微反弹,但这种反弹在2012年之前在统计上并不显著,之后只是略有回升(P(P)= 0.04,t吨测试)。到2013年,反弹在统计上非常显著(P(P)= 0.007,t吨test),与基因组信号和流行病学建模推断一致图4在全国范围内没有观察到蒂亚斯的反弹,因此可能是当地条件变化的结果。除蒂耶斯外,塞内加尔所有地区的相对发病率如所示图5B类; 在这种情况下,没有明显反弹(P(P)= 0.129,t吨测试)。

保存图片、插图等的外部文件。对象名称为pnas.1505691112fig05.jpg

2006-2013年的人均疟疾发病率与2006年观察到的发病率标准化,并符合指数下降加上反弹的模型。(A类)来自蒂亚斯的数据,其中反弹具有统计意义。(B类)除蒂耶斯外,塞内加尔所有国家的数据均显示无明显反弹。发病率数据来自塞内加尔国家疟疾控制计划(2)。

讨论

我们的结果和分析的几个方面值得强调。其中之一是,在干预之后,预期的减少传播的基因组特征被惊人地快速检测到。这一时间表紧跟着国家导弹控制计划在塞内加尔实施的控制工作。在2005年进行重大重组后,国家预防犯罪委员会制定了2006-2010年控制战略,包括向所有卫生中心提供快速诊断测试(2007年),在全国范围内获得青蒿素联合疗法(2007年和2008年),以及分发经杀虫剂处理的蚊帐(2007年至2009年)(2)。

尽管在南美洲与持续低传播相关的寄生虫种群中观察到了这种遗传特征(10,11)和东南亚(12)据我们所知,泰斯的情况是首次在非洲寄生虫种群中观察到这种情况。在蒂亚斯,仅适用于人群基因特征的基因流行病学模拟显示,2006-2010年传播强度显著降低,随后又出现了近期反弹。作为一个额外的好处,基因流行病学模型不仅可以估计每年的传播强度,还可以估计每个估计值的不确定性(SI附录,图S8)。

与Thisès的观察结果相反,在马拉维一个传播率没有显著下降的地区分析的一组样本中,没有发现寄生虫相关性的基因组特征。蒂亚斯出现反弹的原因尚不清楚;然而,媒介对杀虫剂处理过的蚊帐的耐药性、旧蚊帐中杀虫剂的失效或媒介蚊虫种类的相对重要性的改变都可能是原因之一。此外,通过有效的控制策略,高危人群可能会因寄生虫暴露减少而发生转移,青少年和成年人将失去获得的部分免疫力(13)。

我们的结果确实在寄生虫种群基因组学的观察和纳入遗传机制的流行病学模型之间建立了基础联系。将基因组观察与流行病学建模相结合,为从少量寄生虫基因组样本中阐明低流行环境中传播的人群层面细节提供了一个强大的补充工具。特别是,通过建立寄生虫遗传学模型,可以收集多种不同类型的测量有效的种群规模、多点连锁不平衡、混合感染的杂合性、,感染的复杂性&从这些测量结果中可以对传播动力学进行定量评估,这与可用的全部信息最为一致。

尽管我们简化的寄生虫条形码模型能够有力而直观地解释种群基因组学的变化如何随着传播强度随时间的变化而变化,但在未来的研究中增加不同的复杂性层有可能澄清这些数据的其他特征。例如,2008年和2011年少数几个非常大的重复序列簇是在简单模型结构中重现的挑战。然而,可以添加不同类型的异质性和复杂性,以探索其对遗传特征的定性影响:经历不同暴露水平的多个弱连锁亚群,群体获得性免疫之间的相互作用,以及菌株特异性遗传学,以及来自抗疟药物使用的选择压力。更复杂的模型将需要更详细的数据来约束参数化,但随着样本规模的增长和患者元数据分辨率的提高,我们解决疟疾传播特征易受干预策略影响的能力将提高。

值得注意的是,全基因组相关性可以仅基于24-SNP条形码中共享等位基因的数量来检测。然而,全序列数据提供了额外的见解。对164个完整基因组序列的分析表明,独立菌株之间存在大量等位基因共享。大约一半的基因组与至少一个其他基因组共享重要的序列一致性,序列一致性范围为10–90%或更多(图2A类). 在大的亚群中共享大量具有共同条形码的SNP的基因组,或持续多年的基因组,在全基因组的遗传一致性中占很大比例。

为了确定检测人群中密切相关寄生虫出现的最佳SNP数量,我们进行了生物信息学分析。可以检测到的基因组共享的最小比例受到两个独立条形码可能单独偶然共享多个SNP等位基因的概率的限制。SI附录,图S5显示了当SNP被选择为信息量最大时,24-SNP条形码检测全基因组序列一致性的能力,在这种情况下,这意味着thisès中的次要等位基因频率尽可能接近0.5。全基因组序列一致性≥70%可以很有把握地检测到。由96个SNP组成的最大信息量条形码可以实现≥50%的全基因组一致性(SI附录,图S5)。

条形码基因分型的主要优点是快速、廉价、灵敏、可靠,并可在现场全面部署。尽管全基因组测序成本持续下降,但文库建设、样本制备和分析成本仍然很高。目前在塞内加尔、马拉维、赞比亚和莫桑比克使用现有的实时和专用高分辨率系统在现场部署了分子条形码等SNP基因分型技术(4). 这些仪器具有高通量、简单的分析和相对较低的成本(每个样品条形码不到10美元,包括试剂和消耗品)。

原则上,SNP条形码的优势将允许独立于昆虫学或流行率调查持续监测疟疾消除进展。随着基因组技术吞吐量的稳步增加和成本的降低,群体基因组学也有可能用于追踪跨越人类或媒介迁徙路线的时间和地理位置的寄生虫基因型。这些方法可以识别和控制寄生虫死灰复燃的来源,从而保持消灭。

这项工作的一个主要含义是,加强现有的预防和治疗干预措施可能会对寄生虫种群产生巨大影响,导致更小、更不多样化的寄生虫种群得以生存。重要的是要认识到,多样性的减少可能导致生物特性发生改变的寄生虫的出现,包括选择传播倾向增强的寄生虫。这些结果使我们对塞内加尔蒂耶斯地区的输电网络有了新的认识。在全序列水平上分析的寄生虫中,有一半以上的寄生虫共享其基因组的一部分,这表明传播网络有限。一般来说,在低传播地区,通过比较输入性感染中的寄生虫基因组与通过分析手机全球定位系统或更传统的问卷调查得出的患者旅行史推断出的可能来源,可能有可能确定输入性感染的可能来源。有限的本地传播意味着来自输入性感染和来源性感染的寄生虫可能共享其基因组的重要部分。

有必要对传播情况进行测量,以便开展适应性控制和消除活动,应对疟疾流行病学的变化,而且自相矛盾的是,干预会将传播降低到低水平,因此标准的测量方法变得不太可行。大约在需要提高对传输速率的态势感知以了解传输减少了多少、需要进一步减少多少以及当前措施的有效性的时候,我们准确测量传输的能力下降了。蚊子昆虫学接种率(EIR)通常由人类叮咬率或子孢子发生率来测定。这些方法在所有研究中都没有标准化,只有大约一半撒哈拉以南非洲国家的传播强度数据可用(14). 另一个复杂因素是,随着传播下降到较低水平,昆虫学参数变得很难估计,并且通过标准抽样发现子孢子阳性蚊子的情况变得罕见。例如,在蒂亚斯,EIR被认为处于范围1−5的低端(15). 随着传播强度持续降低,寄生虫的发病率和发病率可能会变得稀疏、异质,并在时间或空间上聚集。另一方面,当传播强度较高时,人体寄生虫感染率和发病率开始饱和。此外,检测到的临床病例的发病率在很大程度上取决于获得性人群免疫和传播,因此,随着当地传播率偏离历史平衡,临床发病率和人群免疫之间的关系将发生变化。由于这些原因,除其他外,当传播率较低且传统的传播测量方法变得不可靠时,流行率调查要么成本高昂且劳动密集型,要么只能在有偏见的人口子样本上进行。我们的研究结果表明,将基因组学与流行病学建模相结合的新方法有可能在不进行昂贵的调查或改变发病关系的情况下提供准确及时的传播估计。我们的结果表明,基因组方法可以用于监测传播,以评估控制疟疾干预措施的初始和持续有效性。改进传播测量将使适应变化的条件的活动措施得以实施,从而改善结果。

材料和方法

样品采集。

在招募受试者并获得受试者或父母/监护人的书面同意后,从个体中采集所有人类样本。塞内加尔卫生部(塞内加尔)和哈佛公共卫生学院(163302008)针对塞内加尔受试者的伦理委员会以及马拉维大学医学院(布兰太尔)和布里格姆妇女医院(2006-P-002031)对本研究方案进行了审查和批准。

每年大约在9月至12月期间,从向诊所报告疑似疟疾的患者被动采集样本。考虑年龄超过12岁且在过去24小时内出现急性发热且无抗疟用药史的患者;根据厚厚的玻片涂片的显微镜检查和快速诊断试验,他们被诊断出患有疟疾。

排序和分析。

使用Illumina Hi-Seq(Illuminia,Inc.,San Diego,CA)机器对从马拉维和塞内加尔患者样本中提取的基因组DNA进行测序。使用Burrows-Wheeler校准器版本0.5.9-r16校准读数(16)针对3D7参考组件(PlasmoDB v7.1;17). 使用GATK统一基因型仪对每个菌株进行一致序列测定(18)(请参见SI附录,SI支持信息参数值和质量分数阈值)。

共有190份来自塞内加尔的全序列样本可供研究;所有病例均经条形码鉴定为单基因组感染。其中,176份是在蒂耶斯的一家诊所收集的。一个样本被删除,因为它的调用率非常低(3%)。为了筛选出可能的隐性多基因感染和交叉样本污染,如果样本中带有次要等位基因的呼叫率异常低(<0.3%)(其余样本的平均比率为0.8%),则也将其排除;这个屏幕删除了11个样本。对剩余的164份样品进行了分析。

使用了呼叫率至少为80%的所有SNP。三等位基因SNP(占总数的1%)被视为双等位基因,最常见的等位基因被视为主要等位基因。隐马尔可夫模型用于识别按血统相同的基因组特定区域的详细信息,见SI附录,SI支持信息

流行病学建模。

流行病学模型的一般特征以及为拟合观测到的条形码数据而估计的参数总结如下结果有关模型的状态、时间相关性、初始化、采样和拟合观测数据的详细信息,请参见SI附录,SI支持信息

疟疾发病率分析。

2006年至2013年的人均疟疾发病率标准化为2006年的观察值,并对泰斯单独或除泰斯外的所有塞内加尔进行了分析。相对发病率数据被拟合为一个非线性模型,该模型具有指数下降加上形式反弹=×支出(−bx公司) +cx公司,其中=相对发病率。使用Mathematica中的NonlinearModelFit包进行曲线拟合和统计分析。参数估计、SE和统计测试的详细信息总结于表S3

优化条形码。

为了解决通过使用分子条形码可以估计全基因组遗传特性的程度,我们着手根据塞内加尔蒂亚斯的全序列样本确定和表征最佳条形码。我们排除了高度不一致的菌株,并筛选了其他所有多态性位点,以包括次要等位基因频率>0.2的SNP,从这些筛选中,我们编译了24-SNP和96-SNP最佳条形码,这些条形码根据次要等位子频率最高排序,其中≥80%的样本没有模糊或缺失的调用。然后,我们计算了所有测序菌株中每对菌株的条形码相似性,将不明确或缺失的调用计算为不匹配。为了避免因匹配主要等位基因而导致相似度百分比出现偏差,我们将相似度计算限制为仅包括次要等位基因存在的位点。因此,相似度指数计算为次要等位基因匹配的位点数量除以次要等位蛋白存在的位点总数。然后将条形码相似性指数与全基因组序列一致性进行比较。

补充材料

补充文件

单击此处查看。(240万,pdf)

补充文件

单击此处查看。(69K,csv)

补充文件

单击此处查看。(3.5K,csv)

补充文件

单击此处查看。(13K,csv)

致谢

E.A.W.、J.L.P.和P.A.E.感谢比尔和梅琳达·盖茨对疾病建模研究所的积极支持以及他们通过全球公益基金的赞助。我们还感谢迈克·法穆拉、丹尼尔·克莱恩、杰琳·杰拉尔丁、凯文·麦卡锡、埃利·莫斯和丹尼·帕克的贡献。哈佛公共卫生学院和布罗德研究所的这项工作由比尔和梅琳达·盖茨基金会以及美国国立卫生研究院(NIH)拨款AI099105(给D.F.W.和D.L.H.)和AI106734(给D.L.H..)提供资金。Fogarty国际中心拨款5D43TW001503、国际疟疾研究卓越中心拨款U19AI089696、NIH拨款K23AI072033(发给D.A.M.)和AI034969(发给T.E.T.)为样本采集提供了部分支持。H.-H.C.由NIH Grant U54GM088558支持。

脚注

作者声明没有利益冲突。

数据存储:分子条形码有数据集S1S2系列数据集S3包含本文中描述的全基因组序列登录号。

请参阅第页的评论6782

本文包含在线支持信息,网址为www.pnas.org/lookup/supl/doi:10.1073/pnas.1505691112/-/DC补充

工具书类

1Noor AM等人恶性疟原虫非洲疟疾感染:2000-10年:传播强度的时空分析。柳叶刀。2014;383(9930):1739–1747. [PMC免费文章][公共医学][谷歌学者]
2Mouzin E、Thior PM、Diouf MB、Sambou B。关注塞内加尔减少疟疾:进展和影响系列。第4卷世界卫生组织;日内瓦:2010年。[谷歌学者]
三。Daniels R等人,基于SNP的通用分子条形码恶性疟原虫识别和跟踪。马拉·J。2008;7:223. [PMC免费文章][公共医学][谷歌学者]
4Daniels R等人。基因分型和发现与耐药相关的单核苷酸多态性的快速现场部署方法恶性疟原虫抗菌剂Chemother。2012;56(6):2976–2986. [PMC免费文章][公共医学][谷歌学者]
5Daniels R等人。在塞内加尔加强干预后,基因监测检测疟疾的克隆和流行传播。《公共科学图书馆·综合》。2013;8(4) :e60780。 [PMC免费文章][公共医学][谷歌学者]
6Chang HH等。疟疾生命周期加剧了自然选择和随机遗传漂变。美国国家科学院程序。2013;110(50):20129–20134。 [PMC免费文章][公共医学][谷歌学者]
7疟疾寄生虫多样性和传播强度在数学模型中影响寄生虫免疫的发展。马拉·J。2012;11:419。 [PMC免费文章][公共医学][谷歌学者]
8Steele SJ、Raftery AE、Emond MJ。通过增量混合重要性抽样(IMIS)计算有限混合模型的归一化常数J计算图形统计。2006;15(3):712–734. [谷歌学者]
9Raftery AE,Bao L.使用增量混合重要性抽样估计和预测艾滋病毒/艾滋病普遍流行趋势。生物计量学。2010;66(4):1162–1173. [PMC免费文章][公共医学][谷歌学者]
10Branch OH等人。恶性疟原虫5年来,秘鲁亚马逊河流域一种低传播性地方病的遗传多样性得以维持和扩大。分子生物学进化。2011;28(7):1973–1986. [PMC免费文章][公共医学][谷歌学者]
11Obaldia N等人。巴拿马东部恶性疟原虫感染的克隆暴发。传染病杂志。2015;211(7):1087–1096. [PMC免费文章][公共医学][谷歌学者]
12Nkhoma SC等。人类病原体中传播减少的群体遗传相关性。摩尔生态。2013;22(2):273–285. [PMC免费文章][公共医学][谷歌学者]
13Trape JF等,采用经杀虫剂处理的蚊帐和基于青蒿素的联合疗法后疟疾发病率和拟除虫菊酯耐药性:一项纵向研究。柳叶刀传染病。2011;11(12):925–932.[公共医学][谷歌学者]
14Kelly-Hope LA,McKenzie FE。疟疾传播的多样性:撒哈拉以南非洲昆虫学接种率测量和方法综述。马拉·J。2009;8:19. [PMC免费文章][公共医学][谷歌学者]
15Ndiaye D等人dhfr/dhps基因、寄生虫密度和体外对乙胺嘧啶的反应恶性疟原虫塞内加尔泰斯的疟疾寄生虫。国际寄生虫学杂志。毒品毒品抵抗。2013;:135–142. [PMC免费文章][公共医学][谷歌学者]
16Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. [PMC免费文章][公共医学][谷歌学者]
17Aurrecoechea CJ等。PlasmoDB:疟疾寄生虫的功能基因组数据库。核酸研究。2009;37:D539–D543。 [PMC免费文章][公共医学][谷歌学者]
18DePristo MA等人。使用下一代DNA测序数据进行变异发现和基因分型的框架。自然遗传学。2011;43(5):491–498. [PMC免费文章][公共医学][谷歌学者]
19Tamura K,Nei M,Kumar S.使用邻接法推断大型系统发育的前景。美国国家科学院程序。2004;101(30):11030–11035。 [PMC免费文章][公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院