公共科学图书馆计算生物学。2017年12月;13(12):e1005891。
CRISPR阵列中垫片的最佳数目
,形式化分析,调查,方法,软件,可视化,写作-初稿,写作–审查和编辑,1,* ,调查,方法,监督,写作-初稿,写作–审查和编辑,1,2,三和,概念化,形式化分析,调查,方法,监督,写作-初稿,写作–审查和编辑4,*
亚历山大·马蒂诺夫
1俄罗斯莫斯科斯科尔科沃科学技术研究所数据密集型生物医学和生物技术中心
康斯坦丁·塞韦里诺夫
1俄罗斯莫斯科斯科尔科沃科学技术研究所数据密集型生物医学和生物技术中心
2美国新泽西州皮斯卡塔韦市新泽西州立大学罗格斯沃克斯曼微生物研究所
三俄罗斯莫斯科俄罗斯科学院分子遗传学研究所
伊罗斯拉夫·伊斯波拉托夫
4智利圣地亚哥圣地亚哥智利大学物理系
克劳斯·O·威尔克,编辑器
1俄罗斯莫斯科斯科尔科沃科学技术研究所数据密集型生物医学和生物技术中心
2美国新泽西州皮斯卡塔韦市新泽西州立大学罗格斯沃克斯曼微生物研究所
三俄罗斯莫斯科俄罗斯科学院分子遗传学研究所
4智利圣地亚哥圣地亚哥智利大学物理系
美国得克萨斯大学奥斯汀分校
提交人声明,不存在相互竞争的利益。
2017年6月1日收到;2017年11月24日接受。
这是一篇根据知识共享署名许可协议它允许在任何媒体上不受限制地使用、分发和复制,前提是原始作者和来源得到了认可。 介绍
CRISPR-Cas系统通过靶向外源核酸为原核生物提供对病毒和质粒的适应性免疫[1–三]. 多种CRISPR-Cas系统不同于外源核酸破坏的分子机制,中国科学院基因、CRISPR重复序列结构以及间隔区的长度和数量已经被发现[4,5]. 然而,目前对CRISPR-Cas系统的多样性和功能的理解还远远不够完整。因此,大多数间隔物的起源和目标仍然未知[6–8]. CRISPR-Cas系统在古生菌中的普遍性与细菌中的不到50%相比也没有很好的解释[4,9]. 过多不同的CRISPR-Cas系统类型的进化原因,通常共存于同一基因组中,在很大程度上尚未探索[5,10,11]. 还不清楚为什么某些CRISPR-Cas系统的CRISPR阵列只包含一个或几个间隔符,而其他系统则包含几十个甚至数百个间隔符[10–15]. 人们普遍认为,一个阵列中间隔区的数量是一个折衷的结果,即通过更大的间隔区储备对丰富、多样和进化更快的病毒提供更好的保护,而维持更长阵列的生理成本更高[16]. 然而,即使是最大的CRISPR系统也只占原核基因组总大小的1%[11]因此,很难想象添加或移除一些垫片会显著影响生长速度。事实上,尽管有各种公认的用于维护CRISPR-Cas系统的适合性成本来源[17,18],其中没有一个明显取决于CRISPR垫片的数量[11,19,20].
几乎所有由CRISPR免疫驱动的原核和病毒协同进化模型都包含一些CRISPR-间隔区数量的表示。在某些模型中,数组内容受到最大间隔数的限制(例如,请参见[21],其中该数字为8),或间隔棒的数量是由间隔棒收购和损失之间的竞争(例如[22,23]). 对于一组给定的环境条件,如感染病毒的丰度和种类,动态确定最佳间隔区数量通常表现为具有此类阵列的原核亚群的优势。同时,间隔物的数量在决定模拟的复杂性方面起着重要作用,因为通常需要检查所有可能的成对间隔物-蛋白间隔物匹配,以确定一对原核和病毒株的免疫状态。
在这项研究中,我们对CRISPR阵列中垫片数量的最佳性提出了不同的观点。特别是,我们提出了一个相当理想化的问题:最大限度地保护给定单个原核细胞(而不是,例如,原核物种的生存)免受病毒侵害的间隔物的数量是多少?我们表明,CRISPR间隔区的数量主要受到携带最具免疫活性的CRISPRRNA的CRISRP效应复合物的“稀释”限制,而最近获得的间隔区针对的是变异时间最短的病毒原间隔区。我们的分析需要更详细地研究CRISPR效应器(Cas蛋白与单个保护性CRISPRRNA(crRNA)的复合物)与病毒靶点的结合动力学,以及效应器之间带有特定间隔的crRNA的分布。由于每个阵列中大多数间隔物的来源和用途未知,我们做出了一个简化的假设,即阵列中的所有间隔物都来自病毒DNA,用于抵御病毒感染。作为另一种简化,我们没有关注不断变化的天然病毒和原核生物群落中发生的实际进化,而是比较了给定环境参数下阵列在稳定状态下的性能。我们发现存在一个非平凡的最佳间隔物数量,它使原核细胞的生存机会最大化。
模型
基本假设
考虑一个具有活性CRISPR-Cas系统的原核细胞,其培养基中存在能够感染的噬菌体。细胞以随机和独立的方式受到单个病毒的攻击:攻击要么被击退,要么在比后续攻击之间的典型时间间隔更短的时间内杀死细胞(). 我们假设CRISPR-Cas免疫是抵抗感染的唯一保护,每一次克服CRISPR防御的感染都会导致细胞死亡。
CRISPR-Cas系统的功能。三个间隔棒根据其获得时的年龄进行着色,从深绿色标记最年轻的(最近获得的)间隔棒到黄色标记最老的(最早获得的)。噬菌体携带的原间隔物颜色与其匹配的间隔物相似;突变的原间隔区呈白色。与较老的间隔物匹配的原间隔物中,突变的原间隔器比与较年轻的间隔物相匹配的原分隔物中更多。在细胞内,豆状物体是携带单个crRNA的CRISPR效应复合物。年轻间隔区的crRNA复合物比年长间隔区的更丰富。病毒DNA被两个CRISPR效应物复合物同时评估:深绿色的CRISRP间隔区与未突变的对应原间隔区相匹配,而与黄色间隔区相对应的原间隔区发生了突变。前者的相互作用导致病毒DNA的破坏,而后者则使其完好无损。
CRISPR阵列由之前病毒攻击期间获得的一些间隔物组成,这些间隔物不会导致细胞死亡,并且不会随着分析的时间尺度而改变。每个间隔区对应于病毒DNA中能够感染的原间隔区。间隔区和原间隔区之间的匹配是有效防御感染的必要条件(但不是充分条件)。原间隔区可能发生突变,使现在部分互补的间隔区失效。因此,对于细胞来说,从每个病毒中提取多个间隔区可能是有益的,从而降低CRISPR-Cas系统识别病毒DNA失败的概率[16]. 这使得细胞能够避免单个原间隔区的突变,从而更可靠地识别病毒,并提高生存概率。直觉上,它吸引更多的CRISPR效应器使用新的、最近获得的间隔物,而不是旧的,这样相应的原间隔物就有更少的时间发生突变。间隔区越长,下次遇到的病毒相应的原间隔区发生突变导致细胞死亡的可能性越高。事实上,在CRISPR阵列的一端,有一个强烈的偏好,那就是获取间隔棒[24,25]. 因此,天然阵列中的间隔子是根据其年龄排序的,最近获得的间隔子更靠近转录阵列的启动子。虽然单个crRNA的丰度是其从前crRNA CRISPR阵列转录物中的加工速率和稳定性的复杂函数,但预计启动子近端crRNA通常比启动子远端crRNA更丰富[26]. 这种效应预期来自转录极性,CRISPR重复序列的回文性质使其更加明显,这应该会促进RNA聚合酶的转录终止。因此,选择压力超过CRISPR间隔物数量的第二个因素出现了:过长的阵列将“稀释”配备有最年轻(最近获得的)crRNA的CRISPR-效应复合物的浓度,因此也是最有效的间隔物,将其替换为较老间隔区的crRNA,其靶原间隔区积累突变的时间较长,因此无效。为了简单起见,我们假设间隔区与其原间隔区之间的单一错配使得相应的crRNA在免疫中完全无效[三]. 虽然现实情况更为复杂,原隔区的某些突变并不排除适当带电效应器的识别[27],原间隔区相邻基序的突变[28,29]或种子区域[27]确实消除了CRISPR干扰,我们在工作中考虑的正是这种突变。
间隔棒的最佳数量可能被认为是来自相反的“更可靠的认可”和“稀释”趋势之间的竞争。我们忽略了维护CRISPR阵列的适应度成本,通常认为它由两部分组成:间隔符-编号相关和间隔符-数量相关[21,22]. 虽然CRISPR-Cas系统DNA的复制必须有成本,但每一个新间隔物都构成CRISPR-Cas DNA的一小部分(其本身是细胞基因组的一小部份),而这种成本被忽略了。
总之,我们试图确定CRISPR系统中的最佳垫片数量,如根据以下简化假设:
当间隔物和原间隔物之间存在完美匹配时,病毒DNA的切割是可能的,单一的错配使得间隔物-原间隔物对对细胞保护/CRISPR干扰无效[27–29]. CRISPR效应器复合体包含带有特定间隔物的crRNA的概率随着间隔物的年龄呈指数下降。
细胞中CRISPR复合物的总数受到限制,并且与阵列中间隔物的数量无关。为了简单起见,我们进一步假设CRISPR效应物复合物的数量在时间上是恒定的。有证据表明中国科学院一些系统中的基因表达在体内受外界条件的调节[30,31]尤其是在病毒入侵期间可能会增加[32,33]. 然而,我们在下文中考虑的恒定Cas蛋白水平可以被视为这些蛋白质在其“完全活性”状态或适当的平均时间内的最大浓度。 CRISPR效应器和病毒DNA之间的一次遭遇比后续遭遇之间的时间间隔更短。
感染后,细胞内只有病毒DNA的单一拷贝,即感染的多样性较低。
我们不考虑维护给定间隔数数组的任何健身成本[19,20]. 在我们的思维实验过程中,即在几种病毒感染的时间尺度上,CRISPR阵列中间隔物的数量没有变化。对于单病毒情况,这并不意味着阵列组成保持不变,它只要求分隔符的数量保持不变。对于多病毒案例(参见“分析结果:多病毒物种”和“数值结果:多个病毒物种”小节),还有一个额外的假设,即阵列组成没有改变,即在多个病毒攻击的时间尺度上没有CRISPR适应。考虑到幼稚的适应率很低[34]并且在我们的主要分析中没有考虑启动适应,只对I型CRISPR-Cas系统的几个亚型进行了描述,这个假设似乎并不不合理,应该至少适用于一些CRISPR-Cas系统,尤其是II型。
干扰概率
假设一个细胞携带一个由CRISPR间隔物组成的阵列,我们在年龄方向上对其进行编号,使得最近获得的间隔物被指定为1。细胞受到病毒攻击,CRISPR防御系统开始发挥作用。概率B类我用于CRISPR效应器,带有间隔物的crRNA我结合到相应的原间隔区(或原间隔区的分数占有率)是由结合和解离事件之间的竞争控制的,这些事件由以下动力学方程右侧的第一项和第二项描述,
在这里k个+和k个−是匹配间隔物-间隔物对的结合和离解速率常数C类我是携带我第th个间隔区crRNA。稳态结合概率(或相应的原间隔区被CRISPR效应器识别的时间分数)为
为简单起见,我们不单独考虑间隔物-间隔物结合的转运阶段,即CRISPR效应器和病毒DNA相互扩散所需的时间,并通过调整k个+和k个−常数。现在我们计算如何C类细胞中存在的CRISPR效应器通过特定的间隔区拾取crRNAs。我们假设获得间隔物的效应器复合体的数量我随着我也就是说,每个下一个垫片δCRISPR效应器复合体中出现的可能性是其年轻邻居的两倍。我们将进一步参考δ作为“crRNA衰变系数”,因为我们假设具有特定间隔区的crRNA分子数量的指数减少会导致与该crRNA的CRISPR效应复合物数量的相应减少[26]. 因此效应复合物的数量C类我带间隔物的crRNA我是
我们决定C类1CRISPR效应物复合物的总数为C类通过对相应的几何级数求和
哪里S公司是阵列中分隔符的总数。
替换(4)到(2)生成绑定概率的完整表达式我第个间隔棒-间隔棒对,
在这里β≡克+/(k个−)是决定CRISPR效应器“结合效率”的无量纲系数。较大的β,效应器用于匹配原间隔物的时间比例越大。的生物学意义β如果考虑由单个间隔符组成的CRISPR阵列,则会变得清晰。那么结合概率就变成了β只有,
在这种情况下,绑定概率取决于β与1比较:如果β≫1,绑定概率饱和到其最大值等于1,而如果β≪1,绑定概率与β。对于β=1,则结合概率精确地为1/2。
假设每个CRISPR效应器与其匹配的原间隔区的结合独立于其他效应器与其的结合,即原间隔区在病毒基因组中分离良好。总干扰率与匹配间隔区-间隔区对的结合概率和病毒DNA的存活概率成正比P(P)(t吨)以简单的指数动力学衰减,
在这里一是病毒DNA降解速率常数,我们认为这是CRISPR效应的一个固定属性,适用于所有间隔-间隔对。因此,成功干扰的概率为
哪里τ是干扰的有效时间,大致等于病毒DNA复制的时间。换句话说,为了成功终止感染,CRISPR效应物复合物必须在第一轮复制之前或期间破坏病毒DNA。在以后破坏单个病毒基因组并不能阻止失控的病毒DNA复制和生产性感染。引入无量纲参数χ≡τa表征干扰效率的,转动方程(8和5)到
生存概率
假设在给定时刻感染细胞的病毒是从一个大池中提取出来的,其感染概率与病毒类型的浓度成正比v(v)不同病毒的感染是相互独立的。那么概率A类k个体验k个随着时间的推移感染t吨由感染平均数的泊松分布给出参考号随时间线性缩放,
哪里第页是所有病毒的比例系数N个是病毒颗粒的浓度。为了在给定的时间内生存,每个细胞需要击退在此时间内发生的所有感染,因此生存到一定时间的概率t吨是
在这里我,定义于等式(9),是一次感染后存活的概率,即成功进行CRISPR干预的概率。根据我们的假设,病毒相互独立感染,可以得出如下概率E类(t吨)细胞在含有不同浓度病毒的培养基中存活v(v)j个由分别为每种病毒确定的生存概率乘积得出,
这是草图CRISPR干扰单一感染的可能性我j个定义如下(9)从中取出的所有垫片的总和j个th病毒。在以下内容中,我们使用E类(t吨)作为CRISPR系统整体性能的衡量标准。
计算方案。一个带有S公司=3 CRISPR间隔子以平均速率以泊松过程遇到病毒序号在每次遭遇过程中,都有一次成功的干扰我或者细胞以1−的概率死亡我.我们评估概率E类(t吨)细胞的存活时间t吨作为其CRISPR-Cas系统性能的度量。
结果
分析结果:单一病毒种类
说明并进一步发展总说明(12),假设一种病毒感染一个只有两个间隔物的CRISPR阵列的细胞。免疫性取决于病毒群中相应原间隔区的突变状态。在这个模型中,间隔区的突变状态将被定义为病毒群中突变原间隔区的比例。我们表示为米1和米2第一个和第二个原间隔区保持无突变并因此可被CRISPR效应器识别的概率。如果病毒颗粒的总浓度为N个,没有任何突变的“野生型”变体的浓度为米1米2N个,第二个原间隔区中突变变异体的浓度为米1(1 −米2)N个,第一个原间隔区中突变的变异体的浓度为米2(1 −米1)N个,并且两个原间隔区中突变的变异体,即不受CRISPR干扰的逃逸变异体的浓度为(1−米1)(1 −米2)N个.从公式(9和12)我们假设原间隔区的突变使相应的间隔区完全无效,因此在这种情况下生存概率为
指数中的最后一项对应于两个突变的原间隔区都没有感染病毒的概率(在这种情况下我4=0,因为这样的感染会导致细胞死亡)。转换指数中的表达式,我们得到
这个表达式有一个简单的概率解释:我花括号中的第项描述了配备有我第个间隔区crRNA。这些术语的乘积描述了所有CRISPR效应器失效的概率,从而导致细胞死亡。表达式(14)是CRISPR系统“失效”的泊松过程计数为零或根本没有失效的概率,这转化为单元的生存。与病毒不同突变变体接触的相互独立性将细胞的生存概率简化为不受重复“平均”接触影响的概率雷诺数时间。这种简单的解释使我们能够概括(14)对于包含2个以上垫片的阵列,用实际数量的CRISPR垫片替换产品的上限S公司,
方程式(12)和(15)具有通用性,适用于涉及CRISPR免疫性的各种场景。例如(12和15)可以作为进化动力学模型的基础,在进化动力学模型中,动态确定每个病毒和宿主菌株的原间隔区突变状态和CRISPR阵列的组成。除了更传统的种群动力学应用外,这些模型还可以模拟CRISPR系统的各种参数的演变,以及更复杂的特征,如从病毒基因组的特定部分获取间隔物的偏好[35]或CRISPR个体免疫和利他流产感染机制的共同进化[36]. 然而,很难想象从中得出的结论(12和15)由于存在大量普遍未知的参数米我.
减少中独立参数的数量等式(15)在下面的生存概率表达式中,我们估计米我。我们假设间隔符是以周期性的方式获取到阵列的,即时间间隔t吨英寸在随后的间隔棒收购之间是一样的。原间隔区保持无突变的概率随时间呈指数下降我原间隔物与我。因此我间隔棒采集之间时间间隔中间的第个间隔棒-间隔棒对可以近似为μ我−1/2。此处0<μ<1是病毒DNA中的原间隔区在t吨英寸指数中的−1/2代表评估t吨英寸/采集最后一个间隔时间后的2个时间单位,即间隔时间采集间隔的中间。参数μ取决于遗传和环境因素,如病毒DNA的突变率、病毒种群的大小、原间隔区的大小以及细胞获得新间隔区的平均速率。等式(16),
以及结合概率(5),完全定义具有给定间隔数的细胞的生存概率S公司作为无量纲参数的函数μ,χ,δ和β注意,垫片的最佳数量并不取决于观察的总时间t吨用于细胞存活评估:In等式(16)最大值的位置E类(t吨)由指数中乘积的最大值决定,与参考号.
数值结果:单一病毒种类
生存概率的典型依赖关系E类(t吨)关于crRNA衰变系数δ以及垫片的数量S公司如所示。对于此示例,我们推断了干扰概率我1≈实验数据中单个间隔阵列的0.5[35](请参见S2附录详细信息)。而结合效率的准确值β和干扰效率χ不能与单独确定我,我们将它们设置为一些中间值β=1和χ=1.4,再现测量值我1。如所示[37]当DNA分子拷贝数从一个增加到几个时,每个DNA分子的干扰率显著下降,这表明Cas效应物复合物相对短缺,支持我们选择中间值为β。请参阅S2附录例如,使用不同的β和χ为了同样的目的我。选择原间隔物在间隔物获取之间的典型周期内不发生突变的概率为μ= 0.9. 观察期间感染的典型数量为参考号= 5. 它源自crRNA衰变系数的存活率最大δ≈0.7和垫片数量S公司= 6. 在面板B中E类(t吨)与。S公司显示了以下几个值δ奇怪的是,对于低δ,生存E类(t吨)并没有显著下降S公司发生这种情况是因为效应器复合体中带有旧间隔的crRNA的频率呈指数抑制:无论阵列有多长,只有带有前几个间隔的crRNA主要用于效应器。因此,在过度使用较旧且效率低下的垫片时,实现了“自动”切断。
典型生存概率剖面。(A) 生存概率图E类(t吨)与crRNA衰减系数δ以及CRISPR阵列中的垫片数量S公司。其他参数包括:β= 1,χ= 1.4,μ=0.9,以及参考号= 5. (B) 六条曲线E类(t吨)与。S公司对于各种值δ和相同的β,χ,米、和雷诺数如面板A所示。
自然,间隔子的最佳数目取决于原间隔子突变概率1−μ以及效应器与目标结合的效率β:输入我们展示了上述“典型案例”的情节受这些系统参数变化的影响。突变率的增加会将最佳条件转移到更少的间隔物上,或者CRISPR-Cas系统对第一个间隔物的crRNA的依赖性更强。在极端情况下,这可能导致只包含一个间隔符的最佳阵列(,左上角)。这与较老的间隔物发生突变的可能性很高的情况相对应,因此使用第二个间隔物的好处无法克服含有第一个、最近获得的间隔物的crRNA所载效应物复合体数量的减少。相反,随着CRISPR干涉效率的提高,最佳值将朝着更多的CRISRP间隔棒和不同年龄间隔棒的更均衡贡献方向移动(,右下角)。结合效率的提高导致效应器与原间隔物结合的时间比例增加,最终导致结合饱和。在这种情况下,具有不同间隔物的crRNAs之间共享CRISPR效应器是有益的,因为它允许效应器减少对同一原间隔物的竞争。CRISPR干扰效率的提高χ也会导致生存概率的增加。
突变率和结合效率的影响。一组25个面板说明生存概率如何取决于S公司和δ对于不同的原间隔区突变概率值1−μ效应器的结合效率β. Theδ和S公司每个小面板中的轴具有与面板A中相同的范围,而热图的比例不同,显示在每个面板的右侧。外轴描述突变概率1−的变化μ和效应器结合效率β在所有面板中χ=1.4和参考号= 5.
为了更详细地研究垫片的最佳数量,我们进行了以下计算:对于每组“阵列无关”参数μ,β,χ我们分析了在整个间隔物数量范围内的CRISPR效率S公司和crRNA衰减系数δ.垫片数量S公司选择和crRNA衰减系数δ选择最大生存概率,以及最大生存概率本身E类最大值(t吨)绘制于如上所述,病毒突变率越高,存活概率越低,间隔物越少(). 对于非常高的突变概率(高于0.7),对于其他参数的所有值,CRISPR干扰效率接近零。病毒的突变率限制了CRISPR的效率,因为感染存活的概率受到了概率的限制我最大值至少有一个病毒原间隔区没有突变。
参数对最佳垫片数量和最大生存概率的影响。作为阵列无关参数之一的函数的最佳间隔数和相应的生存概率:(A)作为突变概率1−的函数μ,其他参数为β=1和χ= 1.4. (B) 作为装订效率的函数β,其他参数为μ=0.9和χ= 1.4. (C) 作为干扰效率的函数χ,其他参数μ=0.9和β= 1. 病毒感染的平均数量为参考号=所有面板中的5。
另一方面,高绑定β或干扰效率χ导致具有更多间隔和更高生存概率的阵列(). 在这种情况下,由于系统饱和,更多的CRISPR效应器可以与带有旧间隔物的crRNAs复合,而不会干扰带有年轻间隔物的crRNAs结合。带有更多间隔物的阵列既增加了病毒DNA的降解速度,更重要的是,如果一些原间隔物发生突变,则可以减少细胞失去保护的可能性。这表明最佳垫片数量之间存在相关性S公司选择CRISPR-Cas系统的最大保护性能E类最大值(t吨). 比较中显示的最佳垫片数量和最大生存概率热图有人发现,产生高生存概率的参数确实对应于具有相对多个间隔的阵列。
间隔物的最佳数量和最大细胞存活概率。显示了间隔物的最佳数量(A)和最大细胞存活概率(B)与结合效率范围的关系β和突变概率1−μ对于参考号=5和χ= 1.4.
图和得出结论,CRISPR-Cas系统对一组确定的参数是有效的。在间隔区获取的时间尺度上,病毒突变概率应保持较低,而效应物复合物与靶原间隔区的结合以及病毒DNA的降解速率应较高。这组参数有利于具有更多间隔物的阵列。这可以概括为一个简单的规则:在意味着高细胞存活率的条件下,最优阵列包含许多间隔物并且效率很高,而在不太有利的条件下则包含几个(甚至一个)间隔物,效率较低。实际上,阵列组成可能会随着病毒感染的时间尺度发生变化(例如,通过天真或启动间隔区捕获),这可能会通过瞬时插入一个或几个具有相应crRNAs高表达水平的完美匹配间隔区来提高CRISPR干扰效率。然而,这超出了我们模型的重要假设,即阵列在病毒感染的时间尺度上是静态的,因此超出了我们目前的考虑范围。
分析结果:多种病毒
现在考虑一个更现实的场景,一个细胞面对几个不同的病毒物种。使用与上一节相同的逻辑,特别是考虑到不同病毒的感染相互独立,我们得出结论,生存概率由等式(12),其中产品的索引j个列举系统中存在的所有病毒种类,包括其突变变体。与病毒种类相关的干扰项j个给定数组中没有任何间隔符的目标为零,我j个= 0. 生存概率exp(−无线电视j个)描述了一个细胞在一定时间内不会遇到这种病毒的概率t吨.
与单一病毒种类的情况类似,我们解释了每种病毒的变异并减少了(12)只针对不同病毒种类的产品。为了简化进一步的分析,我们表示为v(v)我的分数我病毒总数中的th病毒N个以便v(v)我=N个我/N个,其中N个我是物种中病毒颗粒的数量我这导致了具有给定间隔物组合的细胞存活概率的以下表达式,
这是总数j个计算所有ν产品结束时的病毒种类我枚举所有分隔符{S公司j个}取自j个th病毒。如中所示(15),我们近似米我通过μ我−1/2再次假设间隔棒是以周期方式获得的,两次获得间隔棒的时间相等。
这个等式(18)描述了具有给定CRISPR阵列的细胞的生存概率,该阵列以间隔符集为特征{S公司j个}取自病毒物种j个为了评估CRISPR阵列的整体性能S公司间隔器,我们需要列举这样一个阵列中所有间隔器组合的生存概率。为了做到这一点,我们假设从给定病毒物种中获得间隔区的概率与该物种在总病毒库中的比例成正比。因此,阵列具有特定间隔组合的概率为
哪里v(v)k个是间隔物所在病毒种类的相对浓度k个已被收购。例如,由两个垫片组成的阵列(一,b)在由相对浓度的两种病毒1和2组成的系统中v(v)1和v(v)2可以是以下四种形式中的任意一种,并具有相应的概率:,P(P)(1,2)=P(P)(2,1)=v(v)1
v(v)2、和.
细胞在多重病毒介质中的平均存活概率是对应于每个间隔物组合的存活概率之和E类c,根据获得这种组合的概率进行加权P(P)c,求和遍历所有垫片组合。
数值结果:多种病毒
典型的情节E类(t吨)显示在中在这个计算中,我们考虑了两种具有相同种群大小的病毒v(v)1=v(v)2= 0.5. 其他参数的值与:装订效率β=1,干扰效率χ=1.4,原间隔物在间隔物采集之间的典型周期内不发生突变的概率μ=0.9,典型病毒遭遇数参考号= 5. 与中的单一病毒病例相比,病毒颗粒的总数是相同的,但病毒池现在在两个物种之间分裂。
两种病毒的CRISPR性能。生存概率图E类(t吨)作为crRNA衰变系数的函数δ以及垫片的数量S公司一个细胞面对两种不同的病毒,它们的数量相等,ν1=ν2= 0.5. 绑定效率为β=1,干扰效率为χ= 1.4. 病毒突变概率1−μ等于0.1,并且参考号= 5.
一般来说,生存概率的形状E类(t吨)配置文件类似于单一病毒案例,并且E类(t吨)达到某一crRNA衰减系数的最大值δ和一定数量的垫片S公司然而,比较单个和两个病毒病例的最佳间隔区数量、crRNA衰减系数和存活概率(图和),可以看到,在双病毒情况下,最大值通常会转移到具有更多间隔符的阵列,并且E类(t吨)更低。对于给定的一组参数,添加第二个病毒不会显著改变最优值S公司和δ但生存概率急剧下降。如果病毒突变率较低,CRISPR干扰效率较高,则额外病毒种类的存在将影响最佳S公司和δ更强。然而,将模型参数与实验结果联系起来[35],CRISPR的体内效率不太可能显著高于.
当总病毒库中的病毒种类数量增加时,即使总病毒颗粒浓度没有变化,存活概率也接近于零(). 这是因为间隔物的有效数量受到病毒突变率和细胞中效应物复合体数量(编码在系数中)的限制β). 换句话说,垫片数量的进一步增加不会导致CRISPR-Cas保护功能的任何增加。由于有效数量有限的间隔物阵列必须包含来自更多病毒物种的间隔物,因此与每个病毒匹配的间隔物越少,存活概率越低。
生存概率与病毒库的多样性。优化过的图δ和S公司细胞存活概率和间隔区数量与病毒种类和双病毒池组成的关系β= 1,χ= 1.4,μ=0.9和雷诺数= 5. (A) 最大生存概率E类(t吨)(外部图)和垫片的最佳数量S公司选择(内部图)作为病毒种类数量的函数n个.病毒库中属于不同物种的病毒粒子的丰度对于所有物种来说都是相同的,ν1= … =νn个= 1/n个.(B)最大存活概率与双病毒池中一种病毒的相对丰度。
另一个观察结果是考虑到两种病毒的情况并改变这些病毒在池中的比例(). 正如预期的那样,当一种病毒的比例接近零时(对应于单一病毒的情况),存活概率达到最大值,而当两种病毒的数量相等时,存活概率则达到最小值。
这使我们得出结论,细胞的存活概率很大程度上取决于病毒库的多样性。
讨论
CRISPR-Cas作为原核适应性免疫系统的功能已经从分子机制的角度进行了广泛的研究。它的生态作用及其对原核生物与其病毒之间“军备竞赛”的贡献已经在许多进化动力学模型中进行了分析,发现它非常复杂,而且往往不可预测。在这项工作中,我们定性地探讨了影响CRISPR阵列中垫片数量的力。我们发现,靶向病毒的CRISPR阵列中的间隔物越多,通过同时突变所有靶向的原间隔物,病毒逃逸检测的机会就越小。此外,更多的间隔物导致更有效地使用CRISPR效应器,将其分布在更多的靶原间隔物之间,从而导致病毒DNA破坏的可能性更高。然而,与此同时,更多不同的crRNA序列导致携带crRNA的效应物复合物更少,其中包含最近获得的靶向原间隔物的间隔物,最不可能发生突变。这种“稀释”效应与最近的实验结果一致,表明从阵列中移除不匹配的间隔物可以导致剩余间隔物的干扰效率显著提高[38].
所述力的相互作用使每个阵列的垫片数量达到最佳,由CRISPR-Cas系统的特性和病毒物种的多样性和突变率决定,如下所示:CRISPR效应物与其靶点的更好结合和靶点DNA降解速度更快,使原核细胞能够在阵列中保持更多间隔区,并提高其生存概率。此外,病毒原间隔区中较不频繁的突变为通过保留更多以前获得的间隔区来对冲这些突变创造了机会。相反,结合和病毒DNA切割的动力学效率较低,病毒变异速度较快,使得间隔物较少的阵列更具优势。
我们认为这项工作是对CRISPR阵列最佳性的必要概念性研究。然而,虽然我们分析的最终结果在“数值结果:单一病毒种”和“数值结果-多病毒种”小节中给出,但仅适用于一组特定(“平均”)的病毒宿主共存场景,我们对生存概率的更一般估计在方程式中给出(12和15)可以用作更复杂、更准确的动力学模型的构建块。关于我们的研究结果的适用性以及从中可以得出的生物学见解,还有一些补充意见。
偏离稳态
我们的结果是在假定CRISPR-病毒动力学处于稳定状态的情况下得出的。然而,在之前的研究中,无论是建模还是实验,都表明CRISPR系统远未稳定,它经历了周期性和不规则的变化,这些变化对其功能起着重要作用[21,39]. 虽然在我们的分析中,我们假设病毒环境(即物种组成和浓度)是恒定的(除了突变原间隔区的出现),但实际的病毒动力学通常是非稳定的,可能会影响CRISPR阵列中间隔区的最佳数量。值得注意的是,提供CRISPR-Cas系统最大防御效率和最大细胞生存能力的间隔物数量是通过间隔物获取率和损失率的演变从机械上实现的。间隔棒获取率和损耗率的任何组合都会导致稳定状态,在第一近似中,该状态由前者和后者的比率控制。达到这种稳定状态的时间可以粗略估计为间隔棒捕获率乘以间隔棒稳定状态数的倒数。然而,由于生态环境的变化(病毒感染的频率和突变多样性)以及CRISPR机制本身的进化,这些因素都会发生变化。因此,我们在动力学中看到了这一过程:间隔棒吸收率和损耗率决定了间隔棒的稳态数量,并且为了在给定的环境中达到最佳的稳态间隔棒数量,正在进化速率。
由于病毒-宿主共存场景可能形式的多样性令人难以置信,病毒环境变化的时间尺度变化巨大,可能非常低,允许在几乎稳定的生态环境中积累最佳数量的间隔物。在与种群动力学间隔区采集速度慢得多的相反极限中,阵列内容代表病毒库的一些平均样本和可能延迟的样本,CRISPR系统的功能通常是次优的。同样值得推测的是,在同一原核基因组中观察到的几种类型的CRISPR系统共存,已演变成一种优化免疫反应的方式,以优化对具有不同动态时间尺度的几种截然不同类型的病毒环境的免疫反应。
同时,人们可以想象当间隔物的吸收和损失独立地(而不是通过它们的比例)影响阵列中间隔物的数量时的生态条件。例如,如果病毒攻击如此罕见,以至于没有新的间隔物可供选择,那么获取率和丢失率的增加(使其比率保持不变)仍将导致间隔物的逐渐耗尽。在这种情况下,观察到的间隔棒数量可能与我们的预测大不相同。
由于中国科学院基因很可能受到调控,在某些情况下,病毒入侵可能会引起基因突变[32,33]问题是,Cas蛋白水平的非多态性如何影响我们关于最佳间隔物数量的结论。使用同样的方法,可以将我们的结果推广到解释Cas蛋白水平在病毒攻击过程中的时间依赖性。这将导致干扰概率的表达式更加复杂,这将取决于通常无法定量理解的病毒攻击和CRISPR-Cas系统激活动力学。我们的结果是使用本构表达式的数据计算的中国科学院基因[35]从而给出了生存概率的上限。原则上,可以使用Cas蛋白复合物数量的时间平均值作为C类在绑定效率的表达式中β(5)以获得CRISPR防御效率的最佳近似估计和最佳间隔棒数量。
我们假设所有的原间隔子都有相同的突变概率,这肯定不是普遍的。已经观察到了[13,40]并建模[41]较老的间隔区通常对应于病毒基因组中的进化保守区域,通过阻止病毒逃逸突变体的形成,在感染期间导致较高的存活率,从而解释了其携带者的普遍存在。在我们的模型框架中,可以通过为原型间隔子的概率分配单个值来考虑这一点我保持无突变米我在里面等式(15)得到的干扰概率表达式可用于更复杂的进化和种群动力学模型,以研究间隔物含量的演化。
与现有模型的比较
我们的结果大体上与该领域现有模型的主要发现相一致:我们确认,病毒环境的高度多样性导致病毒在CRISPR系统中占据主导地位[22,42]. 这一效果可以通过环境中的大量病毒物种或属于单个物种的病毒的高突变率(通常与大量病毒种群相关)来实现。然而,这里我们也表明,病毒种类的多样性导致了具有更多间隔的阵列,而较高的病毒突变率导致了具有更少间隔的阵列。这与一个假设相一致,即较低的病毒突变率会导致嗜热细菌中平均有更多间隔物的排列[42]. 将我们的模型与现有模型进行比较的另一个重要注意事项与CRISPR免疫失败概率的定义有关。一些模型使用二进制方法来处理免疫失效[21]. 要么被感染的细胞杀死病毒,要么病毒杀死细胞并正常繁殖。我们定义了CRISPR失效概率1−我作为病毒DNA复制周期中病毒DNA未被CRISPR效应器/执行器切割的概率。区分这两种方法很重要,因为它会影响从实验中获得的参数的解释。例如,CRISPR-Cas系统可以在注定死亡或死亡的细胞中保持活性,从而降低病毒爆发的规模,减少继发感染[35]. 我们的分析基于[35] (S2附录)导致CRISPR失效概率估计约为30%,而不是10−5英寸[21].
CRISPR重复序列回文性质的重要性
一个重要的观察结果是,crRNA在CRISPR效应器复合体之间的均分不是最佳的,而与效应器结合的旧crRNA比例的降低会提高免疫反应的整体效率。虽然效应器池有限,但当用最近获得的间隔物与crRNAs结合时,它们的作用更好。由于间隔区不再与原间隔区匹配的概率随着时间的推移而增加,Cas效应物应该对来自较年轻间隔区的crRNA具有更高的亲和力(这是不可能实现的),或者含有较新间隔区的crRNA应该更丰富。由于CRISPR重复序列在初级阵列转录物中形成发夹,后者可以自然实现[43,44]. 众所周知,发夹有可能暂停或终止转录延伸[45,46]. 阵列越长,需要转录的发夹就越多,在RNA聚合酶到达阵列末端之前终止转录的可能性就越高。这可能导致更多的较短的前crRNA,其中只包括较年轻的间隔区。同时,某些CRISPR重复序列被发现只有弱回文性,例如II型CRISRP系统中的那些重复序列[47].
控制来自新旧间隔区的crRNA丰度的另一种可能机制是特异性靶向CRISPR重复序列的调节蛋白的结合[48]. 如果这些蛋白质充当转录终止因子,这种结合也会导致间隔区呈指数分布。
CRISPR系统的安装成本
虽然在我们的研究中,我们忽略了主动CRISPR系统的适应度成本,但我们发现讨论它很重要,因为这些都是在各种实验工作中研究的,并且包含在一些模型中[49]. 许多出版物表明,CRISPR系统的活动受到强大的进化压力。有多种因素可能导致CRISPR的成本,包括基因组负担[50]cas基因的维护成本[19]、自我交流[51]和阻断有益的水平基因转移(HGT)[17]. 然而,在大多数情况下,基因组负担似乎并不显著,因为即使是最大的CRISPR系统也只占原核基因组总大小的1%[11]. 在自我免疫的情况下,它似乎与获得新间隔物的过程有关,因此,自我免疫仅间接影响CRISPR阵列中间隔物的数量[52–54]. 基因维护费用[19]和HGT堵塞[20]结果表明,间隔棒数量的增加也不会带来显著的健身成本。因此,在这项工作中,我们认为CRISPR系统的适应度成本不会影响CRISRP阵列中的最佳间隔数。换言之,除了Cas效应器稀释产生的成本外,间隔物没有额外的固定成本。这导致间隔者数量问题与整体健康状况分离。本工作中描述的因素影响了CRISPR阵列中的最佳间隔物数量以及CRISRP系统的总适应度效益。现在,这个总的健身效益可以与CRISPR-Cas系统维护的健身成本进行比较,这将给出CRISPR系统是有效的还是趋于淘汰的答案[55].
模型框架中的初始适应
在这项工作中,我们只考虑了在幼稚或完全随机且相对罕见的适应过程中产生的阵列。然而,有可能定性地评估预适应对细胞存活的影响。与幼稚适应相比,初级适应非常有效,因为间隔物的摄取发生在病毒攻击的时间尺度上[34]. 它对细胞存活的影响至少是双重的。首先,当间隔细胞和相应的原间隔细胞之间不完全匹配的细胞通过快速获得新的间隔细胞而在攻击中幸存下来时,细胞存活概率会直接增加。在第一近似中,可以通过调整(增加)概率来考虑这种影响μ使原间隔区保持无突变。其次,间隔区的获取不再仅受病毒环境的控制,还受阵列中特定间隔区的存在控制,这些间隔区是最初的适应。这使得阵列内容高度相关,并且不可能将我们的模型应用于多个病毒。然而,在单病毒的情况下,当所有间隔区都来自同一病毒时,启动的适应仅仅意味着病毒突变概率为1−μ变得非常低。启动适应的另一个特殊特征是,同一病毒可以同时携带多个间隔物。这导致了一系列间隔物在进一步的进化过程中获得相同的失配概率。
显然,启动的适应可以提高感染期间的细胞存活率。然而,除了由于更大的有效值,垫片的最佳数量明显增加外μ()如果不进行彻底的定量研究,似乎不可能更详细地预测预适应将如何影响间隔棒的最佳数量。
堕胎感染与利他行为
CRISPR系统除了提供免疫力从而拯救受感染细胞外,还“利他”地减少了来自受感染细胞的继发感染数量[36,56],减少病毒爆发大小(子代病毒数量)[35,57]. 这是CRISPR功能面临的第二个选择压力来源。
我们分析了如何最大限度地减少病毒爆发S1附录。病毒爆发最小值(S5)的条件似乎与细胞存活的条件相似(15),但具有重缩放的干扰效率,χ′ =νχ.在这里ν≈6–7是无CRISPR细胞中病毒复制的平均数量。这种情况导致了最佳间隔物数量,比细胞存活的间隔物数量稍大(和S1附录).
实际上,最佳垫片数量介于为χ和用于χ′ ≈ 7χ。由于这两个最优解通常处于不同类型的选择压力下,因此不可能给出更准确的答案:在宿主细胞密度低的环境中,每个细胞的存活很重要,而二次感染的概率很小。相反,当宿主细胞密度较高时,牺牲一些单个细胞,但限制继发感染的数量,对进化更有利。
结论
我们从理论上预测了CRISPR阵列中的最佳间隔区数目,从目前的实验数据来看,该数目处于合理的范围内,并表明它取决于CRISRP效应器的干扰效率、crRNA间隔区与间隔区的结合效率和病毒突变率。
良好的条件(从细胞的“观点”来看),例如高干扰和结合效率以及病毒原间隔区的缓慢突变,有利于具有更多间隔区的阵列,从而提供更好的免疫保护。相反,不利的条件会将最佳条件转移到间隔物较少、免疫保护效率较低的阵列。
大多数最佳阵列配置在CRISPR效应器复合体中具有不均匀分布的独特crRNAs,优先选择带有最近获得的间隔物的crRNAs。
对抗多种病毒物种会将最佳状态转移到具有更多间隔物的阵列上,并显著降低CRISPR系统的最大效率。