摘要

摘要统计在种群遗传学中得到了广泛的应用,但它们存在一个缺点,即不存在简单而充分的摘要统计,它捕获了区分不同进化假设所需的所有信息。在这里,我们应用了boosting,这是一种最新的统计方法,它结合了简单的分类规则来最大限度地提高联合预测性能。我们表明,我们的boosting实现具有检测选择性扫描的强大功能。人口统计事件(如瓶颈)不会导致大量假阳性。与其他中立测试的比较表明,与其他中立性测试相比,我们的boosting实现表现良好。此外,我们评估了不同汇总统计数据对选择识别的相对贡献,发现对于最近的扫描,完整的单倍型纯合子信息非常丰富,而较老的扫描更容易通过Tajimaπ检测到。总的来说,瓦特森θ被发现对区分瓶颈和选择贡献最大。

一种流行的关于竞争种群遗传场景的统计推断方法是使用汇总统计(田岛1989年;1993;费伊2000;萨贝提 . 2002;空虚 . 2006). 由于基础模型的复杂性通常不允许有一个单一的足够统计数据,这导致了大量汇总统计数据的开发,从而产生了应将哪些汇总统计数据用于特定目的的问题。试图通过模拟来近似几个汇总统计数据的联合似然的方法受到维数灾难的影响,并且通常在计算上很难处理。因此,可以在文献中找到以合理的方式将汇总统计数据合并为单个数字的建议( . 2006,2007). 在最近的工作中,格罗斯曼 . (2010)使用贝叶斯方法,该方法能够组合随机独立汇总统计信息。

增压(弗伦德沙佩尔1996;布赫曼Hothorn公司2007)是一种较新的统计方法,它允许估计汇总统计的组合,从而优化最终分类规则的敏感性和特异性。与贝叶斯方法相比格罗斯曼 . (2010)boosting不需要独立的汇总统计数据,因此适用范围更广。在这里,我们探讨了增强作为区分竞争种群遗传场景的方法。虽然提升也可以用于其他环境,但我们选择了积极选择、中性进化和瓶颈作为我们的竞争场景。选择这种经过充分研究的场景,可以让我们将boosting与文献中可用的其他基于汇总统计的方法进行比较(田岛1983,1989年;费伊2000;空虚 . 2006). 这里的期望是,通过推导站点频率和基于链接不平衡的统计数据的新组合,提升可能会有所收获。由于它们衡量选择的不同方面,因此它们的组合并不明显。与最近提出的方法的比较(帕夫利季斯 . 2010)还提供了使用支持向量机组合站点频率和链接不平衡(LD)信息的方法。

根据我们对选择痕迹的了解,了解boosting是如何结合使用的汇总统计数据的,这可能也很有趣。到目前为止,积极选择的足迹已经被很好地理解了。它们包括分离位点数量的减少,以及突变频谱和连锁不平衡结构的变化(比斯瓦斯阿基2006;萨贝提 . 2006). 然而,除了选择之外,对观察到的偏离中立的现象可能还有其他解释,例如人口的人口历史。例如,瓶颈会导致类似于选择导致的足迹(田岛1989年a). 然而,与人口统计历史相反,正选择的影响通常被认为是局部的,只在有限的空间范围内改变DNA模式。通常,汇总统计数据会在所选站点显示其极值,并在离开所选站点时逐渐恢复其正常值。这导致了一种独特的“山谷”模式,可以用来区分选择和人口统计学(基姆斯蒂芬2002).

方法,我们首先解释boosting的工作原理,并指出一些相关文献。然后我们解释了我们是如何为了检测选择而实现助推的。

结果,我们进行了仿真,说明了选择性扫描检测中boosting的威力。与其他方法相比,增强似乎表现得很好。然后,我们探讨了该方法对人口统计学影响的敏感性,并考虑了同时发生和不发生选择性扫描的瓶颈。还提供了玉米实际数据的应用程序。我们进一步讨论了从提高各种汇总统计数据的相对重要性中可以学到什么。这对于与其他方法(如近似贝叶斯计算(ABC))结合使用也很有帮助(博蒙特 . 2002),其中boosting可以在第一步中使用,有助于选择用于进一步统计分析的摘要信息度量。在ABC中,选择汇总统计数据是确保后验数据良好逼近的一个重要因素。最近乔伊斯马约拉姆(2008)建议使用近似充分性作为选择摘要统计的准则,但这一主题需要进一步研究。

方法

助力:

Boosting是一种流行的机器学习方法,最近在统计界引起了很多关注。(请参见布赫曼Hothorn公司2007以获取最新评论。)我们使用boosting作为竞争种群遗传场景之间的分类方法,但boosting也可以用于回归目的。

boosting分类器是一种迭代方法,它使用在两个竞争场景下模拟的两组训练样本来获得简单分类规则的优化组合。在每个步骤中,一个基本过程都会产生一个简单(弱)的分类器,但通常并不十分准确。该分类器与前面步骤中获得的分类器相结合,并应用于训练样本。然后对训练样本进行重新称重,使那些没有正确分类的项目更加重要。这是通过使用一个损失函数来实现的,该函数用于测量单个预测的准确性。当迭代停止时,通过弱分类器的组合做出最终决定,这种方式可能被视为投票方案。弱分类器做得越好,它对最终投票的贡献就越大。作为聚合步骤的结果,boosting被称为集成方法,简单规则的集成通常比基本分类器本身强大得多。另一种理解boosting的方法是作为函数空间中的最速下降算法[函数梯度下降,FGD(布雷曼1998,1999)].

通过在可能的基本过程、损失函数和一些进一步的实现细节中进行选择,可以获得多个版本的boosting。我们使用一次只有一个预测值的简单逻辑回归作为我们的基本程序,因为这种选择会导致输入变量的相对重要性特别容易解释的结果。然而,已经提出了几种其他版本的增强(Hothorn公司布赫曼2002)原则上也可以应用于我们的设置。

为了获得我们的boosting分类器,我们模拟了500个训练样本在两个相互竞争的种群遗传场景下的每一个场景,例如选择与。在最简单的情况下保持中立。总的来说,我们的培训数据集包含n个=500+500个样本。对于第个训练样本,我们计算了一个预测向量X(X)它包含所有可能有用的摘要统计信息。响应变量Y(Y)指示在哪种情况下生成了样本。(例如,Y(Y)=1,选择和Y(Y)在中立状态下=0。)的值Y(Y)已知的是模拟训练数据,但未知的是真实数据和测试数据。然后,整个数据集可以表示为
\[(X_{1},Y_{1{),{\ldots},{\,}(X_}n},Y_{n}).\]

我们将分类器表示为(f)和使用(f)(X(X))预测Y(Y)更具体地说,我们预测Y(Y)=1,如果(f)(X(X))对于某些阈值γ,>γ。如果要对称处理I型和II型误差,我们可以选择γ=0.5。否则,可能需要校准γ以实现所需的I型错误概率。

必须选择损失函数ρ来测量真实值之间的差异Y(Y)和预测(f)(X(X)). 目标是找到一个函数(f)将经验风险降至最低:
\[\frac{1}{n}{{{\sum}_{i{=}1}}^{n}}\mathrm{{\rho}}(Y_{i},f(X_{i}))

分类器(f)迭代获得。其初始值(f)[0]选择作为训练数据集中所有响应变量的平均值,然后(f)逐步向ρ的负梯度方向变化,以接近(f)这将经验风险降至最低。我们的重点是平方误差损失函数ρ(Y(Y),(f)) = 1/2(Y(Y)负极(f))2.可通过负二项对数似然ρ给出另一种可能的损失度量(Y(Y),第页) = −Y(Y)日志(第页) − (1 −Y(Y))对数(1−第页)带有第页(X(X)) =P(P)(Y(Y)= 1|X(X))=经验((f)(X(X)))/[出口((f)(X(X)))+经验(−(f)(X(X)))] (布赫曼Hothorn公司2007).

算法1:FGD程序(布赫曼Hothorn公司2007):

算法1总结了如何获得boosting分类器。该算法在R包中提供姆博斯特(Hothorn公司布赫曼2002),中给出了一个简单的说明性示例支持信息,文件S1

  1. 给予(f)偏移值
    \[{\hat{f}}^{{[}0{]}({\cdot}){\equiv}{\mathrm{arg{\,}min}_{c}}{{sum}_{i{=}1}^{n}}\mathrm{{rho}}(Y_{i},{,}c)

    设置= 0.

  2. 增加乘以1。计算负梯度向量(U型1, …,U型n个)并在进行评估
    \({\hat{f}}^{[}m{-}1{]}}(X_{i})\)
    ;.,
    \[U{i}{=}{-}\frac{{\partial}}{{\partial}f}\mathrm{{\rho}}(Y{i},f)\left|\right.{{f{=}}{\hat{f}}^{[}m{-}1{]}}(X_{i})}}
  3. 拟合负梯度向量(U型1, …,U型n个)至X(X)1, …,X(X)n个通过实值基本过程
    \[(X_{i},{\,}U_{i})_{i{=}1}^{n}{{rightarrow}^{mathrm{base}{\,{mathrm{procedure}}U{i}{\approx}{hat{g}}^{left[m\right]}(X_}).\]
  4. 更新

    \({\hat{f}}^{{[}m{]}}({\cdot}){=}{\hat{f}{^{[}m{-}1{]}({\cdot}){+}\mathrm{{\nu}}{\hat{g}}^{{[}m{]}}({\cdot})
    ,其中0<ν≤1是步长因子。

  5. 重复步骤2-4,直到=停止

对于算法1第四步中的步长ν,我们选择R包mboost的默认值ν=0.1(Hothorn公司布赫曼2002). 较小的ν值会增加所需的迭代次数,但会防止过度。根据布赫曼Hothorn公司(2007)然而,对于ν,结果不应非常敏感。

进一步的优化参数是基本过程的迭代次数。迭代次数越大,分类器对训练数据的预测效果越好。然而,训练数据的更好表现并不一定会影响到最终应用增强的实际数据。事实上,如果对训练数据进行过多的迭代,那么分类器在应用于真实序列时最终可能会表现得更差。这种现象称为过盈。根据文献(布赫曼Hothorn公司2007)然而,boosting被认为能够很好地抵抗过拟合,因此对迭代次数不太敏感。然而,停止迭代过程的标准在实践中是有用的。作为停止标准,交叉验证和引导等重采样方法(汉族坎贝尔2005)已建议估计不同迭代次数的样本外误差。另一个计算要求较低的替代方案是使用Akaike的信息准则(AIC)(Akaike公司1974;布赫曼2006)或贝叶斯信息准则(BIC)(施瓦兹1978).

在我们的计算中,当
\[\mathrm{AIC}{=}2k{\,}(m){-}2{\,}\mathrm{ln}(L(m))\]
达到最低要求。在这里k个()是分类器使用的预测数(f)[]在步骤、和L(左)是给定数据的(负二项式)可能性(f)[]

增压分类器的输入:

我们考虑由覆盖同一区域的几个DNA序列组成的样本,并将该区域划分为几个较小的亚段。我们的预测变量是针对每个细分市场分别计算的不同汇总统计数据。单独计算每个子段的汇总统计数据允许我们识别已知为正选择轨迹的谷模式。考虑到j个上的摘要统计信息k个细分市场导致总计k个×j个组合到输入向量的值。回想一下,输入向量表示为X(X)对于第个训练样本。

作为我们的基本汇总统计数据,我们选择了Watterson估计量(沃特森1975),
\[\mathrm{{\hat{{theta}}}{{\mathrm{w}}{=}\左({{{sum}{i{=}1}}^{n{-}1}}\压裂{1}{i}\右)^{{-}1}{{{\sum}_{i{=}1}}^{n{-}1}}S_{i},\]
和田岛的
\(\mathrm{{\hat{{theta}}}{{pi}}}\)
(田岛1983),
\[\mathrm{{\hat{{theta}}}{{\mathrm{{pi}}{=}{{{sum}{i{=}1}}^{n{-}1}}\压裂{2S_{i} 我(n个){-}1)}{n(n{-}1)},\]
以及
\(\mathrm{{\hat{{theta}}}{{h}\)
(费伊2000),
\[\mathrm{{hat{{theta}}}{h}{=}{{{sum}{i{=}1}}^{n{-}1}}\压裂{2S_{i} 我^{2} }{n(n{-}i)},\]
哪里S公司是找到的派生变量数样本中的时间n个染色体。

我们进一步考虑田岛的D类(田岛1989年b)费伊和吴的H(H)(费伊2000; . 2006)这两者结合了上述两个汇总统计数据的信息。因此,它们都有点多余。作为连锁不平衡的度量,我们添加了综合扩展单倍型纯合子iHH(萨贝提 . 2002;空虚 . 2006).

图1总结预测向量X(X)对于40-kb的DNA序列,使用这些k个=20个子段的6个统计数据,每个子段的长度为2 kb。鉴于

\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
,
\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
,
\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类、Fay和Wu的H(H)分别计算每个子段的iHH,iHH从中心开始计算,每侧的距离分别为2、4、…、20 kb。如所示图1,iHH首先通过从序列起点到20kb的积分来计算。结果用iHH1表示。接下来,iHH2使用从2kb到20kb的窗口。左侧部分的最终iHH统计值是iHH10,从18kb增加到20kb。对于从20 kb延伸到40 kb的序列的右侧部分,类似地获得了10个iHH值。

预测变量用作提升的输入X。Ta,Tajima的D;FW、Fay和Wu’s H。我们将整个区域(40 kb)分割成20个亚段,每个亚段的长度为2 kb。对于每个子段,我们计算$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amasfonts}\usepackage{amsmath}\pagestyle{empt}\begin{document}\(\mathrm{{hat{theta}}}_{mathrm}{w}\ ymb}\usepackage{amsfonts}\usepackage{amsmath}\pagestyle{empty}\begin{document}\(\mathrm{{hat{theta}}}_{mathrm}{pi}}\)\end{document}$,$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usebackage{amassymb}\userpackage{asfonts}\use package{amasmath{pagestyle{empty}\ begin{document}\(\mathrm{{\hat{{\theta}}}_{h}\)\end{document}$、Tajima的D、Fay和Wu的H。重叠子段用于iHH。总的来说,这导致6×20=120个预测变量被用作输入向量X以提高。
1.—

用作输入的预测变量X(X)提升。Ta,Tajima的D类; FW、Fay和Wu的H(H)我们将整个区域(40kb)分割成20个亚段,每个亚段的长度为2kb。对于每个子段,我们计算

\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
,
\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
,
\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类、Fay和Wu的H(H)。重叠子段用于iHH。总的来说,这导致6×20=120个预测变量被用作输入向量X(X)提升。

模拟:

为了训练和测试,我们模拟了包括n个=每个长度为10个序列=40 kb,复合率ρ=0.02。我们为α和时间τ选择了几个不同的值,因为有益突变是固定的(单位为2N个世代),并假设有利位置位于层序的中间(B位=20kb)。对于每组参数,将500个中性样本和500个选择样本模拟为训练数据集。同样的样本量也用于测试数据。

我们考虑了两种不同的突变方案:(1)固定突变率θ=4N个μ=0.005和(2)固定数量的分离位点(K(K)=566,这是θ=0.005时中性条件下的预期分离位点数;看见沃特森1975). 在实际应用中,第二种突变方案对应于一种策略,在这两种情况下,生成的训练样本的分离位点数量与实际数据中观察到的分离位点数量相等。

为了模拟中性样本和选择中的样本,我们使用了SelSim(斯宾塞笼子2004)软件。通过ms程序模拟瓶颈样品哈德逊(2002)mbs程序由手岛伊南(2009)对其进行了修改,以模拟出现瓶颈的选择性扫描。仿真参数和一些符号总结在表1图2

表1

参数和术语


一般参数
n个样本中的序列数
调查区域的长度
θθ=4N个μ、 每个核苷酸的群体突变率,其中N个是二倍体种群的有效种群规模,μ是每代每个核苷酸的突变率
K(K)样本中分离位点的数量
ρρ = 4编号,每个核苷酸的群体重组率,其中第页是每代每个核苷酸的重组率
选择参数
αα = 2编号,选择强度,其中有益等位基因相对于古老等位基因的选择优势
τ有益突变固定后的时间,单位为2N个世代
B站点有益部位与测序区域左端之间的距离
瓶颈参数(请参阅图2)
t吨0瓶颈结束后的时间,单位为2N个世代
t吨1瓶颈持续时间,单位为2N个世代
D类D类=N个1/N个0,瓶颈深度
N个0瓶颈前后的有效人口规模
N个1瓶颈期间的有效人口规模
符号
neu(新)500个模拟中性样品
sel(α,τ)500个给定α和τ的模拟选择样本
机器人程序(t吨0,t吨1)500个模拟瓶颈样本t吨0t吨1
N个(,b条2)高斯分布,其中=平均值和b条2=方差
如果θ或FK公司
θ或固定值的模拟K(K)

一般参数
n个样本中的序列数
调查区域的长度
θθ = 4N个μ、 每个核苷酸的群体突变率,其中N个是二倍体种群的有效种群规模,μ是每代每个核苷酸的突变率
K(K)样本中分离位点的数量
ρρ = 4编号,每个核苷酸的群体重组率,其中第页是每代每个核苷酸的重组率
选择参数
αα = 2编号,选择强度,其中有益等位基因相对于古老等位基因的选择优势
τ有益突变固定后的时间,单位为2N个
B站点有益部位与测序区域左端之间的距离
瓶颈参数(请参阅图2)
t吨0瓶颈结束后的时间,单位为2N个世代
t吨1瓶颈持续时间,单位为2N个世代
D类D类=N个1/N个0,瓶颈深度
N个0瓶颈前后的有效人口规模
N个1瓶颈期间的有效人口规模
符号
neu(新)500个模拟中性样品
sel(α,τ)500个给定α和τ的模拟选择样本
机器人程序(t吨0,t吨1)500个模拟瓶颈样本t吨0t吨1
N个(,b条2)高斯分布,其中=平均值和b条2=方差
如果θ或FK公司
θ或固定值的模拟K(K)
表1

参数和术语


一般参数
n个样本中的序列数
调查区域的长度
θθ=4N个μ、 每个核苷酸的群体突变率,其中N个是二倍体种群的有效种群规模,μ是每代每个核苷酸的突变率
K(K)样本中分离位点的数量
ρρ = 4编号,每个核苷酸的群体重组率,其中第页是每代每个核苷酸的重组率
选择参数
αα = 2编号,选择强度,其中有益等位基因相对于古老等位基因的选择优势
τ有益突变固定后的时间,单位为2N个世代
B站点有益部位与测序区域左端之间的距离
瓶颈参数(请参阅图2)
t吨0瓶颈结束后的时间,单位为2N个世代
t吨1瓶颈持续时间,单位为2N个世代
D类D类=N个1/N个0,瓶颈深度
N个0瓶颈前后的有效人口规模
N个1瓶颈期间的有效人口规模
符号
neu(新)500个模拟中性样品
sel(α,τ)500个给定α和τ的模拟选择样本
机器人程序(t吨0,t吨1)500个模拟瓶颈样本t吨0t吨1
N个(,b条2)高斯分布,其中=平均值和b条2=方差
如果θ或FK公司
θ或固定值的模拟K(K)

一般参数
n个样本中的序列数
调查区域的长度
θθ = 4N个μ、 每个核苷酸的群体突变率,其中N个是二倍体种群的有效种群规模,μ是每代每个核苷酸的突变率
K(K)样本中分离位点的数量
ρρ = 4编号,每个核苷酸的群体重组率,其中第页是每代每个核苷酸的重组率
选择参数
αα = 2编号,选择强度,其中有益等位基因相对于古老等位基因的选择优势
τ有益突变固定后的时间,单位为2N个
B站点有益部位与测序区域左端之间的距离
瓶颈参数(请参阅图2)
t吨0瓶颈结束后的时间,单位为2N个世代
t吨1瓶颈持续时间,单位为2N个世代
D类D类=N个1/N个0,瓶颈深度
N个0瓶颈前后的有效人口规模
N个1瓶颈期间的有效人口规模
符号
neu(新)500个模拟中性样品
sel(α,τ)500个给定α和τ的模拟选择样本
机器人程序(t吨0,t吨1)500个模拟瓶颈样本t吨0t吨1
N个(,b条2)高斯分布,其中=平均值和b条2=方差
如果θ或FK公司
θ或固定值的模拟K(K)
瓶颈场景的术语。显示了在时间t0结束并持续t1的瓶颈场景。现在和古代的有效人口规模都是N0。在瓶颈期间,有效种群数量减少到所选的N1,从而N0/N1=100。
2-

瓶颈场景的术语。在时结束的瓶颈场景t吨0并持续了t吨1如图所示。现在和古代的有效人口规模都是N个0在瓶颈期间,有效人口数量减少至N个1选择这样的N个0/N个1= 100.

控制I类错误:

默认情况下,boosting对称地处理类型I和类型II错误,并预测Y(Y)=1,如果(f)(X(X)) > γ = 0.5. 如果希望在零模型(如中性)下控制I类错误概率,可以通过调整阈值γ来实现。为此,我们首先像往常一样在训练样本的基础上获得一个增强分类器。然后在零模型下生成500个独立的训练样本,并选择γ,使95%的样本得到正确分类。为了研究在替代模型下产生的分类器的效率,我们又生成了500个独立的测试样本。

结果

辨别力:

根据图3,除iHH外,我们所有的汇总统计数据仅在选择场景下显示山谷模式。对于iHH,集成会导致中性和选择情况都出现山谷。然而,在这两种竞争情景下,在水平和形状上仍然存在差异。

摘要统计的空间模式。显示了选择(与中立)对不同汇总统计的空间影响。每个点对应于1000多个具有固定θ的独立样本的平均值。x轴给出序列中的位置,而y轴显示在以该位置为中心的子段计算的汇总统计值。对于选择方案,再次假设有利地点为20 kb。
3.—

摘要统计的空间模式。选择的空间效应(中性)。每个点对应于1000多个具有固定θ的独立样本的平均值。这个x个-axis给出序列中的位置,而-axis显示在此位置居中的子分段处计算的汇总统计值。对于选择方案,再次假设有利地点为20 kb。

我们首先研究在相同的α和τ值下生成的样本,用于训练和测试。中的结果表2表明我们的方法在区分中性和选择方面是非常有效的。即使在选择扫描较弱且较老的情况下(α=200和τ=0.2),在θ为固定值的情况下,我们也能获得88.0%的精度。请参见斯蒂芬(2006)用于果蝇强选择和弱选择的分类。

表2

不同训练策略下的助推表现


培训数据

测试数据

Acc公司(如果θ) (%)

Acc公司(FK公司) (%)
neu+sel(5000.001)sel(5000.001)100100
neu+sel(500,0.2)sel(500,0.2)99.496.4
neu+sel(200,0.001)sel(200,0.001)98.697.8
neu+sel(200,0.2)选择(200,0.2)8882.2
neu+sel(N个(500, 2002),N个(0.2,0.12))sel(5000.001)99.898.4
sel(500,0.2)98.496.6
sel(200,0.001)93.886.2
选择(200,0.2)87.675.8
neu+sel(5000.001)sel(200,0.8)86.677.2
neu+sel(200,0.8)
sel(5000.001)
100
99.6

培训数据

测试数据

Acc公司(如果θ) (%)

Acc公司(FK公司) (%)
neu+sel(5000.001)sel(5000.001)100100
neu+sel(500,0.2)sel(500,0.2)99.496.4
neu+sel(200,0.001)sel(200,0.001)98.697.8
neu+sel(200,0.2)选择(200,0.2)8882.2
neu+sel(N个(500, 2002),N个(0.2,0.12))sel(5000.001)99.898.4
sel(500,0.2)98.496.6
sel(200,0.001)93.886.2
选择(200,0.2)87.675.8
neu+sel(5000.001)sel(200,0.8)86.677.2
neu+sel(200,0.8)
sel(5000.001)
100
99.6

根据500个独立的中性样本,将I类错误概率(中性样本错误分类的概率)调整为5%。预测准确度(Acc)是指正确分类的百分比。我们考虑两种突变方案:如果θ和FK公司.训练和测试样本是在相同的参数下独立生成的。请参见表1表示符号。

表2

不同训练策略下的助推表现


培训数据

测试数据

Acc公司(如果θ) (%)

Acc公司(FK公司)(%)
neu+sel(5000.001)sel(5000.001)100100
neu+sel(500,0.2)sel(500,0.2)99.496.4
neu+sel(200,0.001)sel(200,0.001)98.697.8
neu+sel(200,0.2)选择(200,0.2)8882.2
neu+sel(N个(500, 2002),N个(0.2, 0.12))sel(5000.001)99.898.4
sel(500,0.2)98.496.6
sel(200,0.001)93.886.2
选择(200,0.2)87.675.8
neu+sel(500,0.001)sel(200,0.8)86.677.2
neu+sel(200,0.8)
sel(5000.001)
100
99.6

培训数据

测试数据

Acc公司(如果θ) (%)

Acc公司(FK公司)(%)
neu+sel(5000.001)sel(5000.001)100100
neu+sel(500,0.2)sel(500,0.2)99.496.4
neu+sel(200,0.001)sel(200,0.001)98.697.8
neu+sel(200,0.2)选择(200,0.2)8882.2
neu+sel(N个(500, 2002),N个(0.2, 0.12))sel(5000.001)99.898.4
sel(500,0.2)98.496.6
sel(200,0.001)93.886.2
选择(200,0.2)87.675.8
neu+sel(500,0.001)sel(200,0.8)86.677.2
neu+sel(200,0.8)
sel(5000.001)
100
99.6

根据500个独立的中性样本,将I类错误概率(中性样本错误分类的概率)调整为5%。预测准确度(Acc)是指正确分类的百分比。我们考虑两种突变方案:如果θ和FK公司.训练和测试样本是在相同的参数下独立生成的。请参见表1用于注释。

实际上,这种方法过于乐观,因为选择场景的参数通常是未知的。另一个更实用的策略是对整个参数值范围进行训练,表示关于可能参数值的先验信念。为此,我们使用根据从正态先验分布中选择的参数生成的样本,支持范围限制在可能的参数值范围内。我们还从均匀分布中生成了具有非常相似结果的参数(参见表S1). 为了便于解释,通常使用在固定参数值下生成的样本进行测试。不出所料,使用随机选择的参数值生成的样本训练分类器会导致准确度有所下降。根据表2然而,在最困难的测试用例中(α=200,τ=0.2,θ固定),功率仍然是87.6%。

如果替代场景指定错误,那么至少在我们考虑的情况下,我们的方法看起来相当健壮。当我们用强选择(α=500)和最近选择(τ=0.001)训练分类器,但用弱扫描(α=200)和旧扫描(τ=0.2)进行测试,反之亦然,增强分类器的能力仍然很高(参见表2).

由于θ在实践中通常是未知的,也可能因选择以外的原因而变化,因此一种选择是在固定数量的隔离场地下模拟两种竞争场景的训练数据K(K)这与实际测试数据中的结果相同。有了这个策略,boosting仍然能够学习山谷模式。显然,排除与θ总值差异有关的信息将导致功率有所下降。表2显示了损失的电量。在我们考虑的情景中,所有情况下的预测能力都大于75%。

结果是使用L2fm损耗函数进行升压(布尔曼Hothorn公司2007). 使用不同的损失函数对结果影响不大。(请参见表S2表S3

我们还研究了AIC作为加速迭代的停止规则的使用。中提供了一个典型示例图4。随着迭代次数的增加,AIC首先会迅速减少,然后会减慢,在很长一段时间内保持稳定水平。在该示例中,最低AIC值是在第175次迭代时获得的。在第1000次或第10000次迭代时停止,可获得几乎相同的预测精度(结果未显示),为增压的缓慢过拟合提供了经验支持。

AIC。图中显示了升压运行的典型AIC曲线(500个中性样本和500个选择样本,α=200,τ=0.2,θ固定)。x轴表示迭代次数,y轴表示AIC值。在第175次迭代时,AIC达到了最小值。我们可以看到,AIC起初下降得很快,但后来变化得很慢,这与增压的缓慢过拟合特性相一致。
4.—

AIC公司。图中显示了升压运行的典型AIC曲线(500个中性样本和500个选择样本,α=200,τ=0.2,θ固定)。这个x个-轴表示迭代次数-轴表示AIC的值。在第175次迭代时,AIC达到了最小值。我们可以看到,AIC起初下降得很快,但后来变化得很慢,这与增压的缓慢过拟合特性相一致。

影响预测准确性的另一个因素是序列长度。表3,我们研究了当可用序列的长度<40kb时,功率的降低,这是迄今为止考虑的长度。结果表明,即使在长度为1kb的序列中,功率下降也不会显著。

表3

检测能力与序列长度的关系


测试样品

=20 kb(%)

=8 kb(%)

=4 kb(%)

=2 kb(%)

=1 kb(%)
sel(5000.001)99.898.899.295.293.4
sel(500,0.2)9997.896.896.289
sel(200,0.001)95.494.889.88687.8
sel(200,0.2)
88.4
84
78.8
80.8
79.6

测试样品

=20 kb(%)

=8 kb(%)

=4 kb(%)

=2 kb(%)

=1 kb(%)
sel(5000.001)99.898.899.295.293.4
sel(500,0.2)9997.896.896.289
sel(200,0.001)95.494.889.88687.8
选择(200,0.2)
88.4
84
78.8
80.8
79.6

我们考虑长度序列的样本并在训练和测试中将θ固定为相同的值。使用neu+sel进行培训(N个(500、2002),N个(0.2, 0.12)). 将I类错误概率(中性样本错误分类的概率)调整为5%。什么时候?=20、8或4kb,亚段长度选择为2kb;什么时候=2或1 kb,每个亚段为0.5 kb。对每个细分市场分别进行汇总统计。即使是在较短的地区,预测能力仍然很高。

表3

检测能力与序列长度的关系


测试样品

=20 kb(%)

=8 kb(%)

=4 kb(%)

=2 kb(%)

=1 kb(%)
sel(5000.001)99.898.899.295.293.4
sel(500,0.2)9997.896.896.289
sel(200,0.001)95.494.889.88687.8
选择(200,0.2)
88.4
84
78.8
80.8
79.6

测试样品

=20 kb(%)

=8 kb(%)

=4 kb(%)

=2 kb(%)

=1 kb(%)
sel(5000.001)99.898.899.295.293.4
sel(500,0.2)9997.896.896.289
sel(200,0.001)95.494.889.88687.8
选择(200,0.2)
88.4
84
78.8
80.8
79.6

我们考虑长度序列的样本并在训练和测试中将θ固定为相同的值。使用neu+sel进行培训(N个(500、2002),N个(0.2, 0.12)). 将I类错误概率(中性样本错误分类的概率)调整为5%。什么时候?=20、8或4kb,亚段长度选择为2kb;什么时候=2或1 kb,每个亚段为0.5 kb。对每个细分市场分别进行汇总统计。即使是在较短的地区,预测能力仍然很高。

基于增强的基因组扫描:

事实证明,增压分级机对于所选站点的位置非常具体。当以20kb的选定位置训练分类器时,如果选定位置在测试样本中偏离此位置,则功率会迅速降低(表4). 这可以在基因组扫描选择的背景下加以利用。事实上,如果有足够大的序列块可用,就可以沿着序列滑动一个由20个子段组成的窗口。然后,对所选位置位置的自然估计就是窗口的中心,具有最强的选择证据。

表4

精度取决于所选站点的位置


B站点(kb)

Acc公司(如果θ) (%)
20100
1580.6
10
44.2

B站点(kb)

Acc公司(如果θ) (%)
20100
1580.6
10
44.2

使用neu+sel(500,0.001)和Bsite=20kb进行训练,I型错误概率调整为5%。在具有不同位置的有益突变位点的sel(5000.001)上进行测试。可以看出,随着训练样本和测试样本之间所选位置距离的增加,扫描检测能力迅速下降。Acc:检测到扫描的案例百分比。有关符号的详细信息,请参见表1。

表4

精度取决于所选站点的位置


B站点(kb)

Acc公司(如果θ) (%)
20100
1580.6
10
44.2

B站点(kb)

Acc公司(如果θ) (%)
20100
1580.6
10
44.2

使用neu+sel(500,0.001)和Bsite=20kb进行训练,I型错误概率调整为5%。在具有不同位置的有益突变位点的sel(5000.001)上进行测试。可以看出,随着训练样本和测试样本之间所选位置距离的增加,扫描检测能力迅速下降。Acc:检测到扫描的案例百分比。有关符号的详细信息,请参见表1。

为了了解哪些汇总统计数据对所选位置最具体,我们通过一次仅基于一个汇总统计数据应用增强分类器来分别研究它们。事实证明,与假设选定地点的较小偏差对

\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类和iHH(表5). 因此,人们可能希望通过仅使用
\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类和iHH。请参见图5以基于这三个汇总统计数据的基因组扫描为例。

基于增强的基因组扫描。在三个图中的每一个图中,每一列代表一个独立模拟的100-kb染色体区域,其中发生有益突变(α=500,τ=0.001)。这些行指示序列中的位置。每个图形右侧的点标记了发生有益突变的位置50 kb。在一列中,每个像素表示基于沿着染色体区域滑动的40-kb窗口(步长2kb)的分类结果。使用neu+sel(5000.001)进行训练。实心像素表示增强预测考虑的位置经历了选择事件。根据需要,实体像素集中在所选位置。在上图中,使用了六种不同的汇总统计数据,而在中间的图中,只使用了$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amasfonts}\usebackage{empsmath}\pagestyle{empt}\begin{document}\(\mathrm{{{{hat{{theta}}}}{h}\)\end{document}$、Tajima's D和iHH。在这两种情况下,I型错误概率都调整为5%。在底部图中,使用了与顶部图中相同的六个汇总统计数据,但I类错误概率降低到0.2%,对应于增强分类器的γ=0.5阈值。使用特定位置汇总统计数据和降低I型错误概率都会降低基因组扫描中的假阳性率。
5.—

基于增强的基因组扫描。在三个图中的每一个图中,每一列代表一个独立模拟的100-kb染色体区域,其中发生有益突变(α=500,τ=0.001)。这些行表示序列中的位置。每个图形右侧的点标记了发生有益突变的位置50 kb。在一列中,每个像素表示基于沿着染色体区域滑动的40-kb窗口(步长2kb)的分类结果。使用neu+sel(5000.001)进行训练。实心像素表示增强预测考虑的位置经历了选择事件。根据需要,实体像素集中在所选位置。在上图中,使用了六种不同的汇总统计数据,而在中间的图中,只有

\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类使用了、和iHH。在这两种情况下,I型错误概率都调整为5%。在底部图中,使用了与顶部图中相同的六个汇总统计数据,但I类错误概率降低到0.2%,对应于增强分类器的γ=0.5阈值。使用特定位置汇总统计数据和降低I型错误概率都会降低基因组扫描中的假阳性率。

表5

准确性取决于不同汇总统计的所选站点的位置



Acc公司(如果θ) (%)
B站点(kb)
\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)

\(\mathrm{{\hat{{theta}}}{{h}\)

助教
FW公司
iHH公司
2010010067.682.690.698
1584.880.81045.289.642.8
10
51.6
44.6
6.4
15.4
75
17.6


Acc公司(如果θ) (%)
B站点(kb)
\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)

\(\mathrm{{\hat{{theta}}}{{h}\)

助教
FW公司
iHH公司
2010010067.682.690.698
1584.880.81045.289.642.8
10
51.6
44.6
6.4
15.4
75
17.6

我们展示了根据所选站点的位置Bsite检测选择性扫描的能力。为了研究个人统计数据对位置的敏感性,我们在训练和测试中一次只使用上述统计数据中的一个。我们使用neu+sel(5000.001)进行训练,如果θ、 Bsite=20 kb,并将I型错误概率调整为5%。

\(\mathrm{\hat{\theta}}}}_{h}\)
,田岛的D类和iHH对所选位置特别敏感。Ta,Tajima的D类; FW、Fay和Wu的H(H)

表5

准确性取决于不同汇总统计的所选站点的位置



Acc公司(如果θ) (%)
B站点(kb)
\(\mathrm{hat{theta}}}}_{\mathrm{w}}\)

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)

\(\mathrm{{\hat{{theta}}}{{h}\)

助教
FW公司
iHH公司
2010010067.682.690.698
1584.880.81045.289.642.8
10
51.6
44.6
6.4
15.4
75
17.6


Acc公司(如果θ) (%)
B位点(kb)
\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)

\(\mathrm{{\hat{{theta}}}{{h}\)

助教
FW公司
iHH公司
2010010067.682.690.698
1584.880.81045.289.642.8
10
51.6
44.6
6.4
15.4
75
17.6

我们展示了根据所选站点的位置Bsite检测选择性扫描的能力。为了研究个人统计数据对位置的敏感性,我们在训练和测试中一次只使用上述统计数据中的一个。我们使用neu+sel(5000.001)进行训练,如果θ、 Bsite=20 kb,并将I型错误概率调整为5%。

\(\mathrm{{\hat{{theta}}}{{h}\)
,田岛的D类和iHH对所选位置特别敏感。Ta,Tajima的D类; FW、Fay和Wu的H(H)

如果不能获得更长的染色体区域,或者不希望在定位方面具有高特异性,则可以通过将序列切割成更小、更大尺寸的亚段来降低该方法的特异性(表6),直观地平滑了山谷模式。

表6

子段数量的准确性



子部门
B站点(kb)
20 (%)
10 (%)
8 (%)
4 (%)
2 (%)
1 (%)
1051.665.87186.497.297.2
1152.87276.891.697.296
1263.881.686.496.697.696.8
1369.885.287.697.69796
1473.287.492.298.496.896.4
1586.49698.899.698.698.4
1689.498.299.699.298.497.6
1795.498.899.49998.498
1898.810010010098.898.6
1999.810010099.896.896.8
20
100
100
99.6
99
97.8
98


子部门
B站点(kb)
20 (%)
10 (%)
8 (%)
4 (%)
2 (%)
1 (%)
1051.665.87186.497.297.2
1152.87276.891.697.296
1263.881.686.496.697.696.8
1369.885.287.697.69796
1473.287.492.298.496.896.4
1586.49698.899.698.698.4
1689.498.299.699.298.497.6
1795.498.899.49998.498
1898.810010010098.898.6
1999.810010099.896.896.8
20
100
100
99.6
99
97.8
98

显示了将序列切成不同数量的子段时正确识别的扫描的百分比。我们使用neu+sel(5000.001)进行训练,如果θ、 Bsite=20 kb。I型错误概率调整为5%。对具有不同位置的有益突变位点的sel(5000.001)进行测试。每个序列被切割成大小相等的亚段。我们这里不使用iHH。由于iHH对扫描位置Bsite非常敏感,功率的下降现在小于表4当Bsite的实际值与训练样本中模拟的值不匹配时。在大多数情况下,当子段的数量减少时,调用扫描的次数百分比会增加。

表6

子段数量的准确性



子部门
B站点(kb)
20 (%)
10 (%)
8 (%)
4 (%)
2 (%)
1 (%)
1051.665.87186.497.297.2
1152.87276.891.697.296
1263.881.686.496.697.696.8
1369.885.287.697.69796
1473.287.492.298.496.896.4
1586.49698.899.698.698.4
1689.498.299.699.298.497.6
1795.498.899.49998.498
1898.810010010098.898.6
1999.810010099.896.896.8
20
100
100
99.6
99
97.8
98


子部门
B站点(kb)
20 (%)
10 (%)
8 (%)
4 (%)
2 (%)
1 (%)
1051.665.87186.497.297.2
1152.87276.891.697.296
1263.881.686.496.697.696.8
1369.885.287.697.69796
1473.287.492.298.496.896.4
1586.49698.899.698.698.4
1689.498.299.699.298.497.6
1795.498.899.49998.498
1898.810010010098.898.6
1999.810010099.896.896.8
20
100
100
99.6
99
97.8
98

显示了将序列切成不同数量的子段时正确识别的扫描的百分比。我们使用neu+sel(5000.001)进行训练,如果θ、 Bsite=20 kb。I型错误概率调整为5%。对具有不同位置的有益突变位点的sel(5000.001)进行测试。每个序列被切割成大小相等的亚段。我们这里不使用iHH。由于iHH对扫描位置Bsite非常敏感,功率的下降现在小于表4当Bsite的实际值与训练样本中模拟的值不匹配时。在大多数情况下,当子段数量减少时,调用扫描的次数百分比会增加。

由于选择性扫描的影响范围取决于选择强度(α),因此分类器对空间位置的灵敏度也取决于α。α越小,受影响的附近区域越窄,相对于假定扫描位置的灵敏度越高。

对瓶颈的敏感性:

人口统计学在基因组数据中留下的痕迹与选择性事件造成的痕迹相似(田岛1989年a,b条),使得很难区分这些相互竞争的场景(施洛特勒2002;施密德 . 2005;汉布林 . 2006;桑顿安道尔法托2006). 为了研究选择性扫描和瓶颈混淆的频率,我们应用了之前在中性和选择性扫描样本上训练过的增强分类器,并在瓶颈样本上进行了测试。在模拟瓶颈示例时,我们修复了D类=0.01,并尝试了不同的值t吨0t吨1

在中立和选择θ的固定相同值的情况下进行训练时,无法可靠地区分瓶颈和扫描[参见“第一步(如果θ) “中的列表7]. 原因是,在瓶颈和欠扫描条件下,但在中立条件下,观察到隔离站点数量减少。避免这种情况的一种方法是根据观察到的分离位点数量来训练增强分类器。使用此策略,错误分类的数量(,将瓶颈归类为扫描)大幅下降(参见“第一步(FK公司)“”中的列表7].

表7

作为替代方案的瓶颈预测选择率


测试数据

第一步(如果θ) (%)

第二步(如果θ) (%)

第一步(FK公司) (%)

第二步(FK公司) (%)
sel(5000.001)99.899.898.476
sel(500,0.2)98.498.496.672
sel(200,0.001)93.893.886.262.2
选择(200,0.2)87.687.675.848.6
机器人(0.002,0.002)4643.27.81.6
机器人(0.002,0.02)99.80562.2
机器人(0.002,0.2)100030.20.4
机器人(0.02,0.002)44.443.27.82.8
机器人(0.02、0.02)99.80.661.61.8
机器人(0.02,0.2)100064.60
机器人(0.2,0.002)32.632.681.4
机器人(0.2,0.02)98.69149.40
机器人(0.2,0.2)10097.227.40
机器人编号。
48.6
41.2
4
1.4

测试数据

第一步(如果θ) (%)

第二步(如果θ) (%)

第一步(FK公司) (%)

第二步(FK公司)(%)
sel(5000.001)99.899.898.476
sel(500,0.2)98.498.496.672
sel(200,0.001)93.893.886.262.2
选择(200,0.2)87.687.675.848.6
机器人(0.002,0.002)4643.27.81.6
机器人(0.002,0.02)99.80562.2
机器人(0.002,0.2)100030.20.4
机器人(0.02,0.002)44.443.27.82.8
机器人(0.02、0.02)99.80.661.61.8
机器人(0.02,0.2)100064.60
机器人(0.2,0.002)32.632.681.4
机器人(0.2,0.02)98.69149.40
机器人(0.2,0.2)10097.227.40
机器人编号。
48.6
41.2
4
1.4

我们研究了中讨论的两步增强分类器预测选择的频率对瓶颈的敏感性对于选择场景,这些案例提供了真正的积极因素;对于瓶颈场景,它们是误报。第一步,通过分类器(C)1分类为选择的测试样本的百分比;第二步,C1和C2分类为选择的测试样本的百分比。C1接受neu+sel训练(N个(500, 2002),N个(0.2, 0.12))根据500个独立的中性样本调整I型错误概率。指挥控制系统在机器人系统下接受训练(N个(0.02, 0.012),N个(0.02, 0.012))+选择(N个(500, 2002),N个(0.2, 0.12))并根据500个独立机器人调整I型错误概率(N个(0.02, 0.012),N个(0.02, 0.012)). Bot编号表示瓶颈样本具有相同的平均值

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
-值(整个区域计算一次)作为sel(5000.001)。对于如果θ、 bot编号为bot(0.002,0.002),以及D类= 0.0085; 对于FK公司,bot编号为bot(0.002,0.002),以及D类= 0.07. 请参见表1用于进一步标记。

表7

作为替代方案的瓶颈预测选择率


测试数据

第一步(如果θ) (%)

第二步(如果θ) (%)

第一步(FK公司) (%)

第二步(FK公司) (%)
sel(5000.001)99.899.898.476
sel(500,0.2)98.498.496.672
塞尔(200,0.001)93.893.886.262.2
sel(200,0.2)87.687.675.848.6
机器人(0.002,0.002)4643.27.81.6
机器人(0.002,0.02)99.80562.2
机器人(0.002,0.2)100030.20.4
机器人(0.02,0.002)44.443.27.82.8
机器人(0.02、0.02)99.80.661.61.8
机器人(0.02,0.2)100064.60
机器人(0.2,0.002)32.632.681.4
机器人(0.2,0.02)98.69149.40
机器人(0.2,0.2)10097.227.40
机器人编号。
48.6
41.2
4
1.4

测试数据

第一步(如果θ) (%)

第二步(如果θ) (%)

第一步(FK公司) (%)

第二步(FK公司) (%)
sel(5000.001)99.899.898.476
sel(500,0.2)98.498.496.672
sel(200,0.001)93.893.886.262.2
选择(200,0.2)87.687.675.848.6
机器人(0.002,0.002)4643.27.81.6
机器人(0.002,0.02)99.80562.2
机器人(0.002,0.2)100030.20.4
机器人(0.02,0.002)44.443.27.82.8
机器人(0.02、0.02)99.80.661.61.8
机器人(0.02,0.2)100064.60
机器人(0.2,0.002)32.632.681.4
机器人(0.2,0.02)98.69149.40
机器人(0.2,0.2)10097.227.40
机器人编号。
48.6
41.2
4
1.4

我们研究了中讨论的两步增强分类器预测选择的频率对瓶颈的敏感性对于选择场景,这些案例提供了真正的积极因素;对于瓶颈场景,它们是误报。第一步,通过分类器(C)1分类为选择的测试样本的百分比;第二步,C1和C2分类为选择的测试样本的百分比。C1用neu+sel训练(N个(500, 2002),N个(0.2, 0.12))根据500个独立的中性样本调整I型错误概率。指挥控制系统在机器人系统下接受训练(N个(0.02,0.012),N个(0.02, 0.012))+选择(N个(500, 2002),N个(0.2, 0.12))根据500个独立机器人调整I类错误概率(N个(0.02,0.012),N个(0.02, 0.012)). Bot编号表示瓶颈样本具有相同的平均值

\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
-值(在整个区域计算一次)为sel(5000.001)。对于如果θ、 bot编号为bot(0.002,0.002),以及D类= 0.0085; 对于FK公司,bot编号为bot(0.002,0.002),以及D类= 0.07. 请参见表1用于进一步标记。

为了使我们的方法更加具体,我们提出了一种两步方法,这是本着桑顿延森(2007)为此,我们使用了两个分类器(C),分别用C1和C2表示。C1接受中立训练与。选择,而C2处于瓶颈与。选择。对于测试样本,我们首先应用C1。如果预测了选择,那么我们使用C2在选择和瓶颈之间进行分类。结果[特别参见“第二步(FK公司)“中的列表7]表明这种方法在瓶颈样本的错误分类非常罕见的意义上是非常有效的。另一方面,当K(K)在培训和测试中被平等选择。

如果瓶颈样本和选择样本相似,从而产生某个汇总统计的类似总体值,那么我们的方法仍然有效。事实上K(K)意味着

\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
在整个序列中计算时,对于选择样本和瓶颈样本都是相同的。忽略子细分市场,我们还生成了具有相同总体平均值的选择样本和瓶颈样本
\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
这是通过首先生成sel(500,0.001)样本,然后选择瓶颈参数来实现的D类以获得相同的值
\(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
在这两种情况下。事实证明,即使在这种情况下,假阳性率仍然很低(参见表7).

与其他方法的比较:

目前有几种方法可用于识别受选择影响的基因组区域。我们的主要关注点是比较助推和其他结合不同信息的方法。更具体地说,我们考虑了基于汇总统计的方法和支持向量机方法帕夫利季斯 . (2010)组合站点频率信息[SweepFinder(尼尔森 . 2005)]具有连锁不平衡信息[ω-统计量(基姆尼尔森2004)]. 我们在这里没有考虑的其他方法包括基姆斯蒂芬(2002)和基于隐马尔可夫模型的选择扫描(布瓦塔尔 . 2009).

作为使用汇总统计数据的测试,我们考虑了田岛的D类(田岛1989年b)费伊和吴的H(H)(费伊2000)以及它们的组合形式DH公司测试( 2006年). 我们对所有方法进行了校准,以给出5%的I类错误概率,然后将其应用于相同的测试数据集。表8,我们比较了boosting和上述使用汇总统计的方法的预测准确性。我们考虑不同的选择场景,以及随机选择参数的瓶颈场景。与其他三种方法相比,Boosting总是更好地区分中立和选择。虽然一步强化法通常将瓶颈样品解释为选择的证据,即使当DH公司测试没有,两步boosting算法比DH公司测试。

表8

boosting与其他基于汇总统计的方法的比较


测试数据

一步(%)

两步(%)

钽(%)

FW(%)

DH(%)

Ta c(%)

FW c(%)

DH c(%)
如果θ
sel(5000.001)99.899.826.67941.673.871.867.8
sel(500,0.2)98.498.426.823.22866.412.220.4
sel(200,0.001)93.893.81125.821.4515250
sel(200,0.2)87.687.611.68.41242.611.217
bot随机973.851.262.826.252.423.212.6
FK公司
塞尔(500,0.001)98.47626.279.841.672.67269.8
sel(500,0.2)96.67229.826.43769.49.419
sel(200,0.001)86.262.29.827.219.851.45448.8
塞尔(200,0.2)75.848.613.28.213.242.67.815.2
bot随机
55.8

52.8
62.4
26.4
62.4
24
12

测试数据

一步(%)

两步(%)

钽(%)

FW(%)

DH(%)

Ta c(%)

FW c(%)

DH c(%)
如果θ
sel(5000.001)99.899.826.67941.673.871.867.8
sel(500,0.2)98.498.426.823.22866.412.220.4
sel(200,0.001)93.893.81125.821.4515250
选择(200,0.2)87.687.611.68.41242.611.217
bot随机973.851.262.826.252.423.212.6
FK公司
sel(5000.001)98.47626.279.841.672.67269.8
sel(500,0.2)96.67229.826.43769.49.419
塞尔(200,0.001)86.262.29.827.219.851.45448.8
选择(200,0.2)75.848.613.28.213.242.67.815.2
bot随机
55.8

52.8
62.4
26.4
62.4
24
12

预测了在不同选择和瓶颈场景下模拟的测试样本的选择次数百分比。我们比较了以下使用汇总统计的方法:Ta、Tajima的D类; FW、Fay和Wu的H(H); DH、DH试验;c、 中心。首先,这些统计数据在整个40kb区域仅计算一次,这可能导致根据平均效应的选择性信号减弱。由于该区域中心的信号通常最强,因此我们尝试仅使用该区域的4-kb中心部分来计算统计信息。结果可以在Ta c、FW c和DH c下找到。“一步”和“两步”分别表示一步增压和两步增压。这些结果与表7.bot random=机器人(N个(0.02, 0.012),N个(0.02, 0.012)). 提升的I型错误概率(一步和两步)调整为5%,我们也根据50000个模拟中性样本估计的5%分位数为其他测试选择了截止点。样品是在两个固定θ下生成的(如果θ) 和固定的K(K)(FK)我们可以看到,在区分中性和选择时,增强总是表现得更好,尽管当Tajima的D类Fay和Wu的H(H)和DH检验仅从该区域的中心部分计算。在较困难的情况下,助推的优势尤其明显。注意,一步提升预测了大多数瓶颈样本作为选择,而DH测试没有。然而,两步增压的应用解决了这个问题。

表8

boosting与其他基于汇总统计的方法的比较


测试数据

一步(%)

两步(%)

钽(%)

FW(%)

DH(%)

Ta c(%)

FW c(%)

DH c(%)
如果θ
sel(5000.001)99.899.826.67941.673.871.867.8
sel(500,0.2)98.498.426.823.22866.412.220.4
sel(200,0.001)93.893.81125.821.4515250
选择(200,0.2)87.687.611.68.41242.611.217
bot随机973.851.262.826.252.423.212.6
FK公司
sel(5000.001)98.47626.279.841.672.67269.8
sel(500,0.2)96.67229.826.43769.49.419
sel(200,0.001)86.262.29.827.219.851.45448.8
塞尔(200,0.2)75.848.613.28.213.242.67.815.2
bot随机
55.8

52.8
62.4
26.4
62.4
24
12

测试数据

一步(%)

两步(%)

钽(%)

FW(%)

DH(%)

Ta c(%)

FW c(%)

DH c(%)
如果θ
sel(5000.001)99.899.826.67941.673.871.867.8
sel(500,0.2)98.498.426.823.22866.412.220.4
塞尔(200,0.001)93.893.81125.821.4515250
sel(200,0.2)87.687.611.68.41242.611.217
bot随机973.851.262.826.252.423.212.6
FK公司
sel(5000.001)98.47626.279.841.672.67269.8
sel(500,0.2)96.67229.826.43769.49.419
sel(200,0.001)86.262.29.827.219.851.45448.8
选择(200,0.2)75.848.613.28.213.242.67.815.2
bot随机
55.8

52.8
62.4
26.4
62.4
24
12

预测了在不同选择和瓶颈场景下模拟的测试样本的选择次数百分比。我们比较了以下使用汇总统计的方法:Ta、Tajima的D类; FW、Fay和Wu的H(H); DH、DH试验;c、 中心。首先,这些统计数据仅在整个40-kb区域计算一次,这可能会根据平均效应导致选择性信号减弱。由于该区域中心的信号通常最强,因此我们尝试仅使用该区域的4-kb中心部分来计算统计信息。结果可以在Ta c、FW c和DH c下找到。“一步”和“两步”分别表示一步增压和两步增压。这些结果与中相同表7.bot random=机器人(N个(0.02, 0.012),N个(0.02, 0.012)). 提升的I型错误概率(一步和两步)调整为5%,我们也根据50000个模拟中性样本估计的5%分位数为其他测试选择了截止点。样品是在两个固定θ下生成的(如果θ) 和固定的K(K)(FK)我们可以看到,在区分中性和选择时,增强总是表现得更好,尽管当Tajima的D类Fay和Wu的H(H)和DH检验仅从该区域的中心部分计算。在较困难的情况下,助推的优势尤其明显。注意,一步提升预测了大多数瓶颈样本作为选择,而DH测试没有。然而,两步增压的应用解决了这个问题。

由于上述测试统计数据仅在整个40-kb区域中计算一次,人们可能会怀疑选择性信号是否因平均效应而减弱。因此,我们仅使用区域的中心部分重新计算测试统计信息。这提高了测试统计的性能,但boosting的性能仍然更好(表8). DH公司仅使用中央窗口的测试比使用整个序列信息的版本做得更好,两步增强仍然对瓶颈提供了最高的特异性。虽然两步增强可以很容易地将几乎所有的瓶颈事件与选择区分开来,但当θ固定时,它仍然可以识别至少87.6%的真实选择事件,当θ为固定时,识别率为75.8%K(K)是固定的(表8).

此外,我们将我们的方法与帕夫利季斯 . (2010)该方法使用另一种机器学习方法,即支持向量机,将从SweepFinder获得的基于站点频率的统计信息与测量链接不平衡的ω-统计信息相结合。

我们首先研究了区分中立与选择以及瓶颈与选择时的行为。对于我们的模拟,我们使用了相同的程序ssw(基姆斯蒂芬2002)作为帕夫利季斯 . (2010)并选择了相同的参数(n个= 12,=50 kb,B位=25 kb,ρ=0.05)。瓶颈样本用ms进行了模拟(哈德逊2002). 有关更多参数,请参阅表9为了进行公平比较,我们遵循帕夫利季斯 . (2010)并在训练和测试中使用相同的参数。结果(表9)表明我们的方法在所有考虑的场景下都表现得更好。

表9

增压与帕夫利季斯 等。(2010)中立和瓶颈.选择性扫描


培训数据

测试数据

FP(%)

科目(%)

帕夫利迪斯FP(%)

帕夫利迪斯的账户(%)
neu1+sel1销售109890
neu2+sel2选择20100098
bot1+sel1销售111002675
bot2+sel2
选择2
0
99
18
84

培训数据

测试数据

FP(%)

科目(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
neu1+sel1销售109890
neu2+sel2选择20100098
bot1+sel1销售111002675
bot2+sel2
选择2
0
99
18
84

sel1,sel(500,0.0001);sel2,sel(2500,0.0001)。要使设置与帕夫利季斯 等。(2010),我们为每个参数集生成了2000个训练样本。(当我们遵循标准训练程序,仅使用500个训练样本时,结果几乎相同。)sel1和sel2都是在θ=0.005下生成的。对于根据sel1采集的每个样本,我们计算了Watterson的估计值

\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
(沃特森1975)生成一个中性样本
\(\mathrm{{theta}}{=}\mathrm{{hat{{theta}}}{{mathrm}w}}\)
.训练数据neu1由用这种方法获得的2000个中性样本组成。通过匹配θ和sel2,我们得到了neu2。bot1和bot2是瓶颈示例,其参数如中所示斯蒂芬(2006)这是一个4历元瓶颈模型:在时间上向后,瓶颈发生在0.0734个时间单位到0.075个时间单位之间(在2N个0世代,其中N个0是当前有效人口数量),人口数量减少到0.002N个0然后人口数量立即变为7.5N个0最后变成1.5N个00.279时间单位。对于sel1的每个实现,再次估计θ,并使用获得相应的瓶颈样本
\(\mathrm{{theta}}{=}\mathrm{{hat{{theta}}})
。请参阅帕夫利季斯 等。(2010)基夫科维奇威赫(2008)了解详细信息。同样,bot1由以这种方式获得的样本组成,而bot2是以类似方式获得的。FP,假阳性率;准确度(检测选择性事件的能力)。分别根据neu1、neu2、bot1和bot2计算四行的FP。独立生成用于训练、测试和FP计算的相同参数集的样本。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯 . (2010)。这些列中的第1行和第2行取自表1在里面帕夫利季斯 等。(2010),而第3行和第4行来自表2

表9

增压与帕夫利季斯 等。(2010)中立和瓶颈.选择性扫描


培训数据

测试数据

FP(%)

科目(%)

帕夫利迪斯FP(%)

帕夫利迪斯的账户(%)
neu1+sel1销售109890
neu2+sel2选择20100098
bot1+sel1sel1(sel1)11002675
bot2+sel2
选择2
0
99
18
84

培训数据

测试数据

FP(%)

科目(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
neu1+sel1销售109890
neu2+sel2选择20100098
bot1+sel1销售111002675
bot2+sel2
sel2(sel2)
0
99
18
84

sel1,sel(500,0.0001);sel2,sel(2500,0.0001)。要使设置与帕夫利季斯 等。(2010),我们为每个参数集生成了2000个训练样本。(当我们遵循标准训练程序并且仅使用500个训练样本时,结果几乎相同。)sel1和sel2都是在θ=0.005下生成的。对于根据sel1采集的每个样本,我们计算了Watterson的估计值

\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
(沃特森1975)生成一个中性样本
\(\mathrm{{theta}}{=}\mathrm{{hat{{theta}}}{{mathrm}w}}\)
.训练数据neu1由用这种方法获得的2000个中性样本组成。通过将θ与sel2进行匹配,我们类似地获得了neu2。bot1和bot2是瓶颈示例,其参数如中所示斯蒂芬(2006)这是一个4个时代的瓶颈模型:在时间上,瓶颈发生在0.0734个时间单位到0.075个时间单位(以2为单位)之间N个0世代,其中N个0是当前有效人口数量),人口数量减少到0.002N个0然后人口数量立即变为7.5N个0最后变成1.5N个00.279时间单位。对于sel1的每个实现,再次估计θ,并使用获得相应的瓶颈样本
\(\mathrm{{\theta}}{=}\mathrm{\hat{\theta}}}})
。请参阅帕夫利季斯 等。(2010)基夫科维奇威赫(2008)了解详细信息。同样,bot1由以这种方式获得的样本组成,而bot2是以类似方式获得的。FP,假阳性率;准确度(检测选择性事件的能力)。四行的FP分别根据neu1、neu2、bot1和bot2计算。独立生成用于训练、测试和FP计算的相同参数集的样本。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯 . (2010)。这些列中的第1行和第2行取自表1在里面帕夫利季斯 等。(2010),而第3行和第4行来自表2

我们的下一个比较帕夫利季斯 . (2010)涉及一类在瓶颈中发生选择性扫描的场景。我们再次在相同的参数下进行了模拟(n个= 12,=50 kb,Bsite=25 kb,ρ=0.01),并使用相同的软件mbs(手岛伊南2009)生成数据。结果以及进一步的实施细节如所示表10。就假阳性(FP)和准确性而言,我们的方法始终提供更好的结果(表10).

表10

增压与帕夫利季斯 等。(2010):检测瓶颈内的扫描


培训数据

测试数据

FP(%)

科目(%)

科目*(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
僵尸1+b_s1b条_1898965171
机器人1+b2b条_21195852073
机器人1+b_s3b条_09899897
机器人1+b_s4b条_41984605663
机器人1+b_s5b条_5697952750
机器人1+b_s6b条_6897942260
机器人1+b_s7b条_72991003567
机器人1+b_s8
b条_8
15
88
69
25
46

培训数据

测试数据

FP(%)

科目(%)

科目*(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
机器人1+b_s1b条_1898965171
僵尸1+b_s2b条_21195852073
机器人1+b_s3b条_09899897
机器人1+b_s4b条_41984605663
机器人1+b_s5b条_5697952750
机器人1+b_s6b条_6897942260
机器人1+b_s7b条_72991003567
机器人1+b_s8
b条_8
15
88
69
25
46

如中所示帕夫利季斯 等。(2010),我们对θ使用了广泛的统一先验,并且只接受那些具有K(K)培训和测试均为50。我们考虑了以下场景:bot1、bot(0.02、0.0015)、,D类= 0.002; bot2,bot(0.020.0375),D类= 0.05;b条_1, …,b条_8、Bsite=25000 bp的瓶颈内选择性扫描;b条_1,t吨0= 0.002,t吨1= 0.0015,D类= 0.002,= 0.002,t吨_mut=0.02。在这里是选择系数,以及t吨_mut是指有益等位基因在人群中出现的时间。请注意,帕夫利迪斯文章中的所有时间指示器都以4为单位N个代,但2代N个这篇文章中的几代人。b条_2,t吨0= 0.02,t吨1= 0.0015,D类=0.002,= 0.002,t吨_mut=0.0214;b条_三,t吨0= 0.02,t吨1= 0.0015,D类= 0.002,= 0.8,t吨_mut=0.0214;b条_4,t吨0= 0.02,t吨1= 0.0015,D类=0.002,= 0.002,t吨_mut=0.23;b条_5,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,= 0.002,t吨_mut=0.02;b条_6,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,= 0.002,t吨_mut=0.0214;b条_7,t吨0=0.02,t吨1= 0.0375,D类= 0.05,= 0.1,t吨_mut=0.0214;b条_8,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,= 0.002,t吨_mut=0.23。其他参数n个= 12,=50000 bp,ρ=0.01也可用于匹配帕夫利季斯 . (2010)。对于每个参数集,模拟了2000次复制。FP,假阳性率;准确度(检测选择性事件的能力)。第1-4行中的假阳性率FP在瓶颈场景bot1下,而第5-8行中使用bot2。当假阳性率FP调整为0.05时,Acc*中的结果提供了动力。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯 . (2010)。这些列中的第1-4行取自表3在里面帕夫利季斯 (2010年),而第5-8行来自表4

表10

增压与帕夫利季斯 等。(2010):检测瓶颈内的扫描


培训数据

测试数据

FP(%)

科目(%)

科目*(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
机器人1+b_s1b条_1898965171
僵尸1+b_s2b条_21195852073
机器人1+b_s3b条_09899897
机器人1+b_s4b条_41984605663
机器人1+b_s5b条_5697952750
机器人1+b_s6b条_6897942260
机器人1+b_s7b条_72991003567
机器人1+b_s8
b条_8
15
88
69
25
46

培训数据

测试数据

FP(%)

科目(%)

累计*(%)

帕夫利迪斯的FP(%)

帕夫利迪斯的账户(%)
机器人1+b_s1b条_1898965171
机器人1+b2b条_21195852073
机器人1+b_s3b条_09899897
机器人1+b_s4b条_41984605663
机器人1+b_s5b条_5697952750
机器人1+b_s6b条_6897942260
机器人1+b_s7b条_72991003567
机器人1+b_s8
b条_8
15
88
69
25
46

如中所示帕夫利季斯 等。(2010),我们对θ使用了广泛的统一先验,并且只接受那些具有K(K)培训和测试均为50。我们考虑了以下场景:bot1,bot(0.02,0.0015),D类= 0.002; 机器人2,机器人(0.02,0.0375),D类= 0.05;b条_1, …,b条_8、Bsite=25000 bp的瓶颈内选择性扫描;b条_1,t吨0= 0.002,t吨1= 0.0015,D类= 0.002,= 0.002,t吨_mut=0.02。在这里是选择系数,以及t吨_mut是有利等位基因在人群中出现的时间。请注意,Pavlidis文章中的所有时间指标都以4为单位N个代,但2代N个这篇文章中的几代人。b条_2,t吨0= 0.02,t吨1= 0.0015,D类= 0.002,= 0.002,t吨_mut=0.0214;b条_三,t吨0= 0.02,t吨1= 0.0015,D类=0.002,= 0.8,t吨_mut=0.0214;b条_4,t吨0= 0.02,t吨1= 0.0015,D类= 0.002,= 0.002,t吨_mut=0.23;b条_5,t吨0=0.02,t吨1= 0.0375,D类= 0.05,= 0.002,t吨_mut=0.02;b条_6,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,=0.002,t吨_mut=0.0214;b条_7,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,= 0.1,t吨_mut=0.0214;b条_8,t吨0= 0.02,t吨1= 0.0375,D类= 0.05,= 0.002,t吨_mut=0.23。其他参数n个=12,=50000 bp,ρ=0.01也可用于匹配帕夫利季斯 . (2010)。对于每个参数集,模拟了2000次复制。FP,假阳性率;准确度(检测选择性事件的能力)。第1-4行中的假阳性率FP在瓶颈场景bot1下,而第5-8行中使用bot2。当假阳性率FP调整为0.05时,Acc*中的结果提供了动力。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯 . (2010)。这些列中的第1-4行取自表3在里面帕夫利季斯 . (2010),而第5-8行来自表4

为了避免对实践中的表现过于乐观,我们还提供了训练和测试参数不同的交叉测试结果。FP率已调整为0.05(表11). 测试旧扫描时(早于瓶颈)(b条_4和b条_8) 当使用其他场景进行训练时,或者反之亦然,功率往往很低。在选择性扫描发生得早于瓶颈的情况下,分类往往特别困难(参见b条_4和b条_8) 一种解释可能是扫描信号被瓶颈事件稀释。

表11

交叉测试:如果训练和测试参数不一致,则在瓶颈内检测扫描的能力



测试数据(%)
培训数据
b条_1
b条_2
b条_
b条_4
b条_5
b条_6
b条_7
b条_8
机器人1
机器人2
机器人1+b_s1968599157774981652
机器人1+b2948599138177971052
机器人1+b_s3847099496260986856
机器人1+b_s47359996053539681510
机器人1+b_s59995992395949914175
机器人1+b_s69995992295949914165
机器人1+b_s7999410033939110041145
机器人1+b_s8
71
54
99
46
45
45
95
69

5


测试数据(%)
培训数据
b条_1
b条_2
b条_
b条_4
b条_5
b条_6
b条_7
b条_8
机器人1
机器人2
机器人1+b_s1968599157774981652
机器人1+b2948599138177971052
机器人1+b_s3847099496260986856
机器人1+b_s47359996053539681510
机器人1+b_s59995992395949914175
机器人1+b_s69995992295949914165
机器人1+b_s7999410033939110041145
僵尸1+b_s8
71
54
99
46
45
45
95
69

5

请参阅表10用于定义场景bot1、bot2和b条_1, …,b条_8.在培训为空的情况下,FP率已调整为0.05。因此,应将百分比与中的Acc*列进行比较表10

表11

交叉测试:如果训练和测试参数不一致,则在瓶颈内检测扫描的能力



测试数据(%)
培训数据
b条_1
b条_2
b条_
b条_4
b条_5
b条_6
b条_7
b条_8
机器人1
机器人2
机器人1+b_s1968599157774981652
机器人1+b2948599138177971052
机器人1+b_s3847099496260986856
机器人1+b_s47359996053539681510
机器人1+b_s59995992395949914175
僵尸1+b_s69995992295949914165
机器人1+b_s7999410033939110041145
机器人1+b_s8
71
54
99
46
45
45
95
69

5


测试数据(%)
培训数据
b条_1
b条_2
b条_
b条_4
b条_5
b条_6
b条_7
b条_8
机器人1
机器人2
机器人1+b_s1968599157774981652
机器人1+b2948599138177971052
机器人1+b_s3847099496260986856
机器人1+b_s47359996053539681510
机器人1+b_s59995992395949914175
机器人1+b_s69995992295949914165
bot1+b_s7型999410033939110041145
机器人1+b_s8
71
54
99
46
45
45
95
69

5

请参阅表10用于定义场景bot1、bot2和b条_1, …,b条_8.在培训为空的情况下,FP率已调整为0.05。因此,应将百分比与中的Acc*列进行比较表10

表12

有选择的培训与。瓶颈与瓶颈内选择测试


培训数据

测试数据

FP(%)

科目(%)
bot1+sel1b条_11196
bot1+sel2b条_21193
bot1+sel3b条_699
bot1+sel4b条_4136
bot2+sel5b条_5594
bot2+sel6b条_6593
bot2+sel7b条_7299
bot2+sel8
b条_8
2
44

培训数据

测试数据

FP(%)

科目(%)
bot1+sel1b条_11196
bot1+sel2b条_21193
bot1+sel3(底部1+sel3)b条_699
bot1+sel4b条_4136
bot2+sel5b条_5594
bot2+sel6b条_6593
bot2+sel7b条_7299
bot2+sel8
b条_8
2
44

请参阅表10用于定义bot1、bot2和b条_1, …,b条_8.sel1和sel5,= 0.002,t吨_mut=0.02;sel2和sel6,= 0.002,t吨_mut=0.0214;sel3、,= 0.8,t吨_mut=0.0214;sel4和sel8,= 0.002,t吨_mut=0.23;sel7,= 0.1,t吨_mut=0.0214。在这里是选择系数,以及t吨_mut是指有益等位基因在人群中出现的时间。在模拟中,我们对θ使用了广泛的一致先验,并且只接受那些具有K(K)= 50. 对于每个参数集,模拟了2000次复制。FP率是根据第1-4行的bot1和第5-8行的bot2计算的。

表12

有选择的培训与。瓶颈与瓶颈内选择测试


培训数据

测试数据

FP(%)

科目(%)
bot1+sel1b条_11196
bot1+sel2b条_21193
bot1+sel3b条_699
底部1+sel4b条_4136
bot2+sel5b条_5594
bot2+sel6b条_6593
bot2+sel7b条_7299
bot2+sel8
b条_8
2
44

培训数据

测试数据

FP(%)

科目(%)
bot1+sel1b条_11196
bot1+sel2b条_21193
bot1+sel3b条_699
bot1+sel4b条_4136
bot2+sel5b条_5594
僵尸2+sel6b条_6593
bot2+sel7b条_7299
bot2+sel8
b条_8
2
44

请参阅表10用于定义bot1、bot2和b条_1, …,b条_8.sel1和sel5,= 0.002,t吨_mut=0.02;sel2和sel6,= 0.002,t吨_mut=0.0214;sel3、,= 0.8,t吨_mut=0.0214;sel4和sel8,= 0.002,t吨_mut=0.23;sel7、,=0.1时,t吨_mut=0.0214。在这里是选择系数,以及t吨_mut是有利等位基因在人群中出现的时间。在模拟中,我们对θ使用了广泛的一致先验,并且只接受那些具有K(K)= 50. 对于每个参数集,模拟了2000次复制。FP率是根据第1-4行的bot1和第5-8行的bot2计算的。

然而,在许多情况下,功率保持在可接受的水平,这在一定程度上表明了我们方法的稳健性。

我们还检查了假阳性率相对于空场景的稳健性。为此,我们再次调整了boosting分类器,以在空训练场景下获得5%的假阳性率。当训练在短瓶颈和深瓶颈(bot1)、长瓶颈和浅瓶颈(bot2)下进行时如果没有同时进行选择性扫描,则很少会被误分类,除bot1外,假阳性率仍然很低+b条_4,其中扫描发生得早于瓶颈(表11). 相反方向的结果不太可靠:在具有长瓶颈和浅瓶颈(bot2)的训练中,短瓶颈和深瓶颈(bot1)更容易导致错误的选择信号。根据用于培训的特定替代场景,我们得到的假阳性率介于3%到17%之间(表11).

为了进一步检查健壮性,我们在瓶颈下进行了培训与。选择,但在不调整假阳性率的情况下,在瓶颈内进行选择测试。与中显示的结果相比表10,功率下降b条_4和b条_8,但仍高于通过帕夫利季斯 . (2010)在大多数情况下。详细结果见图12。

应用于实际数据:

我们将boosting应用于玉米基因组的一小部分。我们根据以下分析 . (2009)在那里,他们调查了10号染色体上跨越~4Mb的22个位点,并确定了影响该区域的选择性扫描。我们实现了两步方法,并使用真实的序列数据作为我们的测试数据。为了进行训练,我们在 . (2009)我们特别使用了估计的突变率θ=0.0064和估计的重组率ρ=0.0414。

我们选择调查其22个位点中的12个,位于10号染色体上85.65 Mb,每个长度为1 kb。由于不同基因座之间的个体数量略有不同,从25个到28个不等( . 2009),我们只需设置n个= 25. 根据sel随机选择参数,生成所选训练数据(N个(500, 2002),N个(0.2, 0.12)).

根据之前的研究,玉米经历了瓶颈事件和瓶颈参数k个(瓶颈期间的种群规模/瓶颈持续时间,以代为单位)为2.45(赖特 2005年; . 2009). 我们设置了t吨0=0.02和t吨1=0.02(单位为2N个世代,其中N个是有效的人口规模)。然后我们选择了D类=0.098,这样D类×N个/(t吨1× 2N个) = 2.45.

在田的文章中,

\(\mathrm{\hat{\theta}}}}_{\mathrm{\pi}})
,
\(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
和田岛的D类计算每个位点的值(某些位点的值不可用)。我们使用了这三个统计数据,忽略了缺失的值。然后我们使用L2fm损耗应用两步方法。中立之间的门槛(Y(Y)=0)和选择(Y(Y)=1)为0.462,第一步结果为(f)= 1.382; 自从(f)»0.462,这为选择提供了有力的证据。瓶颈之间的阈值(Y(Y)=0)和选择(Y(Y)=1)为0.407,第二步结果为4.700,表明所考虑轨迹上的信号不能仅用瓶颈来解释。结果支持了 . (2009)其中还发现了选择性扫描。α估计为22187.8,远大于我们在根据(N个(500, 2002)).

了解汇总统计的相对重要性:

我们使用的boosting版本的一个优点是,该方法可以为每个考虑的汇总统计数据生成系数。系数可用于衡量每个汇总统计的相对重要性。重要的是将系数标准化,否则估计系数将取决于各自汇总统计数据的变化范围。对于j个预测变量的第个分量,X(X)(j个),系数为

\(\mathrm{{\hat{{beta}}}}^{\左(j\右)}\)
,标准化系数为
\(\mathrm{{\hat{{\beta}}}}^{\左(j\右)}\sqrt{\mathrm{{\widehat{Var}}}\左(X^{\右(j\左)}\右))
统计的重要性由其标准化系数的绝对值表示。系数越接近零,统计信息对分类器的贡献越小。为了使结果与单个数据集的随机性相对独立,我们报告了10次试验的平均系数,每次试验涉及500个中性(或瓶颈)样本和500个选择样本的增强。

当同时考虑所有职位的统计数据时,相对重要性将取决于两个组成部分:不同职位的相对重要性和不同统计数据的相对重要性。为了获得更清晰的图像,我们分别考虑不同的子段,并且每次只对一个子段的信息使用boosting分类器。结果可在中找到图6。因为iHH不仅使用本地信息(请参阅图1),特定子段的信息含量高于其他汇总统计数据,尤其是边界子段。

在固定θ值下,不同汇总统计对检测选择的相对重要性。在不同的选择性情景下,我们调查汇总统计数据的相对重要性。衡量其重要性的一种方法是根据增强分类器为汇总统计数据提供的系数的绝对值。大系数意味着某个统计数据对分类器的考虑位置非常有影响。每个图表基于平均10个试验,每个试验包含500个中性(或瓶颈)样本和500个选择样本。所有样本均以固定θ生成。对于每个细分市场,分别考虑了六个汇总统计数据的相对重要性;也就是说,每次一个提升过程只应用于特定位置的六个统计数据。
6.—

在固定θ值下,不同汇总统计对检测选择的相对重要性。在不同的选择性场景下,我们调查了汇总统计数据的相对重要性。衡量它们重要性的一种方法是根据boosting分类器给汇总统计的系数的绝对值。大系数意味着某个统计数据对分类器的考虑位置非常有影响。每个图表基于平均10个试验,每个试验包含500个中性(或瓶颈)样本和500个选择样本。所有样本均以固定θ生成。对于每个细分市场,分别考虑了六个汇总统计数据的相对重要性;也就是说,每次一个提升过程只应用于特定位置的六个统计数据。

图6提供了几个场景的标准化系数。这里,我们注意到一些关于中所示模式的观察结果图6以下为:

  1. 为了在中立和选择之间进行分类,

    \(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
    始终在所有场景中发挥重要作用。另一方面,
    \(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
    仅在最近进行选择时才起作用,但不适用于旧扫描。一个原因可能是,选择后新突变的发生使低频突变的相对数量增加。但随着年龄的增长,一些低频突变向中频突变漂移,因此低频突变的比例降低。
    \(\mathrm{hat{theta}}}}_{\mathrm{w}}\)
    应该比
    \(\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\)
    (费伊2000),
    \(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
    当选择变老时变得不那么重要。

  2. 当区分中性场景时,iHH统计对于最近的选择性扫描似乎特别重要。如果有益等位基因的固定发生在很久以前,那么iHH统计就不那么重要了。一种可能的解释是,LD随后被重组或在有益突变固定后发生的反复中性突变所打破。

  3. 在区分瓶颈和选择时,

    \(\mathrm{{\hat{{\theta}}}{\mathrm{w}}\)
    似乎是最重要的,并且它的重要性向观察区域的边界增加。这表明瓶颈和远离有益突变的选择之间的低频突变数量差异较大。在这种情况下,联系不平衡往往贡献较小。

  4. 我们还调查了样本的突变数量K(K)是固定的(图7). 与之前θ固定的样本相比(图6),在区分中立和选择时没有太大区别。然而,在对瓶颈和选择进行分类时,我们观察到了差异。由于两种情况下分离站点的总数现在是相同的,分类器使用空间变化模式,从而得出系数的空间模式,如图7

在固定K值下,不同汇总统计对检测选择的相对重要性。如图6所示,我们研究了不同汇总统计的相对重要性,但这里的样本是在固定数量K的突变下生成的,而不是在固定θ下生成的。每个图表基于10次试验的平均值。每个试验包含500个中性和500个选择或500个选择和500个瓶颈样本。
7.—

在固定值为K(K).如中所示图6我们调查了不同汇总统计数据的相对重要性,但这里的样本是在固定数量下生成的K(K)而不是固定θ。每个图表基于10次试验的平均值。每个试验包含500个中性和500个选择或500个选择和500个瓶颈样本。

讨论和结论

Boosting是一种比较新的二进制分类统计方法。它允许有效地组合不同的证据,以优化最终分类器的性能。在群体遗传学中,对这些证据的自然选择是个体汇总统计。通过选择适当的增强方法,可以通过查看优化后的分类器,了解不同摘要统计信息的相对重要性。对于难以合并的汇总统计数据(如站点频谱和LD测量),这似乎特别有趣。

众所周知,单种群遗传汇总统计通常是不够的。对于像ABC这样依赖于汇总统计推断的方法,一个重要的问题是选择和/或组合汇总统计以获得精确估计。一种很有希望的方法似乎是将提升作为第一步:尽管如此,情况仍然具有挑战性,因为不同的汇总统计数据原则上在不同的参数范围内可能很重要。

尽管助推可以应用于任何一组竞争的种群遗传场景,但我们专注于在瓶颈和中性背景下检测选择性扫描。已经对这种情况进行了相当深入的研究,并提出了几种方法。因此,根据已知的其他方法的性能,可以判断增压的性能。我们的仿真结果表明,boosting的性能优于其他基于汇总统计的方法。这表明,boosting能够提供有效的汇总统计组合。我们还将boosting应用于帕夫利季斯 . (2010)其中,作者使用支持向量机(SVM)组合从SweepFinder软件的修改版本中获得的复合似然比统计(尼尔森 . 2005)以衡量联系不平衡。对于瓶颈内和瓶颈外的扫描,增强通常提供更高的检测能力,而假阳性率相等或更低。

使用滑动窗口方法,boosting也可以提供一种进行基因组扫描以进行选择的方法。

到目前为止,我们的重点是突变率和重组率都恒定的理想情况;我们只考虑了完成的选择扫描,没有选择的类型;种群规模被视为常数或受瓶颈影响。然而,在现实中,更复杂的人口历史可能会在我们的汇总统计中留下痕迹,影响我们方法的准确性。基于当前文献中的知识,我们讨论了如何在存在此类附加因素的情况下进行基于增强的扫描以进行选择。需要进一步模拟以确认我们的建议:

  • 突变异质性:我们考虑了长度为40kb的区域。如果突变率在这样一个片段中是异质的,这可能导致θ值降低πK(K)和积极的田岛D类,取决于异质性的严重程度(阿里斯-布鲁苏Excoffier公司1996). 如果异质性程度很大,这可能导致错误检测选择,因为θ减小π和减少的K(K)在正选择下也会遇到。如果有人怀疑突变率异质性可能是阳性分类结果的另一种解释,那么可以通过训练boosting分类器来解决这个问题,该分类器的突变率根据伽马分布的不同而不同(尤泽尔科尔宾1971;阿里斯-布鲁苏Excoffier公司1996)模拟突变异质性。在基因组尺度上,突变率也可能不同。用一个在单一突变率下训练过的分类器扫描整个基因组可能会产生误导性的结果。例如,想想一个分类器,它在高突变率下训练,但随后被应用于突变率低得多的DNA片段。低水平的多态性可被视为选择的信号。一种可能的解决方案是将整个基因组划分为多个片段,并使用经过适当突变率训练的分类器独立扫描每个片段。我们在本文中研究的另一种方法是在相同的数量下进行培训K(K)在当前扫描的基因组片段上观察到的突变事件。

  • 重组异质性:例如,在人类基因组中,大约每100kb的序列中就有一个长度为1kb的重组热点(考比 . 2004;卡拉布雷斯2007). 如果所研究的区域包含复合热点,这将减少LD,并可能因此降低扫描检测的功率。然而,由于使用多态性和站点频谱信息的其他汇总统计数据不受影响,因此功率下降可能有限。一个明显的选择是在训练增强分类器时,再次考虑潜在的重组热点。

  • 持续选择(不完全扫描):在我们的模拟中,在采样时,有益的突变被修复。如果正在进行选择,当有益等位基因的频率达到0.6时,突变频谱将与中性下的频谱显著不同( . 2006). 因此,当有益等位基因的频率大于0.6时,应该有机会检测到选择。

  • 循环选择:根据帕夫利季斯 (2010年)重复的选择性扫描将导致选择事件的特征局部模式丢失。一般来说,横扫赛事也会很古老(延森 . 2007;帕夫利季斯 2010年). 这两种效果都表明,检测区域中重复扫描的能力将略低于单个选择性事件。

  • 背景选择:与阳性选择一样,背景选择也会降低多态性水平,但不会产生高频突变(1997; . 2006). 如果我们在中立状态下训练与。分类器识别低频突变的选择和过量,可能会将背景选择错误地识别为正选择。为了避免这种情况,两步的方法应该会有所帮助。如果一个样本被分类为欠选样本,则可能需要在第二步中使用正选择样本和背景选择样本来训练分类器。当使用摘要统计数据来测量高频突变的丰度时,我们希望得到的分类器能够区分背景和阳性选择。

  • 平衡选择:如果所选等位基因的平衡频率不是很高,则很难发现平衡选择。另一方面,如果平衡频率相当高(例如, 75%) ( . 2006)平衡选择的签名类似于正选择的签名。在所选择的等位基因达到其平衡频率后,一些搭便车的中性等位基因也将具有高频率,并且将比在选择性扫描下保持分离更长的时间。这是因为当达到平衡时,它们的频率会更低,需要更多的时间通过漂移来固定它们( . 2006). 因此,我们的方法还应在高平衡频率下检测平衡选择,其使用年限对效率的影响小于正选择。

  • 人口增长:人口增长将导致过多的低频变异,但不会影响高频突变(1997; . 2006). 因此,像瓶颈和背景选择一样,两步方法可能有助于排除人口增长作为另一种解释。

  • 人口萎缩:人口萎缩将导致低频变异的数量小于中高频变异的数量(1996; . 2006). 由于这与选择性扫描引起的特征完全不同,我们预计人口减少不会带来大问题。

  • 群体结构:当一个群体是结构化的时,可能会有过多的低或高频率衍生等位基因,特别是当抽样方案在亚群体中不平衡时( . 2006). 此外,人口结构可能会增加LD(斯拉特金2008). 这可能会明显影响从我们的增强分类器中获得的结果,需要进一步研究在结构化种群中使用增强分类器。正在添加如果标准作为总结,统计数据在这方面可能会有明显的帮助。

脚注

通过作者支持的开放访问选项在线免费提供。

脚注

通讯编辑:J。韦克利

致谢

我们感谢Simon Boitard对模拟过程提出的有益建议。我们感谢西蒙·埃施巴赫和审稿人对原稿的有益评论。我们感谢Pavlos Pavlidis在模拟SVM方法时解释了他们参数选择的细节。我们还感谢Kosuke M.Teshima对程序mbs的指导。这项工作得到了上海浦江计划(08PJ14104)和白仁计划的资助。C.S.由Fonds zur Foörderung der wissenschaftlichen Forschung支持,A.F.由Wiener-、Wissenschaft S-、Forschung-und Technologiefonds支持。

工具书类

Akaike公司、H、。,

1974
统计模型识别的新视角。
IEEE传输。自动化。控制
19
(6):
716
–723.

阿里斯-布鲁苏、S.和L。Excoffier公司,

1996
种群扩张和突变率异质性对DNA序列多态性的影响。
分子生物学。埃沃
13
(3):
494
–504.

博蒙特、文学硕士、文学硕士。和D.J。秃顶,

2002
群体遗传学中的近似贝叶斯计算。
遗传学
 
162
以下为: 
2025
–2035.

比斯瓦斯、S.和J.M。阿基,

2006
积极选择的基因组见解。
趋势Genet
22
(8):
437
–446。

布瓦塔尔、S.、C。施洛特勒和A。Futschik公司,

2009
检测选择性扫描:一种基于隐马尔可夫模型的新方法。
遗传学
 
181
以下为: 
1567
–1578.

布雷曼,L。,

1998
电弧分类器(带讨论)。
Ann.统计
26
(3):
801
–849.

布雷曼、L.、。,

1999
预测游戏和电弧算法。
神经计算
11
(7):
1493
–1517.

布赫曼、P.、。,

2006
推动高维线性模型。
Ann.统计。
 
34
以下为: 
559
–583.

布赫曼、P.和T。Hothorn公司,

2007
推进算法:正则化、预测和模型拟合。
统计科学
22
(4):
477
–505.

卡拉布雷斯、P.、。,

2007
一个种群遗传模型,其重组热点在种群中是异质的。
程序。国家。阿卡德。科学。美国
 
104
(11):
4748
–4752.

费伊、J.C.和C.-I。,

2000
积极达尔文选择下的搭便车。
遗传学
 
155
以下为: 
1405
–1413.

弗伦德、Y.和R.E。夏皮雷,

1996
在线学习的决策理论推广及其在助推中的应用。
J.计算。系统。科学
55
(1):
119
–139.

,年。,

1996
群体DNA样本中性性的新统计测试。
遗传学
 
143
以下为: 
557
–570.

,年。,

1997
针对人口增长、搭便车和背景选择的突变中性统计测试。
遗传学
 
147
以下为: 
915
–925.

、Y.和W。,

1993
突变中性的统计检验。
遗传学
 
133
以下为: 
693
–709.

格罗斯曼、S.R.、I。希拉克特、英国。卡尔松、E.H。拜恩,秒。莫拉莱斯 等。,

2010
多个信号的组合可以区分阳性选择区域中的因果变异。
科学类
 
327
(5967):
883
–886.

汉布林、麻省理工学院、上午。,H。太阳,南卡罗来纳州。默里、A.H。帕特森 等。,

2006
瓶颈后检测定向选择的挑战:双色高粱的经验教训。
遗传学
 
173
以下为: 
953
–964。

汉族、J.和M。坎贝尔,

2005
 数据挖掘、概念和技术第2版。Morgan Kaufmann,旧金山。

Hothorn公司、T.和P。布赫曼,

2002
Mboost:基于模型的增强。R包版本0.5-8。可在http://cran.r-project.org

哈德逊、R.R.、。,

2002
在Wright-Fisher中性遗传变异模型下生成样本。
生物信息学
 
18
(2):
337
–338.

延森、J.D.、K.R。桑顿、中心距。巴斯塔曼特和C.F。Aquadro公司,

2007
关于线性不平衡作为非平衡群体中确定正选择目标的统计量的效用。
遗传学
 
176
以下为: 
2371
–2379。

乔伊斯、P.和P。马约拉姆,

2008
大约足够的统计和贝叶斯计算。统计应用程序。
遗传学。分子生物学
7
以下为: 
26

考比、L.、A.J。杰弗里斯和S。基尼,

2004
交叉点在哪里:哺乳动物中的重组分布。
自然版本基因
5
(6):
413
–424。

基姆、Y.和R。尼尔森,

2004
连锁不平衡是选择性扫描的特征。
遗传学
 
167
以下为: 
1513
–1524.

基姆、Y.和W。斯蒂芬,

2002
检测重组染色体上遗传搭便车的局部特征。
遗传学
 
160
以下为: 
765
–777.

、H.和W。斯蒂芬,

2006
推断果蝇的种群历史和适应性替代率。
公共科学图书馆-基因
2
以下为: 
e166(电子166)

尼尔森、R.、S。威廉姆森,年。基姆,医学博士。胡比斯、A.G。克拉克 等。,

2005
使用SNP数据进行基因组扫描以进行选择性扫描。
基因组研究
15
(11):
1566
–1575.

帕夫利季斯、P.、J.D。延森和W。斯蒂芬,

2010
在非平衡种群的全基因组SNP数据中寻找正选择的足迹。
遗传学
 
185
以下为: 
907
–922.

萨贝提、P.C.、D.E。帝国、J.M。希金斯、H.Z.P。莱文、D.J。里希特 等。,

2002
从单倍型结构检测人类基因组中最近的阳性选择。
自然
 
419
(6909):
832
–837。

萨贝提、P.C.、S.F。沙夫纳、B。油炸、J。洛赫穆勒、P。Varilly公司 等。,

2006
人类谱系中的积极自然选择。
科学类
 
312
(5780):
1614
–1620.

施洛特勒、C.、。,

2002
基于微卫星的多焦点屏幕,用于识别局部选择性扫描。
遗传学
 
160
以下为: 
753
–763.

施密德、K.J.、S。拉莫斯-Onsins公司,H。林吉斯-贝克施泰因、B。魏斯哈尔和T。米切尔-奥尔兹,

2005
中的多点序列调查拟南芥揭示了全基因组与DNA序列多态性中性模型的背离。
遗传学
 
169
以下为: 
1601
–1615.

施瓦兹、G.、。,

1978
估算模型的维度。
Ann.统计
6
(2):
461
–464。

斯拉特金、M.、。,

2008
联系不平衡——理解进化的过去并描绘医学的未来。
Genet国家牧师
9
(6):
477
–485.

斯宾塞C.C.A.和G。笼子,

2004
Selsim:通过自然选择和重组模拟种群遗传数据的程序。
生物信息学
 
20
(18):
3673
–3675.

田岛,F。,

1983
有限种群中DNA序列的进化关系。
遗传学
 
105
以下为: 
437
–460.

田岛、F、。,

1989
a种群规模变化对DNA多态性的影响。
遗传学
 
123
以下为: 
597
–601.

田岛、F、。,

1989
b通过DNA多态性检验中性突变假设的统计方法。
遗传学
 
123
以下为: 
585
–595.

手岛、K.M.和H。伊南,

2009
mbs:修改Hudson的ms软件,生成具有双等位基因位点的DNA序列样本。
BMC生物信息学
 
10
以下为: 
166

桑顿、K.和P。安道尔法托,

2006
近似贝叶斯推断揭示了荷兰人口近期严重瓶颈的证据黑腹果蝇
遗传学
 
172
以下为: 
1607
–1619.

桑顿、K.R.和J.D。延森,

2007
控制多点基因组扫描的假阳性率以进行选择。
遗传学
 
175
以下为: 
737
–750.

、F.、N.M。史蒂文斯和E.S。巴克勒四、,

2009
追踪玉米驯化的足迹和对10号染色体进行大规模选择性扫描的证据。程序。
国家。阿卡德。科学。美国
 
106
(补充1):
9979
–9986.

尤泽尔、T.和K.W。科尔宾,

1971
将离散概率分布拟合到进化事件。
科学类
 
172
(988):
1089
–1096.

沃伊特、B.F.、S。库达拉瓦利,X。和J.K。普里查德,

2006
人类基因组中最近的正选择图谱。
公共科学图书馆生物学
4
(3):
e72(电子72)

沃特森总经理。,

1975
关于没有重组的遗传模型中分离位点的数量。
西奥。大众。生物
7
(2):
256
–276.

赖特、S.I.、I.V。,秒。施罗德,M。山崎、J.F。德布勒 等。,

2005
人工选择对玉米基因组的影响。
科学类
 
308
(5726):
1310
–1314.

、K.、Y。,秒。和C.-I。,

2006
利用高频变异检测阳性选择的统计测试。
遗传学
 
174
以下为: 
1431
–1439.

,K,S。和C.-I。,

2007
阳性选择下搭便车检测的复合测试。
分子生物学。进化
24
(8):
1898
–1908.

基夫科维奇、D.和T。威赫,

2008
不同种群规模下分离位点的二阶矩。
遗传学
 
180
以下为: 
341
–357。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

补充数据