Distinguishing Positive Selection From Neutral Evolution: Boosting the Performance of Summary Statistics

Lin, Kao; Li, Haipeng; Schlötterer, Christian; Futschik, Andreas

doi:10.1534/genetics.110.122614

摘要

摘要统计在种群遗传学中得到了广泛的应用，但它们存在一个缺点，即不存在简单而充分的摘要统计，它捕获了区分不同进化假设所需的所有信息。在这里，我们应用了boosting，这是一种最新的统计方法，它结合了简单的分类规则来最大限度地提高联合预测性能。我们表明，我们的boosting实现具有检测选择性扫描的强大功能。人口统计事件（如瓶颈）不会导致大量假阳性。与其他中立测试的比较表明，与其他中立性测试相比，我们的boosting实现表现良好。此外，我们评估了不同汇总统计数据对选择识别的相对贡献，发现对于最近的扫描，完整的单倍型纯合子信息非常丰富，而较老的扫描更容易通过Tajimaπ检测到。总的来说，瓦特森θ被发现对区分瓶颈和选择贡献最大。

一种流行的关于竞争种群遗传场景的统计推断方法是使用汇总统计(田岛1989年;付和锂1993;费伊和吴2000;萨贝提等. 2002;空虚等. 2006). 由于基础模型的复杂性通常不允许有一个单一的足够统计数据，这导致了大量汇总统计数据的开发，从而产生了应将哪些汇总统计数据用于特定目的的问题。试图通过模拟来近似几个汇总统计数据的联合似然的方法受到维数灾难的影响，并且通常在计算上很难处理。因此，可以在文献中找到以合理的方式将汇总统计数据合并为单个数字的建议(曾等. 2006,2007). 在最近的工作中，格罗斯曼等. (2010)使用贝叶斯方法，该方法能够组合随机独立汇总统计信息。

增压(弗伦德和沙佩尔1996;布赫曼和Hothorn公司2007)是一种较新的统计方法，它允许估计汇总统计的组合，从而优化最终分类规则的敏感性和特异性。与贝叶斯方法相比格罗斯曼等. (2010)boosting不需要独立的汇总统计数据，因此适用范围更广。在这里，我们探讨了增强作为区分竞争种群遗传场景的方法。虽然提升也可以用于其他环境，但我们选择了积极选择、中性进化和瓶颈作为我们的竞争场景。选择这种经过充分研究的场景，可以让我们将boosting与文献中可用的其他基于汇总统计的方法进行比较(田岛1983,1989年;费伊和吴2000;空虚等. 2006). 这里的期望是，通过推导站点频率和基于链接不平衡的统计数据的新组合，提升可能会有所收获。由于它们衡量选择的不同方面，因此它们的组合并不明显。与最近提出的方法的比较(帕夫利季斯等. 2010)还提供了使用支持向量机组合站点频率和链接不平衡（LD）信息的方法。

根据我们对选择痕迹的了解，了解boosting是如何结合使用的汇总统计数据的，这可能也很有趣。到目前为止，积极选择的足迹已经被很好地理解了。它们包括分离位点数量的减少，以及突变频谱和连锁不平衡结构的变化(比斯瓦斯和阿基2006;萨贝提等. 2006). 然而，除了选择之外，对观察到的偏离中立的现象可能还有其他解释，例如人口的人口历史。例如，瓶颈会导致类似于选择导致的足迹(田岛1989年a). 然而，与人口统计历史相反，正选择的影响通常被认为是局部的，只在有限的空间范围内改变DNA模式。通常，汇总统计数据会在所选站点显示其极值，并在离开所选站点时逐渐恢复其正常值。这导致了一种独特的“山谷”模式，可以用来区分选择和人口统计学(基姆和斯蒂芬2002).

在方法，我们首先解释boosting的工作原理，并指出一些相关文献。然后我们解释了我们是如何为了检测选择而实现助推的。

在结果，我们进行了仿真，说明了选择性扫描检测中boosting的威力。与其他方法相比，增强似乎表现得很好。然后，我们探讨了该方法对人口统计学影响的敏感性，并考虑了同时发生和不发生选择性扫描的瓶颈。还提供了玉米实际数据的应用程序。我们进一步讨论了从提高各种汇总统计数据的相对重要性中可以学到什么。这对于与其他方法（如近似贝叶斯计算（ABC））结合使用也很有帮助(博蒙特等. 2002)，其中boosting可以在第一步中使用，有助于选择用于进一步统计分析的摘要信息度量。在ABC中，选择汇总统计数据是确保后验数据良好逼近的一个重要因素。最近乔伊斯和马约拉姆(2008)建议使用近似充分性作为选择摘要统计的准则，但这一主题需要进一步研究。

方法

助力：

Boosting是一种流行的机器学习方法，最近在统计界引起了很多关注。（请参见布赫曼和Hothorn公司2007以获取最新评论。）我们使用boosting作为竞争种群遗传场景之间的分类方法，但boosting也可以用于回归目的。

boosting分类器是一种迭代方法，它使用在两个竞争场景下模拟的两组训练样本来获得简单分类规则的优化组合。在每个步骤中，一个基本过程都会产生一个简单（弱）的分类器，但通常并不十分准确。该分类器与前面步骤中获得的分类器相结合，并应用于训练样本。然后对训练样本进行重新称重，使那些没有正确分类的项目更加重要。这是通过使用一个损失函数来实现的，该函数用于测量单个预测的准确性。当迭代停止时，通过弱分类器的组合做出最终决定，这种方式可能被视为投票方案。弱分类器做得越好，它对最终投票的贡献就越大。作为聚合步骤的结果，boosting被称为集成方法，简单规则的集成通常比基本分类器本身强大得多。另一种理解boosting的方法是作为函数空间中的最速下降算法[函数梯度下降，FGD(布雷曼1998,1999)].

通过在可能的基本过程、损失函数和一些进一步的实现细节中进行选择，可以获得多个版本的boosting。我们使用一次只有一个预测值的简单逻辑回归作为我们的基本程序，因为这种选择会导致输入变量的相对重要性特别容易解释的结果。然而，已经提出了几种其他版本的增强(Hothorn公司和布赫曼2002)原则上也可以应用于我们的设置。

为了获得我们的boosting分类器，我们模拟了500个训练样本在两个相互竞争的种群遗传场景下的每一个场景，例如选择与。在最简单的情况下保持中立。总的来说，我们的培训数据集包含n个=500+500个样本。对于我第个训练样本，我们计算了一个预测向量X（X）_我它包含所有可能有用的摘要统计信息。响应变量Y（Y）_我指示在哪种情况下生成了样本。（例如，Y（Y）_我=1，选择和Y（Y）_我在中立状态下=0。）的值Y（Y）_我已知的是模拟训练数据，但未知的是真实数据和测试数据。然后，整个数据集可以表示为

\[（X_{1}，Y_{1{），{\ldots}，{\，}（X_}n}，Y_{n}）.\]

我们将分类器表示为（f）和使用（f）(X（X）)预测Y（Y）更具体地说，我们预测Y（Y）=1，如果（f）(X（X）)对于某些阈值γ，>γ。如果要对称处理I型和II型误差，我们可以选择γ=0.5。否则，可能需要校准γ以实现所需的I型错误概率。

必须选择损失函数ρ来测量真实值之间的差异Y（Y）和预测（f）(X（X）). 目标是找到一个函数（f）将经验风险降至最低：

\[\frac｛1｝｛n｝｛｛｛\sum｝_｛i｛=｝1｝｝^｛n｝｝\mathrm｛｛\rho｝｝（Y_｛i｝，f（X_｛i｝））

分类器（f）迭代获得。其初始值（f）^[0]选择作为训练数据集中所有响应变量的平均值，然后（f）逐步向ρ的负梯度方向变化，以接近（f）这将经验风险降至最低。我们的重点是平方误差损失函数ρ(Y（Y）_我,（f）) = 1/2(Y（Y）_我负极（f）)².可通过负二项对数似然ρ给出另一种可能的损失度量(Y（Y）_我,第页) = −Y（Y）_我日志(第页) − (1 −Y（Y）_我)对数（1−第页)带有第页(X（X）) =P（P）(Y（Y）= 1|X（X）)=经验(（f）(X（X）))/[出口(（f）(X（X）))+经验（−（f）(X（X）))] (布赫曼和Hothorn公司2007).

算法1：FGD程序(布赫曼和Hothorn公司2007):

算法1总结了如何获得boosting分类器。该算法在R包中提供姆博斯特(Hothorn公司和布赫曼2002)，中给出了一个简单的说明性示例支持信息,文件S1。

给予（f）偏移值
\[{\hat{f}}^{{[}0{]}（{\cdot}）{\equiv}{\mathrm{arg{\，}min}_{c}}{{sum}_{i{=}1}^{n}}\mathrm{{rho}}（Y_{i}，{，}c）
设置米= 0.
增加米乘以1。计算负梯度向量(U型₁, …,U型_n个)并在进行评估
\（{\hat{f}}^{[}m｛-｝1{]}}（X_{i}）\）
⁠;即.,
\[U{i}{=}{-}\frac{{\partial}}{{\partial}f}\mathrm{{\rho}}（Y{i}，f）\left|\right.{{f{=}}{\hat{f}}^{[}m{-}1{]}}（X_{i}）}}
拟合负梯度向量(U型₁, …,U型_n个)至X（X）₁, …,X（X）_n个通过实值基本过程
\[（X_{i}，{\，}U_{i}）_{i{=}1}^{n}{{rightarrow}^{mathrm{base}{\，{mathrm{procedure}}U{i}{\approx}{hat{g}}^{left[m\right]}（X_}）.\]
更新
\（{\hat{f}}^{{[}m{]}}（{\cdot}）{=}{\hat{f}{^{[}m{-}1｛]｝（｛\cdot｝）｛+｝\mathrm｛｛\nu｝｝｛\hat｛g｝｝^｛｛[｝m｛]｝｝（｛\cdot｝）
⁠，其中0<ν≤1是步长因子。
重复步骤2-4，直到米=米_停止。

对于算法1第四步中的步长ν，我们选择R包mboost的默认值ν=0.1(Hothorn公司和布赫曼2002). 较小的ν值会增加所需的迭代次数，但会防止过度。根据布赫曼和Hothorn公司(2007)然而，对于ν，结果不应非常敏感。

进一步的优化参数是基本过程的迭代次数。迭代次数越大，分类器对训练数据的预测效果越好。然而，训练数据的更好表现并不一定会影响到最终应用增强的实际数据。事实上，如果对训练数据进行过多的迭代，那么分类器在应用于真实序列时最终可能会表现得更差。这种现象称为过盈。根据文献(布赫曼和Hothorn公司2007)然而，boosting被认为能够很好地抵抗过拟合，因此对迭代次数不太敏感。然而，停止迭代过程的标准在实践中是有用的。作为停止标准，交叉验证和引导等重采样方法(汉族和坎贝尔2005)已建议估计不同迭代次数的样本外误差。另一个计算要求较低的替代方案是使用Akaike的信息准则（AIC）(Akaike公司1974;布赫曼2006)或贝叶斯信息准则（BIC）(施瓦兹1978).

在我们的计算中，当

\[\mathrm{AIC}{=}2k{\，}（m）{-}2{\，}\mathrm{ln}（L（m））\]

达到最低要求。在这里k个(米)是分类器使用的预测数（f）^[米]在步骤米、和L（左）是给定数据的（负二项式）可能性（f）^[米]。

增压分类器的输入：

我们考虑由覆盖同一区域的几个DNA序列组成的样本，并将该区域划分为几个较小的亚段。我们的预测变量是针对每个细分市场分别计算的不同汇总统计数据。单独计算每个子段的汇总统计数据允许我们识别已知为正选择轨迹的谷模式。考虑到j个上的摘要统计信息k个细分市场导致总计k个×j个组合到输入向量的值。回想一下，输入向量表示为X（X）_我对于我第个训练样本。

作为我们的基本汇总统计数据，我们选择了Watterson估计量(沃特森1975),

\[\mathrm{{\hat{{theta}}}{{\mathrm{w}}{=}\左（{{{sum}{i{=}1}}^{n{-}1}}\压裂{1}{i}\右）^{{-}1}{{{\sum}_{i{=}1}}^{n｛-｝1}}S_{i}，\]

和田岛的

\（\mathrm{{\hat{{theta}}}{{pi}}}\）

(田岛1983),

\[\mathrm{{\hat{{theta}}}{{\mathrm{{pi}}{=}{{{sum}{i{=}1}}^{n{-}1}}\压裂{2S_{i} 我（n个）{-}1)}{n（n{-}1)},\]

以及

\（\mathrm{{\hat{{theta}}}{{h}\）

(费伊和吴2000),

\[\mathrm{{hat{{theta}}}{h}{=}{{{sum}{i{=}1}}^{n{-}1}}\压裂{2S_{i} 我^{2} }{n（n{-}i)},\]

哪里S公司_我是找到的派生变量数我样本中的时间n个染色体。

我们进一步考虑田岛的D类(田岛1989年b)费伊和吴的H（H）(费伊和吴2000;曾等. 2006)这两者结合了上述两个汇总统计数据的信息。因此，它们都有点多余。作为连锁不平衡的度量，我们添加了综合扩展单倍型纯合子iHH(萨贝提等. 2002;空虚等. 2006).

图1总结预测向量X（X）对于40-kb的DNA序列，使用这些k个=20个子段的6个统计数据，每个子段的长度为2 kb。鉴于

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

⁠,

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

⁠,

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类、Fay和Wu的H（H）分别计算每个子段的iHH，iHH从中心开始计算，每侧的距离分别为2、4、…、20 kb。如所示图1，iHH首先通过从序列起点到20kb的积分来计算。结果用iHH1表示。接下来，iHH2使用从2kb到20kb的窗口。左侧部分的最终iHH统计值是iHH10，从18kb增加到20kb。对于从20 kb延伸到40 kb的序列的右侧部分，类似地获得了10个iHH值。

$预测变量用作提升的输入X。Ta，Tajima的D；FW、Fay和Wu’s H。我们将整个区域（40 kb）分割成20个亚段，每个亚段的长度为2 kb。对于每个子段，我们计算$\batchmode\documentclass[fleqn，10pt，legalpaper]{article}\usepackage{amssymb}\userpackage{amasfonts}\usepackage{amsmath}\pagestyle{empt}\begin{document}\（\mathrm{{hat{theta}}}_{mathrm}{w}\ ymb}\usepackage{amsfonts}\usepackage{amsmath}\pagestyle{empty}\begin{document}\（\mathrm{{hat{theta}}}_{mathrm}{pi}}\）\end{document}$，$\batchmode\documentclass[fleqn，10pt，legalpaper]{article}\usebackage{amassymb}\userpackage{asfonts}\use package{amasmath{pagestyle{empty}\ begin{document}\（\mathrm{{\hat{{\theta}}}_{h}\）\end{document}$、Tajima的D、Fay和Wu的H。重叠子段用于iHH。总的来说，这导致6×20=120个预测变量被用作输入向量X以提高。$

图1.—

用作输入的预测变量X（X）提升。Ta，Tajima的D类; FW、Fay和Wu的H（H）我们将整个区域（40kb）分割成20个亚段，每个亚段的长度为2kb。对于每个子段，我们计算

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

⁠,

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

⁠,

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类、Fay和Wu的H（H）。重叠子段用于iHH。总的来说，这导致6×20=120个预测变量被用作输入向量X（X）提升。

新标签中打开下载幻灯片

模拟：

为了训练和测试，我们模拟了包括n个=每个长度为10个序列我=40 kb，复合率ρ=0.02。我们为α和时间τ选择了几个不同的值，因为有益突变是固定的（单位为2N个世代），并假设有利位置位于层序的中间（B位=20kb）。对于每组参数，将500个中性样本和500个选择样本模拟为训练数据集。同样的样本量也用于测试数据。

我们考虑了两种不同的突变方案：（1）固定突变率θ=4N个μ=0.005和（2）固定数量的分离位点(K（K）=566，这是θ=0.005时中性条件下的预期分离位点数；看见沃特森1975). 在实际应用中，第二种突变方案对应于一种策略，在这两种情况下，生成的训练样本的分离位点数量与实际数据中观察到的分离位点数量相等。

为了模拟中性样本和选择中的样本，我们使用了SelSim(斯宾塞和笼子2004)软件。通过ms程序模拟瓶颈样品哈德逊(2002)mbs程序由手岛和伊南(2009)对其进行了修改，以模拟出现瓶颈的选择性扫描。仿真参数和一些符号总结在表1和图2。

表1

新标签中打开

参数和术语

一般参数
n个	样本中的序列数
我	调查区域的长度
θ	θ=4N个μ、每个核苷酸的群体突变率，其中N个是二倍体种群的有效种群规模，μ是每代每个核苷酸的突变率
K（K）	样本中分离位点的数量
ρ	ρ = 4编号，每个核苷酸的群体重组率，其中第页是每代每个核苷酸的重组率
选择参数
α	α = 2编号，选择强度，其中秒有益等位基因相对于古老等位基因的选择优势
τ	有益突变固定后的时间，单位为2N个世代
B站点	有益部位与测序区域左端之间的距离
瓶颈参数（请参阅图2)
t吨₀	瓶颈结束后的时间，单位为2N个世代
t吨₁	瓶颈持续时间，单位为2N个世代
D类	D类=N个₁/N个₀，瓶颈深度
N个₀	瓶颈前后的有效人口规模
N个₁	瓶颈期间的有效人口规模
符号
neu（新）	500个模拟中性样品
sel（α，τ）	500个给定α和τ的模拟选择样本
机器人程序(t吨₀,t吨₁)	500个模拟瓶颈样本t吨₀和t吨₁
N个(一,b条²)	高斯分布，其中一=平均值和b条²=方差
如果θ或FK公司	θ或固定值的模拟K（K）

一般参数
n个	样本中的序列数
我	调查区域的长度
θ	θ = 4N个μ、每个核苷酸的群体突变率，其中N个是二倍体种群的有效种群规模，μ是每代每个核苷酸的突变率
K（K）	样本中分离位点的数量
ρ	ρ = 4编号，每个核苷酸的群体重组率，其中第页是每代每个核苷酸的重组率
选择参数
α	α = 2编号，选择强度，其中秒有益等位基因相对于古老等位基因的选择优势
τ	有益突变固定后的时间，单位为2N个代
B站点	有益部位与测序区域左端之间的距离
瓶颈参数（请参阅图2)
t吨₀	瓶颈结束后的时间，单位为2N个世代
t吨₁	瓶颈持续时间，单位为2N个世代
D类	D类=N个₁/N个₀，瓶颈深度
N个₀	瓶颈前后的有效人口规模
N个₁	瓶颈期间的有效人口规模
符号
neu（新）	500个模拟中性样品
sel（α，τ）	500个给定α和τ的模拟选择样本
机器人程序(t吨₀,t吨₁)	500个模拟瓶颈样本t吨₀和t吨₁
N个(一,b条²)	高斯分布，其中一=平均值和b条²=方差
如果θ或FK公司	θ或固定值的模拟K（K）

表1

新标签中打开

参数和术语

一般参数
n个	样本中的序列数
我	调查区域的长度
θ	θ=4N个μ、每个核苷酸的群体突变率，其中N个是二倍体种群的有效种群规模，μ是每代每个核苷酸的突变率
K（K）	样本中分离位点的数量
ρ	ρ = 4编号，每个核苷酸的群体重组率，其中第页是每代每个核苷酸的重组率
选择参数
α	α = 2编号，选择强度，其中秒有益等位基因相对于古老等位基因的选择优势
τ	有益突变固定后的时间，单位为2N个世代
B站点	有益部位与测序区域左端之间的距离
瓶颈参数（请参阅图2)
t吨₀	瓶颈结束后的时间，单位为2N个世代
t吨₁	瓶颈持续时间，单位为2N个世代
D类	D类=N个₁/N个₀，瓶颈深度
N个₀	瓶颈前后的有效人口规模
N个₁	瓶颈期间的有效人口规模
符号
neu（新）	500个模拟中性样品
sel（α，τ）	500个给定α和τ的模拟选择样本
机器人程序(t吨₀,t吨₁)	500个模拟瓶颈样本t吨₀和t吨₁
N个(一,b条²)	高斯分布，其中一=平均值和b条²=方差
如果θ或FK公司	θ或固定值的模拟K（K）

一般参数
n个	样本中的序列数
我	调查区域的长度
θ	θ = 4N个μ、每个核苷酸的群体突变率，其中N个是二倍体种群的有效种群规模，μ是每代每个核苷酸的突变率
K（K）	样本中分离位点的数量
ρ	ρ = 4编号，每个核苷酸的群体重组率，其中第页是每代每个核苷酸的重组率
选择参数
α	α = 2编号，选择强度，其中秒有益等位基因相对于古老等位基因的选择优势
τ	有益突变固定后的时间，单位为2N个代
B站点	有益部位与测序区域左端之间的距离
瓶颈参数（请参阅图2)
t吨₀	瓶颈结束后的时间，单位为2N个世代
t吨₁	瓶颈持续时间，单位为2N个世代
D类	D类=N个₁/N个₀，瓶颈深度
N个₀	瓶颈前后的有效人口规模
N个₁	瓶颈期间的有效人口规模
符号
neu（新）	500个模拟中性样品
sel（α，τ）	500个给定α和τ的模拟选择样本
机器人程序(t吨₀,t吨₁)	500个模拟瓶颈样本t吨₀和t吨₁
N个(一,b条²)	高斯分布，其中一=平均值和b条²=方差
如果θ或FK公司	θ或固定值的模拟K（K）

瓶颈场景的术语。显示了在时间t0结束并持续t1的瓶颈场景。现在和古代的有效人口规模都是N0。在瓶颈期间，有效种群数量减少到所选的N1，从而N0/N1=100。

图2-

瓶颈场景的术语。在时结束的瓶颈场景t吨₀并持续了t吨₁如图所示。现在和古代的有效人口规模都是N个₀在瓶颈期间，有效人口数量减少至N个₁选择这样的N个₀/N个₁= 100.

新标签中打开下载幻灯片

控制I类错误：

默认情况下，boosting对称地处理类型I和类型II错误，并预测Y（Y）=1，如果（f）(X（X）) > γ = 0.5. 如果希望在零模型（如中性）下控制I类错误概率，可以通过调整阈值γ来实现。为此，我们首先像往常一样在训练样本的基础上获得一个增强分类器。然后在零模型下生成500个独立的训练样本，并选择γ，使95%的样本得到正确分类。为了研究在替代模型下产生的分类器的效率，我们又生成了500个独立的测试样本。

结果

辨别力：

根据图3，除iHH外，我们所有的汇总统计数据仅在选择场景下显示山谷模式。对于iHH，集成会导致中性和选择情况都出现山谷。然而，在这两种竞争情景下，在水平和形状上仍然存在差异。

摘要统计的空间模式。显示了选择（与中立）对不同汇总统计的空间影响。每个点对应于1000多个具有固定θ的独立样本的平均值。x轴给出序列中的位置，而y轴显示在以该位置为中心的子段计算的汇总统计值。对于选择方案，再次假设有利地点为20 kb。

图3.—

摘要统计的空间模式。选择的空间效应(与中性）。每个点对应于1000多个具有固定θ的独立样本的平均值。这个x个-axis给出序列中的位置，而年-axis显示在此位置居中的子分段处计算的汇总统计值。对于选择方案，再次假设有利地点为20 kb。

新标签中打开下载幻灯片

我们首先研究在相同的α和τ值下生成的样本，用于训练和测试。中的结果表2表明我们的方法在区分中性和选择方面是非常有效的。即使在选择扫描较弱且较老的情况下（α=200和τ=0.2），在θ为固定值的情况下，我们也能获得88.0%的精度。请参见锂和斯蒂芬(2006)用于果蝇强选择和弱选择的分类。

表2

新标签中打开

不同训练策略下的助推表现

培训数据	测试数据	Acc公司(如果θ) (%)	Acc公司(FK公司) (%)
neu+sel（5000.001）	sel（5000.001）	100	100
neu+sel（500,0.2）	sel（500，0.2）	99.4	96.4
neu+sel（200,0.001）	sel（200,0.001）	98.6	97.8
neu+sel（200,0.2）	选择（200,0.2）	88	82.2
neu+sel(N个(500, 200²),N个（0.2，0.1²))	sel（5000.001）	99.8	98.4
	sel（500，0.2）	98.4	96.6
	sel（200,0.001）	93.8	86.2
	选择（200,0.2）	87.6	75.8
neu+sel（5000.001）	sel（200，0.8）	86.6	77.2
neu+sel（200，0.8）	sel（5000.001）	100	99.6

培训数据	测试数据	Acc公司(如果θ) (%)	Acc公司(FK公司) (%)
neu+sel（5000.001）	sel（5000.001）	100	100
neu+sel（500,0.2）	sel（500，0.2）	99.4	96.4
neu+sel（200,0.001）	sel（200,0.001）	98.6	97.8
neu+sel（200,0.2）	选择（200,0.2）	88	82.2
neu+sel(N个(500, 200²),N个（0.2，0.1²))	sel（5000.001）	99.8	98.4
	sel（500，0.2）	98.4	96.6
	sel（200,0.001）	93.8	86.2
	选择（200,0.2）	87.6	75.8
neu+sel（5000.001）	sel（200，0.8）	86.6	77.2
neu+sel（200，0.8）	sel（5000.001）	100	99.6

根据500个独立的中性样本，将I类错误概率（中性样本错误分类的概率）调整为5%。预测准确度（Acc）是指正确分类的百分比。我们考虑两种突变方案：如果θ和FK公司.训练和测试样本是在相同的参数下独立生成的。请参见表1表示符号。

表2

新标签中打开

不同训练策略下的助推表现

培训数据	测试数据	Acc公司(如果θ) (%)	Acc公司(FK公司)（%）
neu+sel（5000.001）	sel（5000.001）	100	100
neu+sel（500,0.2）	sel（500，0.2）	99.4	96.4
neu+sel（200,0.001）	sel（200,0.001）	98.6	97.8
neu+sel（200,0.2）	选择（200,0.2）	88	82.2
neu+sel(N个(500, 200²),N个(0.2, 0.1²))	sel（5000.001）	99.8	98.4
	sel（500，0.2）	98.4	96.6
	sel（200,0.001）	93.8	86.2
	选择（200,0.2）	87.6	75.8
neu+sel（500，0.001）	sel（200，0.8）	86.6	77.2
neu+sel（200，0.8）	sel（5000.001）	100	99.6

培训数据	测试数据	Acc公司(如果θ) (%)	Acc公司(FK公司)（%）
neu+sel（5000.001）	sel（5000.001）	100	100
neu+sel（500,0.2）	sel（500，0.2）	99.4	96.4
neu+sel（200,0.001）	sel（200,0.001）	98.6	97.8
neu+sel（200,0.2）	选择（200,0.2）	88	82.2
neu+sel(N个(500, 200²),N个(0.2, 0.1²))	sel（5000.001）	99.8	98.4
	sel（500，0.2）	98.4	96.6
	sel（200,0.001）	93.8	86.2
	选择（200,0.2）	87.6	75.8
neu+sel（500，0.001）	sel（200，0.8）	86.6	77.2
neu+sel（200，0.8）	sel（5000.001）	100	99.6

根据500个独立的中性样本，将I类错误概率（中性样本错误分类的概率）调整为5%。预测准确度（Acc）是指正确分类的百分比。我们考虑两种突变方案：如果θ和FK公司.训练和测试样本是在相同的参数下独立生成的。请参见表1用于注释。

实际上，这种方法过于乐观，因为选择场景的参数通常是未知的。另一个更实用的策略是对整个参数值范围进行训练，表示关于可能参数值的先验信念。为此，我们使用根据从正态先验分布中选择的参数生成的样本，支持范围限制在可能的参数值范围内。我们还从均匀分布中生成了具有非常相似结果的参数（参见表S1). 为了便于解释，通常使用在固定参数值下生成的样本进行测试。不出所料，使用随机选择的参数值生成的样本训练分类器会导致准确度有所下降。根据表2然而，在最困难的测试用例中（α=200，τ=0.2，θ固定），功率仍然是87.6%。

如果替代场景指定错误，那么至少在我们考虑的情况下，我们的方法看起来相当健壮。当我们用强选择（α=500）和最近选择（τ=0.001）训练分类器，但用弱扫描（α=200）和旧扫描（τ=0.2）进行测试，反之亦然，增强分类器的能力仍然很高（参见表2).

由于θ在实践中通常是未知的，也可能因选择以外的原因而变化，因此一种选择是在固定数量的隔离场地下模拟两种竞争场景的训练数据K（K）这与实际测试数据中的结果相同。有了这个策略，boosting仍然能够学习山谷模式。显然，排除与θ总值差异有关的信息将导致功率有所下降。表2显示了损失的电量。在我们考虑的情景中，所有情况下的预测能力都大于75%。

结果是使用L2fm损耗函数进行升压(布尔曼和Hothorn公司2007). 使用不同的损失函数对结果影响不大。（请参见表S2和表S3）

我们还研究了AIC作为加速迭代的停止规则的使用。中提供了一个典型示例图4。随着迭代次数的增加，AIC首先会迅速减少，然后会减慢，在很长一段时间内保持稳定水平。在该示例中，最低AIC值是在第175次迭代时获得的。在第1000次或第10000次迭代时停止，可获得几乎相同的预测精度（结果未显示），为增压的缓慢过拟合提供了经验支持。

AIC。图中显示了升压运行的典型AIC曲线（500个中性样本和500个选择样本，α=200，τ=0.2，θ固定）。x轴表示迭代次数，y轴表示AIC值。在第175次迭代时，AIC达到了最小值。我们可以看到，AIC起初下降得很快，但后来变化得很慢，这与增压的缓慢过拟合特性相一致。

图4.—

AIC公司。图中显示了升压运行的典型AIC曲线（500个中性样本和500个选择样本，α=200，τ=0.2，θ固定）。这个x个-轴表示迭代次数年-轴表示AIC的值。在第175次迭代时，AIC达到了最小值。我们可以看到，AIC起初下降得很快，但后来变化得很慢，这与增压的缓慢过拟合特性相一致。

新标签中打开下载幻灯片

影响预测准确性的另一个因素是序列长度。在表3，我们研究了当可用序列的长度＜40kb时，功率的降低，这是迄今为止考虑的长度。结果表明，即使在长度为1kb的序列中，功率下降也不会显著。

表3

新标签中打开

检测能力与序列长度的关系

测试样品	我=20 kb（%）	我=8 kb（%）	我=4 kb（%）	我=2 kb（%）	我=1 kb（%）
sel（5000.001）	99.8	98.8	99.2	95.2	93.4
sel（500，0.2）	99	97.8	96.8	96.2	89
sel（200,0.001）	95.4	94.8	89.8	86	87.8
sel（200，0.2）	88.4	84	78.8	80.8	79.6

测试样品	我=20 kb（%）	我=8 kb（%）	我=4 kb（%）	我=2 kb（%）	我=1 kb（%）
sel（5000.001）	99.8	98.8	99.2	95.2	93.4
sel（500，0.2）	99	97.8	96.8	96.2	89
sel（200,0.001）	95.4	94.8	89.8	86	87.8
选择（200,0.2）	88.4	84	78.8	80.8	79.6

我们考虑长度序列的样本我并在训练和测试中将θ固定为相同的值。使用neu+sel进行培训(N个（500、200²),N个(0.2, 0.1²)). 将I类错误概率（中性样本错误分类的概率）调整为5%。什么时候？我=20、8或4kb，亚段长度选择为2kb；什么时候我=2或1 kb，每个亚段为0.5 kb。对每个细分市场分别进行汇总统计。即使是在较短的地区，预测能力仍然很高。

表3

新标签中打开

检测能力与序列长度的关系

测试样品	我=20 kb（%）	我=8 kb（%）	我=4 kb（%）	我=2 kb（%）	我=1 kb（%）
sel（5000.001）	99.8	98.8	99.2	95.2	93.4
sel（500，0.2）	99	97.8	96.8	96.2	89
sel（200,0.001）	95.4	94.8	89.8	86	87.8
选择（200,0.2）	88.4	84	78.8	80.8	79.6

测试样品	我=20 kb（%）	我=8 kb（%）	我=4 kb（%）	我=2 kb（%）	我=1 kb（%）
sel（5000.001）	99.8	98.8	99.2	95.2	93.4
sel（500，0.2）	99	97.8	96.8	96.2	89
sel（200,0.001）	95.4	94.8	89.8	86	87.8
选择（200,0.2）	88.4	84	78.8	80.8	79.6

我们考虑长度序列的样本我并在训练和测试中将θ固定为相同的值。使用neu+sel进行培训(N个（500、200²),N个(0.2, 0.1²)). 将I类错误概率（中性样本错误分类的概率）调整为5%。什么时候？我=20、8或4kb，亚段长度选择为2kb；什么时候我=2或1 kb，每个亚段为0.5 kb。对每个细分市场分别进行汇总统计。即使是在较短的地区，预测能力仍然很高。

基于增强的基因组扫描：

事实证明，增压分级机对于所选站点的位置非常具体。当以20kb的选定位置训练分类器时，如果选定位置在测试样本中偏离此位置，则功率会迅速降低(表4). 这可以在基因组扫描选择的背景下加以利用。事实上，如果有足够大的序列块可用，就可以沿着序列滑动一个由20个子段组成的窗口。然后，对所选位置位置的自然估计就是窗口的中心，具有最强的选择证据。

表4

新标签中打开

精度取决于所选站点的位置

B站点（kb）	Acc公司(如果θ) (%)
20	100
15	80.6
10	44.2

使用neu+sel（500,0.001）和Bsite=20kb进行训练，I型错误概率调整为5%。在具有不同位置的有益突变位点的sel（5000.001）上进行测试。可以看出，随着训练样本和测试样本之间所选位置距离的增加，扫描检测能力迅速下降。Acc：检测到扫描的案例百分比。有关符号的详细信息，请参见表1。

表4

新标签中打开

精度取决于所选站点的位置

B站点（kb）	Acc公司(如果θ) (%)
20	100
15	80.6
10	44.2

使用neu+sel（500,0.001）和Bsite=20kb进行训练，I型错误概率调整为5%。在具有不同位置的有益突变位点的sel（5000.001）上进行测试。可以看出，随着训练样本和测试样本之间所选位置距离的增加，扫描检测能力迅速下降。Acc：检测到扫描的案例百分比。有关符号的详细信息，请参见表1。

为了了解哪些汇总统计数据对所选位置最具体，我们通过一次仅基于一个汇总统计数据应用增强分类器来分别研究它们。事实证明，与假设选定地点的较小偏差对

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类和iHH(表5). 因此，人们可能希望通过仅使用

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类和iHH。请参见图5以基于这三个汇总统计数据的基因组扫描为例。

$基于增强的基因组扫描。在三个图中的每一个图中，每一列代表一个独立模拟的100-kb染色体区域，其中发生有益突变（α=500，τ=0.001）。这些行指示序列中的位置。每个图形右侧的点标记了发生有益突变的位置50 kb。在一列中，每个像素表示基于沿着染色体区域滑动的40-kb窗口（步长2kb）的分类结果。使用neu+sel（5000.001）进行训练。实心像素表示增强预测考虑的位置经历了选择事件。根据需要，实体像素集中在所选位置。在上图中，使用了六种不同的汇总统计数据，而在中间的图中，只使用了$\batchmode\documentclass[fleqn，10pt，legalpaper]{article}\usepackage{amssymb}\userpackage{amasfonts}\usebackage{empsmath}\pagestyle{empt}\begin{document}\（\mathrm{{{{hat{{theta}}}}{h}\）\end{document}$、Tajima's D和iHH。在这两种情况下，I型错误概率都调整为5%。在底部图中，使用了与顶部图中相同的六个汇总统计数据，但I类错误概率降低到0.2%，对应于增强分类器的γ=0.5阈值。使用特定位置汇总统计数据和降低I型错误概率都会降低基因组扫描中的假阳性率。$

图5.—

基于增强的基因组扫描。在三个图中的每一个图中，每一列代表一个独立模拟的100-kb染色体区域，其中发生有益突变（α=500，τ=0.001）。这些行表示序列中的位置。每个图形右侧的点标记了发生有益突变的位置50 kb。在一列中，每个像素表示基于沿着染色体区域滑动的40-kb窗口（步长2kb）的分类结果。使用neu+sel（5000.001）进行训练。实心像素表示增强预测考虑的位置经历了选择事件。根据需要，实体像素集中在所选位置。在上图中，使用了六种不同的汇总统计数据，而在中间的图中，只有

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类使用了、和iHH。在这两种情况下，I型错误概率都调整为5%。在底部图中，使用了与顶部图中相同的六个汇总统计数据，但I类错误概率降低到0.2%，对应于增强分类器的γ=0.5阈值。使用特定位置汇总统计数据和降低I型错误概率都会降低基因组扫描中的假阳性率。

新标签中打开下载幻灯片

表5

新标签中打开

准确性取决于不同汇总统计的所选站点的位置

	Acc公司(如果θ) (%)
B站点（kb）	\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）	\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）	\（\mathrm{{\hat{{theta}}}{{h}\）	助教	FW公司	iHH公司
20	100	100	67.6	82.6	90.6	98
15	84.8	80.8	10	45.2	89.6	42.8
10	51.6	44.6	6.4	15.4	75	17.6

	Acc公司(如果θ) (%)
B站点（kb）	\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）	\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）	\（\mathrm{{\hat{{theta}}}{{h}\）	助教	FW公司	iHH公司
20	100	100	67.6	82.6	90.6	98
15	84.8	80.8	10	45.2	89.6	42.8
10	51.6	44.6	6.4	15.4	75	17.6

我们展示了根据所选站点的位置Bsite检测选择性扫描的能力。为了研究个人统计数据对位置的敏感性，我们在训练和测试中一次只使用上述统计数据中的一个。我们使用neu+sel（5000.001）进行训练，如果θ、 Bsite=20 kb，并将I型错误概率调整为5%。

\（\mathrm｛\hat｛\theta｝｝｝｝_｛h｝\）

⁠，田岛的D类和iHH对所选位置特别敏感。Ta，Tajima的D类; FW、Fay和Wu的H（H）。

表5

新标签中打开

准确性取决于不同汇总统计的所选站点的位置

	Acc公司(如果θ) (%)
B站点（kb）	\（\mathrm｛hat｛theta｝｝｝｝_｛\mathrm｛w｝｝\）	\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）	\（\mathrm{{\hat{{theta}}}{{h}\）	助教	FW公司	iHH公司
20	100	100	67.6	82.6	90.6	98
15	84.8	80.8	10	45.2	89.6	42.8
10	51.6	44.6	6.4	15.4	75	17.6

	Acc公司(如果θ) (%)
B位点（kb）	\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）	\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）	\（\mathrm{{\hat{{theta}}}{{h}\）	助教	FW公司	iHH公司
20	100	100	67.6	82.6	90.6	98
15	84.8	80.8	10	45.2	89.6	42.8
10	51.6	44.6	6.4	15.4	75	17.6

我们展示了根据所选站点的位置Bsite检测选择性扫描的能力。为了研究个人统计数据对位置的敏感性，我们在训练和测试中一次只使用上述统计数据中的一个。我们使用neu+sel（5000.001）进行训练，如果θ、 Bsite=20 kb，并将I型错误概率调整为5%。

\（\mathrm{{\hat{{theta}}}{{h}\）

⁠，田岛的D类和iHH对所选位置特别敏感。Ta，Tajima的D类; FW、Fay和Wu的H（H）。

如果不能获得更长的染色体区域，或者不希望在定位方面具有高特异性，则可以通过将序列切割成更小、更大尺寸的亚段来降低该方法的特异性(表6)，直观地平滑了山谷模式。

表6

新标签中打开

子段数量的准确性

	子部门
B站点（kb）	20 (%)	10 (%)	8 (%)	4 (%)	2 (%)	1 (%)
10	51.6	65.8	71	86.4	97.2	97.2
11	52.8	72	76.8	91.6	97.2	96
12	63.8	81.6	86.4	96.6	97.6	96.8
13	69.8	85.2	87.6	97.6	97	96
14	73.2	87.4	92.2	98.4	96.8	96.4
15	86.4	96	98.8	99.6	98.6	98.4
16	89.4	98.2	99.6	99.2	98.4	97.6
17	95.4	98.8	99.4	99	98.4	98
18	98.8	100	100	100	98.8	98.6
19	99.8	100	100	99.8	96.8	96.8
20	100	100	99.6	99	97.8	98

	子部门
B站点（kb）	20 (%)	10 (%)	8 (%)	4 (%)	2 (%)	1 (%)
10	51.6	65.8	71	86.4	97.2	97.2
11	52.8	72	76.8	91.6	97.2	96
12	63.8	81.6	86.4	96.6	97.6	96.8
13	69.8	85.2	87.6	97.6	97	96
14	73.2	87.4	92.2	98.4	96.8	96.4
15	86.4	96	98.8	99.6	98.6	98.4
16	89.4	98.2	99.6	99.2	98.4	97.6
17	95.4	98.8	99.4	99	98.4	98
18	98.8	100	100	100	98.8	98.6
19	99.8	100	100	99.8	96.8	96.8
20	100	100	99.6	99	97.8	98

显示了将序列切成不同数量的子段时正确识别的扫描的百分比。我们使用neu+sel（5000.001）进行训练，如果θ、 Bsite=20 kb。I型错误概率调整为5%。对具有不同位置的有益突变位点的sel（5000.001）进行测试。每个序列被切割成大小相等的亚段。我们这里不使用iHH。由于iHH对扫描位置Bsite非常敏感，功率的下降现在小于表4当Bsite的实际值与训练样本中模拟的值不匹配时。在大多数情况下，当子段的数量减少时，调用扫描的次数百分比会增加。

表6

新标签中打开

子段数量的准确性

	子部门
B站点（kb）	20 (%)	10 (%)	8 (%)	4 (%)	2 (%)	1 (%)
10	51.6	65.8	71	86.4	97.2	97.2
11	52.8	72	76.8	91.6	97.2	96
12	63.8	81.6	86.4	96.6	97.6	96.8
13	69.8	85.2	87.6	97.6	97	96
14	73.2	87.4	92.2	98.4	96.8	96.4
15	86.4	96	98.8	99.6	98.6	98.4
16	89.4	98.2	99.6	99.2	98.4	97.6
17	95.4	98.8	99.4	99	98.4	98
18	98.8	100	100	100	98.8	98.6
19	99.8	100	100	99.8	96.8	96.8
20	100	100	99.6	99	97.8	98

	子部门
B站点（kb）	20 (%)	10 (%)	8 (%)	4 (%)	2 (%)	1 (%)
10	51.6	65.8	71	86.4	97.2	97.2
11	52.8	72	76.8	91.6	97.2	96
12	63.8	81.6	86.4	96.6	97.6	96.8
13	69.8	85.2	87.6	97.6	97	96
14	73.2	87.4	92.2	98.4	96.8	96.4
15	86.4	96	98.8	99.6	98.6	98.4
16	89.4	98.2	99.6	99.2	98.4	97.6
17	95.4	98.8	99.4	99	98.4	98
18	98.8	100	100	100	98.8	98.6
19	99.8	100	100	99.8	96.8	96.8
20	100	100	99.6	99	97.8	98

显示了将序列切成不同数量的子段时正确识别的扫描的百分比。我们使用neu+sel（5000.001）进行训练，如果θ、 Bsite=20 kb。I型错误概率调整为5%。对具有不同位置的有益突变位点的sel（5000.001）进行测试。每个序列被切割成大小相等的亚段。我们这里不使用iHH。由于iHH对扫描位置Bsite非常敏感，功率的下降现在小于表4当Bsite的实际值与训练样本中模拟的值不匹配时。在大多数情况下，当子段数量减少时，调用扫描的次数百分比会增加。

由于选择性扫描的影响范围取决于选择强度（α），因此分类器对空间位置的灵敏度也取决于α。α越小，受影响的附近区域越窄，相对于假定扫描位置的灵敏度越高。

对瓶颈的敏感性：

人口统计学在基因组数据中留下的痕迹与选择性事件造成的痕迹相似(田岛1989年a,b条)，使得很难区分这些相互竞争的场景(施洛特勒2002;施密德等. 2005;汉布林等. 2006;桑顿和安道尔法托2006). 为了研究选择性扫描和瓶颈混淆的频率，我们应用了之前在中性和选择性扫描样本上训练过的增强分类器，并在瓶颈样本上进行了测试。在模拟瓶颈示例时，我们修复了D类=0.01，并尝试了不同的值t吨₀和t吨₁。

在中立和选择θ的固定相同值的情况下进行训练时，无法可靠地区分瓶颈和扫描[参见“第一步(如果θ） “中的列表7]. 原因是，在瓶颈和欠扫描条件下，但在中立条件下，观察到隔离站点数量减少。避免这种情况的一种方法是根据观察到的分离位点数量来训练增强分类器。使用此策略，错误分类的数量(即，将瓶颈归类为扫描）大幅下降（参见“第一步(FK公司)“”中的列表7].

表7

新标签中打开

作为替代方案的瓶颈预测选择率

测试数据	第一步(如果θ) (%)	第二步(如果θ) (%)	第一步(FK公司) (%)	第二步(FK公司) (%)
sel（5000.001）	99.8	99.8	98.4	76
sel（500，0.2）	98.4	98.4	96.6	72
sel（200,0.001）	93.8	93.8	86.2	62.2
选择（200,0.2）	87.6	87.6	75.8	48.6
机器人（0.002，0.002）	46	43.2	7.8	1.6
机器人（0.002，0.02）	99.8	0	56	2.2
机器人（0.002，0.2）	100	0	30.2	0.4
机器人（0.02，0.002）	44.4	43.2	7.8	2.8
机器人（0.02、0.02）	99.8	0.6	61.6	1.8
机器人（0.02,0.2）	100	0	64.6	0
机器人（0.2,0.002）	32.6	32.6	8	1.4
机器人（0.2,0.02）	98.6	91	49.4	0
机器人（0.2，0.2）	100	97.2	27.4	0
机器人编号。	48.6	41.2	4	1.4

测试数据	第一步(如果θ) (%)	第二步(如果θ) (%)	第一步(FK公司) (%)	第二步(FK公司)（%）
sel（5000.001）	99.8	99.8	98.4	76
sel（500，0.2）	98.4	98.4	96.6	72
sel（200,0.001）	93.8	93.8	86.2	62.2
选择（200,0.2）	87.6	87.6	75.8	48.6
机器人（0.002，0.002）	46	43.2	7.8	1.6
机器人（0.002,0.02）	99.8	0	56	2.2
机器人（0.002，0.2）	100	0	30.2	0.4
机器人（0.02，0.002）	44.4	43.2	7.8	2.8
机器人（0.02、0.02）	99.8	0.6	61.6	1.8
机器人（0.02,0.2）	100	0	64.6	0
机器人（0.2,0.002）	32.6	32.6	8	1.4
机器人（0.2,0.02）	98.6	91	49.4	0
机器人（0.2，0.2）	100	97.2	27.4	0
机器人编号。	48.6	41.2	4	1.4

我们研究了中讨论的两步增强分类器预测选择的频率对瓶颈的敏感性对于选择场景，这些案例提供了真正的积极因素；对于瓶颈场景，它们是误报。第一步，通过分类器（C）1分类为选择的测试样本的百分比；第二步，C1和C2分类为选择的测试样本的百分比。C1接受neu+sel训练(N个(500, 200²),N个(0.2, 0.1²))根据500个独立的中性样本调整I型错误概率。指挥控制系统在机器人系统下接受训练(N个(0.02, 0.01²),N个(0.02, 0.01²))+选择(N个(500, 200²),N个(0.2, 0.1²))并根据500个独立机器人调整I型错误概率(N个(0.02, 0.01²),N个(0.02, 0.01²)). Bot编号表示瓶颈样本具有相同的平均值

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

-值（整个区域计算一次）作为sel（5000.001）。对于如果θ、 bot编号为bot（0.002，0.002），以及D类= 0.0085; 对于FK公司，bot编号为bot（0.002，0.002），以及D类= 0.07. 请参见表1用于进一步标记。

表7

新标签中打开

作为替代方案的瓶颈预测选择率

测试数据	第一步(如果θ）（%）	第二步(如果θ) (%)	第一步(FK公司) (%)	第二步(FK公司) (%)
sel（5000.001）	99.8	99.8	98.4	76
sel（500，0.2）	98.4	98.4	96.6	72
塞尔（200，0.001）	93.8	93.8	86.2	62.2
sel（200，0.2）	87.6	87.6	75.8	48.6
机器人（0.002，0.002）	46	43.2	7.8	1.6
机器人（0.002,0.02）	99.8	0	56	2.2
机器人（0.002，0.2）	100	0	30.2	0.4
机器人（0.02，0.002）	44.4	43.2	7.8	2.8
机器人（0.02、0.02）	99.8	0.6	61.6	1.8
机器人（0.02,0.2）	100	0	64.6	0
机器人（0.2,0.002）	32.6	32.6	8	1.4
机器人（0.2,0.02）	98.6	91	49.4	0
机器人（0.2，0.2）	100	97.2	27.4	0
机器人编号。	48.6	41.2	4	1.4

测试数据	第一步(如果θ) (%)	第二步(如果θ) (%)	第一步(FK公司) (%)	第二步(FK公司) (%)
sel（5000.001）	99.8	99.8	98.4	76
sel（500，0.2）	98.4	98.4	96.6	72
sel（200,0.001）	93.8	93.8	86.2	62.2
选择（200,0.2）	87.6	87.6	75.8	48.6
机器人（0.002，0.002）	46	43.2	7.8	1.6
机器人（0.002,0.02）	99.8	0	56	2.2
机器人（0.002，0.2）	100	0	30.2	0.4
机器人（0.02，0.002）	44.4	43.2	7.8	2.8
机器人（0.02、0.02）	99.8	0.6	61.6	1.8
机器人（0.02,0.2）	100	0	64.6	0
机器人（0.2,0.002）	32.6	32.6	8	1.4
机器人（0.2,0.02）	98.6	91	49.4	0
机器人（0.2，0.2）	100	97.2	27.4	0
机器人编号。	48.6	41.2	4	1.4

我们研究了中讨论的两步增强分类器预测选择的频率对瓶颈的敏感性对于选择场景，这些案例提供了真正的积极因素；对于瓶颈场景，它们是误报。第一步，通过分类器（C）1分类为选择的测试样本的百分比；第二步，C1和C2分类为选择的测试样本的百分比。C1用neu+sel训练(N个(500, 200²),N个(0.2, 0.1²))根据500个独立的中性样本调整I型错误概率。指挥控制系统在机器人系统下接受训练(N个（0.02，0.01²),N个(0.02, 0.01²))+选择(N个(500, 200²),N个(0.2, 0.1²))根据500个独立机器人调整I类错误概率(N个（0.02，0.01²),N个(0.02, 0.01²)). Bot编号表示瓶颈样本具有相同的平均值

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

-值（在整个区域计算一次）为sel（5000.001）。对于如果θ、 bot编号为bot（0.002，0.002），以及D类= 0.0085; 对于FK公司，bot编号为bot（0.002，0.002），以及D类= 0.07. 请参见表1用于进一步标记。

为了使我们的方法更加具体，我们提出了一种两步方法，这是本着桑顿和延森(2007)为此，我们使用了两个分类器（C），分别用C1和C2表示。C1接受中立训练与。选择，而C2处于瓶颈与。选择。对于测试样本，我们首先应用C1。如果预测了选择，那么我们使用C2在选择和瓶颈之间进行分类。结果[特别参见“第二步(FK公司)“中的列表7]表明这种方法在瓶颈样本的错误分类非常罕见的意义上是非常有效的。另一方面，当K（K）在培训和测试中被平等选择。

如果瓶颈样本和选择样本相似，从而产生某个汇总统计的类似总体值，那么我们的方法仍然有效。事实上K（K）意味着

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

在整个序列中计算时，对于选择样本和瓶颈样本都是相同的。忽略子细分市场，我们还生成了具有相同总体平均值的选择样本和瓶颈样本

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

⁠这是通过首先生成sel（500，0.001）样本，然后选择瓶颈参数来实现的D类以获得相同的值

\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）

在这两种情况下。事实证明，即使在这种情况下，假阳性率仍然很低（参见表7).

与其他方法的比较：

目前有几种方法可用于识别受选择影响的基因组区域。我们的主要关注点是比较助推和其他结合不同信息的方法。更具体地说，我们考虑了基于汇总统计的方法和支持向量机方法帕夫利季斯等. (2010)组合站点频率信息[SweepFinder(尼尔森等. 2005)]具有连锁不平衡信息[ω-统计量(基姆和尼尔森2004)]. 我们在这里没有考虑的其他方法包括基姆和斯蒂芬(2002)和基于隐马尔可夫模型的选择扫描(布瓦塔尔等. 2009).

作为使用汇总统计数据的测试，我们考虑了田岛的D类(田岛1989年b)费伊和吴的H（H）(费伊和吴2000)以及它们的组合形式DH公司测试(曾等2006年). 我们对所有方法进行了校准，以给出5%的I类错误概率，然后将其应用于相同的测试数据集。在表8，我们比较了boosting和上述使用汇总统计的方法的预测准确性。我们考虑不同的选择场景，以及随机选择参数的瓶颈场景。与其他三种方法相比，Boosting总是更好地区分中立和选择。虽然一步强化法通常将瓶颈样品解释为选择的证据，即使当DH公司测试没有，两步boosting算法比DH公司测试。

表8

新标签中打开

boosting与其他基于汇总统计的方法的比较

测试数据	一步（%）	两步（%）	钽（%）	FW（%）	DH（%）	Ta c（%）	FW c（%）	DH c（%）
如果θ
sel（5000.001）	99.8	99.8	26.6	79	41.6	73.8	71.8	67.8
sel（500，0.2）	98.4	98.4	26.8	23.2	28	66.4	12.2	20.4
sel（200,0.001）	93.8	93.8	11	25.8	21.4	51	52	50
sel（200，0.2）	87.6	87.6	11.6	8.4	12	42.6	11.2	17
bot随机	97	3.8	51.2	62.8	26.2	52.4	23.2	12.6
FK公司
塞尔（500，0.001）	98.4	76	26.2	79.8	41.6	72.6	72	69.8
sel（500，0.2）	96.6	72	29.8	26.4	37	69.4	9.4	19
sel（200,0.001）	86.2	62.2	9.8	27.2	19.8	51.4	54	48.8
塞尔（200，0.2）	75.8	48.6	13.2	8.2	13.2	42.6	7.8	15.2
bot随机	55.8	三	52.8	62.4	26.4	62.4	24	12

测试数据	一步（%）	两步（%）	钽（%）	FW（%）	DH（%）	Ta c（%）	FW c（%）	DH c（%）
如果θ
sel（5000.001）	99.8	99.8	26.6	79	41.6	73.8	71.8	67.8
sel（500，0.2）	98.4	98.4	26.8	23.2	28	66.4	12.2	20.4
sel（200,0.001）	93.8	93.8	11	25.8	21.4	51	52	50
选择（200,0.2）	87.6	87.6	11.6	8.4	12	42.6	11.2	17
bot随机	97	3.8	51.2	62.8	26.2	52.4	23.2	12.6
FK公司
sel（5000.001）	98.4	76	26.2	79.8	41.6	72.6	72	69.8
sel（500，0.2）	96.6	72	29.8	26.4	37	69.4	9.4	19
塞尔（200，0.001）	86.2	62.2	9.8	27.2	19.8	51.4	54	48.8
选择（200,0.2）	75.8	48.6	13.2	8.2	13.2	42.6	7.8	15.2
bot随机	55.8	三	52.8	62.4	26.4	62.4	24	12

预测了在不同选择和瓶颈场景下模拟的测试样本的选择次数百分比。我们比较了以下使用汇总统计的方法：Ta、Tajima的D类; FW、Fay和Wu的H（H）; DH、DH试验；c、中心。首先，这些统计数据在整个40kb区域仅计算一次，这可能导致根据平均效应的选择性信号减弱。由于该区域中心的信号通常最强，因此我们尝试仅使用该区域的4-kb中心部分来计算统计信息。结果可以在Ta c、FW c和DH c下找到。“一步”和“两步”分别表示一步增压和两步增压。这些结果与表7.bot random=机器人(N个(0.02, 0.01²),N个(0.02, 0.01²)). 提升的I型错误概率（一步和两步）调整为5%，我们也根据50000个模拟中性样本估计的5%分位数为其他测试选择了截止点。样品是在两个固定θ下生成的(如果θ）和固定的K（K）(FK）我们可以看到，在区分中性和选择时，增强总是表现得更好，尽管当Tajima的D类Fay和Wu的H（H）和DH检验仅从该区域的中心部分计算。在较困难的情况下，助推的优势尤其明显。注意，一步提升预测了大多数瓶颈样本作为选择，而DH测试没有。然而，两步增压的应用解决了这个问题。

表8

新标签中打开

boosting与其他基于汇总统计的方法的比较

测试数据	一步（%）	两步（%）	钽（%）	FW（%）	DH（%）	Ta c（%）	FW c（%）	DH c（%）
如果θ
sel（5000.001）	99.8	99.8	26.6	79	41.6	73.8	71.8	67.8
sel（500，0.2）	98.4	98.4	26.8	23.2	28	66.4	12.2	20.4
sel（200,0.001）	93.8	93.8	11	25.8	21.4	51	52	50
选择（200,0.2）	87.6	87.6	11.6	8.4	12	42.6	11.2	17
bot随机	97	3.8	51.2	62.8	26.2	52.4	23.2	12.6
FK公司
sel（5000.001）	98.4	76	26.2	79.8	41.6	72.6	72	69.8
sel（500，0.2）	96.6	72	29.8	26.4	37	69.4	9.4	19
sel（200,0.001）	86.2	62.2	9.8	27.2	19.8	51.4	54	48.8
塞尔（200，0.2）	75.8	48.6	13.2	8.2	13.2	42.6	7.8	15.2
bot随机	55.8	三	52.8	62.4	26.4	62.4	24	12

测试数据	一步（%）	两步（%）	钽（%）	FW（%）	DH（%）	Ta c（%）	FW c（%）	DH c（%）
如果θ
sel（5000.001）	99.8	99.8	26.6	79	41.6	73.8	71.8	67.8
sel（500，0.2）	98.4	98.4	26.8	23.2	28	66.4	12.2	20.4
塞尔（200，0.001）	93.8	93.8	11	25.8	21.4	51	52	50
sel（200，0.2）	87.6	87.6	11.6	8.4	12	42.6	11.2	17
bot随机	97	3.8	51.2	62.8	26.2	52.4	23.2	12.6
FK公司
sel（5000.001）	98.4	76	26.2	79.8	41.6	72.6	72	69.8
sel（500，0.2）	96.6	72	29.8	26.4	37	69.4	9.4	19
sel（200,0.001）	86.2	62.2	9.8	27.2	19.8	51.4	54	48.8
选择（200,0.2）	75.8	48.6	13.2	8.2	13.2	42.6	7.8	15.2
bot随机	55.8	三	52.8	62.4	26.4	62.4	24	12

预测了在不同选择和瓶颈场景下模拟的测试样本的选择次数百分比。我们比较了以下使用汇总统计的方法：Ta、Tajima的D类; FW、Fay和Wu的H（H）; DH、DH试验；c、中心。首先，这些统计数据仅在整个40-kb区域计算一次，这可能会根据平均效应导致选择性信号减弱。由于该区域中心的信号通常最强，因此我们尝试仅使用该区域的4-kb中心部分来计算统计信息。结果可以在Ta c、FW c和DH c下找到。“一步”和“两步”分别表示一步增压和两步增压。这些结果与中相同表7.bot random=机器人(N个(0.02, 0.01²),N个(0.02, 0.01²)). 提升的I型错误概率（一步和两步）调整为5%，我们也根据50000个模拟中性样本估计的5%分位数为其他测试选择了截止点。样品是在两个固定θ下生成的(如果θ）和固定的K（K）(FK）我们可以看到，在区分中性和选择时，增强总是表现得更好，尽管当Tajima的D类Fay和Wu的H（H）和DH检验仅从该区域的中心部分计算。在较困难的情况下，助推的优势尤其明显。注意，一步提升预测了大多数瓶颈样本作为选择，而DH测试没有。然而，两步增压的应用解决了这个问题。

由于上述测试统计数据仅在整个40-kb区域中计算一次，人们可能会怀疑选择性信号是否因平均效应而减弱。因此，我们仅使用区域的中心部分重新计算测试统计信息。这提高了测试统计的性能，但boosting的性能仍然更好(表8). 而DH公司仅使用中央窗口的测试比使用整个序列信息的版本做得更好，两步增强仍然对瓶颈提供了最高的特异性。虽然两步增强可以很容易地将几乎所有的瓶颈事件与选择区分开来，但当θ固定时，它仍然可以识别至少87.6%的真实选择事件，当θ为固定时，识别率为75.8%K（K）是固定的(表8).

此外，我们将我们的方法与帕夫利季斯等. (2010)该方法使用另一种机器学习方法，即支持向量机，将从SweepFinder获得的基于站点频率的统计信息与测量链接不平衡的ω-统计信息相结合。

我们首先研究了区分中立与选择以及瓶颈与选择时的行为。对于我们的模拟，我们使用了相同的程序ssw(基姆和斯蒂芬2002)作为帕夫利季斯等. (2010)并选择了相同的参数(n个= 12,我=50 kb，B位=25 kb，ρ=0.05）。瓶颈样本用ms进行了模拟(哈德逊2002). 有关更多参数，请参阅表9为了进行公平比较，我们遵循帕夫利季斯等. (2010)并在训练和测试中使用相同的参数。结果(表9)表明我们的方法在所有考虑的场景下都表现得更好。

表9

新标签中打开

增压与帕夫利季斯等。(2010)中立和瓶颈与.选择性扫描

培训数据	测试数据	FP（%）	科目（%）	帕夫利迪斯FP（%）	帕夫利迪斯的账户（%）
neu1+sel1	销售1	0	98	三	90
neu2+sel2	选择2	0	100	0	98
bot1+sel1	销售1	1	100	26	75
bot2+sel2	选择2	0	99	18	84

培训数据	测试数据	FP（%）	科目（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
neu1+sel1	销售1	0	98	三	90
neu2+sel2	选择2	0	100	0	98
bot1+sel1	销售1	1	100	26	75
bot2+sel2	选择2	0	99	18	84

sel1，sel（500,0.0001）；sel2，sel（2500，0.0001）。要使设置与帕夫利季斯等。(2010)，我们为每个参数集生成了2000个训练样本。（当我们遵循标准训练程序，仅使用500个训练样本时，结果几乎相同。）sel1和sel2都是在θ=0.005下生成的。对于根据sel1采集的每个样本，我们计算了Watterson的估计值

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

(沃特森1975)生成一个中性样本

\（\mathrm{{theta}}{=}\mathrm{{hat{{theta}}}{{mathrm}w}}\）

⁠.训练数据neu1由用这种方法获得的2000个中性样本组成。通过匹配θ和sel2，我们得到了neu2。bot1和bot2是瓶颈示例，其参数如中所示锂和斯蒂芬(2006)这是一个4历元瓶颈模型：在时间上向后，瓶颈发生在0.0734个时间单位到0.075个时间单位之间（在2N个₀世代，其中N个₀是当前有效人口数量），人口数量减少到0.002N个₀然后人口数量立即变为7.5N个₀最后变成1.5N个₀0.279时间单位。对于sel1的每个实现，再次估计θ，并使用获得相应的瓶颈样本

\（\mathrm{{theta}}{=}\mathrm{{hat{{theta}}}）

⁠。请参阅帕夫利季斯等。(2010)和基夫科维奇和威赫(2008)了解详细信息。同样，bot1由以这种方式获得的样本组成，而bot2是以类似方式获得的。FP，假阳性率；准确度（检测选择性事件的能力）。分别根据neu1、neu2、bot1和bot2计算四行的FP。独立生成用于训练、测试和FP计算的相同参数集的样本。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯等. (2010)。这些列中的第1行和第2行取自表1在里面帕夫利季斯等。(2010)，而第3行和第4行来自表2。

表9

新标签中打开

增压与帕夫利季斯等。(2010)中立和瓶颈与.选择性扫描

培训数据	测试数据	FP（%）	科目（%）	帕夫利迪斯FP（%）	帕夫利迪斯的账户（%）
neu1+sel1	销售1	0	98	三	90
neu2+sel2	选择2	0	100	0	98
bot1+sel1	sel1（sel1）	1	100	26	75
bot2+sel2	选择2	0	99	18	84

培训数据	测试数据	FP（%）	科目（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
neu1+sel1	销售1	0	98	三	90
neu2+sel2	选择2	0	100	0	98
bot1+sel1	销售1	1	100	26	75
bot2+sel2	sel2（sel2）	0	99	18	84

sel1，sel（500,0.0001）；sel2，sel（2500，0.0001）。要使设置与帕夫利季斯等。(2010)，我们为每个参数集生成了2000个训练样本。（当我们遵循标准训练程序并且仅使用500个训练样本时，结果几乎相同。）sel1和sel2都是在θ=0.005下生成的。对于根据sel1采集的每个样本，我们计算了Watterson的估计值

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

(沃特森1975)生成一个中性样本

\（\mathrm{{theta}}{=}\mathrm{{hat{{theta}}}{{mathrm}w}}\）

⁠.训练数据neu1由用这种方法获得的2000个中性样本组成。通过将θ与sel2进行匹配，我们类似地获得了neu2。bot1和bot2是瓶颈示例，其参数如中所示锂和斯蒂芬(2006)这是一个4个时代的瓶颈模型：在时间上，瓶颈发生在0.0734个时间单位到0.075个时间单位（以2为单位）之间N个₀世代，其中N个₀是当前有效人口数量），人口数量减少到0.002N个₀然后人口数量立即变为7.5N个₀最后变成1.5N个₀0.279时间单位。对于sel1的每个实现，再次估计θ，并使用获得相应的瓶颈样本

\（\mathrm｛｛\theta｝｝｛＝｝\mathrm｛\hat｛\theta｝｝｝｝）

⁠。请参阅帕夫利季斯等。(2010)和基夫科维奇和威赫(2008)了解详细信息。同样，bot1由以这种方式获得的样本组成，而bot2是以类似方式获得的。FP，假阳性率；准确度（检测选择性事件的能力）。四行的FP分别根据neu1、neu2、bot1和bot2计算。独立生成用于训练、测试和FP计算的相同参数集的样本。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯等. (2010)。这些列中的第1行和第2行取自表1在里面帕夫利季斯等。(2010)，而第3行和第4行来自表2。

我们的下一个比较帕夫利季斯等. (2010)涉及一类在瓶颈中发生选择性扫描的场景。我们再次在相同的参数下进行了模拟(n个= 12,我=50 kb，Bsite=25 kb，ρ=0.01），并使用相同的软件mbs(手岛和伊南2009)生成数据。结果以及进一步的实施细节如所示表10。就假阳性（FP）和准确性而言，我们的方法始终提供更好的结果(表10).

表10

新标签中打开

增压与帕夫利季斯等。(2010)：检测瓶颈内的扫描

培训数据	测试数据	FP（%）	科目（%）	科目*（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
僵尸1+b_s1	b条_秒1	8	98	96	51	71
机器人1+b2	b条_秒2	11	95	85	20	73
机器人1+b_s3	b条_秒三	0	98	99	8	97
机器人1+b_s4	b条_秒4	19	84	60	56	63
机器人1+b_s5	b条_秒5	6	97	95	27	50
机器人1+b_s6	b条_秒6	8	97	94	22	60
机器人1+b_s7	b条_秒7	2	99	100	35	67
机器人1+b_s8	b条_秒8	15	88	69	25	46

培训数据	测试数据	FP（%）	科目（%）	科目*（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
机器人1+b_s1	b条_秒1	8	98	96	51	71
僵尸1+b_s2	b条_秒2	11	95	85	20	73
机器人1+b_s3	b条_秒三	0	98	99	8	97
机器人1+b_s4	b条_秒4	19	84	60	56	63
机器人1+b_s5	b条_秒5	6	97	95	27	50
机器人1+b_s6	b条_秒6	8	97	94	22	60
机器人1+b_s7	b条_秒7	2	99	100	35	67
机器人1+b_s8	b条_秒8	15	88	69	25	46

如中所示帕夫利季斯等。(2010)，我们对θ使用了广泛的统一先验，并且只接受那些具有K（K）培训和测试均为50。我们考虑了以下场景：bot1、bot（0.02、0.0015）、，D类= 0.002; bot2，bot（0.020.0375），D类= 0.05;b条_秒1, …,b条_秒8、Bsite=25000 bp的瓶颈内选择性扫描；b条_秒1,t吨₀= 0.002,t吨₁= 0.0015,D类= 0.002,秒= 0.002,t吨_mut=0.02。在这里秒是选择系数，以及t吨_mut是指有益等位基因在人群中出现的时间。请注意，帕夫利迪斯文章中的所有时间指示器都以4为单位N个代，但2代N个这篇文章中的几代人。b条_秒2,t吨₀= 0.02,t吨₁= 0.0015,D类=0.002，秒= 0.002,t吨_mut=0.0214；b条_秒三，t吨₀= 0.02,t吨₁= 0.0015,D类= 0.002,秒= 0.8,t吨_mut=0.0214；b条_秒4,t吨₀= 0.02,t吨₁= 0.0015,D类=0.002，秒= 0.002,t吨_mut=0.23；b条_秒5,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒= 0.002,t吨_mut=0.02；b条_秒6,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒= 0.002,t吨_mut=0.0214；b条_秒7,t吨₀=0.02，t吨₁= 0.0375,D类= 0.05,秒= 0.1,t吨_mut=0.0214；b条_秒8,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒= 0.002,t吨_mut=0.23。其他参数n个= 12,我=50000 bp，ρ=0.01也可用于匹配帕夫利季斯等. (2010)。对于每个参数集，模拟了2000次复制。FP，假阳性率；准确度（检测选择性事件的能力）。第1-4行中的假阳性率FP在瓶颈场景bot1下，而第5-8行中使用bot2。当假阳性率FP调整为0.05时，Acc*中的结果提供了动力。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯等. (2010)。这些列中的第1-4行取自表3在里面帕夫利季斯等（2010年），而第5-8行来自表4。

表10

新标签中打开

增压与帕夫利季斯等。(2010)：检测瓶颈内的扫描

培训数据	测试数据	FP（%）	科目（%）	科目*（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
机器人1+b_s1	b条_秒1	8	98	96	51	71
僵尸1+b_s2	b条_秒2	11	95	85	20	73
机器人1+b_s3	b条_秒三	0	98	99	8	97
机器人1+b_s4	b条_秒4	19	84	60	56	63
机器人1+b_s5	b条_秒5	6	97	95	27	50
机器人1+b_s6	b条_秒6	8	97	94	22	60
机器人1+b_s7	b条_秒7	2	99	100	35	67
机器人1+b_s8	b条_秒8	15	88	69	25	46

培训数据	测试数据	FP（%）	科目（%）	累计*（%）	帕夫利迪斯的FP（%）	帕夫利迪斯的账户（%）
机器人1+b_s1	b条_秒1	8	98	96	51	71
机器人1+b2	b条_秒2	11	95	85	20	73
机器人1+b_s3	b条_秒三	0	98	99	8	97
机器人1+b_s4	b条_秒4	19	84	60	56	63
机器人1+b_s5	b条_秒5	6	97	95	27	50
机器人1+b_s6	b条_秒6	8	97	94	22	60
机器人1+b_s7	b条_秒7	2	99	100	35	67
机器人1+b_s8	b条_秒8	15	88	69	25	46

如中所示帕夫利季斯等。(2010)，我们对θ使用了广泛的统一先验，并且只接受那些具有K（K）培训和测试均为50。我们考虑了以下场景：bot1，bot（0.02，0.0015），D类= 0.002; 机器人2，机器人（0.02，0.0375），D类= 0.05;b条_秒1, …,b条_秒8、Bsite=25000 bp的瓶颈内选择性扫描；b条_秒1,t吨₀= 0.002,t吨₁= 0.0015,D类= 0.002,秒= 0.002,t吨_mut=0.02。在这里秒是选择系数，以及t吨_mut是有利等位基因在人群中出现的时间。请注意，Pavlidis文章中的所有时间指标都以4为单位N个代，但2代N个这篇文章中的几代人。b条_秒2,t吨₀= 0.02,t吨₁= 0.0015,D类= 0.002,秒= 0.002,t吨_mut=0.0214；b条_秒三，t吨₀= 0.02,t吨₁= 0.0015,D类=0.002，秒= 0.8,t吨_mut=0.0214；b条_秒4,t吨₀= 0.02,t吨₁= 0.0015,D类= 0.002,秒= 0.002,t吨_mut=0.23；b条_秒5,t吨₀=0.02，t吨₁= 0.0375,D类= 0.05,秒= 0.002,t吨_mut=0.02；b条_秒6,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒=0.002，t吨_mut=0.0214；b条_秒7,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒= 0.1,t吨_mut=0.0214；b条_秒8,t吨₀= 0.02,t吨₁= 0.0375,D类= 0.05,秒= 0.002,t吨_mut=0.23。其他参数n个＝12，我=50000 bp，ρ=0.01也可用于匹配帕夫利季斯等. (2010)。对于每个参数集，模拟了2000次复制。FP，假阳性率；准确度（检测选择性事件的能力）。第1-4行中的假阳性率FP在瓶颈场景bot1下，而第5-8行中使用bot2。当假阳性率FP调整为0.05时，Acc*中的结果提供了动力。Pavlidis的FP和Pavlidis的Acc列显示了基于支持向量机的方法的准确性帕夫利季斯等. (2010)。这些列中的第1-4行取自表3在里面帕夫利季斯等. (2010)，而第5-8行来自表4。

为了避免对实践中的表现过于乐观，我们还提供了训练和测试参数不同的交叉测试结果。FP率已调整为0.05(表11). 测试旧扫描时（早于瓶颈）(b条_秒4和b条_秒8）当使用其他场景进行训练时，或者反之亦然，功率往往很低。在选择性扫描发生得早于瓶颈的情况下，分类往往特别困难（参见b条_秒4和b条_秒8）一种解释可能是扫描信号被瓶颈事件稀释。

表11

新标签中打开

交叉测试：如果训练和测试参数不一致，则在瓶颈内检测扫描的能力

	测试数据（%）
培训数据	b条_秒1	b条_秒2	b条_秒三	b条_秒4	b条_秒5	b条_秒6	b条_秒7	b条_秒8	机器人1	机器人2
机器人1+b_s1	96	85	99	15	77	74	98	16	5	2
机器人1+b2	94	85	99	13	81	77	97	10	5	2
机器人1+b_s3	84	70	99	49	62	60	98	68	5	6
机器人1+b_s4	73	59	99	60	53	53	96	81	5	10
机器人1+b_s5	99	95	99	23	95	94	99	14	17	5
机器人1+b_s6	99	95	99	22	95	94	99	14	16	5
机器人1+b_s7	99	94	100	33	93	91	100	41	14	5
机器人1+b_s8	71	54	99	46	45	45	95	69	三	5

	测试数据（%）
培训数据	b条_秒1	b条_秒2	b条_秒三	b条_秒4	b条_秒5	b条_秒6	b条_秒7	b条_秒8	机器人1	机器人2
机器人1+b_s1	96	85	99	15	77	74	98	16	5	2
机器人1+b2	94	85	99	13	81	77	97	10	5	2
机器人1+b_s3	84	70	99	49	62	60	98	68	5	6
机器人1+b_s4	73	59	99	60	53	53	96	81	5	10
机器人1+b_s5	99	95	99	23	95	94	99	14	17	5
机器人1+b_s6	99	95	99	22	95	94	99	14	16	5
机器人1+b_s7	99	94	100	33	93	91	100	41	14	5
僵尸1+b_s8	71	54	99	46	45	45	95	69	三	5

请参阅表10用于定义场景bot1、bot2和b条_秒1, …,b条_秒8.在培训为空的情况下，FP率已调整为0.05。因此，应将百分比与中的Acc*列进行比较表10。

表11

新标签中打开

交叉测试：如果训练和测试参数不一致，则在瓶颈内检测扫描的能力

	测试数据（%）
培训数据	b条_秒1	b条_秒2	b条_秒三	b条_秒4	b条_秒5	b条_秒6	b条_秒7	b条_秒8	机器人1	机器人2
机器人1+b_s1	96	85	99	15	77	74	98	16	5	2
机器人1+b2	94	85	99	13	81	77	97	10	5	2
机器人1+b_s3	84	70	99	49	62	60	98	68	5	6
机器人1+b_s4	73	59	99	60	53	53	96	81	5	10
机器人1+b_s5	99	95	99	23	95	94	99	14	17	5
僵尸1+b_s6	99	95	99	22	95	94	99	14	16	5
机器人1+b_s7	99	94	100	33	93	91	100	41	14	5
机器人1+b_s8	71	54	99	46	45	45	95	69	三	5

	测试数据（%）
培训数据	b条_秒1	b条_秒2	b条_秒三	b条_秒4	b条_秒5	b条_秒6	b条_秒7	b条_秒8	机器人1	机器人2
机器人1+b_s1	96	85	99	15	77	74	98	16	5	2
机器人1+b2	94	85	99	13	81	77	97	10	5	2
机器人1+b_s3	84	70	99	49	62	60	98	68	5	6
机器人1+b_s4	73	59	99	60	53	53	96	81	5	10
机器人1+b_s5	99	95	99	23	95	94	99	14	17	5
机器人1+b_s6	99	95	99	22	95	94	99	14	16	5
bot1+b_s7型	99	94	100	33	93	91	100	41	14	5
机器人1+b_s8	71	54	99	46	45	45	95	69	三	5

请参阅表10用于定义场景bot1、bot2和b条_秒1, …,b条_秒8.在培训为空的情况下，FP率已调整为0.05。因此，应将百分比与中的Acc*列进行比较表10。

表12

新标签中打开

有选择的培训与。瓶颈与瓶颈内选择测试

培训数据	测试数据	FP（%）	科目（%）
bot1+sel1	b条_秒1	11	96
bot1+sel2	b条_秒2	11	93
bot1+sel3	b条_秒三	6	99
bot1+sel4	b条_秒4	1	36
bot2+sel5	b条_秒5	5	94
bot2+sel6	b条_秒6	5	93
bot2+sel7	b条_秒7	2	99
bot2+sel8	b条_秒8	2	44

培训数据	测试数据	FP（%）	科目（%）
bot1+sel1	b条_秒1	11	96
bot1+sel2	b条_秒2	11	93
bot1+sel3（底部1+sel3）	b条_秒三	6	99
bot1+sel4	b条_秒4	1	36
bot2+sel5	b条_秒5	5	94
bot2+sel6	b条_秒6	5	93
bot2+sel7	b条_秒7	2	99
bot2+sel8	b条_秒8	2	44

请参阅表10用于定义bot1、bot2和b条_秒1, …,b条_秒8.sel1和sel5，秒= 0.002,t吨_mut=0.02；sel2和sel6，秒= 0.002,t吨_mut=0.0214；sel3、，秒= 0.8,t吨_mut=0.0214；sel4和sel8，秒= 0.002,t吨_mut=0.23；sel7，秒= 0.1,t吨_mut=0.0214。在这里秒是选择系数，以及t吨_mut是指有益等位基因在人群中出现的时间。在模拟中，我们对θ使用了广泛的一致先验，并且只接受那些具有K（K）= 50. 对于每个参数集，模拟了2000次复制。FP率是根据第1-4行的bot1和第5-8行的bot2计算的。

表12

新标签中打开

有选择的培训与。瓶颈与瓶颈内选择测试

培训数据	测试数据	FP（%）	科目（%）
bot1+sel1	b条_秒1	11	96
bot1+sel2	b条_秒2	11	93
bot1+sel3	b条_秒三	6	99
底部1+sel4	b条_秒4	1	36
bot2+sel5	b条_秒5	5	94
bot2+sel6	b条_秒6	5	93
bot2+sel7	b条_秒7	2	99
bot2+sel8	b条_秒8	2	44

培训数据	测试数据	FP（%）	科目（%）
bot1+sel1	b条_秒1	11	96
bot1+sel2	b条_秒2	11	93
bot1+sel3	b条_秒三	6	99
bot1+sel4	b条_秒4	1	36
bot2+sel5	b条_秒5	5	94
僵尸2+sel6	b条_秒6	5	93
bot2+sel7	b条_秒7	2	99
bot2+sel8	b条_秒8	2	44

请参阅表10用于定义bot1、bot2和b条_秒1, …,b条_秒8.sel1和sel5，秒= 0.002,t吨_mut=0.02；sel2和sel6，秒= 0.002,t吨_mut=0.0214；sel3、，秒= 0.8,t吨_mut=0.0214；sel4和sel8，秒= 0.002,t吨_mut=0.23；sel7、，秒=0.1时，t吨_mut=0.0214。在这里秒是选择系数，以及t吨_mut是有利等位基因在人群中出现的时间。在模拟中，我们对θ使用了广泛的一致先验，并且只接受那些具有K（K）= 50. 对于每个参数集，模拟了2000次复制。FP率是根据第1-4行的bot1和第5-8行的bot2计算的。

然而，在许多情况下，功率保持在可接受的水平，这在一定程度上表明了我们方法的稳健性。

我们还检查了假阳性率相对于空场景的稳健性。为此，我们再次调整了boosting分类器，以在空训练场景下获得5%的假阳性率。当训练在短瓶颈和深瓶颈（bot1）、长瓶颈和浅瓶颈（bot2）下进行时如果没有同时进行选择性扫描，则很少会被误分类，除bot1外，假阳性率仍然很低+b条_秒4，其中扫描发生得早于瓶颈(表11). 相反方向的结果不太可靠：在具有长瓶颈和浅瓶颈（bot2）的训练中，短瓶颈和深瓶颈（bot1）更容易导致错误的选择信号。根据用于培训的特定替代场景，我们得到的假阳性率介于3%到17%之间(表11).

为了进一步检查健壮性，我们在瓶颈下进行了培训与。选择，但在不调整假阳性率的情况下，在瓶颈内进行选择测试。与中显示的结果相比表10，功率下降b条_秒4和b条_秒8，但仍高于通过帕夫利季斯等. (2010)在大多数情况下。详细结果见图12。

应用于实际数据：

我们将boosting应用于玉米基因组的一小部分。我们根据以下分析田等. (2009)在那里，他们调查了10号染色体上跨越～4Mb的22个位点，并确定了影响该区域的选择性扫描。我们实现了两步方法，并使用真实的序列数据作为我们的测试数据。为了进行训练，我们在田等. (2009)我们特别使用了估计的突变率θ=0.0064和估计的重组率ρ=0.0414。

我们选择调查其22个位点中的12个，位于10号染色体上85.65 Mb，每个长度为1 kb。由于不同基因座之间的个体数量略有不同，从25个到28个不等(田等. 2009)，我们只需设置n个= 25. 根据sel随机选择参数，生成所选训练数据(N个(500, 200²),N个(0.2, 0.1²)).

根据之前的研究，玉米经历了瓶颈事件和瓶颈参数k个（瓶颈期间的种群规模/瓶颈持续时间，以代为单位）为2.45(赖特等2005年;田等. 2009). 我们设置了t吨₀=0.02和t吨₁=0.02（单位为2N个世代，其中N个是有效的人口规模）。然后我们选择了D类=0.098，这样D类×N个/(t吨₁× 2N个) = 2.45.

在田的文章中，

\（\mathrm｛\hat｛\theta｝｝｝｝_｛\mathrm｛\pi｝｝）

⁠,

\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）

⁠和田岛的D类计算每个位点的值（某些位点的值不可用）。我们使用了这三个统计数据，忽略了缺失的值。然后我们使用L2fm损耗应用两步方法。中立之间的门槛(Y（Y）=0）和选择(Y（Y）=1）为0.462，第一步结果为（f）= 1.382; 自从（f）»0.462，这为选择提供了有力的证据。瓶颈之间的阈值(Y（Y）=0）和选择(Y（Y）=1）为0.407，第二步结果为4.700，表明所考虑轨迹上的信号不能仅用瓶颈来解释。结果支持了田等. (2009)其中还发现了选择性扫描。α估计为22187.8，远大于我们在根据(N个(500, 200²)).

了解汇总统计的相对重要性：

我们使用的boosting版本的一个优点是，该方法可以为每个考虑的汇总统计数据生成系数。系数可用于衡量每个汇总统计的相对重要性。重要的是将系数标准化，否则估计系数将取决于各自汇总统计数据的变化范围。对于j个预测变量的第个分量，X（X）^(j个)，系数为

\（\mathrm{{\hat{{beta}}}}^{\左（j\右）}\）

⁠，标准化系数为

\（\mathrm{{\hat{{\beta}}}}^{\左（j\右）}\sqrt{\mathrm{{\widehat{Var}}}\左（X^{\右（j\左）}\右））

⁠统计的重要性由其标准化系数的绝对值表示。系数越接近零，统计信息对分类器的贡献越小。为了使结果与单个数据集的随机性相对独立，我们报告了10次试验的平均系数，每次试验涉及500个中性（或瓶颈）样本和500个选择样本的增强。

当同时考虑所有职位的统计数据时，相对重要性将取决于两个组成部分：不同职位的相对重要性和不同统计数据的相对重要性。为了获得更清晰的图像，我们分别考虑不同的子段，并且每次只对一个子段的信息使用boosting分类器。结果可在中找到图6。因为iHH不仅使用本地信息（请参阅图1)，特定子段的信息含量高于其他汇总统计数据，尤其是边界子段。

在固定θ值下，不同汇总统计对检测选择的相对重要性。在不同的选择性情景下，我们调查汇总统计数据的相对重要性。衡量其重要性的一种方法是根据增强分类器为汇总统计数据提供的系数的绝对值。大系数意味着某个统计数据对分类器的考虑位置非常有影响。每个图表基于平均10个试验，每个试验包含500个中性（或瓶颈）样本和500个选择样本。所有样本均以固定θ生成。对于每个细分市场，分别考虑了六个汇总统计数据的相对重要性；也就是说，每次一个提升过程只应用于特定位置的六个统计数据。

图6.—

在固定θ值下，不同汇总统计对检测选择的相对重要性。在不同的选择性场景下，我们调查了汇总统计数据的相对重要性。衡量它们重要性的一种方法是根据boosting分类器给汇总统计的系数的绝对值。大系数意味着某个统计数据对分类器的考虑位置非常有影响。每个图表基于平均10个试验，每个试验包含500个中性（或瓶颈）样本和500个选择样本。所有样本均以固定θ生成。对于每个细分市场，分别考虑了六个汇总统计数据的相对重要性；也就是说，每次一个提升过程只应用于特定位置的六个统计数据。

新标签中打开下载幻灯片

图6提供了几个场景的标准化系数。这里，我们注意到一些关于中所示模式的观察结果图6以下为：

为了在中立和选择之间进行分类，
\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）
始终在所有场景中发挥重要作用。另一方面，
\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）
仅在最近进行选择时才起作用，但不适用于旧扫描。一个原因可能是，选择后新突变的发生使低频突变的相对数量增加。但随着年龄的增长，一些低频突变向中频突变漂移，因此低频突变的比例降低。自
\（\mathrm｛hat｛theta｝｝｝｝_｛\mathrm｛w｝｝\）
应该比
\（\mathrm{{\hat{{\theta}}}{\mathrm{{\pi}}}\）
(费伊和吴2000),
\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）
当选择变老时变得不那么重要。
当区分中性场景时，iHH统计对于最近的选择性扫描似乎特别重要。如果有益等位基因的固定发生在很久以前，那么iHH统计就不那么重要了。一种可能的解释是，LD随后被重组或在有益突变固定后发生的反复中性突变所打破。
在区分瓶颈和选择时，
\（\mathrm{{\hat{{\theta}}}{\mathrm{w}}\）
似乎是最重要的，并且它的重要性向观察区域的边界增加。这表明瓶颈和远离有益突变的选择之间的低频突变数量差异较大。在这种情况下，联系不平衡往往贡献较小。
我们还调查了样本的突变数量K（K）是固定的(图7). 与之前θ固定的样本相比(图6)，在区分中立和选择时没有太大区别。然而，在对瓶颈和选择进行分类时，我们观察到了差异。由于两种情况下分离站点的总数现在是相同的，分类器使用空间变化模式，从而得出系数的空间模式，如图7。

在固定K值下，不同汇总统计对检测选择的相对重要性。如图6所示，我们研究了不同汇总统计的相对重要性，但这里的样本是在固定数量K的突变下生成的，而不是在固定θ下生成的。每个图表基于10次试验的平均值。每个试验包含500个中性和500个选择或500个选择和500个瓶颈样本。

图7.—

在固定值为K（K）.如中所示图6我们调查了不同汇总统计数据的相对重要性，但这里的样本是在固定数量下生成的K（K）而不是固定θ。每个图表基于10次试验的平均值。每个试验包含500个中性和500个选择或500个选择和500个瓶颈样本。

新标签中打开下载幻灯片

讨论和结论

Boosting是一种比较新的二进制分类统计方法。它允许有效地组合不同的证据，以优化最终分类器的性能。在群体遗传学中，对这些证据的自然选择是个体汇总统计。通过选择适当的增强方法，可以通过查看优化后的分类器，了解不同摘要统计信息的相对重要性。对于难以合并的汇总统计数据（如站点频谱和LD测量），这似乎特别有趣。

众所周知，单种群遗传汇总统计通常是不够的。对于像ABC这样依赖于汇总统计推断的方法，一个重要的问题是选择和/或组合汇总统计以获得精确估计。一种很有希望的方法似乎是将提升作为第一步：尽管如此，情况仍然具有挑战性，因为不同的汇总统计数据原则上在不同的参数范围内可能很重要。

尽管助推可以应用于任何一组竞争的种群遗传场景，但我们专注于在瓶颈和中性背景下检测选择性扫描。已经对这种情况进行了相当深入的研究，并提出了几种方法。因此，根据已知的其他方法的性能，可以判断增压的性能。我们的仿真结果表明，boosting的性能优于其他基于汇总统计的方法。这表明，boosting能够提供有效的汇总统计组合。我们还将boosting应用于帕夫利季斯等. (2010)其中，作者使用支持向量机（SVM）组合从SweepFinder软件的修改版本中获得的复合似然比统计(尼尔森等. 2005)以衡量联系不平衡。对于瓶颈内和瓶颈外的扫描，增强通常提供更高的检测能力，而假阳性率相等或更低。

使用滑动窗口方法，boosting也可以提供一种进行基因组扫描以进行选择的方法。

到目前为止，我们的重点是突变率和重组率都恒定的理想情况；我们只考虑了完成的选择扫描，没有选择的类型；种群规模被视为常数或受瓶颈影响。然而，在现实中，更复杂的人口历史可能会在我们的汇总统计中留下痕迹，影响我们方法的准确性。基于当前文献中的知识，我们讨论了如何在存在此类附加因素的情况下进行基于增强的扫描以进行选择。需要进一步模拟以确认我们的建议：

突变异质性：我们考虑了长度为40kb的区域。如果突变率在这样一个片段中是异质的，这可能导致θ值降低_π和K（K）和积极的田岛D类，取决于异质性的严重程度(阿里斯-布鲁苏和Excoffier公司1996). 如果异质性程度很大，这可能导致错误检测选择，因为θ减小_π和减少的K（K）在正选择下也会遇到。如果有人怀疑突变率异质性可能是阳性分类结果的另一种解释，那么可以通过训练boosting分类器来解决这个问题，该分类器的突变率根据伽马分布的不同而不同(尤泽尔和科尔宾1971;阿里斯-布鲁苏和Excoffier公司1996)模拟突变异质性。在基因组尺度上，突变率也可能不同。用一个在单一突变率下训练过的分类器扫描整个基因组可能会产生误导性的结果。例如，想想一个分类器，它在高突变率下训练，但随后被应用于突变率低得多的DNA片段。低水平的多态性可被视为选择的信号。一种可能的解决方案是将整个基因组划分为多个片段，并使用经过适当突变率训练的分类器独立扫描每个片段。我们在本文中研究的另一种方法是在相同的数量下进行培训K（K）在当前扫描的基因组片段上观察到的突变事件。
重组异质性：例如，在人类基因组中，大约每100kb的序列中就有一个长度为1kb的重组热点(考比等. 2004;卡拉布雷斯2007). 如果所研究的区域包含复合热点，这将减少LD，并可能因此降低扫描检测的功率。然而，由于使用多态性和站点频谱信息的其他汇总统计数据不受影响，因此功率下降可能有限。一个明显的选择是在训练增强分类器时，再次考虑潜在的重组热点。
持续选择（不完全扫描）：在我们的模拟中，在采样时，有益的突变被修复。如果正在进行选择，当有益等位基因的频率达到0.6时，突变频谱将与中性下的频谱显著不同(曾等. 2006). 因此，当有益等位基因的频率大于0.6时，应该有机会检测到选择。
循环选择：根据帕夫利季斯等（2010年）重复的选择性扫描将导致选择事件的特征局部模式丢失。一般来说，横扫赛事也会很古老(延森等. 2007;帕夫利季斯等2010年). 这两种效果都表明，检测区域中重复扫描的能力将略低于单个选择性事件。
背景选择：与阳性选择一样，背景选择也会降低多态性水平，但不会产生高频突变(付1997;曾等. 2006). 如果我们在中立状态下训练与。分类器识别低频突变的选择和过量，可能会将背景选择错误地识别为正选择。为了避免这种情况，两步的方法应该会有所帮助。如果一个样本被分类为欠选样本，则可能需要在第二步中使用正选择样本和背景选择样本来训练分类器。当使用摘要统计数据来测量高频突变的丰度时，我们希望得到的分类器能够区分背景和阳性选择。
平衡选择：如果所选等位基因的平衡频率不是很高，则很难发现平衡选择。另一方面，如果平衡频率相当高(例如, 75%) (曾等. 2006)平衡选择的签名类似于正选择的签名。在所选择的等位基因达到其平衡频率后，一些搭便车的中性等位基因也将具有高频率，并且将比在选择性扫描下保持分离更长的时间。这是因为当达到平衡时，它们的频率会更低，需要更多的时间通过漂移来固定它们(曾等. 2006). 因此，我们的方法还应在高平衡频率下检测平衡选择，其使用年限对效率的影响小于正选择。
人口增长：人口增长将导致过多的低频变异，但不会影响高频突变(付1997;曾等. 2006). 因此，像瓶颈和背景选择一样，两步方法可能有助于排除人口增长作为另一种解释。
人口萎缩：人口萎缩将导致低频变异的数量小于中高频变异的数量(付1996;曾等. 2006). 由于这与选择性扫描引起的特征完全不同，我们预计人口减少不会带来大问题。
群体结构：当一个群体是结构化的时，可能会有过多的低或高频率衍生等位基因，特别是当抽样方案在亚群体中不平衡时(曾等. 2006). 此外，人口结构可能会增加LD(斯拉特金2008). 这可能会明显影响从我们的增强分类器中获得的结果，需要进一步研究在结构化种群中使用增强分类器。正在添加如果_标准作为总结，统计数据在这方面可能会有明显的帮助。

脚注

有关支持信息，请访问http://www.genetics.org/cgi/content/full/genetics.110.122614/DC1。

通过作者支持的开放访问选项在线免费提供。

脚注

通讯编辑：J。韦克利

致谢

我们感谢Simon Boitard对模拟过程提出的有益建议。我们感谢西蒙·埃施巴赫和审稿人对原稿的有益评论。我们感谢Pavlos Pavlidis在模拟SVM方法时解释了他们参数选择的细节。我们还感谢Kosuke M.Teshima对程序mbs的指导。这项工作得到了上海浦江计划（08PJ14104）和白仁计划的资助。C.S.由Fonds zur Foörderung der wissenschaftlichen Forschung支持，A.F.由Wiener-、Wissenschaft S-、Forschung-und Technologiefonds支持。

工具书类

Akaike公司、H、。，

1974

统计模型识别的新视角。

IEEE传输。自动化。控制

。

19

(6):

716

–723.

文章内容

区分积极选择和中性进化：提高汇总统计的性能

摘要

方法

助力：

算法1：FGD程序(布赫曼和Hothorn公司2007):

增压分类器的输入：

模拟：

控制I类错误：

结果

辨别力：

基于增强的基因组扫描：

对瓶颈的敏感性：

与其他方法的比较：

应用于实际数据：

了解汇总统计的相对重要性：

讨论和结论

脚注

脚注

致谢

工具书类

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用