Correcting for Optimistic Prediction in Small Data Sets

Smith, Gordon C. S.; Seaman, Shaun R.; Wood, Angela M.; Royston, Patrick; White, Ian R.

doi:10.1093/aje/kwu140

这个C类统计是一种常用的筛选测试性能的测量方法。乐观估计C类统计是一个常见的问题，因为小数据集中的统计模型过拟合，并且有方法来纠正这个问题。然而，许多研究没有使用这样的方法，而那些对乐观主义正确的研究使用了不同的方法，其中一些方法是有偏见的。我们使用临床数据集（英国格拉斯哥（1991–2003）、爱丁堡（1999–2003）和剑桥（1990–2006）的唐氏综合征筛查数据，以及苏格兰国家妊娠出院数据（2004–2007））来评估不同的乐观调整方法。我们发现，样本分割、无复制的交叉验证和“留一”交叉验证产生了经优化调整的C类与其他可用方法相比，存在偏差和/或与更大绝对误差相关的统计数据。通过复制、引导和新方法（离开-淘汰交叉验证）进行交叉验证，均生成了无偏的优化调整估计C类在临床数据集中有相似的绝对误差。大型模拟研究证实，所有3种方法在每个变量10个或更多事件的情况下，或当C类统计值为0.9或更高。但是，每个变量的事件数更低或更低C类统计数据显示，bootstrapping倾向于乐观，但与这两种交叉验证方法相比，绝对误差和均方误差更低。

逻辑模型,模型，统计,多元分析,接收机工作特性曲线

预测结果（如疾病、死亡、复发）的能力在许多医学领域都很重要，例如人口筛查、预后评估和治疗反应。随着生物标记物开发技术（包括基因组学、蛋白质组学和代谢组学）的扩展，针对特定条件生成多种生物标记物的能力不断增强(1). 此外，日益复杂的生物医学技术可以更准确地对不良结果进行表型分析，从而分析更小的疾病亚群(2). 因此，许多研究最终使用案例数量相对较少的数据集来评估多个潜在预测因素。对多个标记的分析通常涉及到对数据拟合统计模型。由于模型的生成是为了为可用数据提供最佳拟合，因此有可能模型会被过度填充，因此，可以对预测能力进行乐观评估，通过此处的C类统计（也称为接收器工作特性曲线下的面积）。

一般认为，需要对模型进行外部验证。一些研究将样本分为2个，但验证并不是真正的外部验证。此外，当研究外部数据进行验证时，小样本可能会削弱分析。因此，在候选模型的初始内部评估中，重要的是纠正对乐观预测能力的估计。已经提出了一些统计方法来解决这一问题(三). 常用的方法包括样本分割、交叉验证和自举。交叉验证的变体包括在有或无复制的情况下使用交叉验证、离开-离开交叉验证，以及最近描述的方法开发，称为离开-离开交互验证。本研究的目的是比较这些纠正乐观情绪的方法。

方法

概述

我们评估了不同的纠正方法C类使用类似于Steyerberg等人的方法进行统计(4). 我们获得了2个大型临床数据集。在每种情况下，我们将大数据集划分为多个不同的小数据集（无需重新采样），每个数据集包含每个变量大约5个事件（EPV）（有意地，这远低于通常建议的EPV 10(三))每例约4个对照组。我们减少了控制的数量，以更好地模拟乐观主义是一个问题的研究类型。我们将模型拟合到每个小数据集，并在大数据集的其余部分（即所有其他小数据集汇总在一起）评估其预测能力，我们将其用作“黄金标准”。然后，我们通过比较乐观度调整后的结果，比较每种方法的性能C类根据金标准的小数据集进行统计估计。病例对照设计的使用只是为了方便，我们使用的方法适用于逻辑回归的任何应用。

临床数据

第一个数据来源是位于格拉斯哥（1991-2003）、爱丁堡（1999-2003）和剑桥（1990-2006）的英国唐氏综合症筛查实验室(5). 所有记录均包括孕妇年龄、孕妇血清甲胎蛋白水平和孕妇血清人绒毛膜促性腺激素的数据。来自3个中心的汇总数据包括466309份记录和785例唐氏综合征病例（0.17%）。评估的3个预测因子为母亲年龄、母亲血清甲胎蛋白和母亲血清人绒毛膜促性腺激素（均以对数表示₁₀胎龄中位数的倍数(6)). 我们随机创建了50个小数据集，每个数据集包含15或16个病例以及66或67个对照。第二个数据来源是苏格兰发病率记录2，这是一个国家怀孕出院数据注册中心，我们从中选择了2004年至2007年的记录(7). 数据来源于首次妊娠足月自然分娩的所有女性，其中婴儿为头位分娩。结果是紧急剖宫产。登记处共有32868份合格记录，其中3817份（19.9%）记录了紧急剖宫产。所用的5个预测因子为母亲年龄、身高、孕周、婴儿性别和出生体重百分位数（校正了性别和孕周）。我们随机创建了150个小数据集，每个数据集包含25或26个病例和102或103个对照。苏格兰国家卫生服务局信息服务部隐私咨询委员会和剑桥地方研究伦理委员会2批准了这些分析。

乐观评估

所有分析均使用Stata 12.1版软件（StataCorp LP，德克萨斯州大学城）进行。这两个临床实例所用的预测模型均为逻辑回归模型，其中包括连续协变量的线性项，并排除相互作用项。我们使用了C类统计（案例和控制的所有可能成对组合的比例，其中案例的预测失效概率高于控制）以评估预测能力。根据给定的小数据集得出的模型的乐观度评估如下。首先，该模型适用于给定小数据集中的所有观测值C类统计是经过计算的，我们称之为天真C类统计的。然后，将该模型应用于由汇集所有其他小数据集而形成的数据集C类统计数据被计算出来，我们称之为“真”C类统计的。天真与真实的区别C类统计数据是对这个小数据集的“乐观”。

现有乐观临床数据调整方法

在样本分割中，小数据集被随机分成两组，每组三分之二和三分之一。将预测模型拟合到较大组的数据，并对C类通过将此拟合模型应用于较小组进行统计。交叉验证是通过将小数据集随机拆分为k个大小相等的组。我们使用k个= 10. 排除了1组的数据，并将模型拟合到另一组的数据k个-1组。然后将得到的模型应用于排除的组C类进行统计学计算。重复这个过程k个时间，依次排除每个组。产生的结果k摄氏度对统计数据进行平均，以得出对C类统计的。我们还对复制进行了交叉验证。这里重复了交叉验证第页时间，以不同的随机划分为k个每次分组。有人建议，分析应包括至少200个模型的开发和测试，以生成平均值(8). 因此，我们使用了20个重复的10倍交叉验证。对C类统计为200个值的平均值。

在leave-1-out交叉验证中，从小数据集中省略了一个观察结果，并对其余观察结果拟合了一个模型，用于预测省略观察结果的概率。重复这一过程，省略不同的观测，直到数据集中的所有观测都具有根据拟合所有其他观测的模型计算出的估计概率。这个C类然后根据这些概率计算统计数据。

按照Harrell等人的描述执行引导(三). 重复对小数据集进行采样以生成b条复制的数据集，每个数据集的大小与原始数据集相同。我们使用b条= 200. 预测模型适用于b条依次复制数据集。然后将每个拟合模型应用于生成模型的重采样数据集和原始数据集；这个C类对两者进行统计，并计算这两个统计之间的差异。这个b条然后对差异进行平均，以估计乐观程度。对C类然后将统计数据计算为原始值C类统计数据减去估计的乐观情绪。

Leave-pair-out交叉验证

我们对交叉验证进行了修改，其中从小数据集中删除了1个病例和1个对照，将模型拟合到其余观察值，然后使用拟合模型预测被忽略对中每个成员的结果概率。在小数据集中，对病例和对照的每一个可能的成对组合重复此过程。这个C类然后，统计数据被计算为所有成对组合的比例，其中病例的预测概率大于对照组。我们随后发现，该方法以前曾在机器学习文献中描述过，在那里被称为“leave-pair-out交叉验证”(9).

乐观调整的评价方法

所有方法均在所有小数据集中进行。我们通过减去真值来量化每种方法的系统误差C类上述统计数据，来自经优化校正的C类统计，通过给定的方法计算。当所有小数据集的中位数符号差异与0显著不同时，可以推断出系统误差。我们还评估了绝对误差（即C类用给定方法计算的统计值与真值C类统计）。使用所有方法计算所有小数据集（唐氏综合征50例，剖宫产150例）的绝对误差。然后，对于每个小数据集和每对方法，我们计算了绝对误差之间的差异。使用Wilcoxon符号秩检验，当绝对误差的中位数（小数据集）差异与0显著不同时，推断出两种方法具有不同的绝对误差。通过对每个结果的单个代表性小数据集的50次重复分析的标准偏差和范围，评估与对相同小数据集重复应用相同方法相关的变异性。

模拟研究

为了模拟与原始唐氏综合征数据集类似的单个数据集，我们生成了年龄、对数母血α-甲胎蛋白、对数母血清人绒毛膜促性腺激素值以及大量个体中每个个体的二进制结果变量，然后从该群体中抽取病例和对照。选择了15例患者和60名对照组，得出EPV为5，每例为4名对照组。对于人口中的每个个体，年龄由最小15岁、最大47岁和模式31的三角分布生成，对数母血清α-胎蛋白和对数母血清人绒毛膜促性腺激素由双变量正态分布生成，平均值取决于年龄。这些分布是在对原始唐氏综合征筛查数据集进行探索性分析后选择的。为了生成二元结果，使用了从原始数据集估计的逻辑回归模型，但系数乘以相同的常数，以确保C类该模型的统计量为0.90。

同样，为了模拟与原始剖宫产数据集类似的单个数据集，我们为大量个体中的每个个体生成了数据，然后对25例病例和100例对照进行了抽样。对于人口中的每个个体，我们独立地从最小37、最大42和模式39.5的三角分布中得出了孕龄；母亲年龄分布均匀，最低16岁，最高37岁；重量（以百分位数计）在0–100均匀。身高呈正态分布，平均值取决于年龄、孕龄和体重。性别是通过模拟一个二元变量产生的，其概率取决于其他4个变量。这些分布是在对原始数据集进行探索性分析后选择的。为了生成二元结果，我们使用从原始数据集估计的逻辑回归模型，但系数乘以相同的常数，以确保C类统计值为0.71。

为了修改EPV，我们对病例数和对照数进行了缩放（例如，在基于唐氏综合征研究的数据集中，EPV为20的病例数为60例，对照数为240例）。通过对二元结果逻辑回归模型中的系数进行缩放，改变了受试者操作特征曲线下的真实面积。在所有模拟中，我们计算了优化调整值和真实值之间的差异C类统计每个结果的1000个数据集。我们使用平均有符号差、平均绝对（无符号）差和均方误差来评估方法。

结果

唐氏综合征预测分析

这个C类大数据集的统计(n个=4111）为0.901（即，这是从一个模型拟合到整个数据集，没有进行乐观修正）。天真的平均值C类50个小数据集的统计值为0.915（范围为0.761–0.993）。50真的平均值C类统计学（如上所述）为0.886（范围为0.817–0.903）。真值之间差异的中位数和四分位范围C类统计和其他估计C类统计数据如图所示1A.天真C类统计数据被高估；这个C类使用leave-out交叉验证校正的统计数据被系统地低估了，但没有其他差异与0有显著差异。真值之间的绝对（无符号）差异的中位数和四分位范围C类统计和估计C类统计数据如图所示2AC类表中列出了所有方法的统计比较1与至少一种其他方法相比，样本分割法、10倍无重复交叉验证法和留一不留交叉验证法的绝对误差都更大。10倍交叉验证的绝对误差在20次重复、自举和离开-离开交叉验证中没有显著差异。

表1。

利用唐氏综合征和剖宫产数据，采用不同的乐观调整方法对绝对误差进行配对比较，英国，1990-2007年

按数据集调整的方法	绝对误差中值差（IQR）^一
按数据集调整的方法	样品分割	引导	10折CV	10折简历（20份副本）	预留CV
唐氏综合征数据集
引导	0.022*** (–0.005–0.053)
10折CV	0.015 (–0.028–0.046)	–0.006** (–0.024–0.003)
10倍CV（20次重复）	0.025*** (–0.008–0.0520)	0.002 (–0.006–0.007)	0.011*** (–0.003–0.025)
开孔CV	0.018*** (–0.005–0.052)	0.000 (–0.004–0.005)	0.007** (–0.004–0.024)	–0.002 (–0.005–0.003)
遗漏1 CV	0.014** (–0.006–0.053)	–0.003（–0.031–0.016）	0.010 (–0.016–0.029)	–0.006 (–0.028–0.014)	–0.010* (–0.026–0.013)
剖腹产数据集
引导	0.012*** (–0.018–0.079)
10折CV	0.013** (–0.032–0.066)	–0.008** (–0.035–0.017)
10倍CV（20次重复）	0.015*** (–0.023–0.069)	–0.001 (–0.014––0.008)	0.008 (–0.018–0.028)
开孔CV	0.015***（-0.023–0.072）	0.000 (–0.009–0.006)	0.007* (–0.018–0.030)	–0.001 (–0.006–0.007)
遗漏1 CV	0.016** (–0.031–0.060)	–0.012** (–0.037–0.023)	0.000 (–0.026–0.029)	–0.009** (–0.029–0.016)	–0.019*** (–0.029–0.020)

按数据集调整的方法	绝对误差中位数差（IQR）^一
按数据集调整的方法	样品分割	引导	10折CV	10折简历（20份副本）	预留CV
唐氏综合征数据集
引导	0.022*** (–0.005–0.053)
10折CV	0.015 (–0.028–0.046)	–0.006** (–0.024–0.003)
10倍CV（20次复制）	0.025*** (–0.008–0.0520)	0.002 (–0.006–0.007)	0.011*** (–0.003–0.025)
省略配对简历	0.018*** (–0.005–0.052)	0.000 (–0.004–0.005)	0.007** (–0.004–0.024)	–0.002 (–0.005–0.003)
遗漏1 CV	0.014** (–0.006–0.053)	–0.003 (–0.031–0.016)	0.010 (–0.016–0.029)	–0.006 (–0.028–0.014)	–0.010* (–0.026–0.013)
剖腹产数据集
引导	0.012*** (–0.018–0.079)
10折CV	0.013** (–0.032–0.066)	–0.008** (–0.035–0.017)
10倍CV（20次重复）	0.015*** (–0.023–0.069)	–0.001 (–0.014––0.008)	0.008 (–0.018–0.028)
开孔CV	0.015*** (–0.023–0.072)	0.000 (–0.009–0.006)	0.007* (–0.018–0.030)	–0.001 (–0.006–0.007)
遗漏1 CV	0.016** (–0.031–0.060)	–0.012** (–0.037–0.023)	0.000 (–0.026–0.029)	–0.009** (–0.029–0.016)	–0.019*** (–0.029–0.020)

缩写：CV，交叉验证；IQR，四分位范围。

*P（P）<0.05时**P（P）< 0.01, ***P（P）< 0.001.

^一从与列中方法相关的绝对误差中减去与行中方法相关的绝对误差，并给出50个子组的中位数和IQR。因此，正值表示使用列中的方法的绝对误差较大，负值表示绝对误差较小。统计比较是通过Wilcoxon符号秩检验与无差异的零假设进行的。

表1。

英国，1990-2007年，使用唐氏综合症和剖腹产数据，使用不同乐观调整方法进行绝对误差的配对比较

按数据集调整的方法	绝对误差中位数差（IQR）^一
按数据集调整的方法	样品分割	引导	10折CV	10折简历（20份副本）	预留CV
唐氏综合征数据集
引导	0.022*** (–0.005–0.053)
10折CV	0.015 (–0.028–0.046)	–0.006** (–0.024–0.003)
10倍CV（20次重复）	0.025*** (–0.008–0.0520)	0.002 (–0.006–0.007)	0.011*** (–0.003–0.025)
开孔CV	0.018*** (–0.005–0.052)	0.000 (–0.004–0.005)	0.007** (–0.004–0.024)	–0.002 (–0.005–0.003)
遗漏1 CV	0.014** (–0.006–0.053)	–0.003 (–0.031–0.016)	0.010 (–0.016–0.029)	–0.006 (–0.028–0.014)	–0.010* (–0.026–0.013)
剖宫产数据集
引导	0.012*** (–0.018–0.079)
10折CV	0.013** (–0.032–0.066)	–0.008**（–0.035–0.017）
10倍CV（20次重复）	0.015*** (–0.023–0.069)	–0.001 (–0.014––0.008)	0.008（-0.018–0.028）
开孔CV	0.015*** (–0.023–0.072)	0.000 (–0.009–0.006)	0.007* (–0.018–0.030)	–0.001 (–0.006–0.007)
遗漏1 CV	0.016** (–0.031–0.060)	–0.012** (–0.037–0.023)	0.000 (–0.026–0.029)	–0.009** (–0.029–0.016)	–0.019***（–0.029–0.020）

按数据集调整的方法	绝对误差中位数差（IQR）^一
按数据集调整的方法	样品分割	引导	10折CV	10折简历（20份副本）	预留CV
唐氏综合征数据集
引导	0.022*** (–0.005–0.053)
10折CV	0.015 (–0.028–0.046)	–0.006** (–0.024–0.003)
10倍CV（20次重复）	0.025*** (–0.008–0.0520)	0.002 (–0.006–0.007)	0.011*** (–0.003–0.025)
开孔CV	0.018*** (–0.005–0.052)	0.000 (–0.004–0.005)	0.007** (–0.004–0.024)	–0.002 (–0.005–0.003)
Leave-1-输出CV	0.014** (–0.006–0.053)	–0.003 (–0.031–0.016)	0.010 (–0.016–0.029)	–0.006（–0.028–0.014）	–0.010* (–0.026–0.013)
剖宫产数据集
引导	0.012*** (–0.018–0.079)
10折CV	0.013** (–0.032–0.066)	–0.008** (–0.035–0.017)
10倍CV（20次重复）	0.015*** (–0.023–0.069)	–0.001 (–0.014––0.008)	0.008（-0.018–0.028）
开孔CV	0.015*** (–0.023–0.072)	0.000 (–0.009–0.006)	0.007* (–0.018–0.030)	–0.001 (–0.006–0.007)
遗漏1 CV	0.016** (–0.031–0.060)	–0.012** (–0.037–0.023)	0.000 (–0.026–0.029)	–0.009** (–0.029–0.016)	–0.019*** (–0.029–0.020)

缩写：CV，交叉验证；IQR，四分位范围。

*P（P）<0.05时**P（P）< 0.01, ***P（P）< 0.001.

^一从列中方法的绝对误差中减去与行中方法相关的绝对误差，并给出50个子组的中位数和IQR。因此，正值表示使用列中的方法的绝对误差较大，负值表示绝对误差较小。统计比较是通过Wilcoxon符号秩检验与无差异的零假设进行的。

图1。

对于A）50个小型唐氏综合征数据集和B）150个小型剖宫产数据集，使用不同方法估计的C统计量与真实C统计量之间的差异的中位数和四分位范围。这些数据是来自格拉斯哥（1991–2003）、爱丁堡（1999–2003）和剑桥（1990–2006）的英国唐氏综合征筛查结果，以及苏格兰全国妊娠出院数据（2004–2007）。条形图，95%置信区间。简历、交叉验证。

新标签中打开下载幻灯片

The medians and interquartile ranges of the difference between theC类使用不同方法估计的统计量和真实值C类统计A）50个小唐氏综合征数据集和B）150个小剖宫产数据集。这些数据是来自格拉斯哥（1991–2003）、爱丁堡（1999–2003）和剑桥（1990–2006）的英国唐氏综合征筛查结果，以及苏格兰全国妊娠出院数据（2004–2007）。条形图，95%置信区间。CV，交叉验证。

图2。

对于A）50个小唐氏综合征数据集和B）150个小剖宫产数据集，使用不同乐观校正方法估计的C统计量和真实C统计量之间绝对（无符号）差异的中位数和四分位范围。（不同方法的绝对误差比较见表1。）这些数据是英国唐氏综合征筛查结果，来自格拉斯哥（1991–2003）、爱丁堡（1999–2003）和剑桥（1990–2006），以及苏格兰全国妊娠出院数据（2004–2007）。条形图，95%置信区间。简历、交叉验证。

新标签中打开下载幻灯片

The medians and interquartile ranges of the absolute (unsigned) difference between theC类使用不同的乐观和真实校正方法估计的统计数据C类统计A）50个小唐氏综合征数据集和B）150个小剖宫产数据集。（见表1用于比较不同方法的绝对误差。）数据是来自格拉斯哥（1991-2003）、爱丁堡（1999-2003）和剑桥（1990-2006）的英国唐氏综合症筛查结果，以及苏格兰全国妊娠出院数据（2004-2007）。条形图，95%置信区间。简历、交叉验证。

剖宫产预测分析

这个C类大数据集的统计(n个=19215）为0.711。天真的平均值C类150个小数据集的统计数据为0.741（范围为0.602–0.856）。150真的平均值C类统计值为0.681（范围为0.581–0.709）。真值之间差异的中位数和四分位范围C类统计和估计C类统计数据如图所示1B.天真C类统计数据被高估了C类使用样本分割和leave-1-out交叉验证校正的统计数据被系统地低估了，但其他中间值与0没有显著差异。真值之间的绝对（无符号）差异的中位数和四分位范围C类统计和估计C类统计数据如图所示2BC类表中列出了所有方法的统计比较1与至少一种其他方法相比，样本分割法、10倍无重复交叉验证法和留一不留交叉验证法的绝对误差都更大。10倍交叉验证的绝对误差在20次重复、自举和离开-离开交叉验证中没有显著差异。对每个结果的代表性小数据集的重复分析得出的估计值的可变性如图所示三。

图3。

代表性子样本50次连续分析的C统计量，说明了使用不同方法进行重复分析的可变性。A）对于唐氏综合征数据，50次重复分析的标准偏差为0.004（范围0.876–0.893），用于自举分析，0.035（范围0.805–0.964）用于10倍交叉验证（CV），0.008（范围0.869–0.901）用于20次重复的10倍交叉验证。B）对于剖宫产数据，50次重复分析的标准偏差为0.004（范围：0.686–0.700）（自举），0.042（范围：0.594–0.773）（10倍交叉验证），0.009（范围：0669–0.707）（10次交叉验证，20次重复）。数据是来自格拉斯哥（1991-2003）、爱丁堡（1999-2003）和剑桥（1990-2006）的英国唐氏综合症筛查结果，以及苏格兰全国妊娠出院数据（2004-2007）。

新标签中打开下载幻灯片

这个C类代表性子样本的50次连续分析的统计数据，说明了使用不同方法进行重复分析的可变性。A）对于唐氏综合征数据，50次重复分析的标准偏差为0.004（范围0.876–0.893），用于自举分析，0.035（范围0.805–0.964）用于10倍交叉验证（CV），0.008（范围0.869–0.901）用于20次重复的10倍交叉验证。B）对于剖宫产数据，50次重复分析的标准偏差为0.004（范围：0.686–0.700）（自举），0.042（范围：0.594–0.773）（10倍交叉验证），0.009（范围：0669–0.707）（10次交叉验证，20次重复）。这些数据是来自格拉斯哥（1991–2003）、爱丁堡（1999–2003）和剑桥（1990–2006）的英国唐氏综合征筛查结果，以及苏格兰全国妊娠出院数据（2004–2007）。

模拟研究

在这两项模拟研究中，自举和所有形式的交叉验证（EPV为10或更高）的符号差异都相似，但剖腹产模拟的真实值除外C类统计值为0.61，bootstrapping对此持乐观态度(补充数据). 当EPV小于等于5时，引导往往是乐观的，特别是当C类统计值为0.71或更低。所有形式的交叉验证都趋于悲观，尽管有一个模拟结果是乐观的。与交叉验证相关的悲观程度小于与自举相关的乐观程度。当EPV为5或更大时，或当EPV大于5时，自举、10倍重复交叉验证和离-平交叉验证都有类似的绝对误差C类统计值为0.9或更高(补充数据). 当EPV为2且C类统计值为0.61。当EPV为2或EPV为5且C类统计值小于0.7(补充数据).

讨论

在分析2个临床数据集时，我们发现3种常用的方法用于校正C类乐观数据表现不佳。样本分割产生的结果在剖宫产预测分析中存在偏差（图1)在这两种分析中，其绝对误差均大于任何其他方法（图2). 十倍交叉验证对C类统计的。然而，在剖宫产分析中C类统计数据大于其他方法。在这两种分析中，遗漏一项交叉验证产生的估计值都有偏差，并且比其他方法的绝对误差更大。我们发现，自举、10倍交叉验证（20次重复）和离开-离开交叉验证在临床数据集中的表现都相似，对C类统计和可比绝对误差。

在模拟研究中，我们发现当EPV为10或更大时，启动、10倍交叉验证（重复20次）和离开-退出交叉验证的执行情况都类似，或者C类统计值为0.9或更高。当EPV和C类统计数据较低，与不同的交叉验证方法相比，自举方法的绝对误差和均方误差往往较低。然而，当比较有符号错误时，引导往往是乐观的，交叉验证（包括复制和离开验证）往往是悲观的，但交叉验证的偏差绝对值往往低于引导。因此，在随机和系统误差方面，没有一种方法明显优于所有其他方法。

当比较不同的交叉验证方法时，没有复制的10倍交叉验证显然不如其他方法，具有更高的绝对误差和均方误差。Leave-pair-out交叉验证的签名错误和绝对错误与复制交叉验证的其他方法类似。我们的发现是，它对C类具有低绝对误差的统计与机器学习文献中的评估类似(9). 尽管该方法的优点是，当重复应用于同一数据集时，它总是生成相同的值，但更大的计算要求可能会限制其有用性。

乐观预测问题

多元模型中乐观预测的潜在问题已被广泛认识(三). 然而，一些关键文献并没有详细讨论这个问题。许多期刊要求新诊断试验的报告符合诊断准确性研究报告标准指南(10). 然而，该指南并不要求作者表达乐观态度。此外，关于诊断测试的开发和验证的方法学审查没有详细讨论这个问题(11,12). 对使用分子标记物描述癌症预后模型的论文进行的系统综述发现，129篇文章中只有3篇进行了乐观校正(13). 此外，当研究确实纠正了乐观情绪时，会使用各种方法。例如，最近（过去3年）大规模、多中心、国际、前瞻性队列研究生成的先兆子痫预测模型包括使用自举校正(14)使用10倍交叉验证进行校正，无需重复(15).

为什么不同的方法表现不同

有许多问题可以解释方法之间的差异。一个关键方面是模型拟合系数和模型性能估计的不确定性。两者在很大程度上都存在于样本分割中，其中由于排除了用于验证的案例，模型更加不确定，而由于排除了生成模型的案例，验证更加不确定。在交叉验证中，对所有受试者的模型进行评估。然而，每个模型的样本量始终小于总样本量，通常为90%（即，在10倍交叉验证的情况下）；因此，与使用整个数据集相比，系数中仍存在更多的不确定性。因此，当生成给定预测模型时忽略的受试者数量最少时，交叉验证可能最有效。然而，退出交叉验证表现不佳。这里的问题是，尽管每个被忽略的对象都有一个估计的概率，该概率来自于一个与整个其余数据集相匹配的模型，但用于生成这些概率的所有模型都略有不同。之前已经证明，不同模型的汇集概率会导致对C类统计(16)，我们在当前的分析中也发现了这一点。Leave-pair-out交叉验证具有优势，因此，每个模型都包含生成有效样本外比较所需的尽可能多的受试者。然而，任何模型中的受试者仍然少于自举模型中的，自举模型使用重采样来增加受试者的数量，使其与完整数据集相同。

第二个可能解释不同结果的问题是随机抽样。Leave-pair-out交叉验证不涉及随机抽样，因为它评估每个可能的成对案例和对照组合以进行验证。相比之下，传统的交叉验证和自举都涉及随机抽样，因此，没有2种分析会产生相同的结果。建议乐观调整分析应包括至少200个模型的开发和测试(8)这说明我们选择了20个重复的10倍交叉验证和200个重复的引导。我们发现，与使用其他无偏方法相比，使用无复制交叉验证时的绝对误差更大，这可能反映出更大的随机误差，如图所示三相反，20次重复的交叉验证和200个样本的自举验证表明，相同小数据集的重复分析之间的变异程度要小得多，在这两种情况下C类统计值小于0.01，这与绝对误差相比很小（图2). 因此，当我们使用这些方法时，与估计C类统计反映了使用小数据集的固有不确定性，而不是使用随机抽样方法的可变性。然而C类在50次分析中估计的统计数据约为0.02，其中10倍交叉验证（20次重复）和自举验证（200次重复）。因此，使用这些方法的研究应评估重复分析的可变性，并应考虑使用更多的重复次数。

最后，我们确认在小数据集中使用天真方法会导致对C类统计的。这是因为模型是为了最好地描述给定的数据集而拟合的。随着研究规模的扩大，这就不再是一个问题，因为任何单个观测对任何拟合模型或拟合模型评估产生重要总体影响的可能性随着数据集的大小而减小。在交叉验证中，单个观察不可能对模型开发或验证产生重大影响，因为在生成或验证给定模型的过程中，用于这些过程的对象之间没有重叠。相反，使用引导，在重采样过程中，2之间存在重叠。这可能解释了对C类两个模拟研究中的统计数据。

本研究的局限性

随着数据集的大小，适合离开-淘汰法的模型数量增加。因此，在大型数据集中，这在计算上可能是不切实际的。我们能够对60例病例和240例对照进行1000次分析（EPV=20的唐氏综合症模拟）。因此，它在小数据集中是实用的，并且随着计算能力的进一步提高，它很可能在未来在大数据集中变得实用。在本研究中，每个预测因子的病例数少于其他情况下的病例数（例如，表达基因阵列）。需要进一步研究，以比较这些方法在预测因子较多的情况下的性能。

进一步的工作

当过拟合可能是一个问题时，建立预测模型还有许多其他方面，进一步的研究应比较当前分析中评估的方法，以解决这些问题。这可能包括选择变量、包含交互项和使用非线性变换。在这些角色中，离开-淘汰交叉验证可能表现得不太好，因为所有模型都是共享的n个−2个观测值，除非有一个具有高度影响力的观测值，否则倾向于选择相同的变量（或变量转换或交互作用）。

致谢

作者单位：英国剑桥大学妇产科系（Gordon C.S.Smith）；英国剑桥公共卫生研究所医学研究理事会生物统计股（Shaun R.Seaman，Ian R.White）；英国剑桥大学公共卫生和初级保健系（Angela M.Wood）；和英国伦敦医学研究委员会临床试验室（Patrick Royston）。

这项工作得到了英国国家健康研究所（剑桥综合生物医学研究中心）的支持。

我们感谢Sandy Goodburn博士（英国剑桥）、Jennifer Crossley博士（英国格拉斯哥）和Catherine Shearing博士（英国爱丁堡）提供唐氏综合征筛查数据，以及Jim Chalmers博士和Mike Fleming博士（苏格兰国家卫生服务局信息服务部）提供剖宫产数据。

利益冲突：未声明。

参考文献

1

西卡鲁迪

M（M）

加拉奇安茨

Y（Y）

巴拉诺瓦

A类

肿瘤标记物：“组学”方法的潜力

当前分子医学

2010

10

2

249

257

2

瑟利

T型

乳腺肿瘤的分子分类：改进诊断和治疗

摩尔生物法

2007

360

91

114

三

哈雷尔

铁

年少者

李

吉隆坡

作记号

数据库

多变量预测模型：开发模型、评估假设和充分性以及测量和减少误差方面的问题

统计医学

1996

15

4

361

387

4

斯泰尔伯格

电子战

哈雷尔

FE公司

年少者

博斯博姆

GJ公司

等

预测模型的内部验证：逻辑回归分析某些程序的效率

临床流行病学杂志

2001

54

8

774

781

5

袖口

H（H）

艾特肯

D类

古德本

S公司

等

唐氏综合征筛查项目目标设定和绩效审计时的年龄标准

Prenat诊断

2004

24

11

851

856

6

罗伊斯顿

P（P）

汤普森

新加坡

基于模型的风险筛查及其在唐氏综合征中的应用

统计医学

1992

11

2

257

268

7

史密斯

GC公司

科尔多

Y（Y）

白色

红外

等

延迟分娩对初次剖宫产率的影响

公共科学图书馆医学

2008

5

7

e144（电子144）

8

埃夫隆

B类

估计预测规则的错误率：交叉验证的改进

美国统计协会

1983

78

382

316

331

谷歌学者

交叉参考

书目数据库

9

艾洛拉

A类

巴希卡拉

T型

韦格曼

W公司

等

ROC曲线下面积估算的交叉验证技术的实验比较

计算统计数据分析

2011

55

4

1828

1844

谷歌学者

交叉参考

书目数据库

10

博叙

颗粒物

赖茨马

接线盒

布伦斯

德

等

实现诊断准确性研究的完整准确报告：STARD倡议

BMJ公司

2003

326

7379

41

44

11

罗伊斯顿

P（P）

月亮

公斤

奥尔特曼

DG公司

等

预后和预后研究：建立预后模型

BMJ公司

2009

338

b604号

12

奥尔特曼

DG公司

韦古韦

Y（Y）

罗伊斯顿

P（P）

等

预后和预后研究：验证预后模型

BMJ公司

2009

338

b605

13

维氏硬度计

AJ公司

张

K（K）

萨金特

D类

等

癌症分子标记研究中统计方法的系统综述

癌症

2008

112

8

1862

1868

14

冯·达德尔森

P（P）

佩恩

B类

锂

J型

等

子痫前期孕妇不良结局的预测：fullPIERS模型的建立和验证

柳叶刀

2011

377

9761

219

227

15

北方

无线电高度表

麦考文

LM公司

德克尔

通用航空公司

等

未产妇子痫前期临床风险预测：国际前瞻性队列模型的建立

BMJ公司

2011

342

1875美元

16

帕克

BJ公司

居恩特

S公司

贝多

J型

低信号微阵列研究中的分层偏差

BMC生物信息学

2007

8

326

作者注释

缩写：EPV，每个变量的事件。

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/)允许在任何介质中无限制地重复使用、分发和复制，前提是正确引用了原著

下载所有幻灯片

月份：	总浏览次数：
2017年1月	28
2017年2月	86
2017年3月	65
2017年4月	63
2017年5月	81
2017年6月	65
2017年7月	47
2017年8月	67
2017年9月	50
2017年10月	40
2017年11月	36
2017年12月	137
2018年1月	182
2018年2月	152
2018年3月	198
2018年4月	183
2018年5月	224
2018年6月	188
2018年7月	127
2018年8月	177
2018年9月	150
2018年10月	107
2018年11月	157
2018年12月	188
2019年1月	134
2019年2月	154
2019年3月	187
2019年4月	187
2019年5月	170
2019年6月	173
2019年7月	177
2019年8月	130
2019年9月	147
2019年10月	161
2019年11月	127
2019年12月	111
2020年1月	103
2020年2月	101
2020年3月	101
2020年4月	95
2020年5月	103
2020年6月	97
2020年7月	113
2020年8月	99
2020年9月	121
2020年10月	90
2020年11月	91
2020年12月	83
2021年1月	82
2021年2月	104
2021年3月	105
2021年4月	103
2021年5月	95
2021年6月	110
2021年7月	103
2021年8月	84
2021年9月	89
2021年10月	152
2021年11月	108
2021年12月	85
2022年1月	109
2022年2月	78
2022年3月	120
2022年4月	101
2022年5月	94
2022年6月	112
2022年7月	118
2022年8月	110
2022年9月	130
2022年10月	100
2022年11月	94
2022年12月	90
2023年1月	113
2023年2月	94
2023年3月	105
2023年4月	95
2023年5月	73
2023年6月	75
2023年7月	71
2023年8月	80
2023年9月	75
2023年10月	64
2023年11月	80
2023年12月	81
2024年1月	88
2024年2月	96
2024年3月	67
2024年4月	70
2024年5月	93

文章内容

小数据集乐观预测的修正

方法

概述

临床数据

乐观评估

现有乐观临床数据调整方法

Leave-pair-out交叉验证

乐观调整的评价方法

模拟研究

结果

唐氏综合征预测分析

剖宫产预测分析

模拟研究

讨论

乐观预测问题

为什么不同的方法表现不同

本研究的局限性

进一步的工作

致谢

参考文献

作者注释

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

小数据集乐观预测的修正

方法

概述

临床数据

乐观评估

现有乐观临床数据调整方法

Leave-pair-out交叉验证

乐观调整的评价方法

模拟研究

结果

唐氏综合征预测分析

剖宫产预测分析

模拟研究

讨论

乐观预测问题

为什么不同的方法表现不同

本研究的局限性

进一步的工作

致谢

参考文献

作者注释

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用