在过去十年中,统计增强算法引发了大量研究。 它们将强大的机器学习方法与经典统计建模相结合,提供了各种实际优势,如自动变量选择和效应估计的隐式正则化。 它们非常灵活,因为基础学习者(定义解释变量影响类型的回归函数)可以与任何类型的损失函数(要优化的目标函数,定义回归设置类型)相结合。 在这篇综述文章中,我们重点介绍了有关变量选择、函数回归和高级时间-事件建模的统计增强的最新方法学发展。 此外,我们简要概述了统计增强在生物医学中的相关应用。
1.简介 统计增强算法是现代统计学家或数据科学家工具箱中的高级方法之一[ 1 ]. 虽然仍然可以产生具有众所周知的可解释性的经典统计模型,但它们在高维数据存在的情况下提供了多种优势,因为它们适用于 解释变量多于观察值的情况[ 2 , 三 ]. 这方面的关键功能是自动变量选择和模型选择[ 4 , 5 ].
该研究领域涵盖了统计学和计算机科学领域,弥合了如何从数据中提取信息的两种截然不同的观点之间的差距[ 6 ]一方面,有一个专注于模型的经典统计建模社区 描述 和 解释 找到基本随机数据生成过程近似值的结果。 另一方面,机器学习社区主要关注算法模型 预测 将潜在过程的性质视为未知时的结果。 统计推进算法起源于机器学习[ 7 ]但后来被用于估计经典统计模型[ 8 , 9 ]. 这些算法的一个关键方面是,它们结合了数据驱动的变量选择和与经典惩罚回归类似的效果估计收缩[ 10 ].
在几年前的一次回顾中[ 1 ],我们强调了boosting从机器学习到统计建模的演变。 此外,我们强调了两种助推方法的相似性,即梯度助推[ 2 ]和基于可能性的提升[ 三 ],介绍 统计增强 作为这些算法的通用术语。
随附文章[ 11 ]强调了基本算法在以下方面的多重扩展:(i)增强的变量选择属性,(ii)新型预测效果,以及(iii)新的回归设置。 过去几年统计增强算法在方法上的实质性发展(例如稳定性选择[ 12 ])不断增长的社区为新的模型类和框架(例如,联合模型)打开了大门[ 13 ]和功能数据[ 14 ]),要求对可用扩展进行最新审查。
本文结构如下:在第节 2 我们简要介绍了统计boosting算法的基本结构和特性,并指出它们与经典惩罚方法(如套索)的联系。 在节中 三 我们关注有关变量选择的新发展(包括基因表达数据的示例分析),它也可以与第节中提出的增强功能回归模型相结合 4 .第节 5 专注于高级生存模型,如联合建模; 在第节中 6 我们简要总结了统计助推框架中的其他相关发展和应用。
2.统计推进 2.1. 从机器学习到统计模型 Schapire独创的助推概念[ 15 ]和弗伦德[ 7 ]出现于监督学习领域,其中一个函数通常是基于已知结果类或标签的数据进行训练,以正确分类新的观察结果。 助推概念的目的是 促进 通过将弱分类器(即正确分类率低的分类器)迭代应用于加权后的数据,以提高其准确性。 即使这些所谓的 基础学习者 单独地说,集成解决方案仅略优于随机猜测,通常可以提高到一个完美的分类[ 16 ].
AdaBoost简介[ 17 ]是在监督机器学习领域取得的突破,据称导致Leo Breiman称赞其性能: Boosting是世界上最好的离线分类器 [ 18 ].
经典机器学习方法的主要目标是预测观测值 结果的 给定一个或多个输入变量 预测规则(也称为泛化函数)的估计基于观察到的样本 然而,重点不是量化或描述基础数据生成过程,而是预测 用于新观察 尽可能准确。 因此,许多机器学习方法(也包括以树或树桩为基础学习者的原始AdaBoost)可以被视为黑盒预测方案。 虽然通常会产生准确的预测[ 19 ],它们对解释变量之间的关系结构没有提供太多的见解 以及结果 。
另一方面,统计回归模型特别旨在以结构化的方式描述和解释潜在的关系。 不仅可以用变量重要性度量来量化单个解释变量的影响[ 20 , 21 ],但这些变量的实际效果是可以解释的。 Friedman等人的工作[ 8 , 9 ]为从统计角度理解boosting的概念以及适应总体思路以估计统计模型奠定了基础。
2.2。 通用模型结构 目标 统计增强 算法是在结构化加性回归模型中估计和选择影响。 最重要的模型类是广义可加模型(“GAM”[ 22 ]),其中假设响应变量的条件分布遵循指数族分布。 根据观察值对预期响应进行建模 使用链接函数的一个或多个解释变量 作为 在多个解释变量的典型情况下,函数 通常称为加性预测器,由单个预测器的加性效应组成: 哪里 表示公共截距和函数 , ,是变量的个别影响 .通用表示法 可能包括不同类型的预测效应,如经典线性效应, 、通过回归样条、空间效应或解释变量的随机效应构建的平滑非线性效应 仅举几个例子。
在统计助推算法中,就像以下章节中描述的两种方法一样,不同的效果是由不同的基础学习者来估计的 ( 组件式增压 [ 2 ]). 这些基本学习者通常是相应的简单回归型预测函数; 对于线性效应,相应的基础学习者将是一个简单的线性模型: 。
2.3. 统计推进的一般结构 有关统计增强算法结构的一般概述,请参阅方框 1 。逐个应用基本学习者,在每次迭代中,只有表现最好的基本学习者 已选择进行更新。 因此,最终的加性模型是所有选定的基础学习拟合的总和。
主要调谐参数为 ,执行的提升迭代次数。 为了避免过拟合和确保变量选择,算法通常在收敛之前停止 (提前停止) .选择 基于通过交叉验证或重新采样评估的预测性能[ 23 ]. 这种提前停车会导致隐性处罚[ 24 ],类似于套索(参见第节 2.6 ).
2.4. 梯度增强 在梯度增强中[ 2 , 8 ],迭代过程适合基础学习者 逐个到损失函数的负梯度 ,在上一次迭代中评估: 损失函数描述了观察结果之间的差异 和加法预测 和是应最小化以获得最佳拟合的目标函数。 对于GAM,损失函数通常是相应指数族的负对数似然。 对于高斯分布的结果,这减少到 损失 ,其中梯度向量 就是残差向量 从迭代开始 因此,增压对应于残差的重新装配。
在每个推进迭代中,只有最适合的基础学习者 根据基础学习拟合的剩余平方和进行选择 只有这个基础学习者 添加到当前加法预测器 。为了确保小更新,只有一小部分基础学习者适合(通常步长为 [ 2 ])实际上已添加。 请注意,基础学习者 可以选择和更新各种时间; 变量的部分效应 是已选定的所有相应基础学习者的总和: 将基础学习器逐个拟合到损失函数的当前梯度的组件程序可以描述为 函数空间中的梯度下降 [ 25 ],其中函数空间由基础学习者跨越。 该算法有效地逐步优化了损失函数,最终收敛到最小值。
梯度增强在附加包中实现 姆博斯特 [ 26 ]用于开源编程环境 R(右) [ 27 ],为各种回归设置提供大量预先实现的损失函数,以及不同的基础学习者来表示各种类型的影响(请参见[ 28 ]概述; 附录中总结了最近的更新)。
2.5. 基于似然的提升 基于似然的提升[ 三 , 29 ]是统计boosting算法框架中的另一种通用方法; 它受到了很多关注,尤其是在高维生物医学数据的背景下(见[ 11 ]以及其中的参考)。 尽管它遵循与梯度增强非常相似的结构(请参见方框 1 ),这两种方法仅在特殊情况下一致,例如通过 损失[ 1 , 30 ]. 与梯度增强相比,通过优化总体似然直接估计基本学习者,使用上一次迭代的加性预测器作为偏移量。 如果是 损失,这与改装残差的后果类似。
因此,在每一步中,该算法通过最大化可能性(使用一步Fisher评分),仅选择基础学习者,逐个优化回归模型作为基础学习者 这导致可能性最大的增加。 为了获得较小的提升步长,此可能性附加了二次惩罚项。 这与将适合的基础学习者乘以一个小步长因子的效果类似,就像在梯度增强中一样。
广义线性和加性回归模型的基于似然的增强由 R(右) 附加程序包 GAMBoost公司 [ 31 ],并提供了一个用于增强Cox回归的改进版本 CoxBoost公司 [ 32 ]. 对于两种统计增强方法的比较,即在Cox比例风险模型中基于lihood和梯度增强,我们参考[ 33 ].
2.6. 与的连接 -正规化 尽管统计推进算法只应用了隐式惩罚,但其结果是正则化模型具有收缩效应估计[ 24 ]通过在收敛之前停止算法。 通过在不使用显式惩罚项的情况下执行正则化,boosting算法与其他直接正则化技术(如 套索 [ 34 ]. 然而,这两种方法在调整到可比较的正则化程度后,有时会产生非常相似的模型[ 10 ].
人们首先注意到套索和 正向分段回归 ,可视为梯度增强算法的特例(Box 1 )和领导,随着 最小角回归 (LARS),以制定 正圆锥条件 (PCC)[ 35 ].
如果这个条件成立,LARS、套索和正向分段回归是一致的。 形象地说,PCC要求所有系数估计值随正则化松弛度单调增加或减少,并适用于例如具有正交的低维设置的情况 应注意,PCC连接至 对角优势条件 逆协方差矩阵 ,这为在实践中研究这些方法的等效性提供了一种更方便的方法[ 36 , 37 ].
假设套索的解相对于 -系数向量的范数,这些发现导致了boosting作为某种“ -稀疏”正则化技术[ 38 ],但尚不清楚如果违反PCC,哪些最优性约束可能适用于前向阶段回归。
通过扩展 Hastie et al.使用每个变量的负版本,并在每次迭代中仅强制执行正更新[ 39 ]证明了正向分段回归总是近似于类似修改版本的套索的解路径。 从这个角度来看,他们表明,正向分段回归使受 -弧长 :这意味着系数的移动路径会受到惩罚(无论其方向如何,系数的整体变化都尽可能小),而 -norm只考虑当前估计集的绝对和。
在同一篇文章中,Hastie等人[ 39 ]进一步表明,这些性质适用于一般的凸损失函数,因此不仅适用于正向分段回归,也适用于更一般的梯度推进方法(对于logistic回归模型以及许多其他广义线性回归设置)。
这些不同的优化约束的结果可以在强共线性的情况下观察到,其中对于不同的正则化程度,套索估计往往是非常不稳定的,而推进方法在考虑整体行进路径时避免了系数的过多变化[ 10 ].
然而,必须承认,作为套索的直接正则化方法在实践中应用得更为频繁[ 38 ]. 另一方面,统计提升则更加灵活,因为它的模块化特性允许将任何基础学习者与任何类型的损失函数相结合[ 10 , 38 ].
3.增强变量选择 通过交叉验证方法提前停止统计增强算法对于确保稀疏模型在新数据上具有最佳预测性能至关重要。 与其他抽样方案相比,重新抽样,即对所获得的数据进行随机抽样而不进行替换,往往会产生更稀疏的模型[ 23 ],包括流行的引导程序[ 40 ]. 通过使用具有可比复杂性(就自由度而言)的基础学习者,可以大大减少选择偏差[ 4 ]. 所得模型对试验数据具有最佳的预测精度。 然而,尽管进行了正规化,最终的模型通常还是相对丰富的[ 23 ].
3.1. 稳定性选择 Meinshausen和Bühlmann[ 41 ]提出了一种称为稳定性选择的通用方法,以进一步细化模型并增强稀疏性。 然后将此方法转换为增强[ 12 ].
一般来说,稳定性选择可以与任何变量选择方法相结合,对于具有许多潜在预测因子的高维数据尤其有用。 要评估变量选择的稳定性, 绘制了包含一半数据的随机子集。 在每一个子集上,将模型拟合到预定义数量的 选择基础学习者。 通常, 子集就足够了。 计算随机子样本(其中选择了特定的基础学习者)的相对频率,可以了解选择相对于数据扰动的稳定性。 如果选择频率超过预先指定的阈值水平,则认为基础学习者很重要 。
Meinshausen和Bühlmann[ 41 ]结果表明,该方法控制了家庭误码率(PFER); 也就是说,它为预期的假阳性选择数提供了一个上限( ): 哪里 是基础学习者的数量。 这个上限相当保守,因此Shah和Samworth对其进行了进一步完善[ 42 ]以获得关于选择频率分布的具体假设。 具有所有可用误差边界的稳定性选择用于 R(右) 包裹 刺伤 [ 43 ].
一个重要的问题是稳定性选择超参数的选择。 固定值的选择 应使其足够大,以选择所有假设的影响变量[ 12 , 44 ]. 的合理值 通常应小于或等于通过提前停止交叉验证选择的基础学习者的数量。
一般来说 如果在合理范围内,则不重要。 有固定的 ,阈值 可以选择或( 6 )使用等式,可以预先指定PFER的上限,并相应地导出阈值。 如果错误控制非常重要,则后者是首选;如果错误控制只是一种副产品,则前者是首选(参见,例如[ 44 ]). 对于PFER的解释,特别是关于标准错误率,如过比较错误率或家庭错误率,我们参考Hofner等人[ 12 ]. 注意,对于固定 ,在计算上很容易更改其他两个参数中的任何一个( 或PFER的上限),因为重采样结果可以重复使用[ 12 ].
稳定性选择的结果不是一个新的预测模型,而是一组 稳定的 基础学习者:事实上,他们可能不会反映出使用原始建模方法可以通过特定惩罚参数推导出的任何模型。 这意味着,对于提升,没有 价值观可能存在,从而形成一个具有稳定选择的基础学习者的模型。 所提供的一组稳定的基础学习器是一种全新的解决方案,不一定具有较高的预测精度[ 44 ].
3.2. 稳定性选择增压的推广与应用 变量选择在高维基因表达数据和其他大规模生物医学数据源中尤为重要。 最近,使用boosting进行稳定性选择已成功应用于选择少量乳腺癌患者生存的信息性生物标记物[ 44 ]. 该模型是基于一种新的增强方法推导出来的,该方法优化了一致性指数[ 45 , 46 ]. 因此,就区分存活时间较长和较短患者的能力而言,由此产生的预测规则是最佳的,即其区分能力。
Thomas等人[ 47 ]导出了位置、规模和形状的增强广义可加模型的改进算法(GAMLSS[ 48 ])允许将这个非常灵活的模型类与稳定性选择相结合。 GAMLSS的基本思想是通过其自身的加性预测器和关联的链接函数对条件分布的所有参数进行建模。 大量的仿真研究表明,新的拟合算法可以得到与以前算法相似的模型[ 49 , 50 ]但在计算速度方面优于其他方法,尤其是与交叉验证方法结合使用时。 此外,仿真表明,该算法可以成功地与稳定性选择相结合,以选择更稀疏的模型,从高维数据中识别出较小的真正有信息量的变量子集。 该算法在 R(右) 附加程序包 gamboostLSS公司 [ 51 ].
3.3. 基因表达数据的稳定性选择 在下文中,我们展示了基于梯度增强的稳定性选择在包括基因表达水平的三个高维数据集上的应用。 这包括用于结肠癌检测的寡核苷酸阵列( 观察结果和 基因表达水平)[ 52 ]乳腺癌转移的预测( , ) [ 53 ]和枯草芽孢杆菌生产核黄素( , ) [ 54 ]. 所有三个数据集都可以通过 R(右) 包装 数据微阵列 [ 55 ]和 高密度指数 [ 56 ].
关于稳定性选择需要指定的参数,我们研究了两种不同的错误率 和一个常数 。为了进行比较,我们还为变量选择应用了25倍引导,这是中交叉验证的默认设置 姆博斯特 。
表 1 显示了每个方法选择的变量总数。 可以看出,与25倍引导相比,稳定性选择大大减少了变量集。 此外,放宽误差范围会产生更大的数据集,但乳腺癌数据除外,因为只有1名基础学习者进入了稳定的数据集。
3.4. 稀疏模型的进一步方法 为了在DNA甲基化等分子数据上构建风险预测特征,Sariyar等人[ 57 ]提出了一种基于自适应likelihood的boosting算法。 作者包括步长修正系数 它表示一个额外的调整参数,自适应地控制更新的大小。 在稀疏设置的情况下,该方法减少了效果估计的收缩(通过使用较大的步长),从而导致较小的偏差。 在具有大量信息变量的环境中,该方法允许在必要时通过较小的更新以较低的稀疏度拟合模型。 修正系数 必须与一起选择 通过交叉验证或在二维网格上重新采样。
Zhang等人[ 58 ]认为实际中的变量排序比变量选择更有利,因为排序可以很容易地应用阈值规则来识别信息变量的子集。 作者实现了一种伪增强方法,该方法在技术上不基于统计增强,但适用于统计模型的变量排序和选择。 注意,稳定性选择也可以视为基于其选择频率的可变排名方案,因为其选择功能仅通过实现阈值触发 。
最近的另一个提议是合并阴影变量 (探测) 它们是候选模型中原始预测因子的置换变体[ 59 ]. 当选择第一个阴影变量时,统计增强算法将停止。 这样,调整过程的重点就从预测准确性有效地转移到了选择准确性,这可能是一个快速且有希望的过程,以确保模型稀疏。
Huang等人采用基于梯度的方法[ 60 ]采用了Bühlmann和Yu提出的稀疏增强方法[ 61 ]在多数据集的综合分析中,为了提高模型稀疏结构的相似性,这是关于大数据趋势的一个重要课题。
4.函数回归 由于技术的发展,随着时间的推移,越来越多的数据被不断测量。 在过去的几年里,许多方法论研究都集中在这类函数数据的回归方法上。 拉姆齐和西尔弗曼在这一新的、不断发展的统计领域提供了一项开创性的工作[ 62 ].
函数回归模型可以包含函数响应(在连续域上定义)、函数协变量或两者。 这基本上导致了三类不同的函数回归模型,即函数对标量(响应是函数的)、标量对函数(函数解释变量)和函数对函数回归。 有关函数回归的最新评论,请参阅Greven和Scheipl[ 63 ]和莫里斯[ 64 ].
4.1. 增强功能数据 Brockhaus等人提出了第一种用于函数回归的统计增强算法,允许数据驱动变量选择[ 65 ]. 作者的方法侧重于线性阵列模型[ 66 ]为上述三种设置提供统一的框架。 因为他们的梯度提升算法的总体结构与Box中的相似 1 ,生成的模型仍具有与中相同的形式( 2 ),只有回应 协变量可以是函数。 潜在的功能部分效应 可以用张量积基表示 哪里 是系数向量, 和 是基本函数,以及 表示克罗内克产品。
这种功能阵列模型在两个方面受到限制:(i)需要在公共网格上测量功能响应,(ii)响应域内的协变量需要恒定。 尤其是第二个假设在实践中可能常常无法实现,Brockhaus等人[ 14 ]此后不久,提出了一个通用框架,用于增强函数回归模型,避免了这种假设,并放弃了线性阵列结构。
这个更新的框架[ 14 ]还包括上述所有三个模型类,特别关注历史效应,其中在相同的时间间隔内观察到功能反应和功能协变量。 基本假设是,对协变量的观察只影响到相应的时间点的响应 哪里 表示观察协变量的时间点。 换句话说,只有协变量函数中过去(而不是未来)的部分才能影响当前的响应。 然而,在大多数实际应用中,这是一个合理的限制。
增强函数回归的两种方法都在 R(右) 附加程序包 FD增压 [ 67 ],这取决于 姆博斯特 。
4.2. Boosting函数回归的推广 升压功能数据可以与稳定性选择相结合(参见第节 3.1 )增强算法的变量选择特性[ 14 , 65 ].
Brockhaus等人已经将功能数据的增强方法扩展到用于功能标度设置的位置、规模和形状的广义可加模型(GAMLSS)的模型类[ 68 ]. 功能方法被称为位置、规模和形状的信号回归模型[ 68 ]. 梯度增强估计基于相应的gamboostLSS算法,用于增强GAMLSS[ 49 , 50 ].
在一种分析生物电信号(如脑电图(EEG)和面部肌电图(EMG))之间功能关系的方法中,Rügamer等人[ 69 ]重点是通过结合特定因素的历史效应来扩展增强函数回归的框架,类似于( 8 ).
尽管功能数据分析引发了许多方法论研究,但Ullah和Finch最近的一项系统综述[ 70 ]揭示了实际生物医学应用中泛函数据分析尤其是泛函回归的数量相当少。 作者认为,这些灵活模型的潜在好处(如更丰富的解释和更灵活的结构)尚未被从业者充分理解,需要进一步努力促进这些新技术的实际使用。
5.推进高级生存模型 Cox回归仍然是提高时间-事件数据的主要模型类; 参见[ 33 ]比较两种不同的boosting算法和[ 71 ]用于在存在高维数据的情况下估计Cox模型的不同通用方法。 然而,在过去几年中,出现了几种替代方案[ 45 , 46 , 72 ]. 在本节中,我们将特别关注时间-事件结果和纵向标记的联合模型,但也将简要提及其他最近的扩展。
5.1. 增压接头模型 纵向数据和时间-事件数据的联合建模概念[ 73 ]在过去的几年里,它进入了统计文献,因为它彻底解决了随时间和事件时间记录的连续数据的问题,以及与该连续数据相关的事件时间。 对这两个过程进行独立建模会导致错误指定的模型容易产生偏差。 有各种联合建模方法,因此也有基于不同协变量、分布和协方差结构的各种不同模型方程。 我们将在本次审查中提及的类型如下: 哪里 是 第次观察 第个个人 和 和 是个人的危险函数吗 在时间点 两种结果,纵向测量 和时间 与审查指标一起记录 ,分别基于两个子预测值进行建模:一个子预测值应该只影响其中一个子预测(纵向子预测值 和存活子预测因子 )另一个被模型的两部分共享(共享子预测 ). 所有这些子预测都是不同的,可能与时间有关的变量的函数 .此处提出的模型类型不包括模型生存部分的固定时变协变量; 请注意,这些模型确实存在,但尚未在boosting框架中实现。 然而,它包括时间本身,就像大多数联合模型一样,还包括某种类型的随机效应。 功能 是基线危险。 联合模型的大多数方法都是基于似然或贝叶斯推断,使用联合似然作为上述过程相应似然的乘积[ 74 , 75 ]. 然而,这些方法无法进行变量选择,也无法处理高维数据。
Waldmann等人[ 13 ]提出了一种boosting算法来应对这些挑战。 该论文中使用的模型是( 9 )其中不考虑存活子预测和固定基线风险 使用。 该算法是方框中所示的经典boosting算法的一个版本 1 ,适用于必须估计一组不同的子预测因子的特殊情况(类似于GAMLSS框架[ 49 ]). 因此,该算法由三个循环执行的步骤组成。 第一步是一个常规的增强步骤,以更新纵向子预测 执行,并且共享子预测的参数被视为固定的。 在第二步中,纵向子预测的参数是固定的,共享子预测的升压步骤 进行。 第三步是一个简单的优化步骤:根据两个子预测中参数的当前值,针对以下方面优化可能性 , 、和 (参见[ 76 ]). 迭代次数现在取决于两次停止迭代,这两次迭代必须通过交叉验证在二维网格上进行优化。
Waldmann等人[ 13 ]显示了boosting算法的优点(自动变量选择和处理 情况)可以转移到关节建模,从而为进一步扩展关节建模方法奠定基础。
5.2. 增压接头模型示例 以下示例与中的模拟研究类似[ 13 ]. 模拟数据包括 个人和最多 每个人的观察结果。 然而,由于模型的生存部分所导致的风险函数,一些观测值被截断。 因此,实际观测次数为 纵向子预测包含两个信息变量和截距( )以及 非信息变量。 共享子预测有两个固定的时不变变量( ),时间效应( )、随机截距和斜率,以及 非信息变量。 因此,总共有 协变量 观察,这种情况显然不适用于普通的联合建模方法。
我们在这个模拟示例上运行了上述算法。 通过十倍交叉验证,我们发现最佳停止迭代为 和 该算法能够检测信息变量,所得系数接近原始值 , 纵向次级预测进一步选择了三个非信息变量,共享次级预测选择了两个非信息性变量; 因此只有 选择了个非信息变量,所有这些变量的绝对值都低于 这些结果是基于此处所示方法的代码使用该软件包进行的模拟的典型结果。 它在中提供 R(右) 附加程序包 JMboost公司 [ 77 ],目前在GitHub上。
5.3. 提高生存数据的其他新方法 雷伦和科尼布[ 78 ]将统计增强的框架扩展到暴露于竞争风险(例如不良事件、恢复、死亡或复发)的患者的多状态模型。 该方法在 gamboostMSM游戏 包装[ 79 ],依靠基础设施 姆博斯特 .Möst和Hothorn[ 80 ]基于条件转换模型重点增强患者特定的幸存者功能[ 81 ]合并截尾权重的逆概率[ 82 ].
当使用统计增强算法来估计生存模型时,最常见的动机是存在高维数据。 De Bin等人[ 83 ]研究了几种方法(包括梯度增强和基于likelihood的增强),以将临床和高维组学数据合并到预测模型中。
Guo等人[ 84 ]提出了一种新的基于类hood的自适应boosting算法来拟合Cox模型,并结合了直接套索类型 在拟合过程中进行惩罚,以避免包含影响较小的变量。 一般动机类似于Sariyar等人提出的步长修正因子[ 57 ]. 在另一种方法中,Sariyar等人[ 85 ]将Cox模型的基于似然的增强方法与随机森林相结合,以筛选高维数据中的相互作用效应。 Hieke等人[ 86 ]将基于相似性的增强与重采样相结合,以确定潜在小临床队列中的预后SNP。
6.新的前沿和应用 此外,其他新主题也已纳入统计推进框架,但并非所有主题都能在此处详细介绍。 然而,我们想简要概述一下最相关的发展,其中许多发展实际上是由生物医学应用推动的。
Weinhold等人[ 87 ]建议分析DNA甲基化数据(信号强度 和 )通过“相关γ比率”模型。 基于双变量伽马分布 和 值,作者导出了比率的密度 并通过梯度增强对其进行优化。
Schauberger和Tutz开发了Rasch模型中微分项功能的增强算法[ 88 ]对于心理测量学的更广泛领域,而Casalicchio等人专注于推进特定主题的Bradley-Terry-Luce模型[ 89 ].
Napolitano等人[ 90 ]开发了一种用于脑灌注图像分析的采样增强算法:在不同的训练集上多次执行梯度增强。 每个基本学习者都引用一个体素,在每次采样迭代后,从以下增强拟合中随机删除选定体素的固定部分,以强制算法选择新的体素。 然后将最终模型计算为所有解的全局总和。 Feilke等人[ 91 ]提出了一种用于分析对比度增强磁共振成像数据(DCE-MRI)的体素增强方法,该方法还通过空间惩罚进行增强,以解释体素的区域结构。
Pybus等人[ 92 ]提出了一种分级提升算法,用于检测基因组区域中的阳性选择(参见[ 93 ]). Truntzer等人[ 94 ]将梯度boosting方法与其他结合临床变量和高维质谱数据的方法的分类性能进行了比较,得出结论:boosting的变量选择特性也使其在预测精度方面表现出很好的性能。
关于推进位置和规模模型(按照GAMLSS的精神对预期值和方差进行建模[ 48 ]),Messner等人[ 95 ]提出了集合后处理中预测器选择的boosting算法,以更好地校准集合天气预报。 集合预测的思想是考虑模型误差并量化预测的不确定性。 Mayr等人[ 96 ]使用增强的位置和尺度模型,结合排列测试,同时评估医疗器械的系统偏差和随机测量误差。 置换测试的使用解决了实际生物医学研究中统计增强方法的一个遗留问题:效应估计缺乏标准误差,因此有必要结合重采样程序来构建置信区间或评估效应的重要性。
方法学的发展[ 96 ]受生物医学数据分析的激励。 然而,在过去几年中,统计增强算法已经应用于各种生物医学应用中,而无需进行方法学扩展。 大多数应用程序侧重于预测建模或变量选择。
为了了解各种主题,我们简要介绍了最近两年的一些主题。 这些应用包括为特别是小婴儿开发出生体重预测公式[ 97 ]HIV感染者戒烟及其复发的预测[ 98 ], 大肠杆菌 补料分批发酵建模[ 99 ]急诊科老年患者心血管死亡预测[ 100 ]以及确定影响类风湿关节炎治疗决策的因素[ 101 ].
7.讨论 在本文中,我们强调了统计增强领域的几个新的研究领域,而不是传统的GAM建模方法。 过去几年中,一个特别活跃的研究领域致力于为扩展GAM框架的新模型类开发推进算法。其中包括在GAMLSS框架内同时建模位置、规模和形状参数[ 49 ]功能数据建模[ 65 ]最近,纵向和生存数据的联合模型类别[ 13 ]. 不用说,这些发展将使增强算法可用于更复杂的临床和流行病学应用。
另一个研究方向旨在探索统计助推方法和机器学习技术之间的联系,这些技术最初是独立于助推开发的。 一个重要的例子是稳定性选择,这是一种通用方法,在其开发时,主要侧重于惩罚回归模型,如套索。 直到最近,稳定性选择才被调整为增压框架内变量选择的工具(例如[ 47 ]). 在此背景下的其他工作是分析增强回归和惩罚回归之间的联系[ 10 ]以及Sariyar等人的工作[ 85 ]探索boosting和随机森林方法的组合。
最后,正如Hothorn已经指出的那样[ 24 ]boosting不仅可以作为正则化模型拟合的框架,还可以作为一种通用的优化工具。 特别是,boosting是一种稳健的目标函数优化算法,由于其结构或复杂性,可能会给Newson-Raphson类型和相关方法带来问题。 这促使Hothorn等人在文章中使用boosting[ 81 ]和Weinhold等人[ 87 ].
关于未来的研究,在生物医学应用中使用助推算法的巨大挑战来自 大数据时代 与其他机器学习方法(如随机森林)不同,boosting方法的顺序性阻碍了算法中并行化技术的使用,这可能导致使用多维预测器和/或复杂的基学习器(如样条曲线或更大尺寸的树)拟合和调整复杂模型的问题。 为了克服分类和单变量回归中的这些问题,Chen和Guestrin[ 102 ]开发了速度极快、技术精湛的 xgboost公司 环境。
然而,对于本文中讨论的最新扩展, 大数据 统计增长的解决方案尚待开发。
附录 关于mbost包的开发 本附录描述了过去几年中在 R(右) 包裹 姆博斯特 在教程论文之后[ 28 ]其使用情况已公布。
从开始 mboost 2.2个 ,更改了自由度的默认值; 它们现在被定义为 具有更平滑的矩阵 分析表明,这会减少选择偏差; 参见[ 4 ]. 早期版本使用更平滑矩阵的轨迹作为自由度; 也就是说, 。可以通过设置更改为旧定义 选项(mboost_dftraceS=真) .对于交叉验证停止值的并行计算, 姆博斯特 现在使用该包 平行 ,包含在标准中 R(右) 安装。 的行为 螺栓(x,截距=假) 更改时间 x个 是一个因素:截距只是从设计矩阵中删除,可以像往常一样为因素指定编码。 此外,还引入了一种新的对比: “控制虚拟” (参见手册 螺栓 详细信息)。 最后,更改了边界处B样条基的计算,以便默认情况下使用等距边界节点。
使用 mboost 2.3个 ,约束效果[ 103 , 104 ]使用二次规划方法(选项 type=“quad.prog” )大大提高了计算速度。 除了单调、凸和凹效应外,还引入了新的约束来拟合 “阳性” 或 “否定” 效果或具有边界约束的效果(请参见 博莫诺 详细信息)。 此外,要分配的新函数 已向模型对象添加值( mstop(mod)<-i )以及两个新的分销系列 障碍 [ 105 ]和 多项式 [ 76 ]. 最后,实施了一个新选项,以允许在装配过程中基于带外数据停止(通过 boost_control(…,stopintern=真) ).
使用 mboost 2.4个 ,bootstrap置信区间在小说中实现 限制(confint) 功能[ 104 ]. 稳定性选择程序移至专用程序包 刺伤 [ 43 ],而在包中实现了一个特定的梯度增强功能 姆博斯特 。
发件人 mboost 2.5万英镑 接下来,交叉验证不再局限于单个折叠中的错误,而是通过设置 mc.preschedule=错误 如果并行计算通过 麦克拉普利 使用。 功能文档 plot.mobost图 添加了,这允许可视化模型结果。 现在,在拟合过程中禁止使用边界节点以外的值,而使用线性外推进行预测。
使用 mboost 2.6个 提供了大量错误修复和小改进。 最值得注意的是,包的开发现在完全托管在协作项目boost-R/mbost中的github上,并且包维护者发生了变化。
这个 mbost 2.7万英镑 版本提供了一个新族 辛迪斯 [ 45 ],可变重要性度量( 变量 )以及改进的绘图工具。
当前CRAN版本 mboost 2.8英镑 包括对 二项式 该系列现在还按照经典的思路提供了二项式回归模型的替代实现 glm公司 实现,可以通过 二项式(类型=“glm”) 。此系列还使用包含成功次数和失败次数的两列矩阵。 此外,支持零步长模型(即仅包含偏移量的模型),交叉验证现在可以选择没有基础学习者的模型。 最后,一个新的基础学习者 b内核 增加了全基因组关联研究(GWAS)中基于路径的内核增强[ 106 ].
利益冲突 作者声明,本论文的出版不存在利益冲突。
致谢 作者感谢科琳娜·巴赫索尔在文献检索方面的帮助。 第一位也是最后一位作者在本文中的工作得到了Deutsche Forschungsgemeinschaft(DFG)的支持( 网址:http://www.dfg.de ),批准号SCHM 2966/1-2。 我们还感谢弗里德里希·阿莱克桑德尔大学临床研究跨学科中心(IZKF)通过J49项目(授予安德烈亚斯·迈尔)和J61项目(授予伊丽莎白·沃尔德曼)提供的支持。