跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
统计正弦。作者手稿;PMC 2020年12月11日提供。
以最终编辑形式发布为:
统计正弦。2020; 30: 1857–1879.
数字对象标识:10.5705/ss.202017.0527
预防性维修识别码:PMC7731977号
NIHMSID公司:NIHMS1041720标准
PMID:33311956

基于多类别结果加权边际学习估计个体化治疗规则

关联数据

补充资料

摘要

由于许多慢性病的异质性,精确个性化医学(也称为精确医学)越来越受到科学界的关注。精确医学的一个主要目标是为每个患者开发最有效的量身定制治疗。为此,需要结合个人特征来检测适当的个人治疗规则(ITR),通过ITR可以对治疗分配做出适当的决定,以优化患者的临床结果。对于二元治疗设置,最近提出了结果加权学习(OWL)及其几种变体,通过优化给定患者信息的条件期望结果来估计ITR。然而,对于多种治疗方案,如何有效使用OWL仍不清楚。可以看出,OWL对多种处理的一些直接扩展,例如一对一和一对一重测试方法,可以产生次优性能。在本文中,我们提出了一种新的学习方法,称为多类别结果加权Margin-based learning(MOML),用于估计具有多个处理的ITR。我们提出的方法非常通用,并且将OWL作为一个特例来考虑。我们证明了估计ITR的Fisher相合性,并建立了收敛速度性质。使用稀疏的变量选择1还考虑了罚款。通过仿真实例分析和2型糖尿病观察性研究,验证了该方法的竞争性能。

关键词:基于角度的分类器、大边缘、多重治疗、结果加权学习、精确医学、支持向量机

1.简介

精准医学的一个重要目标是开发有效的统计方法来评估患者之间具有异质性效果的治疗。特别是,对具有某些特征的患者有效的治疗可能对其他患者无效(Simoncelli,2014年). 为了最大限度地提高患者从推荐治疗中获得的总体益处,一个流行的方向是寻找合适的个体治疗规则(ITR),这是将患者特征映射到治疗空间的功能。

在最近的文献中,在构建二进制治疗病例的ITR方面取得了重要进展。特别是,一些现有的工作使用回归方法研究了ITR问题和子群分析(Tian等人(2014)).钱和墨菲(2011)基于包含指标函数的条件期望,将ITR检测转化为优化问题。赵等(2012)使用了加权分类框架,并提出了使用替代损失来代替指标函数的结果加权学习(OWL)。Zhou等人(2017)建议使用结果和协变量之间的线性回归产生的残差来改进有限样本性能赵等(2012).Zhang等人(2012)提出了一种稳健的ITR方法来处理建模结果中可能出现的回归模型错误。

尽管在二元治疗的ITR估计方面取得了成功的进展,但该想法应如何适应多类别治疗方案仍没有得到充分探讨。一般来说,一些基于回归的方法可以在参数假设下用于此目的,例如某些模型平均结构(Robins等人,2008年). 然而,违反这些假设可能会导致误导性结果。在本文中,我们开发了一个统计学习框架,该框架可以对标称多类别治疗病例进行最佳ITR检测。为了简单起见,在本文的其余部分中,我们使用术语多类别来表示“名义上的多类别”(nominal multicategory)。

在分类文献中,大边缘量词已经很流行,并且在实践中经常使用。众所周知的例子包括支持向量机(SVM)和惩罚逻辑回归(PLR)(Hastie等人(2009年)). 在各种大边缘分类器中,有两种主要类型,软分类器和硬分类器(Liu等人,2011年). 本质区别在于获取分类器是否需要估计每个类的条件概率。PLR等软分类器估计类条件概率,而SVM等硬分类器仅针对分类边界。Liu等人(2011)结果表明,对于不同设置的问题,软分类器和硬分类器的性能可能会有所不同。他们进一步提出了大边缘统一机(LUM)损失族,该损失族通过调整参数涵盖软分类器和硬分类器,能够很好地处理不同的问题。

要解决k个-类多类别问题,一种直接的方法是使用序列二进制分类器。特别是,文献中有两种常见的方法,即一对一和一对一方法(Allwein等人,2001年). 然而,这些顺序二进制分类器可能是次优的。处理k个-类问题同时是估计k个具有和零约束的函数(Lee等人,2004年;Liu和Yuan,2011年;张和刘,2013). 最近,张和刘(2014)指出这种方法可能效率低下,因为需要在优化问题中添加额外的和零约束,以保证分类器的可识别性和理想属性。这样,在求解相应的约束优化问题时需要额外的计算开销。为了克服这个缺点,张和刘(2014)提出了一种基于角度的大边缘分类技术k个−1函数没有和零约束。这种基于角度的方法在预测精度和计算效率方面表现良好。

随着大边缘分类器在进行标准分类方面的成功,人们希望将其调整到OWL框架中,以帮助找到用于多类别处理的ITR。在本文中,我们提出了一种新的技术,称为多类别结果加权Margin-based Learning(MOML)来解决这个问题。我们从二元处理场景开始,然后将这些方法推广到多类别处理案例中。特别是,我们使用k个-以原点为中心的顶点单纯形k个−1欧几里得空间表示k个治疗。然后我们构建k个−1功能将每个患者的协变量映射为k个−1维向量,预测规则定义为该向量与单纯形对应顶点之间的角度最小的处理。动机赵等(2012),我们在损失+处罚损失部分是损失函数的加权期望,(·)之间的角度(k个−1)-维函数向量和实际处理的顶点。惩罚项用于控制模型的复杂性。在本文中,我们比较了两种惩罚条款的选择:12处罚。注意,前一个选项可能导致稀疏模型,因此可以用于变量选择。根据引入的损失项,MOML如何检测ITR可以理解为:对于临床结果良好的患者,估计的最佳治疗应该是与实际治疗有小角度的治疗;另一方面,对于临床效果较差的患者,估计的最佳治疗应该与实际治疗有较大的角度。

本文的主要贡献总结如下:(1)提出了基于结果加权的Margin学习(OML)来实现二进制处理的ITR估计。这种学习技术产生了一类灵活的决策函数,它涵盖了软分类器和硬分类器,以获得更多信息和更好的预测性能。(2) 我们提出了基于加权角度的方法,以使OML适应多类别治疗方案。在软分类器下,我们讨论了如何获得每个治疗对的临床奖励的估计比率,以便确定成本和收益之间的平衡。我们证明了MOML超额风险的一致性性质和收敛速度。此外,我们将MOML与OWL的一对一和一对一扩展进行了比较。(3) 对于线性决策边界的情况,我们建议使用1实现可变稀疏性的惩罚。我们进一步表明,在某些假设下,这种技术会导致变量选择的一致性。

本文的其余部分组织如下。第3节,我们首先回顾了OWL方法,并说明了如何在二进制处理设置下引入OML进行ITR估计。然后,我们解释了如何将OML扩展到多类别案例,并就如何通过选择损失函数来保持Fisher一致性给出了见解。我们还指出了如何将拟合的决策函数与软分类器下预测的临床奖励比率联系起来。第4节5,我们提供了六个模拟示例,并将其应用于一项2型糖尿病观察性研究,以评估MOML的有限样本性能。第6节提供了讨论和结论。一些额外的理论,包括超额风险收敛率和选择一致性,以及所有的技术细节和证明,都留在了补充材料.

2.方法

在本节中,我们首先在第3.1节中介绍ITR的概念和符号,然后在第3.2节中讨论如何使用基于二元边缘的分类器为两种处理找到最佳ITR。在第3.3节中,我们演示了如何将所提出的方法扩展到多重处理的情况。

2.1. 个体化治疗规则和结果加权学习

假设我们观察训练数据集{(x个,一个,第个);= 1,…,n}从基础分布P(P)(X(X)、A、R),其中X(X)∈ ℝ第页是患者的协变量载体,A类∈ {1,…,k}是治疗,并且是观察到的临床结果,即奖励。特别地,P(P)(x个、a、r) =(f)0(x个)公关(|x个)(f)1(第页|x个;),其中(f)0是未知密度X(X),公关(|x个)是接受治疗的概率对于具有协变量的患者x个、和(f)1是未知密度有条件的(X(X);A类). 我们假设更可取。在本文中,我们重点关注k个-手臂试验。一份ITRD类是来自协变量空间ℝ的映射第页到治疗组{1,…,k}.

在讨论多类别处理之前,我们首先介绍了二进制最优ITR,并说明如何将其表示为一个结果加权的二进制分类问题。为了更好地理解ITR,我们使用E类表示对以下方面的期望P(P)对于任何ITRD类(·),我们让P(P)D类是…的分布{X(X)、A、R}其中治疗A类由决定D类(X(X))带有P(P)D类(x个、a、r) =(f)0(x个)(=D类(x个))(f)1(第页|x个;),然后让E类D类是相应的期望。因此,P(P)D类分布是否相同X(X)-边缘为P(P)并给出X(X)=x个,的条件分布P(P)(第页|X(X)=x个;A类=D类(x个)). 我们假设公关(A类=|x个)>0代表任何∈ {1,…,k}. 可以验证一下P(P)D类在以下方面是绝对连续的P(P)和Radon-Nikodym衍生物数据保护程序D类/数据保护程序={=D类(x个)}(x个),其中(·)是指示器功能,并且π(x个)=pr(A类=|x个). 因此,给定ITR的预期回报D类是:

E类D类()=d日P(P)D类=d日P(P)D类d日P(P)d日P(P)={A类=D类(X(X))}πA类(X(X))d日P(P).

最优ITRD类*定义为D类*=argmax(最大值)D类E类D类()=argmax(最大值)D类E类[{A类=D类(X(X))}πA类(X(X))]。的等效表达式D类*是这样吗x个,D类*(x个)=argmax(最大值)∈{1,...,k个} E类(|X(X)=x个;A类=). 换句话说,D类*是否为最佳ITR(如果有)x个,对应于D类*(x个)大于{1中的任何处理,…,k}\D类*(x个). 最佳规则D类*(x个)是基于来自(X(X)、A、R). 对于观察到协变量的未来患者x个,根据估计的D类*(x个).

在文献中,找到D类*是为了估计E类(|A类=;X(X)=x个)对于每个处理,使用参数或半参数回归模型(罗宾斯,2004;穆迪等人,2009年;钱和墨菲,2011年). 对于具有协变量的新患者x个,治疗建议基于E类^{|A类=;X(X)=x个}是最大值。

当有两种治疗方法时,可以将其重新标记为A类∈ {+1,−1}.钱和墨菲(2011)表明在这种情况下,发现D类*可以表述为二元分类问题。特别是,可以验证D类*是最小值

πA类(X(X)){A类D类(X(X))}d日P(P).
(2.1)

一个重要的观察结果是,(3.1)可以被视为加权二进制分类问题中的加权0-1损失。要看到这一点,请注意使用训练数据集{(x个,一个,第个);= 1,…,n},其中一个目标是将与(3.1)相对应的以下经验损失最小化

1n个=1n个第页π(x个){D类(x个)1}.
(2.2)

然而,由于指示函数是不连续的,所以解(3.2)可以是NP-hard。为了克服这个困难,可以使用代理损失函数(·)用于基于二进制边缘的分类。赵等(2012)提出了OWL,该方法利用SVM中的铰链损失进行优化。特别是,他们认为第页全部≥0,并使用了单个函数(f)(x个)用于分类,这在基于二进制裕度的分类器中是典型的。治疗由指定D类(x个)=符号{(f)(x个)}. 中相应的优化问题赵等(2012)可以写为

argmin(最小值)(f)1n个=1n个第页π(x个){1(f)(x个)}++λJ型((f)),
(2.3)

其中(1−u个)+=最大值(0,1−u个)是铰链损失函数,J型((f))是对的惩罚(f)以防止过度装配,以及λ是调谐参数。

作为备注,我们注意到赵等(2012)只考虑非负报酬,因此相应的问题仍然是凸优化问题。当出现负面奖励时,他们建议将所有奖励按常数进行调整。Chen等人(2017)结果表明,OWL的性能随移位常数的选择而变化。为了解决这个问题,他们修改了损失,直接处理负面奖励。

2.2. 二元治疗中基于结果加权边际的学习

如中所述第2节,尽管在赵等(2012)尤其是,文献中尚未充分研究基于边际的损失函数的许多选择。为了研究这个问题,我们提出了我们的结果加权Margin-based Learning(OML)方法。第2.2节,我们重点关注以下情况k个=2和A类∈{+1,−1},并提出如下OML优化问题

argmin(最小值)(f)1n个=1n个第页π(x个){(f)(x个)}+λJ型((f)),
(2.4)

哪里(·)是基于保证金的分类中的损失函数。不同(·)对应不同的分类方法。例如,SVM使用(3.3)中的铰链损失,而逻辑回归使用偏差损失(u个)=对数{1+exp(−u个)}. 请参阅补充材料用于绘制几种常用损失函数。在第3.3节中,我们将OML方法推广到处理具有多重处理的问题。

为了探索不同的软分类器和硬分类器,我们需要定义分类器的理论极小值。首先,我们假设第页≥ 0. 因此,如果(·)和J型((f))是凸的,然后可以用标准优化方法求解,例如Boyd和Vandenberghe(2004)。我们将负面奖励的讨论推迟到定理1定义与(3.4)有关的条件预期损失为S公司(x个)=E类[πA类(X(X)){A类(f)(X(X))}|X(X)=x个],其中期望值是关于(R、 A类)对于给定的x个.我们定义了S公司(x个)作为

(f)*(x个)=argmin(最小值)(f)S公司(x个)=argmin(最小值)(f)E类[πA类(X(X)){A类(f)(X(X))}|X(X)=x个].

请注意(f)*取决于损失函数.

使用(f)*通过介绍,我们可以首先探讨分类器的一致性。在基于边缘的标准分类文献中,Fisher一致性(Lin,2002年;刘,2007)也称为分类校准(Bartlett等人,2006年)是分类器的基本要求。对于使用分类寻找最佳ITR的问题,如果预测处理基于(f)*导致对结果奖励的最佳期望(赵等,2012). 换句话说,对于二进制问题,如果符号为{(f)*(x个)}=argmax(最大值) (x个,一个),其中(x个,一个) = ∫(|X(X)=x个,A=)数据保护程序是给定治疗的预期回报以固定价格x个.赵等(2012)证明了使用铰链损失的OWL方法对于非负报酬是Fisher一致的。在下一个命题中,我们提供了适用于各种损失函数的更一般的结果。

提议1

为了使用基于二进制边缘的分类器找到最佳ITR,假设奖励是非负的。那么,如果在0处,У(·)是可微的,并且对于任何u>0,У[u]<У(−u),则该方法是Fisher一致的。

提议1表明在ITR问题中,许多基于二进制边缘的分类器是Fisher一致的。例如,LUM损失系列中的软分类器和硬分类器(Liu等人,2011年)费舍尔一致。请注意,LUM系列使用一个参数c(c)控制分类是否为软分类(c(c)=0)或硬(c(c)→ ∞). 请参阅附录有关LUM损失函数的更多详细信息。

在标准的基于边缘的分类中除了Fisher一致性之外,(f)*也可以用来估计类的条件概率。这种方法在文献中得到了广泛的应用。例如,请参见,Hastie等人(2009年),Liu等人(2011)等等。为了完整性,我们简要解释了如何使用(f)*在中附录对于使用二进制分类器来寻找最优ITR的问题,我们在下一个定理中表明,当使用某些损失函数时,(f)*可用于计算(x个,+1)和(x个,−1).

定理1

为了使用基于二进制边缘的分类器找到最佳ITR,假设奖励是非负的。此外,假设对于所有u,损失函数▽(·)都是可微的,且对所有u来说,都是▽′(u)<0

(x个,+1)(x个,1)=((f)*)((f)*).
(2.5)

因此,对于任何新的观察结果x个,一旦我们获得了合适的分类函数(f)^(x个),我们可以估计(x个,+1)至(x个,−1)使用{(f)^(x个)}/{(f)^(x个)}它提供了比ITR本身更多的信息。

备注1

发件人定理1可以看出,ITR问题中期望报酬率的估计类似于标准边缘分类中的类条件概率估计。特别是,让P(P)+1(x个)和P(P)−1(x个)分别是二进制分类中类别+1和−1的条件类别概率(参见附录更多详细信息)。可以在类似条件下验证,我们可以使用((f)^)/((f)^)估计P(P)+1(x个)/P(P)−1(x个). 例如,在标准逻辑回归中,估计P(P)+1(x个)/P(P)−1(x个)由((f)^)/((f)^)相当于使用logit链接函数进行概率估计。在中对标准多类别分类问题的类概率估计进行了类似的讨论邹等人(2008),张和刘(2014)、和Neykov等人(2016).

使用定理1,我们可以探索软分类器和硬分类器之间的差异,以找到最佳ITR。特别是,我们绘制日志{(x个,+1)/R(右)(x个,−1)},表示为第页+1−1,反对(f)*对于LUM系列中的一些损失函数图1。我们可以通过软分类器看到这一点(c(c)=0),在第页+1−1(f)*. 换句话说,我们可以使用估计的(f)^。如中所述,此比率信息在实际问题中可能很重要第1节。我们将在中看到第4节如果底层比率是平滑函数,则通过准确估计比率,软分类器往往比硬分类器表现更好。

保存图片、插图等的外部文件。对象名称为nihms-1041720-f0001.jpg

测井曲线图{(x个,+1)/R(右)(x个,−1)} (第页+1−1轴)对(f)*对于某些LUM损失函数。在这里c(c)=0对应于软LUM损失,并且c(c)→ ∞ 对应于SVM铰链损失,这是一种硬分类器。请注意是LUM系列中的另一个参数(请参见附录)、和= 1,c(c)=1对应于距离加权判别分析的损失函数(Marron等人,2007年).

对于抄送>0,平面区域第页+1−1这使得估计这个比率更加困难。特别是,如果(f)^[c(c)/(1+c(c)),c(c)/(1+c(c))],则该方法无法提供第页+1−1.作为c(c)增加,平坦区域扩大。在限额内(c(c)→ ∞), 硬分类器提供的信息很少第页+1−1换句话说,硬分类器绕过了对第页+1−1并且聚焦于边界(即,(x个,+1) =(x个,−1)仅用于二进制问题)估计。我们在补充材料当基本比率接近阶跃函数时,硬分类器可以比软分类器表现得更好,因为精确估计第页+1−1可能非常困难。

接下来,我们将讨论如何在我们的OML方法中处理负面奖励。回忆一下,当第页≥0,可以使用替代损失函数这是0-1损失的凸上界,从(3.2)到(3.4)。什么时候?第页 <0,对应的0–1损失等于−|第页|{D类(x个)≠1},可视为−1–0损失(Chen等人,2017). 在这种情况下,由于奖励是负的,因此最好考虑其他待遇,而不是基于这些观察结果,我们提出了以下正负奖励二元问题的优化,

argmin(最小值)(f)1n个=1n个|第页|π(x个)第页{(f)(x个)}+λJ型((f)),
(2.6)

哪里第页(u个)=(u个)如果第页≥0,并且第页(u个)=(u个)如果第页 <0(反向损失)。请注意(−u个)−1是−1–0损失的紧凸上限,只要是凸的,并且最小化{−(f)(x个)}−1和{−(f)(x个)}关于(f)是等效的。负面奖励的治疗建议规则仍然存在D类(x个)=符号{(f)(x个)}.

下一个定理表明,我们的具有负报酬的二元OML方法在损失函数上具有温和条件的Fisher一致性。

定理2

对于使用二元OML分类器(3.6)寻找最优ITR,如果在0处可以微分,并且如果u>0,则该方法是Fisher一致的。

发件人定理2我们可以看到,通过包含负报酬的反向损失函数,我们的OML方法仍然可以是渐近一致的。相比之下,如果可以是负数。下一个定理表明,在一些温和的假设下,我们的OML方法能够为相应的奖励比率提供一个上限或下限。

定理3

为了使用基于二元边缘的分类器来寻找最优的ITR,假设所有x和a的期望报酬满足R(x,a)>0。此外,假设损失函数У(·)与所有u的У′(u)<0是可微的

{(x个,+1)(x个,1)((f)*)((f)*),如果(x个,+1)>(x个,1),(x个,+1)(x个,1)((f)*)((f)*),如果(x个,+1)<(x个,1).
(2.7)

定理3说明了这一点((f)^)/((f)^)当治疗+1更好时,可用作奖励比率的下限,如果-1更好,则可用作上限。条件是(x个,一个)>全部为0x个可以满足,例如,当没有治疗的患者预期回报为零,并且所有正在研究的治疗都有初步结果表明其总体有效时。请注意,当存在负奖励时,我们的OML方法无法提供奖励比率的准确估计,而是提供了一个界限(请参阅定理3在中补充材料了解更多细节),但该方法仍然是Fisher一致的。因此,我们可以看到,在ITR问题中,奖励估计可能比治疗建议更困难。这类似于标准分类,其中概率估计可能比标签预测更困难。

在下一节中,我们将OML方法推广到使用多重处理来处理问题。

2.3.基于Margin的多类别结果加权学习

要查找D类*在实际问题中k>在两种处理方法中,可以使用顺序二进制分类器,例如一对一和一对一重分类方法。然而,这些想法可能导致ITR估计值不一致(参见补充材料用于证明单对重SVM方法的不一致性)。如中所述第2节,可能希望有一个多类别分类器,它可以考虑所有k个在一个优化问题中同时处理。

在文献中,许多常用的同时多类别边缘分类器使用k个的分类功能k个类,并对k个函数来减少参数空间并确保一些理论性质,如Fisher一致性。最近,张和刘(2014)结果表明,该方法可以是冗余的,并且在计算速度和分类精度方面是次优的。为了克服这些困难,张和刘(2014)提出了基于角度的分类方法。在本文中,我们建议在基于角度的分类框架中找到具有多重处理的最优ITR。

标准的基于角度的分类可以概括如下。让{(x个,年);= 1,…,n},是训练数据集,其中表示类标签。定义单纯形W公司具有k个顶点{W公司1, …,W公司k个}在中(k个−1)-维度空间,例如

W公司j个={(k个1)1/21k个1,j个=1,(1+k个1/2)/{(k个1)/2}1k个1+{k个/(k个1)}1/2e(电子)j个1,2j个k个,

哪里1k个−1是长度为1的向量k个−1,和e(电子)j个∈ ℝk个−1是一个向量j个第个元素1和0。该单纯形具有对称性,所有顶点之间的距离相等。基于角度的分类器使用(k个−1)-维分类函数向量(f)= ((f)1,…,fk个−1)T型,哪个映射x个(f)(x个) ∈ ℝk个−1。请注意(f)介绍k个相对于…的角度W公司1, …,W公司k个即∠((f),Wj个);j个= 1,…,k。预测规则基于哪个角度最小。特别地,^(x个)=argmin(最小值)j个{1,,k个}((f),W公司j个),其中^(x个)是的预测标签x个.图2说明了如何使用这种基于角度的分类思想进行预测k个=2、3和4。什么时候?k个=3,例如,映射的观测值(f)^预测为对应于W公司1因为θ1是最小的角度。基于对argmin的观察j个∈{1,...,k个}∠((f),Wj个)=argmax(最大值)j个∈{1,...,k个}(f),W公司j个〉,张和刘(2014)为基于角度的分类器提出了以下优化问题

argmin(最小值)(f)1n个=1n个{W公司,(f)(x个)}+λJ型((f)),
(2.8)

哪里(·)是一个基于二元边际的替代损失函数,它通常是非负的,并且满足(u个)< ℓ(−u个)对于任何用户>0,J型((f))是对的惩罚(f)防止过盈,以及λ是一个调整参数,用于平衡拟合优度和模型复杂性。基于角度的分类器的一个优点是它不受和零约束,并且可以更有效地学习大数据集。

保存图片、插图等的外部文件。对象名称为nihms-1041720-f0002.jpg

基于角度的分类图解k个=2、3和4。例如,当k个=3(如中间的图所示),映射的观测值(f)^预测为对应于W公司1因为θ1 < θ < θ2.

为了从二进制设置中推广我们的OML方法来处理多类别问题,我们提出了以下优化

argmin(最小值)(f)1n个=1n个|第页|π(x个)第页{W公司,(f)(x个)}+λJ型((f)),
(2.9)

哪里第页定义见(3.6)。关于罚款期限J型((f)),我们在本文中讨论了两个选项:21处罚。当应用1惩罚,可以删除所有系数估计为零的协变量k个−安装的1个部件(f)。我们在第4节这种稀疏惩罚在线性学习下具有选择一致性。对于使用协变量载体的新患者x个,一旦拟合分类函数向量(f)^则相应的治疗建议为argmax(最大值){1,,k个}W公司,(f)^(x个)。可以在以下情况下进行验证k个(3.9)减小到(3.6)。因此,对于统计学习理论(参见补充材料),我们将重点放在多类别分类上,并且结果可以直接应用于二进制情况。

接下来,我们研究了多类别治疗中MOML的Fisher一致性。在基于边缘的标准分类文献中,Fisher一致性更多地涉及到多类别问题,而不是二进制设置。例如,众所周知,二进制SVM是Fisher一致的(林,2002). 然而,它对多类别分类器的直接泛化是不一致的,无论是在使用框架中k个函数和和零约束(刘,2007),以及在基于角度的分类框架中(张和刘,2014). 为了克服这些挑战,提出了许多新的多类别SVM。例如,请参见,Lee等人(2004),刘和元(2011)等等。为了找到最佳ITR,我们在多类别处理问题中的MOML方法的Fisher一致性有以下结果。

在介绍我们的主要结果之前,我们引入了一个重要的假设。首先,回想一下给定治疗的预期回报j个x个(x个,一个) = ∫ (|X(X)=x个,A=)数据保护程序.将有条件奖励的积极部分定义为j个+(x个)=(|X(X)=x个,A类=j个)(>0)d日P(P),负面部分为j个(x个)=(|X(X)=x个,A类=j个)(<0)d日P(P)可以验证(x个,j个)=j个+(x个)+j个(x个).在这里j个(x个)可用于衡量治疗不良反应的可能性和严重性j个使用协变量向量的患者x个下一个假设要求(x个)对特定患者的最佳治疗不应太小。

假设1

对于具有协变量向量x的患者,用j表示最佳治疗(即,对于任何i≠j,R(x,j)>R(x、i))。然后,j个(x个)(x个)对于任意i≠j。

假设1是可取的,并且对于实际问题通常是必要的。特别是,对于任何患者,我们都应该期望最佳治疗不会有很大的不良反应概率,而且其不良反应相对轻微。假设1可以满足,例如,当奖励都为正时,或者不同患者和治疗的奖励的边际分布相同,但变化不变(例如,具有共同方差的正态分布)。使用假设1,我们准备给出MOML方法的Fisher一致性的下一个定理。

定理4

为了使用MOML分类器(3.9)找到最佳ITR,假设假设1是有效的,则该方法是Fisher一致的,如果▽(·)是凸的且严格递减的。此外,具有铰链损失的MOML不符合Fisher一致性。

请注意定理4提供了MOML分类器保持Fisher一致的充分条件。在文献中,有一些分类器的损失函数不满足定理4但仍然可以验证相应的MOML方法是Fisher一致的。例如,可以使用与证明定理4表明我们使用近端SVM损失的MOML方法是Fisher一致的。另一方面,我们的MOML SVM(即使用标准铰链损失)与Fisher不一致。为了克服这一挑战,我们建议使用LUM损失函数,该函数具有较大但有限的c(c)。此损失函数非常接近SVM铰链损失,对应于c(c)→ ∞, 它可以保持Fisher一致性。注意,以前在张和刘(2014)以获得Fisher一致的基于角度的分类器。

为了估计不同治疗的预期回报率,我们有以下定理。

定理5

假设损失函数У(u)对所有u都是凸的且可微的,且对所有u来说,都是具有▽′(u)<0的。如果随机报酬满足R≥0,则对于任意i≠j∈{1,…,k},我们有

(x个,)(x个,j个)=((f)*,W公司j个)((f)*,W公司).

发件人定理5,一次(f)^(x个)为新患者获得x个,我们可以估计th和j个th处理{(f)^(x个),W公司j个}/{(f)^(x个),W公司}有关软分类器和硬分类器的其他讨论,请参见补充材料.

我们还发展了MOML的一些其他理论结果,例如超额风险的收敛速度。此外,我们还证明了MOML在线性ITR下具有变量选择一致性J型((f))成为1处罚。更多详细信息包括在补充材料.

3.数值研究

在本节中,我们使用六个具有线性和非线性ITR边界的模拟研究来评估所提出的MOML方法的有限样本性能。对于所有示例,我们将MOML与2惩罚并将其与标准结果加权学习(OWL,赵等(2012))扩展了一对一测试(OWL-1)和一对一(OWL-2)。此外,为了评估第3.2节中讨论的变量选择的性能,我们使用1罚款(MOML-1)对于所有线性ITR边界示例。在拟合OWL时,我们用(7)中的修正损失替换铰链损失,以提高其性能,从而进行公平比较。对于单对重扩展,我们进行了顺序单对重二进制最优处理估计(即1对其他,2对其他,··,k个然后选择分类器推荐的治疗方法(f)^j个其中震级最大j个= 1, · · ·,k对于一对一扩展,我们首先估计决策函数(f)^,用于= 1, · · ·,k(k个− 1)/2,基于每对治疗(即1对2,1对3,··,k个-1对k个)然后选择(f)^震级最大的。注意,一对一扩展只使用数据的子集来适应每一个(f)^为了进行有意义的比较,我们限制(f)为的线性函数x个对于线性ITR边界示例中的所有模型,并应用高斯核学习进行拟合(f)在非线性ITR边界示例中。

在生成数据集时,我们首先模拟用于拟合模型的训练集。我们还生成了一个独立且大小相等的调整集,以找到调整参数的最佳组合,以及一个更大的测试集,以评估模型性能(是训练集的10倍大)。至于调谐参数范围,我们选择从{0.1,1,10},让c(c)在{0.1、10、100、1000}中变化λ在{0.001,0.01,0.1,1,10}中变化。我们报告了测试集的误分类率和经验值函数的平均值和标准差,作为模型评估的标准。经验值函数定义为n个*[(A类=D类(X(X)))/πA类(X(X))]/n个*[(A类=D类(X(X)))/πA类(X(X))],其中n个*表示测试数据集的经验平均值(赵等,2012). 价值函数被视为一种更全面的度量,用于衡量估计的ITR与真正的最优ITR之间的差距。我们在每个示例中重复50次模拟。

在前四个例子中,我们生成了最优处理边界是协变量线性函数的数据集。我们添加额外的协变量作为随机噪声示例34在最后两个示例中,我们讨论了非线性ITR场景并执行高斯核学习分类器。我们让协变量的维数x个变化第页所有示例均∈{10,50}。内核带宽τ固定为1/(2σ^2)哪里σ^是模拟协变量(Wu和刘,2007). 每个设置的详细信息如下所示:

示例1

我们考虑三点(c(c)1,c(c)2 c(c))距离第页-维空间来表示真正最优处理的簇质心。对于每个c(c)j个哪里j个=1,2,3,我们生成它的协变量X(X)从多元正态分布N个(c(c)j个,我第页),其中第页是一个第页-维度单位矩阵。实际分配的A类遵循离散均匀分布U型{1, 2, 3}. 奖励遵循高斯分布N个(μ(X(X),A,天),1),其中μ(X(X),A类,d日)=X(X)T型β+5(A类=d日),βT型=(1第页/2T型,1第页/2T型)d日是治疗X(X)由簇质心决定。训练数据集的大小为300。

示例2

我们定义了一个五处理场景,其中五个质心(c(c)1, · · ·,c(c)5)在ℝ中形成单纯形4.边际分布X(X)|c(c)j个遵循平均值的正态分布c(c)j个协变矩阵为0.1第页.治疗A类遵循离散统一U型{1, · · ·, 5}. 奖励~N个(μ(X(X),A,天),0.1),其中μ(X(X),A类,d日)=X(X)T型β+(A类=d日)+1βT型=0.1×(1第页/2T型,1第页/2T型)。训练数据集的大小为500。

示例3

这是一个有十种处理方法的示例,最佳ITR边界取决于前两个协变量,即(X(X)1,X2). 对应的十个质心(c(c)1, · · ·,c10)均匀分布在单位圆上X(X)12+X(X)22=1以及(X(X)1,X2)T型是具有平均值的正态分布c(c)j个和协变量矩阵0.032。类似于示例2,A类~U型{1,··,10}和~N个(μ(X(X),A,天),1),其中μ(X(X),A类,d日)=X(X)T型β+5(A类=d日)2βT型=(15T型,15T型,0第页10T型)。训练数据集的大小为600。

示例4

所有设置都与示例2除了那个βT型=0.1×(1,1,1,1,0第页4T型).

示例5

这是一个三类示例,每个质心c(c)j个对于j个=1,2,3分布在两个概率相等的乱点上。(X(X)1,X2)T型混合物正常为0:5N个[(科斯(/3) ,罪恶(/3))T型, 0:082]+0:5N个[(科斯(π+/3) ,罪过(π+jπ/3))T型, 0:082]. 治疗A类~U型{1,2,3}和奖励~N个(μ(X(X),A,天),1),其中μ(X(X),A类,d日)=X(X)T型β+5(A类=d日)1βT型=(1第页/2T型,1第页/2T型)。训练数据集的大小为300。

示例6

在这个例子中,最佳处理d日对于每个X(X)概率为95%,由两个潜在非线性函数的符号决定(f)1(X(X))=X(X)12+X(X)22+经验{0.5X(X)}(f)2(X(X))=X(X)42X(X)5X(X)6同时将随机噪声添加到d日产生正贝叶斯误差的概率为5%。特别是,我们有d日定义为

d日=d日(X(X))={1+[签名((f)1(X(X))1)]++2×[签名((f)2(X(X))2)]+具有问题。0.95U型具有问题。0.05,

哪里12是的中位数(f)1(f)2分别是,和U型跟随离散的U型{1,2,3,4}独立于(A类,X). 协变量X(X)遵循连续均匀分布U型(0, 1),A类~U型{1、··、4}和~N个(μ(X(X),A,天),1),其中μ(X(X),A类,d日)=X(X)T型β+5(A类=d日)1βT型=(1第页/2T型,1第页/2T型)。训练数据集的大小为500。

图3和44绘制所有模型产生的误分类率和经验值函数的样本均值。带有标准偏差的数值结果在补充材料从结果来看,MOML与2惩罚,MOML和1当基础ITR不太复杂且治疗效果足够强时,惩罚和OWL-1(具有一对一扩展)表现相当示例1显示时间第页= 10.示例2表示线性ITR变得更复杂且处理效果中等的情况。在这种情况下,MOML可以产生比两个简单的OWL扩展更大的经验值函数结果。示例4具有与类似的设置示例2同时将一些噪声变量添加到协变量集中。在这种情况下,MOML使用1惩罚可以超过MOML2惩罚,因为它能够去除许多不必要的噪声变量。在协变量维数较高的情况下,这种预测准确性的提高变得更加明显,即。第页= 50. 关于选择结果,当第页=10,MOML-1在保留所有有用变量的同时,平均去除64.6%的噪声;什么时候第页=50,去除了约57.6%的噪声,并保留了所有有用的噪声。示例3代表了一个困难的ITR检测场景,涉及大量治疗(k个= 10). 在这种情况下,两种MOML方法的误分类率可能比两种OWL扩展小得多,这意味着MOML可以产生稳定的估计结果。变量选择结果表明,MOML-1成功地去除了68.8%和60.2%的噪声第页=10和第页分别=50。在这两种情况下,所有真实变量都保持不变。示例56是非线性ITR的两个代表。示例5当协变量维数不大时(即。第页= 10). 随着更多变量被添加到协变量空间中,所有方法的预测性能都会显著下降,尽管MOML仍然优于两个OWL扩展。这样,建议在实际应用非线性MOML之前,采取措施降低协变量维数。示例6,我们有意在样本中加入一些离群值来评估模型的稳健性。所有方法都受到了影响,而MOML仍然可以产生比其他方法更好的预测结果。

保存图片、插图等的外部文件。对象名称为nihms-1041720-f0003.jpg

模拟研究的误分类率图。OWL-1和OWL-2代表了结果加权学习的两个扩展(一对一和一对一),即MOML和MOML-1用表示结果加权边缘学习21惩罚,贝叶斯代表经验贝叶斯误差。

保存图片、插图等的外部文件。对象名为nihms-1041720-f0004.jpg

模拟研究的价值函数图。OWL-1和OWL-2代表了结果加权学习的两个扩展(一对一和一对一),即MOML和MOML-1用表示结果加权边缘学习21惩罚,贝叶斯代表经验贝叶斯误差。

最后,我们使用实施例16。我们尝试不同的值c(c),并表明经过适当调整的分类器性能非常好。详细信息请参见补充材料.

4.应用于2型糖尿病研究

在本节中,我们将所提出的方法应用于2型糖尿病(T2DM)观察性研究,以评估其在现实生活数据应用中的表现。这项研究包括2012-2013年间的T2DM患者,来自临床实践研究数据链(CPRD)(Herrett等人(2015)). 本研究考虑了四种抗糖尿病疗法:胰高血糖素样肽-1(GLP-1)受体激动剂、长效胰岛素、中间作用胰岛素和包括短效胰岛素的方案。主要目标变量是治疗前后HbA1c的变化,使用七个临床因素,包括年龄、性别、种族、体重指数、高密度脂蛋白胆固醇(HDL)、低密度脂蛋白胆甾醇(LDL)和吸烟状况。总共有634名患者满足上述要求,约5%的患者有完整的观察结果。考虑到丢失的比例很大,我们执行以下步骤来处理此问题。首先,删除所有丢失率大于70%的因素。第二,标准t吨对每个剩余因子进行测试,以检查其缺失指标是否影响响应。如果测试结果具有统计学意义,我们保留变量,同时删除所有缺失的观察结果。否则,我们将删除该变量。清洁过程结束后,我们还有230个观察结果。

我们将线性核和高斯核的相同方法应用于清理后的T2DM数据集,与模拟分析中的方法相同。我们使用糖化血红蛋白变化的负值作为奖励,因为治疗目标是降低糖化血红蛋白。繁荣指数πA类(X(X))根据指定治疗和所有协变量之间的拟合多项式logistic回归计算。我们使用5倍交叉验证来选择50次重复的最佳调整参数。特别是,我们将干净的数据随机划分为五个等分子集,并依次基于每四个子集(训练集)训练模型,然后使用剩余的子集(验证集)进行预测。培训和验证集的经验值函数的平均值和标准偏差如所示表1.

表1:

T2DM数据集的分析结果。使用50次重复的5倍交叉验证报告值函数的估计平均值和标准偏差(括号内)。OWL-1和OWL-2代表OWL的两个扩展(一对一和一对一),MOML和MOML-1用表示结果加权边际学习21分别处以罚款。清洁数据集的观测平均回报为2.246。

培训验证
OWL-1-线性2.712 (0.329)2.371 (0.483)
OWL-2-线性2.487 (0.233)2.221 (0.561)
OWL-1-高斯4.118 (0.401)3.285 (0.490)
OWL-2-高斯4.003 (0.374)3.221 (0.468)
MOML线性2.610 (0.130)2.440 (0.320)
MOML公司-1-线性2.813 (0.138)2.533 (0.182)
MOML-高斯4.105 (0.221)3.612(0.328)

表1结果表明,高斯核MOML的预测值函数效果最好,其标准偏差小于高斯核OWL的标准偏差。MOML公司-1建议在50次重复中保留所有变量,这表明当选择线性函数来拟合ITR时,干净数据中保留的协变量可能都很重要。根据估计的最佳治疗分配结果,OWL与

高斯核(OWL-1-Gaussian)将约32%的患者分配给短效胰岛素,其余患者以相对均匀的方式分配给其他三个治疗组。采用高斯核的MOML建议大约40%的患者服用短效胰岛素,大约25%和23%的患者分别服用中效和长效胰岛素,少于12%的患者服用GLP-1。这一结论与一些关于短效胰岛素的文献一致,这些文献显示了降低糖化血红蛋白的益处(Holman等人,2007年). 另一方面,膳食胰岛素也会增加低胰岛素血症和体重增加的风险。这样,有必要将一些综合指标视为结果,包括糖化血红蛋白变化、低水平事件和体重增加信息,以找到相应的最佳治疗规则。

5.讨论

本文提出了一种基于边际的损失函数来解决二进制处理的最优个体处理估计问题,并将其扩展到多类别处理场景中。对于二进制处理,我们基于LUM族开发了损失,以便所提出的方法可以覆盖从软分类器到硬分类器的广泛ITR。标准OWL是所提出的基于边缘的学习方法的一个特例,因为当c(c)→ ∞ = 1. 对于多重处理,我们将损失表示为估计决策函数之间的角度加权和(f)和实际处理A类我们表明,MOML在线性和非线性处理分配边界下都具有理想的理论性质和较高的预测精度。我们的方法可以产生易于理解的ITR结果,并具有清晰的几何解释。此外,MOML的优化问题是无约束的,因此与其他具有和零约束的多类别方法相比,其计算效率更高。我们还表明,使用1具有线性决策边界的情况下的惩罚。这种思想也可以推广到非线性边界。一种可能性是使用加权核的概念并施加一个权重向量w个在协变量前面x个在标准内核定义中(Chen等人,2017).

补充材料

补充的

单击此处查看。(2.0M,pdf格式)

致谢

作者想感谢编辑、副编辑和审稿人,他们的有益评论和建议使演讲得到了很大的改进。这项研究部分得到了NSF拨款IIS1632951、DMS-1821231和NIH拨款R01GM126550的支持。

脚注

6.补充材料

本文提供了其他的理论结果、数值例子和所有的技术证明。

工具书类

  • Allwein EL、Schapire RE和Singer Y(2001年)。将多类化为二进制:边缘分类器的统一方法.机器学习研究杂志 1, 113–141.[谷歌学者]
  • Bartlett PL、Jordan MI和McAuliffe JD(2006年)。凸性、分类和风险边界.美国统计协会杂志 101, 138–156.[谷歌学者]
  • Boyd S和Vandenberghe L(2004)。凸优化剑桥。[谷歌学者]
  • Chen J、Fu H、He X、Kosorok MR和Liu Y(2017)。评估常规治疗的个性化治疗规则.arXiv:1702.04755[统计]arXiv: 1702.04755.[PMC免费文章][公共医学][谷歌学者]
  • Chen J、Zhang C、Kosorok MR和Liu Y(2017)。具有自动变量选择和数据提取的双稀疏核学习.arXiv:1706.01426[stat]arXiv: 1706.01426.[PMC免费文章][公共医学][谷歌学者]
  • Hastie TJ、Tibshirani RJ和Friedman JH(2009年)。统计学学习的要素纽约:施普林格出版社,第二版。[谷歌学者]
  • Herrett E、Gallagher AM、Bhaskaran K、Forbes H、Mathur R、van Staa T和Smeeth L(2015)。数据资源配置文件:临床实践研究数据链接(CPRD).国际流行病学杂志 44, 827–836.[PMC免费文章][公共医学][谷歌学者]
  • Holman RR、Thorne KI、Farmer AJ、Davies MJ、Keenan JF、Paul S、Levy JC和4-T研究小组(2007年)。在2型糖尿病的口服治疗中添加双相、膳食或基础胰岛素.新英格兰医学杂志 357, 1716–1730. [公共医学][谷歌学者]
  • Lee Y、Lin Y和Wahba G(2004)。多类别支持向量机、理论及其在微阵列数据和卫星辐射数据分类中的应用.美国统计协会杂志 99, 67–81.[谷歌学者]
  • 林毅(2002)。支持向量机与分类中的贝叶斯规则.数据挖掘与知识发现 6, 259–275.[谷歌学者]
  • Liu Y(2007)。多类别支持向量机的Fisher一致性第十一届国际人工智能与统计会议,第289-296页。[谷歌学者]
  • Liu Y和Yuan M(2011)。增强型多类别支持向量机.计算与图形统计杂志 20, 901–919.[PMC免费文章][公共医学][谷歌学者]
  • Liu Y、Zhang HH和Wu Y(2011)。软分类还是硬分类?大利润统一机器.美国统计协会杂志 106, 166–177.[PMC免费文章][公共医学][谷歌学者]
  • Marron JS、Todd M和Ahn J(2007年)。距离加权鉴别.美国统计协会杂志 102, 1267–1271.[PMC免费文章][公共医学][谷歌学者]
  • Moodie EEM、Platt RW和Kramer MS(2009年)。估计响应最大化决策规则及其在母乳喂养中的应用.美国统计协会杂志 104, 155–165.[谷歌学者]
  • Neykov M、Liu JS和Cai T(2016)。关于一类Fisher一致损失函数的刻画及其在Boosting中的应用.机器学习研究杂志 17, 1–32.[谷歌学者]
  • Qian M和Murphy SA(2011年)。个性化治疗规则的性能保证.统计年鉴 39, 1180–1210.[PMC免费文章][公共医学][谷歌学者]
  • Robins J、Orellana L和Rotnitzky A(2008年)。最佳治疗和测试策略的估计和推断.医学统计学 27, 4678–4721. [公共医学][谷歌学者]
  • Robins JM(2004)。最优序列决策的最优结构嵌套模型第二届西雅图生物统计学研讨会论文集,第189-326页。斯普林格。[谷歌学者]
  • Simoncelli T(2014)。为个性化药物铺平道路:FDA在医疗产品开发新时代的作用联邦药物管理局(FDA)技术报告。[谷歌学者]
  • Tian L、Alizadeh AA、Gentles AJ和Tibshirani R(2014)。估计治疗与大量协变量之间相互作用的简单方法.美国统计协会杂志 109, 1517–1532.[PMC免费文章][公共医学][谷歌学者]
  • Wu Y和Liu Y(2007)。鲁棒截断铰链损失支持向量机.美国统计协会杂志 102, 974–983.[谷歌学者]
  • Zhang B、Tsiatis AA、Laber EB和Davidian M(2012年)。一种估计最优治疗方案的鲁棒方法.生物识别 68, 1010–1018.[PMC免费文章][公共医学][谷歌学者]
  • Zhang C和Liu Y(2013)。多类别大边缘统一机.机器学习研究杂志 14, 1349–1386.[PMC免费文章][公共医学][谷歌学者]
  • Zhang C和Liu Y(2014)。基于多类别角度的大边缘分类.生物特征 101, 625–640.[PMC免费文章][公共医学][谷歌学者]
  • Zhao Y、Zeng D、Rush AJ和Kosorok MR(2012年)。使用结果加权学习评估个体化治疗规则.美国统计协会杂志 107, 1106–1118.[PMC免费文章][公共医学][谷歌学者]
  • Zhou X、Mayer-Hamblett N、Khan U和Kosorok MR(2017年)。估计个体化治疗规则的剩余加权学习.美国统计协会杂志 112, 169–187.[PMC免费文章][公共医学][谷歌学者]
  • Zou H、Zhu J和Hastie T(2008)。基于多类渔民一致损失的多类提升算法.应用统计学年鉴 2, 1290–1306.[PMC免费文章][公共医学][谷歌学者]