Modeling Between-Study Heterogeneity for Improved Replicability in Gene Signature Selection and Clinical
Prediction

Naim U. Rashid; Quefeng Li; Jen Jen Yeh; Joseph G. Ibrahim

doi:10.1080/01621459.2019.1671197

美国统计协会。作者手稿；PMC 2021年1月1日提供。

以最终编辑形式发布为：

2020年美国统计协会杂志；115(531): 1125–1138.

2019年10月29日在线发布。数字对象标识：10.1080/01621459.2019.1671197

PMCID公司：项目管理委员会7528965

尼姆斯：美国国立卫生研究院1540952

PMID：33012902

研究间异质性建模以提高基因特征选择和临床中的可复制性预测

奈姆·U·拉希德,^1,² 李克峰,¹ Jen Jen Yeh是,^2,^三，⁴和约瑟夫·易卜拉欣¹

作者信息版权和许可证信息 PMC免责声明

关联数据

补充资料: 附录1。
NIHMS1540952-补充元件-Supp_1.zip（1.78亿）
指南：35DC8C63-E782-4887-9BD9-C6346C4A0E07

摘要

在基因组时代，识别与疾病相关的基因特征具有重要意义。这样的签名通常用于预测新患者的临床结果并帮助临床决策。然而，最近的研究已经表明基因特征通常是不可复制的。这一事件对此类签名的通用性和临床适用性。为了提高可复制性，我们引入了一种新的方法来选择来自多个数据集的基因签名，其影响始终为非零，并解释了研究之间的异质性。我们在一些基于等级的数量上构建我们的模型，促进不同基因组数据集的集成。高维度惩罚广义线性混合模型（pGLMM）用于选择基因签名和解决数据异质性问题。我们比较我们的方法对一些常用的选择基因特征的策略忽略了研究之间的异质性。我们提供渐近结果证明了我们方法的性能，并通过彻底的模拟研究。最后，我们通过一个案例研究，从四个基因对胰腺癌患者进行了分型，从而激发了我们的方法表达研究。

关键词：广义线性混合模型、微阵列、惩罚可能性、预测、RNA-seq

1.简介

在基因组时代，基因签名经常被用来对癌症患者进行亚型划分，确定治疗方法，并预测对治疗(Golub等人，1999年;Swisher等人，2012年;Sotiriou和Piccart，2007年). 这种特征被定义为一个或多个基因的集合其表达对特定临床结果具有特异性(奇本，2013). 这些特征通常被纳入统计或计算模型中，用于预测未来的患者。由于这些原因，基因特征选择和随后的临床预测在癌症中具有重要意义研究。

然而，这种签名的应用存在几个问题。例如，基因特征选择的不一致性在已发表的生物医学文章中很常见。在一篇文章中识别的基因签名通常与在另一篇文章中确定的(Waldron等人，2014年). 此外，基于这些的模型在新的临床研究中，特征在预测结果方面显示出不同的准确性(Sotiriou和Piccart，2007年;Waldron等人，2014年)，或估计个别基因(Swisher等人，2012年). 这种缺乏可复制性带来了自然的问题利用这些基因特征进行临床预测的通用性和可靠性(Sotiriou和Piccart，2007年).

许多因素导致了这种不可复制性。例如，小样本研究表明缺乏选择基因签名的能力(Sotiriou和Piccart，2007年)而且预测力很低新研究的准确性(Waldron等人，2014年). 临床流行率的变化结果也影响可复制性。Lusa等人（2007）证明基因签名来源于根据某些分子亚型的低频率研究，不太可能准确预测新的患者。特定于研究的因素，如实验室条件或临床方案的变化，也可能会引入其他因素个别基因影响的变化。

数据预处理的差异是另一个原因。例如，某些分类器的预测精度表明对预处理步骤中的归一化方法类型敏感(Lusa等人。，2007;Paquet和Hallett，2015年). 新数据集必须根据培训进行规范化用于预测以纠正技术偏差之前的数据。然而，之前的工作表明，该程序结果是“测试集偏差”，其中预测可能会因测试集中的样本或归一化而改变使用的方法(Patil等人，2015年). 已制定了复杂的程序微阵列以避免测试偏差，但仍需要来自相同类型微阵列芯片的表达数据(麦考尔等人，2010年). 如果新研究使用不同的平台，那么应用和验证预测模型。例如，下一代测序数据测量不同规模的基因表达（阳性整数计数）相对于微阵列数据（连续测量）。这种差异通常会导致为一个人开发方法平台不适用于其他平台(Glas等人，2006年).

为了提高可复制性，开发了各种统计方法来整合来自多个研究（横向研究）的数据整合）以达成共识。Richardson等人（2016）给出一个全面的回顾这一领域的最新发展。解决研究之间的异质性在横向数据集成中至关重要来自不同研究的数据来自不同的队列、平台和生物样本。几种方法(Li等人，2011年,2014)已开发用于解释中间研究横向数据集成中的异构性。然而，这些方法主要侧重于变量选择而不是预测。

受胰腺癌患者亚型个案研究的启发，我们开发了一种新的水平整合方法来自多个数据集的基因签名和解释变量效应的研究间异质性。我们采用基于等级的基于基因对到原始表达数据的转换，促进来自多个研究的数据集成。我们注意到合并来自不同表达式平台的数据时需要注意。这一基于等级的转换的更多细节将在中讨论第3节。给定转换的数据，我们使用一个惩罚的广义线性混合模型（pGLMM）用于选择具有研究可复制效应的预测因子，并解释研究间异质性。特别是，我们假设每个预测因子的影响在不同的研究中是随机的。我们设计了一个惩罚函数来选择预测因子非零固定效应，以及研究中方差非零的固定效应。我们建议只使用非零固定的预测因子预测新受试者结果的影响，因为它们的影响在多个研究中是可复制的。通过模拟和案例研究，我们证明，在存在研究间异质性的情况下，我们提出的方法可以产生更好的预测性能与其他常用策略相比，尤其是在异质性较大的情况下。此外，当我们将转换后的数据用作在pGLMM中，我们的方法旨在选择基因对而不是单个基因进行预测。

2.数据

胰腺导管腺癌（PDAC）是一种致死性疾病，5年生存率为4%。PDAC的一个主要特征是患者样本的肿瘤细胞数较低，这使得获取准确的肿瘤特异性分子信息变得困难。由于事实上，用于指导治疗选择的PDAC基因组亚型是有限的。

在最近的一项研究中，Moffitt等人（2015）确定的基因仅在胰腺肿瘤细胞。基于这些肿瘤特异性基因，两种新的肿瘤亚型（“基底样”和“经典”）进行了识别和验证。在基底样病变患者中，亚型是预后因素肿瘤患者的中位生存率明显低于经典肿瘤患者。最后，发现肿瘤特异性基因从基底样亚型中也定义了乳腺癌和膀胱癌中类似的基底样亚类型，提示常见的基底样不同癌症类型的基因图谱相同。这项研究代表了对原发性和转移性PDAC基因的最大调查表达，为PDAC的分子组成提供了新的见解。这些见解可用于定制治疗建议。

鉴于这些有希望的结果，需要有方法来有力地预测类基底亚型。然而，现有数据集PDAC中的基底样亚型是有限的。因此，我们利用来自莫菲特等（2015）除了最近发布的PDAC RNA-seq数据外，还可以训练PDAC亚型分类器。三个数据集中在中检查Moffitt等人（2015），两个是单通道微阵列（UNC PDAC，UNC Breast癌症）和一种是RNA-seq（TCGA膀胱癌）。自出版以来Moffitt等人。(2015)，来自癌症基因组图谱（TCGA）的额外PDAC RNA-seq数据集已经可用，也将被用于培训(Weinstein等人，2013年). 每个RNA-seq的表达测量数据集是根据每百万次映射读取的转录本每千基片段数（FPKM）进行总结的，这是一个计算对于转录本长度和样本中映射读数的数量(Trapnell等人。，2010). 这使得RNA-seq研究中跨基因和样本的表达测量更容易比较。更多现代RNA-seq测量，如百万分之转录物（TPM，Patro等人（2017）)5月也可以使用，但无法从Moffitt等人（2015）.基本信息每个数据集都在中提供表1。每个微阵列数据集按照Moffitt等人（2015）.

表1

四种碱性亚型基因表达数据集综述

数据集	站台	样本大小	基因集大小	%巴萨尔式	预正常化？
UNC掌上电脑	微阵列	228	19749	40%	是的
UNC乳腺癌	微阵列	337	17631	26%	是的
TCGA膀胱癌	转录组测序	223	20533	47%	不
TCGA掌上电脑	转录组测序	150	20531	43%	不

在单独的窗口中打开

我们希望利用上述数据集来选择预测碱性亚型的基因特征。然而数据集来自不同的表达平台，因此其表达测量具有不同的尺度。此外，数据集已经分别进行了预规范化。基于这些原因，对类基底亚型的外部验证和比较针对每个数据集分别训练的预测模型具有挑战性。此外，集成数据集以训练单个预测考虑到各种表达平台和预处理状态，建模和选择研究一致的变量是困难的。这个基因效应的研究间异质性也可能影响亚型研究一致变量的选择和估计预测。

基于这些问题，我们提出了一种新的数据集成方法，以促进研究之间的比较和合并中的样本第3节。我们还引入了高维pGLMM来选择以下变量研究一致性，同时考虑研究间的异质性。我们将我们的方法与几种常见的方法进行比较利用中的数据进行基因特征选择和亚型预测的策略表1、和在中总结结果第7节.

3.方法

我们考虑整合来自K（K）独立研究。为了简单起见，我们假设有n个每项研究的受试者和总样本量N个=nK（不确定）。在k个-第次研究k个=1,…,K（K），让年_k个=(年_k个1,…,年_千牛顿)^T型是的向量n个独立回应， ${x个}_{k个我} = ({x个}_{k个我, 1}, \dots, {x个}_{k个我, {第页}_{n个}})^{T型}$ 成为第页_n个-预测因子的维向量，以及X（X）_k个=(x个_k个1,…,x个_千牛顿)^T型.假设年_k个鉴于X（X）_k个属于典型指数族，具有以下密度函数，直到仿射变换

（f） (年_{k个} | {X（X）}_{k个}, α_{k个}; θ) = \prod_{我 = 1}^{n个} c（c） (年_{k个 我}) 经验 [τ^{- 1} {年_{k个 我} ϑ_{k个 我} - b条 (ϑ_{k个 我})}],

(1)

哪里c（c）(年_ki公司)是一个只依赖于年_ki公司,τ是色散参数，b条（·）是一个已知的链接函数，线性预测器

ϑ_{k个 我} = {x个}_{k个 我}^{T型} β + {z（z）}_{k个 我}^{T型} Γ α_{k个},

(2)

这样的话 $β = (β_{1}, \dots, β_{{第页}_{n个}})^{T型}$ 是第页_n个-固定效应的维向量，α_k个是q个_n个-不可观测随机效应的维向量，z（z）_ki公司是一个q个_n个-的维子向量x个_ki公司、和Γ是下三角矩阵。我们假设 ${α_{k个}}_{k个 = 1}^{K（K）}$ 与密度的一般分布无关且分布相同ϕ(α_k个). 常见的选择ϕ(α_k个)多元正态分布吗分布 $N个 (0, 我_{{q个}_{n个} \times {q个}_{n个}})$ 和Γα_k个~N个(0,ΓΓ^T型). 此外，我们假设E类(α_k个) =0和 $变量 (α_{k个}) = 我_{{q个}_{n个}}$ 线性预测器中的随机分量有变量(Γα_k个)=ΓΓ^T型。我们允许一些行Γ完全相同零，这意味着相应协变量的影响在K（K）研究。我们认为尺寸设置，其中第页_n个≫n个,q个_n个≫n个他们都可以一起成长n个.我们使用下标n个表示对…的依赖n个.

类似Chen和Dunson（2003）和Ibrahim等人。(2011)，我们将线性预测器重新参数化为

ϑ_{k个 我} = {x个}_{k个 我}^{T型} β + {z（z）}_{k个 我}^{T型} Γ α_{k个} = ({x个}_{k个 我}^{T型} {(α_{k个} \otimes {z（z）}_{k个 我})}^{T型} {J型}_{q个}) (\begin{array}{l} β \\ γ \end{array}),

(3)

哪里γ_t吨是一个t吨×1矢量由非零元素组成t吨-第行，共行Γ, $γ = (γ_{1}^{T型}, \dots, γ_{{q个}_{n个}}^{T型})^{T型}$ 、和 ${J型}_{{q个}_{n个}}$ 是 ${q个}_{n个}^{2} \times {q个}_{n个} ({q个}_{n个} + 1) / 2$ 变换矩阵γ到 $\vec{(} Γ)$ ，即。 $\vec{(} Γ) = {J型}_{{q个}_{n个}} γ$ .我们定义了参数向量θ=(β^T型,γ^T型,τ)^T型并假设θ是θ* =(β*^T型,γ*^T型,τ*)^T型这样的话θ* =argmin（最小值）_θE[−ℓ(θ)],哪里ℓ(θ)是来自K（K）研究。而线性预测ϑ_ki公司确实是参数的函数θ，我们抑制了它对θ为了符号的简单性。此外，我们缩写了ϑ_ki公司(θ*)作为 $ϑ_{k个我}^{*}$ 参数取真值时线性预测器的值。如中所建议上面，我们想确定集合

秒 = 秒_{1} \cup 秒_{2} = {j个 : β_{j个}^{*} \neq 0} \cup {t吨 : {‖ γ_{t吨}^{*} ‖}_{2} \neq 0} .

让 $秒_{1 n个} = | {j个 : β_{j个}^{*} \neq 0} |$ 是集合的基数 $秒_{1}$ , $秒_{2 n个} = \sum_{t吨 : {‖ γ_{t吨}^{*} ‖}_{2} \neq 0} t吨$ 是集合的基数 $秒_{2}$ ,秒_n个=秒_1n个+秒_2n个、和d日_n个=第页_n个+q个_n个(q个_n个+1）/2是整个问题。在本文中，我们考虑的情况是d日_n个,第页_n个,q个_n个、和 $秒_{n个}$ 随样本大小变化n个，但是K（K）保持固定。

为了恢复集合 $秒$ ，我们建议解决以下惩罚可能性问题：

θ = \underset{θ}{argmin（最小值）} - ℓ (θ) + λ_{1} \sum_{j个 = 1}^{{第页}_{n个}} ρ_{1} (β_{j个}) + λ_{2} \sum_{t吨 = 1}^{{q个}_{n个}} ρ_{2} ({‖ γ_{t吨} ‖}_{2}),

(4)

哪里 $ℓ (θ) = \sum_{k个 = 1}^{K（K）} ℓ_{k个} (θ), ℓ_{k个} (θ)$ 是从k个-第个数据集，以便 $ℓ_{k个} (θ) = (1 / n个) 日志 \int （f） (年_{k个} | {X（X）}_{k个}, α_{k个}; θ) ϕ (α_{k个}) d日 α_{k个}$ ,ρ₁(t吨)和ρ₂(t吨)是一些惩罚函数，以及λ₁和λ₂是正向调整参数。自(4)是一种基于似然的方法，我们可以允许响应 ${年_{k个}}_{k个 = 1}^{K（K）}$ 具有不同的类型。我们选择ρ₁(t吨)和ρ₂(t吨)作为满足条件8的一般折叠凹惩罚函数中的引理1补充材料此类功能的示例包括L（左）₁罚款，SCAD罚款(范和李，2001)和MCP罚款(张，2010). 处罚γ在中完成群体方式(袁和林，2006)也就是说，我们认为γ_t吨作为一个团体，对其进行处罚L（左）₂-规范。相应估计器的要素 ${\hat{γ}}_{t吨}$ 要么全部为零，要么全部为非零。如果 ${\hat{γ}}_{t吨} = 0$ ，相应变量的影响在研究中被认为是固定的。选择这些变量（即。 $秒_{2}$ )使我们能够确定哪些预测因子具有非零固定效应。我们假设会计对于研究层面的异质性将减少固定效应估计的偏差。

在大多数应用程序中，我们建议设置第页_n个=q个_n个并让算法确定哪些变量应视为固定变量影响。然而，如果我们知道一些变量可以根据先验知识被视为固定效应，我们只需要将处罚ρ₂其他变量。基于中的选择 $秒$ ，我们只使用具有非零固定效应的预测因子进行预测。

与pGLMMs的现有文献相比(邦德尔等人，2010年;Ibrahim等人，2011年)，我们的论文在以下方面是新的。首先，我们要处理一个更大的维度与现有文章进行比较。在我们的应用程序中，第页_n个和q个_n个两者都可以大于50，至少产生2¹⁰⁰可能的模型从中选择，而现有条款仅考虑第页_n个=7和q个_n个=3英寸Ibrahim等人（2011年）和第页_n个=q个_n个=16英寸邦德尔等人（2010）特别是，大值q个_n个增加了问题的计算复杂性，因为(4)涉及维的积分q个_n个。为了解决如此大规模的问题，一种新的算法是用于估算pGLMM。更多详细信息请参见第4节。此外，我们给出了一个高维渐近结果定理1允许两者第页_n个和q个_n个与…分开n个，而理论Ibrahim等人（2011年）要求第页_n个和q个_n个待修复。

接下来，我们介绍一种技术，以促进不同研究的数据集成。动机是，即使在不同的研究中，基因表达的原始值可能在不同的尺度上，它们的相对大小可以按等级保存。因此，我们建议在模型中使用一些等级衍生量作为预测因子(1)和(2)，而不是原始值。我们使用最高得分对（TSP）的变体方法(韭菜，2009;Patil等人，2015年;Afsari等人，2015年).

假设有G公司所有基因中的共同基因K（K）研究。我们列举G公司(G公司−1）/2个基因对(克_ki，s公司,克_基特)，其中克_ki，s公司是生的吗基因表达 $秒$ 针对受试者我在学习中k个和克_{ki公司,t吨}定义类似。对于每个基因对(克_ki，s公司,克_基特)，TSP是一个指示器我(克_ki，s公司, >克_基特)代表两个基因中哪一个在受试者中表达较高我。然后将这些二进制指标用作(1)和(2)换句话说，x个_ki公司包括G公司(G公司−1）/2个二进制变量。

我们将这样的二进制变量视为“生物开关”，它指示了成对基因是如何相对于一些临床结果。TSP最初是在二进制分类的背景下提出的(Afsari等人2014年). 我们发现，原始数据的这种表示方式对于综合分析也很有吸引力。首先TSP仅取决于样本中原始基因表达的等级。因此，它对原始值的单调变换是不变的。作为因此，它对数据预处理的各种规范化过程不太敏感。(阿夫萨里等人2014年;Patil等人，2015年;韭菜，2009).其次，它简化了不同研究的数据集成。原始基因表达值可能无法直接比较。之后将它们转换成二进制分数，不同研究的数据可以汇集在一起，而无需中间样本或交叉研究标准化。新患者的预测也简化了，因为将新患者数据标准化到训练集是不可能的需要更长的时间。

一般来说，我们希望在多项研究中选择与亚型关系一致的基因对。安理想的基因对是指一对基因中的一个基因在一个亚型中的表达高于另一个基因，在其他子类型，并在许多主题中复制此翻转。理想情况下，这对基因中的每个基因都应该有差异表达在亚型之间。由于技术偏见，这种理想的基因对不太可能被观察到，因为这种表达的翻转是特定于子类型，也可以跨多个主题复制。事实上，许多最近的出版物使用基于基因对的方法在验证数据集中显示出了较高的准确性和稳健性，反映了这一点(Afsari等人2015年;Shen等人，2017年;Afsari等人。，2014;韭菜，2009;Kagaris等人，2018年;Patil等人，2015年).

然而，在合并不同平台生成的基因对时需要注意，尤其是合并时微阵列数据与其他平台（如RNA-seq）的数据。对于微阵列，已知绝对表达的差异某些基因之间的差异可能与测量的前水平表达的差异无关。因此，将微阵列数据与其他平台可能会降低检测这种理想基因对的灵敏度。因此，我们的基因对方法更适用当数据来自相同或类似的平台时。最好使用更现代的表达平台（例如RNA-seq），以及校正GC含量和基因表达测量中其他偏差的技术(Patro等人，2017年)，因为这些方法可以提高测量值和真实表达之间的相关性基因。最后，我们的基因对方法基于这样一个事实，即基因也必须具有重叠的表达范围。这个在我们的真实数据应用候选基因集中通常观察到，但可能并不总是如此。当表达式范围这两个基因没有重叠，相应的TSP不会在患者的亚型上发生翻转，因此会对预测没有信息。

4.MCECM算法

由于观测到的可能性涉及到难以处理的积分，因此我们使用蒙特卡罗期望条件最小化用于求解的（MCECM）算法(4)(Garcia等人。，2010). 表示完整的观察数据以供研究k个通过d日_{k、 c（c）}= (年_k个,X（X）_k个,α_k个)和d日_{k、 o个}=(年_ki公司,x个_基)分别和整个完成和观察到的数据d日_c（c）和d日_哦,分别是。让λ= (λ₁,λ₂). 在秒-第次迭代，给定θ^(秒)，E步骤是评估受惩罚的Q函数，由提供

问_{λ} (θ | θ^{(秒)}) = \sum_{k个 = 1}^{K（K）} 电子 {- 日志 (（f） ({d日}_{k个, c（c）}; θ | {d日}_{哦}; θ^{(秒)}))} + λ_{1} \sum_{j个 = 1}^{{第页}_{n个}} ρ_{1} (β_{j个}) + λ_{2} \sum_{t吨 = 1}^{{q个}_{n个}} ρ_{2} ({‖ γ_{t吨} ‖}_{2})

(5)

= 问_{1} (θ | θ^{(秒)}) + λ_{1} \sum_{j个 = 1}^{{第页}_{n个}} ρ_{1} (β_{j个}) + λ_{2} \sum_{t吨 = 1}^{{q个}_{n个}} ρ_{2} ({‖ γ_{t吨} ‖}_{2}) + 问_{2} (θ^{(秒)}),

(6)

哪里d日_{k、 c（c）}, =(年_k个,X（X）_k个,α_k个),和

问_{1} (θ | θ^{(秒)}) = - \sum_{k个 = 1}^{K（K）} \int 日志 （f） (年_{k个} | {X（X）}_{k个}, α_{k个}; θ) ϕ (α_{k个} | {d日}_{哦, k个}; θ^{(秒)}) d日 α_{k个}, 问_{2} (θ^{(秒)}) = - \sum_{k个 = 1}^{K（K）} \int 日志 ϕ (α_{k个}) ϕ (α_{k个} | {d日}_{哦, k个}; θ^{(秒)}) d日 α_{k个} .

由于这些积分通常很难处理，我们通过以下马尔可夫链蒙特卡罗样本来近似这些积分大小L（左）从密度来看ϕ(α_k个|d日_{o、 k个};θ^(秒))使用中描述的协调式大都会算法McCulloch（1997）带标准法线候选人分布。这将为更大的q个_n个.让 $α_{k个}^{(秒, 我)}$ 成为我-th模拟值，用于我=1,…,L（左）,在秒-算法的第次迭代。中的积分(6)可以是近似为

问_{1} (θ | θ^{(秒)}) = - \frac{1}{L（左）} \sum_{我 = 1}^{L（左）} \sum_{k个 = 1}^{K（K）} 日志 （f） (年_{k个} | {X（X）}_{k个}, α_{k个}^{(秒, 我)}; θ), 问_{2} (θ^{(秒)}) = - \frac{1}{L（左）} \sum_{我 = 1}^{L（左）} \sum_{k个 = 1}^{K（K）} 日志 ϕ (α_{k个}^{(秒, 我)}) .

M步骤涉及最小化

问_{1, λ} (θ | θ^{(秒)}) = 问_{1} (θ | θ^{(秒)}) + λ_{1} \sum_{j个 = 1}^{{第页}_{n个}} ρ_{1} (β_{j个}) + λ_{2} \sum_{t吨 = 1}^{{q个}_{n个}} ρ_{2} ({‖ γ_{t吨} ‖}_{2})

关于θ=(β,γ,τ). 最小化问_1,λ(θ|θ^(秒))关于τ是简单明了，可以使用标准的优化算法来完成，例如Newton-Raphson算法(Rashid等人，2014年). 最小化问_1,λ关于β和γ通过坐标梯度下降完成算法，在更大的维度上实现更高效的性能。

特别地，我们使用了三个条件最小化步骤。在最小化之前，我们增加了通过“填充”缺失值的线性预测器α_k个具有 $α_{k个}^{(秒, 我)}$ ，重复原始矩阵的行L（左）时间和更换α_k个具有 $α_{k个}^{(秒, 我)}$ 在每个L（左）重复的行。这给我们留下了 $Z_{n个 K（K） L（左） \times q个 (q个 - 1) / 2} = {({\tilde{z（z）}}_{11}^{T型}, \dots, {\tilde{z（z）}}_{n个 K（K）}^{T型})}^{T型}$ ，其中 ${\tilde{z（z）}}_{k个我} = {(α_{k个} \otimes {z（z）}_{k个我})}^{T型} {J型}_{q个}$ 、和 $α_{k个} = ((α_{k个}^{(秒, 1)})^{T型}, \dots, (α_{k个}^{(秒, L（左）)})^{T型})^{T型}$ ，以及 ${X（X）}_{n个 K（K） L（左） \times {第页}_{n个}} = {({\tilde{x个}}_{11}^{T型}, \dots, {\tilde{x个}}_{n个 K（K）}^{T型})}^{T型}$ 匹配尺寸Z，其中 ${\tilde{x个}}_{k个我} = {x个}_{k个我} {J型}_{L（左） \times 1}$ 。我们首先将问_1,λ带着敬意到β鉴于γ^(秒)和τ^(秒)以获得β^(秒+1)使用坐标梯度下降法，类似于Breheny和Huang（2011）带预测矩阵X（X）和偏移Zγ^(秒)。然后我们最小化问_1,λ关于γ鉴于β^(秒+1)和τ^(秒)以获得γ^(秒+1)使用分块梯度下降算法(Breheny和Huang，2015年)带有X（X）β^(秒+1)用作补偿。因此对应估计器 ${\hat{γ}}_{t吨}$ 要么全部为零，要么全部为非零。如果 ${\hat{γ}}_{t吨} = 0$ ，的t吨-th预测值将被视为固定效应。通过将被处罚者分开估计β和γ变成两个条件极小化步骤，我们可以将变量选择过程简化为标准变量选择问题β和一个群变量选择问题γ.最后，我们最小化问_1,λ关于τ鉴于β^(秒+1)和γ^(秒+1)以获得τ^(秒+1)。使用Newton-Raphson进行最小化算法。

作为q个_n个尺寸增加γ也增加。我们使用近似处理协方差矩阵ΓΓ^T型作为一个对角矩阵。这种方法已被证明对高维混合模型是有利的(Fan和Li，2012年)，并且还导致更高的计算效率。这是因为累计大样本全协方差矩阵估计中的估计误差q个_n个可以大得多而不是使用对角协方差矩阵产生的偏差。

确保估计员θ具有良好的属性，惩罚参数λ必须进行适当选择。两个常见的标准是广义交叉验证和BIC(Wang等人，2007年). 然而，这些标准在现场不容易计算随机效应，因为它们是观测到的似然的函数，这涉及到棘手的积分。此外，它已经如所示Wang等人（2007）即使在简单的线性模型中，广义交叉验证标准可能导致严重的过拟合。相反，我们使用ICQ标准(Ibrahim等人，2011年)选择最佳λ通过最小化

我 C类 问 (λ) = 2 问 (θ_{λ} | θ_{0}) + {c（c）}_{N个} (θ_{λ})

哪里c（c）_N个(θ_λ) =暗淡(θ)×对数(N个),问(θ_λ|θ₀) =问₁(θ_λ|θ₀) =问₂(θ₀),θ₀是的估计量θ从完整模型，和θ_λ模型的估计值是否拟合有一个特别的λ和EM算法一样，我们可以从（f）(α_k个|d日_{k、 o个};θ₀)的k个=1,…,K（K）估计问(θ_λ|θ₀)对于任何λ在更高的维度中，我们为选择较小的值λ₁和λ₂近似θ₀。根据ICQ标准，我们对(λ₁,λ₂)以找到最佳值。

对于惩罚函数，我们考虑了两种情况下的MCP惩罚ρ₁(t吨)和ρ₂(t吨)，定义为ρ(t吨) =λt−t吨²/ (2ω)的t吨≤ωλ和ρ(t吨)=0（对于）t吨>ωλ。类似于Breheny和Huang（2011），我们选择ω= 3. 其他处罚，如SCAD和L（左）₁可以使用惩罚。鉴于MCP处罚在以前的出版物中表现良好，我们没有明确比较这两种处罚纸张。

5.理论

我们首先介绍一些符号。对于两个序列一_n个和b条_n个，我们写一_n个=哦(b条_n个)如果一_n个/b条_n个→ 0;一_n个≫b条_n个如果b条_n个=哦(一_n个);一_n个=O（运行）(b条_n个)如果一_n个≤哥伦比亚广播公司_n个对于某些正常数c（c）。对于第页-量纲向量一，让‖一∥_∞=最大值_{1≤j个≤第页}|一_j个|表示它的超级形式。让一_秒是的子向量一集合中包含索引 $秒$ 。对于第页×第页矩阵A类，让 $‖ A类 ‖_{\infty} = {最大值}_{1 \leq 我 \leq 第页} \sum_{j个 = 1}^{第页} | 一_{我 j个} |$ 表示矩阵超形式。表示 ${b条}_{n个} = ({最小值}_{1 \leq j个 \leq {第页}_{n个}} {| β_{j个}^{*} |} \land {最小值}_{1 \leq t吨 \leq {q个}_{n个}} {‖ γ_{t吨}^{*} ‖_{2}}) / 2$ .让λ_自然对数=最小值{λ₁,λ₂}和λ_联合国=最大值{λ₁,λ₂}. 为了简单起见，我们假设色散参数τ=1和ρ₁(t吨) =ρ₂(t吨) =ρ(t吨). 我们将惩罚函数的局部凹性定义为

κ (ρ, u个) = \underset{ε \to 0_{+}}{林} {最大值}_{1 \leq j个 \leq 秒_{n个}} \underset{{t吨}_{1} \leq {t吨}_{2} \in (| {u个}_{j个} | - ε, | {u个}_{j个} | + ε)}{啜饮} - \frac{ρ^{'} ({t吨}_{2}) - ρ^{'} ({t吨}_{1})}{{t吨}_{2} - {t吨}_{1}} .

我们定义了θ*作为 $N个 = {θ = {(β^{T型}, γ^{T型})}^{T型} : {‖ β_{秒_{1}} - β_{秒_{1}}^{*} ‖}_{\infty} \leq {c（c）}_{n个}, {‖ γ_{秒_{2}} - γ_{秒_{2}}^{*} ‖}_{\infty} \leq {c（c）}_{n个}, β_{秒_{1}^{c（c）}} = 0, 和 γ_{秒_{2}^{c（c）}} = 0}$ ，其中c（c）_n个=中国^−δ对一些人来说c（c）> 0, $0 < δ < 1 / 2, 秒_{1}^{c（c）} = {1, \dots, {第页}_{n个}} \ 秒_{1}$ 、和 $秒_{2}^{c（c）} = {1, \dots, {q个}_{n个} (1 + {q个}_{n个}) / 2} \ 秒_{2}$ .

主要结果如下定理1意味着估计器θ渐近恢复 $秒$ 并给出了一致一致的估计 $θ_{秒}^{*}$ .

定理1

假设条件（C1）-（C8）如 补充材料 保持。如果 $λ_{u个 n个} ρ^{'} ({b条}_{n个}) = (哦 ({n个}^{- δ}), λ_{我 n个} ≫ {n个}^{ξ} (秒_{n个}^{三 / 2} {b条}_{n个} / \sqrt{n个} + \sqrt{(日志 {d日}_{n个}) / n个} + 秒_{n个} {n个}^{- 2 δ})$ 对于0 <ξ< 1/2和λ_联合国κ_0n个=哦(τ_0n个),哪里 $κ_{0 n个} = \underset{u个 \in {N个}_{0}}{啜饮} κ (ρ, u个)$ , ${N个}_{0} = {θ_{秒} \in {R（右）}^{秒_{n个}} : {‖ θ_{秒} - θ_{秒}^{*} ‖}_{\infty} \leq {c（c）}_{n个}}$ ,和 $τ_{0 n个} = {最小值}_{θ \in N个} λ_{最小值} (\nabla_{θ_{秒}}^{2} ℓ (θ))$ ,存在一个足够大的正常数C，使得概率更大比 $1 - K（K）秒_{n个} {n个}^{- C类} - K（K） ({d日}_{n个} - 秒_{n个}) {d日}_{n个}^{- C类}$ ,它认为

${j个 : {\hat{θ}}_{j个} \neq 0} = {j个 : θ_{j个}^{*} \neq 0}$ .
${‖ θ_{秒} - θ_{秒}^{*} ‖}_{\infty} = O（运行） ({n个}^{- δ})$ ,哪里0 <δ< 1/2.

收敛速度δ在语句（b）中取决于最小信号b条_n个，维度d日_n个，的稀疏性测量秒_n个和惩罚函数ρ(·).一般来说，越大b条_n个是且较小d日_n个和秒_n个是，越快θ聚合。最佳速率可以接近根-n个费率。

在定理1，选择合适的调谐参数是可行的λ₁和λ₂以满足所有要求。例如，如果这个L（左）₁使用惩罚，我们假设b条_n个被包围了从0开始，我们只需要选择λ₁和λ₂这样的话λ_联合国=哦(n个^−δ)对于一些0<δ<1/2和 $λ_{我 n个} ≫ 秒_{n个}^{三 / 2} / \sqrt{n个} + \sqrt{(日志 {d日}_{n个}) / n个}$ .只要 $秒_{n个} = 哦 (\sqrt{n个})$ 和日志(d日_n个) =哦(n个)，存在一个可行区域λ₁和λ₂。在实践中，我们调整最佳λ₁和λ₂使用中所述的方法第4节.

6.模拟研究

6.1. Oracle设置

我们首先检查与结果相关的变量已知的oracle设置先验的.我们与一些常用策略相比，证明了我们的方法的性能，这些策略用于从多个变量中估计变量效应数据集。第一种策略是传统的逐项研究分析方法，其中变量效应是单独估计的在每个单独的研究中。第二种策略是将所有研究的样本合并到一个数据集，然后估计单一模型中的可变效应。我们将第三种策略定义为应用于合并数据的GLMM，假设在固定和随机效应。为了模拟外部验证过程，我们利用每个策略的拟合模型在外部模拟的数据集中预测结果。计算每个策略的平均绝对预测误差，为然后在模拟中求平均值。我们根据估计系数的偏差评估每个策略的性能，如下所示以及外部验证下的预测精度。稍后我们将检查类似情况下的变量选择性能相关变量集未知的条件先验的.

具体来说，我们从随机效应逻辑回归模型中生成代表癌症亚型的二进制响应有两个预报器和一个截距。一系列样本量、研究数量、变量影响的大小和水平研究之间的异质性有待检验。用于研究k个，我们生成二进制响应年_ki公司,我=1,…,n个_k个这样的话年_ki公司~成为(第页_ki公司)其中 ${第页}_{k个我} = P（P） (年_{k个我} = 1 | {x个}_{k个我}, {z（z）}_{k个我}, α_{k个}, β^{*}) = 经验 ({x个}_{k个我}^{T型} β^{*} + {z（z）}_{k个我}^{T型} α_{k个}) / {1 + 经验 ({x个}_{k个我}^{T型} β^{*} + {z（z）}_{k个我}^{T型} α_{k个})}$ 、和α_k个~N个_三(0,σ²我)，其中σ²控制研究异质性。为了模拟不平衡的样本大小，我们分配N个/需要研究的3个样本k个=1并均匀分配剩余的2N个/ 3剩余研究的样本。我们为N个= 100, 500,K（K）= 2,5,10,σ²= 0.5,1,2, $β^{*} = {(β_{0}^{*}, β_{1}^{*}, β_{2}^{*})}^{T型} = {(0, 1, 1)}^{T型}$ 中度预测效果，以及β*=(0,2,2)^T型具有较强的预测效果。对于每个k个，我们表示向量与受试者相关的预测因子我作为x个_ki公司=(1,x个_ki公司,1,x个_ki公司,2)^T型,我们假设x个_ki，j~N个(0,1),j个= 1,2. 我们通过设置，还假设每个预测器的随机截距和随机斜率z（z）_ki公司=x个_ki公司。100个样本的外部验证集是在相同的条件下生成的条件作为要生成的训练集年_新的,我和x个_新的，我.

对于第一种策略（IND），我们对每个K（K）数据集和计算 ${\hat{第页}}_{n个 e（电子） w个, 我}$ ，预测的概率年_新的，我=1，使用x个_新的，我以及每个模型的估计系数。对于第二种策略（GLM），我们将logistic回归模型应用于合并的数据集，以获得 ${\hat{第页}}_{n个 e（电子） w个, 我}$ 对于我们的方法（GLMM），我们将随机效应逻辑回归模型应用于合并数据集假设每个预测器有一个随机斜率，以获得估计的固定效应系数。这里，只有估计的固定效应系数用于获得 ${\hat{第页}}_{n个 e（电子） w个, 我}$ 在所有上述回归模型中，我们假设我们已知相关预测因子，并且只在模型中使用它们。每个策略的中值绝对预测误差计算为 $P（P） {电子}_{米 e（电子） d日} = 中值的 (| 年_{n个 e（电子） w个, 我} - {\hat{第页}}_{n个 e（电子） w个, 我} |)$ ，其中我在验证集中有所不同。对于第一种策略，体育课_医学平均值为K（K）研究。

我们首先在中演示了单个模拟的结果图1。在这种情况下，我们模拟了总共500个样本的五项研究，假设变量效应适中，研究间异质性高，即。，我们选择N个= 500,K（K）= 5,β* =(0,1,1)^T型,σ²= 2. 将第一个策略应用于数据说明了估计系数的显著研究间差异(图1,左侧面板）。模拟外部验证中的研究级绝对预测误差也观察到这种变化套(图1，右侧面板）。在这种情况下，研究人员使用研究3估计每个预测值和响应之间有很强的相关性，并且可以进一步得出结论，他们的模型在验证集。然而，使用研究1的研究人员可能会得出不同的结论，因为研究间变量的异质性影响。与第一种策略相比，在第二种策略中合并数据会导致较小的预测误差。这个观察结果与先前的发现一致，表明结合数据可以更好地进行估计和预测(Waldron等人，2014年). 然而，考虑到异质性，中位数进一步提高绝对预测误差。

保存图片、插图等的外部文件。对象名为nihms-1540952-f0001.jpg

在单独的窗口中打开

图1

单个仿真策略1-3的估计和预测(N个= 500,K（K）= 5, $β_{0}^{*} = 0$ , $β_{1}^{*} = β_{2}^{*} = 1$ ,σ²=2）在oracle设置下。（a）估计系数在五个模拟训练数据集中的每一个。（b）模拟外部验证集中预测误差的箱线图。彩色箱线图与逐项研究分析给出的预测相对应。

我们的完整仿真结果显示在表2和和3，三在这里，我们平均每个条件的100个模拟结果。从中可以明显看出几个趋势结果，反映了我们的插图图1首先，组合来自多个研究结果降低了中值绝对预测误差 $(P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M） M（M）}, P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M）})$ 与个别研究训练的模型进行比较 $(P（P） {电子}_{米 e（电子） d日}^{我 N个 D类})$ ; 看见表2我们还发现，相对预测当模拟非均质性时，GLMM的准确性提高更多σ²和数量研究K（K）增加。这是因为当σ²和K（K）增加。此外，随着预测效果的强度增加(表3). 最后，估计值的偏差GLMM的系数随着K（K）和N个增加，因为有更多的数据可供估计β和Γ总之，在策略二和策略三中组合数据集通过我们的方法提高了预测准确性，并解释了研究之间的异质性，进一步改进了性能。

表2

具有中等变量效应的预言机环境下的估计和预测 $β^{*} = {(β_{0}^{*}, β_{1}^{*}, β_{2}^{*})}^{T型} = {(0, 1, 1)}^{T型}$ .

N个	K（K）	σ²	${\hat{β}}_{1}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{1}^{G公司 L（左） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{我 N个 D类}$
100	2	0.5	1.03	1.06	0.90	1.03	0.33	0.34	0.39
		1	1.11	1.06	0.84	0.81	0.38	0.40	0.43
		2	1.01	0.97	0.76	0.49	0.42	0.43	0.46
	5	0.5	1.14	1.15	0.95	0.93	0.34	0.35	0.39
		1	1.12	0.98	0.77	0.74	0.40	0.42	0.43
		2	1.22	1.06	0.53	0.49	0.45	0.47	0.48
	10	0.5	1.15	1.20	0.93	0.96	0.33	0.35	0.39
		1	1.07	1.01	0.73	0.67	0.38	0.41	0.43
		2	1.02	0.87	0.40	0.40	0.43	0.47	0.47
500	2	0.5	1.05	1	1.01	0.95	0.35	0.36	0.39
		1	0.93	1.03	0.82	0.79	0.39	0.42	0.43
		2	0.90	0.79	0.63	0.55	0.44	0.46	0.47
	5	0.5	0.99	1.04	0.89	0.90	0.33	0.36	0.41
		1	0.99	0.93	0.73	0.63	0.36	0.41	0.44
		2	0.94	0.92	0.41	0.40	0.42	0.47	0.48
	10	0.5	0.99	1.04	0.90	0.94	0.34	0.36	0.39
		1	1.09	0.99	0.77	0.69	0.37	0.40	0.42
		2	0.94	0.97	0.49	0.47	0.43	0.47	0.47

在单独的窗口中打开

表3

具有强变量效应的预言机环境下的估计和预测 $β^{*} = {(β_{0}^{*}, β_{1}^{*}, β_{2}^{*})}^{T型} = {(0, 2, 2)}^{T型}$ .

N个	K（K）	σ²	${\hat{β}}_{1}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{1}^{G公司 L（左） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{我 N个 D类}$
100	2	0.5	2.11	2.09	1.96	1.88	0.14	0.16	0.26
		1	2.22	2.11	1.72	1.65	0.16	0.21	0.30
		2	1.79	2.30	1.08	1.28	0.30	0.35	0.41
	5	0.5	2.18	2.31	1.89	1.98	0.16	0.17	0.26
		1	2.12	2.21	1.52	1.47	0.19	0.22	0.31
		2	1.91	1.92	0.85	0.85	0.27	0.32	0.38
	10	0.5	2.25	2.31	1.88	1.86	0.13	0.17	0.26
		1	2.07	2.26	1.39	1.51	0.17	0.24	0.32
		2	2.26	2.12	0.98	0.77	0.28	0.38	0.40
500	2	0.5	2.04	1.98	1.97	1.93	0.15	0.17	0.26
		1	1.93	1.95	1.66	1.60	0.20	0.26	0.32
		2	2.10	1.96	1.54	1.18	0.26	0.36	0.39
	5	0.5	2.09	2	1.92	1.85	0.12	0.16	0.29
		1	2.02	1.89	1.54	1.44	0.18	0.25	0.36
		2	1.88	1.89	0.89	0.87	0.25	0.36	0.41
	10	0.5	2.01	1.98	1.85	1.85	0.15	0.17	0.26
		1	1.93	1.91	1.41	1.40	0.18	0.25	0.31
		2	1.81	1.83	0.88	0.90	0.27	0.36	0.40

在单独的窗口中打开

这些观察结果表明，即使在相关预测因素已知的预言环境中，研究之间的会计关系异质性在模型估计和预测中具有重要影响。我们假设在模拟中，训练和验证集是从相同的总体中生成的。我们的研究表明，即使没有其他复杂因素异质性仍然会影响常用方法（如策略一和策略二）的准确性和可复制性。当我们在我们的模拟中使用正态分布预测因子，研究间异质性的影响通常适用于来自任何分布的变量。在下一节中，我们将说明异质性在变量中带来了额外的问题重要变量未知时的选择。

6.2. 无障碍设置

我们再次假设只有两个变量与结果相关，但现在未知先验的.我们的目标从一组第页变量并利用它们预测外部数据集中的结果。在我们的模拟中，我们假设剩余的第页–所有研究中有2个变量为零。我们以与上一节相同的方式模拟数据，但我们现在生成x个_基，j~N个(0,1),j个=1,…第页。我们假设x个_ki公司=z（z）_ki公司.我们认为第页＝10或50，N个=500，以及K（K）=5或10。这些场景的模拟结果如所示桌子4和和55.

表4

具有中等变量效应的非预言设置下的变量选择、估计和预测 $β^{*} = {(β_{0}^{*}, β_{1}^{*}, β_{2}^{*})}^{T型} = {(0, 1, 1)}^{T型}$ .

N个	第页	K（K）	σ²	${\hat{β}}_{1}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{1}^{G公司 L（左） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M）}$	TP（转移定价）^GLMM公司	FP公司^GLMM公司	TP（转移定价）^GLM公司	FP公司^GLM公司	TP（转移定价）^印度	FP公司^印度	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{我 N个 D类}$
500	10	5	1	0.96	1.05	0.63	0.68	1.80	0.14	1.75	0.34	0.54	1.40	0.39	0.42	0.44
			2	1.16	1.33	0.60	0.57	1.44	0.15	1.34	0.27	0.49	1.40	0.45	0.48	0.48
		10	1	0.99	0.89	0.67	0.67	1.96	0.14	1.81	0.39	0.16	1.10	0.37	0.42	0.45
			2	1.11	1.20	0.39	0.57	1.71	0.13	1.53	0.26	0.11	1.20	0.45	0.47	0.49
500	50	5	1	1.18	1.15	0.45	0.47	1.82	0.57	1.61	0.61	0.2	0.3	0.36	0.44	0.42
			2	1.12	1.18	0.55	0.44	1.47	0.91	1.12	0.42	0.23	1.4	0.36	0.43	0.44
		10	1	1.18	1.14	0.48	0.48	1.86	0.72	1.38	0.92	0.15	1.3	0.31	0.42	0.42
			2	1.23	1.38	0.55	0.53	1.51	1.08	1.23	0.4	0.13	1.3	0.36	0.41	0.43

在单独的窗口中打开

表5

非预言环境下变量的选择、估计和预测 $β^{*} = {(β_{0}^{*}, β_{1}^{*}, β_{2}^{*})}^{T型} = {(0, 2, 2)}^{T型}$ .

N个	第页	K（K）	σ²	${\hat{β}}_{1}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M） M（M）}$	${\hat{β}}_{1}^{G公司 L（左） M（M）}$	${\hat{β}}_{2}^{G公司 L（左） M（M）}$	TP（转移定价）^GLMM公司	FP公司^GLMM公司	TP（转移定价）^GLM公司	FP公司^GLM公司	TP（转移定价）^印度	FP公司^印度	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{G公司 L（左） M（M）}$	$P（P） {电子}_{米 e（电子） d日}^{我 N个 D类}$
500	10	5	1	1.94	1.93	1.48	1.45	2	0.07	2	0.11	0.40	2	0.19	0.25	0.33
			2	2	2.16	1.08	1.07	1.88	0.08	1.78	0.15	0.34	2	0.24	0.35	0.39
		10	1	1.90	1.90	1.42	1.36	2	0.08	2	0.10	0.34	0.80	0.18	0.25	0.39
			2	1.83	2	0.95	0.94	1.97	0.11	1.80	0.23	0.22	0.90	0.28	0.39	0.44
500	50	5	1	2.19	2.04	1.48	1.53	2	0.84	1.58	1.62	0	0	0.18	0.3	0.37
			2	2.13	1.93	1.16	0.87	1.94	2.4	1.45	1.28	0.18	1.8	0.27	0.41	0.42
		10	1	2.09	2.16	1.46	1.49	2	1.36	1.28	2.84	0.3	0.2	0.16	0.34	0.4
			2	2.27	2.32	0.83	0.89	1.97	1.75	1.25	2.71	0.11	1.3	0.23	0.43	0.43

在单独的窗口中打开

我们研究了三种选择和估计相关变量影响的策略。对于第一个策略（IND），我们在每项研究中分别应用惩罚逻辑回归模型来选择相关变量。对于第二个策略（GLM），我们合并所有研究的样本，然后应用惩罚逻辑回归选择相关变量。最后，我们将我们的方法（GLMM）应用于合并的数据集。BIC用于为第一个两种方法。该方法的最优调谐参数是通过基于ICQ的网格搜索获得的。在所有方法中，我们选择MCP惩罚。评估变量选择性能的两个指标如下所示表4和和5。5.我们表示TP（转移定价）作为真正的积极因素，即具有真正非零效应的正确选择变量的数量；和FP公司作为误报，即具有真正零效应的错误选择变量的数量。

在低维设置中第页=10，当异质性较高时，我们的方法最为有利变量的影响适中(表4). 一般来说，策略二选择与我们的方法相比，真阳性更少，假阳性更多。我们还发现，第一种策略产生的结果最少真阳性和假阳性最多。当σ²和K（K）增加。这是因为当K（K）增加，以及在更大范围内产生较小模拟效果的机会更大σ²。与前一个类似第节，我们观察到前两种策略在估计方面的表现比我们的方法差。这些结果也适用于高维设置第页= 50. 在这种情况下FP公司^GLMM公司是略高于FP公司^GLM公司在某些设置中。但GLMM具有更好的灵敏度在选择真阳性和预测性能方面。

总的来说，我们发现与逐项研究分析相比，合并数据集可以改进变量选择。我们还发现，在我们的方法中考虑异质性可以进一步改进变量选择，减少偏差，并减少预测误差。在相关变量未知的非预言机环境中，预测误差通常较大比甲骨文案件中的那些人更重要。这是由于变量选择的不确定性以及惩罚。

7.通过水平数据集成改进胰腺癌临床亚型预测

使用我们描述的数据集成方法，我们将四种方法应用于中描述的四个数据集表1预测新胰腺癌患者的“类基础”亚型。我们将展示在存在研究间异质性的情况下，我们的方法相对于其他方法产生了更好的预测。

为了生成预测因子，我们首先使用302个被认为是肿瘤特异性的基因Moffitt等人（2015）并出现在所有四项研究中。然后，我们应用中描述的秩变换第2节在每个数据集中，基于这些常见基因枚举所有可能的45451个TSP。为了减少维度，我们通过对每个TSP应用单变量随机效应逻辑回归模型，进一步筛选这些TSP，假设一个随机斜率和一个随机截距。我们根据TSP的边际可能性将其从最大到最小排序相应的随机效应logistic回归模型。然后，类似于Afsari等人（2015）,我们保持TSP具有较大的边际似然，并删除与排名较高的TSP共享一个基因的TSP。这会降低潜力共享相同基因的TSP之间的强相关性(补充图1).筛选后，仍有95个TSP，其中我们选择前50个TSP作为回归模型中的协变量。我们的目标是确定50个TSP中用于预测的最佳子集。这导致总共2个⁵⁰可能的固定效应模型和2¹⁰⁰可能的随机效应模型。

在图2，我们代表了四项研究中每个样本的前50名TSP。黄色的细胞表明TSP中的第一个基因的表达高于第二个基因，而红色的则相反。它是很明显，某些TSP与研究中的亚型存在可变关联，即低可复制性。我们的目标是选择研究中始终与亚型相关的TSP，同时解释了研究间的异质性。

保存图片、插图等的外部文件。对象名称为nihms-1540952-f0002.jpg

在单独的窗口中打开

图2

所有研究中筛选的TSP矩阵。TSP在每行中标记为“A_B”，其中“A”表示基因A的名称，“B”表示TSP中基因B的名称。列表示样本。黄色单元格在一列中表示基因a的表达大于基因B的表达，而红细胞则表示相反。这个顶部轨道（红色、绿色、青色和紫色）表示研究成员身份。第二个轨迹指示患者子类型（蓝色表示基色和橙色代表经典）。TSP值在不同研究中差异很大，其中一些研究在一项研究中的基本亚型和经典亚型，但其他研究中没有。

我们比较了四种方法。对于第一种方法，我们将惩罚逻辑回归模型（pGLM）应用于每个数据集。对于第二种方法，我们合并所有数据集并运行惩罚logistic回归模型（pGLMC）。对于第三种方法，我们运行惩罚logistic回归模型对组合数据的随机影响（pGLMMC）。最后，我们运行Meta-Lasso方法(Li等人，2014年)在合并数据上。对于每个主题，我们假设响应年_ki公司=1，如果受试者为基础类亚型，否则为0。向量x个_ki公司是筛选TSP的矢量，如所示图2前三种方法的计算细节与模拟研究中描述的相同。对于Meta-Lasso方法，将多个研究中与同一TSP相关的系数视为一组和复合组对每组进行处罚，如下所示Li等人（2014），选择关键TSP。TSP公司Meta-Lasso选择的是在至少一项研究中具有非零估计系数的研究。最佳调整Meta-Lasso中的参数由中所述的BIC方法确定Li等人（2014）.

通过四种方法选择的TSP如所示图3。对于pGLM，在不同的研究中选择了非常不同的TSP。我们发现pGLM反复选择的TSP也更多可能由pGLMC选择。我们的方法产生了比pGLMC更大的估计系数，特别是对于那些选择的TSP通过两种方法(图4). 这与我们的模拟研究结果相类似pGLMC给出的系数在存在异质性时存在偏差。此外，Meta-Lasso选择了非常不同的TSP导致可复制性差。

保存图片、插图等的外部文件。对象名为nihms-1540952-f0003.jpg

四种方法给出的估计系数。

由pGLMC和pGLMMC给出的估计系数。红色圆圈表示具有非零随机效应的变量由pGLMMC估计。较大的红点表示研究间方差估计值较大。

接下来，我们评估了这四种方法的子类型预测性能。对于每种方法，我们都保留一个数据集并进行训练使用剩余研究的模型。我们利用该程序模拟外部验证过程。对于pGLM使用选定的TSP将普通逻辑回归模型拟合到每个训练研究中图三三个预测概率的平均值分配给坚持研究中的受试者。他们的绝对然后计算并汇总每个坚持研究的预测误差。Meta-Lasso给出的预测是类似的使用自己选择的变量。对于pGLMC和pGLMMC，通过结合三种训练来拟合单个逻辑模型数据集和使用自己选择的TSP。然后通过这种组合模型给出预测概率。

图5显示了每项研究中四种方法给出的预测误差。从它的左上方的面板中，我们看到pGLM和Meta-Lasso的整体性能比pGLMC和pGLMMC差得多。这些观察结果反映了pGLM和Meta-Lasso预测的低可复制性，因为pGLM没有借用强度跨数据集和Meta-Lasso是一种主要关注变量选择的方法。与我们的模拟研究类似，我们建议尽管pGLMMC方法在TCGA膀胱癌数据集上的预测误差变化大于pGLMC。然而，它的中值预测误差仍然是本研究中最好的。此外，如所示图6，我们的方法在分类为大多数预测概率方面比其他方法更有信心<10%或>90%。总之，组合数据集可以显著提高预测精度。通过采取考虑到异质性，我们的方法在所有竞争对手中表现最好。

保存图片、插图等的外部文件。对象名为nihms-1540952-f0005.jpg

四种方法给出的坚持性研究的预测误差。

四种方法给出的类基底亚型的预测概率。

在补充材料，我们提供了另一种筛选方法该方法将呈现更多TSP并在其中重复我们的分析。我们的方法的预测性能仍然比pGLM和Meta Lasso，尽管它只比pGLMC略胜一筹(补充图6). 这是因为新筛选方法给出的研究间异质性很大小于本节所示的尺寸。最后，我们还仅在微阵列数据上训练我们的方法，并预测RNA-seq数据，反之亦然。预测性能没有显著变化(补充图8).

8.讨论

在这篇文章中，我们介绍了一种新的方法来解释基因特征选择和临床预测。我们通过模拟证明，忽略现有研究间异质性的方法具有更低的效率与我们的方法相比，预测精度高，偏差大，变量选择性能差。逐个研究的常见方法分析表明，与综合方法相比，该方法的性能最差。最后，我们以胰腺癌为例进行了研究我们的方法提高了预测的准确性和可复制性，通过基于等级的数据集成提供了便利原始基因表达数据的转换。

这些结果具有一些重要影响。人们经常观察到，基因特征来自个体研究表现出低重复性，即使它们与类似的临床结果有关。我们的模拟结果清楚地表明这部分是由于不同研究之间的异质性，即个体研究中的样本量较小。我们还展示了随着个体研究样本量的减少，选择灵敏度和预测性能也会下降。当基因效应的研究间异质性增加时，选择敏感性也会降低。另一方面，将来自多个研究的数据结合起来，通过借用研究之间的力量来提高变量选择和预测性能。然而，如果不考虑研究间的异质性，朴素组合的表现仍然不如我们提出的方法。在缺乏研究间异质性的情况下，随机效应模型简化为固定效应模型，因此我们将期待类似的表现。这可以在补充材料我们的模拟和案例研究结果清楚地显示了相同变量的影响可能会如何变化研究之间的显著差异，以及这种差异如何影响预测。这解释了在公布的基因签名。

最后，我们想说明的是，TSP转换是实现数据集成的一种可能方法，并且转换的选择与我们提出的惩罚GLMM模型相切。此外，数据的集成来自多个平台的数据应该小心，特别是当将微阵列数据与来自其他平台的数据合并时。最后，我们的模型旨在选择TSP而不是单个基因。TSP转换的成功依赖于以下假设：基因表达具有重叠范围。因此，正如一位评论家所指出的那样，可能有一些基因我们的方法不会选择亚型之间的差异表达。

补充材料

补充1

单击此处查看。^{（178M，拉链）}

工具书类

Afsari B、Braga-Neto-UM和Geman D（2014）。从RNA表达预测表型的秩判别法.应用统计学年鉴 8, 1469–1491.[谷歌学者]
Afsari B、Fertig EJ、Geman D和Marchionni L（2015）。SwitchBox:K对分类器的R包发展.生物信息学 31, 273–274.[PMC免费文章][公共医学][谷歌学者]
Bondell HD、Krishna A和Ghosh SK（2010年）。线性混合效应中固定效应和随机效应的联合变量选择模型.生物计量学 66, 1069–1077.[PMC免费文章][公共医学][谷歌学者]
Breheny P和Huang J（2011）。非凸惩罚回归的坐标下降算法及其应用生物特征选择.应用统计学年鉴 5, 232–253.[PMC免费文章][公共医学][谷歌学者]
Breheny P和Huang J（2015）。非凸惩罚线性和logistic回归模型的群下降算法具有分组预测值.统计与计算 25, 173–187.[PMC免费文章][公共医学][谷歌学者]
Chen Z和Dunson DB（2003）。线性混合模型中的随机效应选择.生物计量学 59, 762–769. [公共医学][谷歌学者]
Chibon F（2013）。癌症基因表达特征——兴衰？欧洲癌症杂志 49, 2000–2009. [公共医学][谷歌学者]
Fan J和Li R（2001）。基于非冲突惩罚似然的变量选择及其预言特性.美国统计协会杂志 96, 1348–1360.[谷歌学者]
Fan Y和Li R（2012）。线性混合效应模型中的变量选择.的年鉴统计 40, 2043–2068.[PMC免费文章][公共医学][谷歌学者]
Garcia RI、Ibrahim JG和Zhu H（2010）。缺失数据回归模型的变量选择.中国统计局 20, 149–165.[PMC免费文章][公共医学][谷歌学者]
Glas AM、Floore A、Delahaye LJ、Witteveen AT、Pover RC、Bakx N、Lahti-Domenici JS、Bruinsma TJ、Warmoes MO和Bernards R（2006）。将乳腺癌微阵列特征转换为高通量诊断测试.BMC基因组学 7, 278.[PMC免费文章][公共医学][谷歌学者]
Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR和Caligiuri MA（1999）。癌症的分子分类：分类发现和基因分类预测表情监测.科学类 286, 531–537. [公共医学][谷歌学者]
Ibrahim JG、Zhu H、Garcia RI和Guo R（2011年）。混合效应模型中的固定效应和随机效应选择.生物计量学 67, 495–503.[PMC免费文章][公共医学][谷歌学者]
Kagaris D、Khamesipour A和Yiannoutsos CT（2018年）。AUCTSP：一种改进的生物标志物基因对类预测因子.BMC公司生物信息学 19, 244.[PMC免费文章][公共医学][谷歌学者]
Leek JT（2009）。在R中查找顶级得分对分类器的tspair包.生物信息学 25, 1203–1204.[PMC免费文章][公共医学][谷歌学者]
李杰、曾国荣等（2011）。一种检测差异基因表达的自适应加权统计量合并多个转录组学研究时.应用统计学年鉴 5, 994–1019.[谷歌学者]
Li Q，Wang S，Huang C-C，Yu M和Shao J（2014）。基于Meta分析的基因表达数据变量选择.生物计量学 70, 872–880. [公共医学][谷歌学者]
Lusa L、McShane LM、Reid JF、De Cecco L、Ambrogi F、Biganzoli E、Gariboldi M和Pierotti MA（2007年）。跨基因表达预测聚类结果的挑战——剖析数据集.国家癌症研究所杂志 99, 1715–1723. [公共医学][谷歌学者]
McCall MN、Bolstad BM和Irizarry RA（2010年）。冻结稳健多阵列分析（frma）.生物统计学 11, 242–253.[PMC免费文章][公共医学][谷歌学者]
McCulloch CE（1997）。广义线性混合模型的极大似然算法.美国统计协会杂志 92, 162–170.[谷歌学者]
Moffitt RA、Marayati R、Flate EL、Volmar KE、Loeza SGH、Hoadley KA、Rashid NU、Williams LA、Eaton SC和Chung AH（2015）。虚拟显微切割确定了不同的肿瘤和间质特异性亚型胰腺导管腺癌.自然遗传学 47, 1168–1178.[PMC免费文章][公共医学][谷歌学者]
Paquet ER和Hallett MT（2015年）。乳腺癌固有分子亚型的绝对归属.国家癌症研究所杂志 107, 357. [公共医学][谷歌学者]
Patil P、Bachant-Winner P-O、Haibe-Kains B和Leek JT（2015）。测试集偏差影响基因签名的再现性.生物信息学 31, 2318–2323.[PMC免费文章][公共医学][谷歌学者]
Patro R、Duggal G、Love MI、Irizarry RA和Kingsford C（2017年）。Salmon提供快速且有偏差的转录物量化表达.自然方法 14, 417–419.[PMC免费文章][公共医学][谷歌学者]
Rashid N、Sun W和Ibrahim JG（2014年）。dae-seq数据分析的一些统计策略：变量选择和建模观测值之间的相关性.美国统计协会杂志 109, 78–94.[PMC免费文章][公共医学][谷歌学者]
Richardson S、Tseng GC和Sun W（2016年）。综合基因组学中的统计方法.年度审查统计学及其应用三, 181–209.[PMC免费文章][公共医学][谷歌学者]
Shen R、Luo L和Jiang H（2017）。基于惩罚回归的基因对识别约束.BMC生物信息学 18, 466.[PMC免费文章][公共医学][谷歌学者]
Sotiriou C和Piccart MJ（2007年）。将基因表达谱带到临床：分子特征何时会成为与患者护理相关？《自然》杂志评论癌症 7, 545–553. [公共医学][谷歌学者]
Swisher EM、Taniguchi T和Karlan BY（2012年）。预测卵巢癌预后的分子评分：一个有价值的目标，但尚未准备好黄金时段.国家癌症研究所杂志 104, 642–645.[PMC免费文章][公共医学][谷歌学者]
Trannell C、Williams BA、Pertea G、Mortazavi A、Kwan G、Van Baren MJ、Salzberg SL、Wold BJ和Pachter L（2010年）。通过rna-seq对转录物进行组装和量化，可以发现未标记的转录物和细胞分化过程中的异构体转换.自然生物技术 28, 511–515.[PMC免费文章][公共医学][谷歌学者]
Waldron L、Haibe Kains B、Culhane AC、Riester M、Ding J、Wang XV、Ahmadifar M、Tyekucheva S、Bernau C和Risch T（2014）。晚期卵巢预后基因特征的比较meta分析癌症.国家癌症研究所杂志 106, 49.[PMC免费文章][公共医学][谷歌学者]
Wang H、Li R和Tsai C-L（2007年）。平滑剪裁绝对偏差的调整参数选择器方法.生物特征 94, 553–568.[PMC免费文章][公共医学][谷歌学者]
Weinstein JN、Collisson EA、Mills GB、Shaw KRM、Ozenberger BA、Ellrott K、Shmulevich I、Sander C、Stuart JM、Network、C.G.A.R.等（2013）。癌症基因组图谱分析项目.自然遗传学 45, 1113–1120.[PMC免费文章][公共医学][谷歌学者]
袁明、林毅（2006）。分组变量回归中的模型选择与估计.英国皇家统计学会杂志：B辑 68, 49–67.[谷歌学者]
张C-H（2010）。极小极大凹惩罚下的几乎无偏变量选择.统计年鉴 38, 894–942.[谷歌学者]