Regularized gene selection in cancer microarray meta-analysis

Ma, Shuangge; Huang, Jian

doi:10.1186/1471-2105-10-1

方法论文章
开放式访问
发布时间：2009年1月1日

癌症微阵列meta分析中的规则化基因选择

双鸽马¹&
黄健²

BMC生物信息学 体积 10，物品编号：1(2009)引用这篇文章

7926访问
125引文
韵律学详细信息

摘要

背景

在癌症研究中，通常进行多个微阵列实验来测量相同的临床结果和同一组基因的表达。这类实验的一个重要目标是确定一组可能作为癌症发展和进展预测标志物的基因。由于样本量小，对单个实验的分析可能导致不可靠的基因选择结果。Meta分析可用于汇集多个实验，提高统计能力，实现更可靠的基因选择。由于基因表达的高维性以及不同实验之间实验环境的差异，癌症微阵列数据的元分析具有挑战性。

结果

我们提出了一种用于癌症微阵列数据元分析中基因选择的元阈值梯度下降正则化（MTGDR）方法。与现有方法相比，中期发展报告具有许多优势。它允许不同的实验有不同的实验设置。它可以解释多个基因对癌症的联合作用，并且可以在多个实验中选择同一组癌症相关基因。多个胰腺癌和肝癌实验的模拟研究和分析证明了MTGDR的优越性能。

结论

MTGDR为分析多种癌症微阵列研究和选择可靠的癌症相关基因提供了一种有效的方法。

背景

微阵列能够在全基因组范围内分析人类组织，并已广泛用于癌症研究，在癌症研究中，数千个基因的表达与临床结果一起被测量。这类研究的一个主要目标是确定一组可作为癌症诊断和预后生物标记物以及治疗靶点的癌症相关基因。早期研究表明，从单个癌症微阵列实验的分析中确定的基因特征通常具有低重复性。这有几个原因。一个主要的原因是，单个微阵列实验的样本量（通常为数百个）远小于基因数量（通常为数万个）。

在临床研究领域，荟萃分析已成为临床研究比较和综合分析的金标准。人们普遍认为，只有元分析才能避免由于样本量小而导致统计能力低的研究所固有的问题[1]。通过元分析，研究人员通常无意分析任何新数据集。相反，它提供了一种有效的方法来汇集和分析多个现有数据集，并生成比分析每个单独数据集更可靠的结果。

癌症微阵列数据的Meta分析是通过许多独立进行的实验实现的，这些实验旨在测量相同的基因集和相同的癌症临床结果。如所示[2–5]癌症微阵列数据的meta分析通过识别相对可再生的、具有生物学意义的基因特征而取得了相当大的成功。我们指的是[6]更多关于基因组研究中元分析优点的讨论。

癌症微阵列数据的元分析具有挑战性，因为（1）微阵列实验通常测量少量样本和大量基因，而这些基因中只有一部分与癌症临床结果相关。需要进行基因选择和评估；（2）癌症微阵列数据的meta分析和癌症相关基因的鉴定通常需要使用原始表达测量。因此，本文中的分析类型也被称为“综合分析”。这种分析与传统的元分析有很大的不同，后者的分析基于每个单独实验的汇总统计数据（如p值）；不同的实验可以使用不同的平台。一次杂交一个样本的阵列（例如，合成的寡核苷酸阵列）直接基于每个探针集的信号强度来测量基因表达。相反，与荧光标记靶标杂交的斑点cDNA阵列通常测量来自测试样品的信号与共杂交的参考样品的信号的比率。研究表明，Affymetrix基因芯片寡核苷酸微阵列的数据与定制打印的cDNA微阵列的数据相关性较差[7]。我们在这里注意到，不同平台的可比性可以通过表达式的转换来实现。然而，正如之前的研究（例如[8])，这种转换需要逐个案例进行。

已经提出了几种方法来使用来自多个微阵列实验的数据分析基因的边际效应。这方面的例子包括Fisher的方法（应用于乳腺癌[9]); 转换和直接整合基因表达的强度方法[5]; 惩罚方法[三]; 一种基于随机效应模型的方法[10]; 一种稳健的基因排序方法[11]; 和贝叶斯方法[12].

鉴于癌症的发展和进展是由多个基因的作用引起的，因此进行了以下研究（可以解释基因的联合作用）。大多数投票（含影响因素）方法由[13]。基于随机forrest和Fisher线性判别的基因剃须方法应用于[14]。并且在中提出了一种计算密集型贝叶斯方法[15]。我们注意到，这些研究的重点是预测模型的建立，而不是基因选择。

另一方面，有丰富的文献用于分析单个癌症微阵列数据和基因选择。示例包括中的参数化分类器设计方法[16]; 中的惩罚方法[17,18]; 阈值梯度定向正则化（TGDR）方法[19–21]; 和支持向量机方法[22]。我们指的是[23]更多关于基因选择方法与个体微阵列数据集的讨论。然而，我们注意到，这些方法是为了分析单个数据集而设计的，不能用于分析多个异构数据集。

文献综述表明：（1）由于样本量较小，从单个癌症微阵列数据分析中确定的基因可能具有低再现性。Meta分析汇集了多个数据集，增加了统计能力，并提供了提高再现性的有效方法；（2）现有的元分析方法要么侧重于研究基因的边际效应，要么侧重于构建多基因预测模型；（3）现有的方法可以在单个数据集的分析中选择对癌症有联合影响的基因。然而，这些方法不能用于分析多个异构数据。因此，迫切需要在多个微阵列数据的荟萃分析中选择对癌症具有联合作用的基因的方法。

在本文中，我们提出了用于癌症微阵列元分析中基因选择的Meta Threshold Gradient Descent Regularization（MTGDR）方法。MTGDR利用单个微阵列数据集在正则化基因选择方面的最新进展。与这种单数据集基因选择方法相比，MTGDR具有所需的灵活性，可以适应不同设置的多个实验。与现有的meta分析方法相比，MTGDR可以有效地选择对癌症有联合作用的基因子集。

结果和讨论

模拟研究

我们进行了仿真研究，以研究拟议的MTGDR的性能。我们生成M（M）=3个数据集。对于数据集米=1、2和3，我们生成n个_米示例和表达式d日基因。基因表达的产生方式是，所有表达都具有单位方差的边缘正态分布，以及基因表达之间的相关性我和j个为0.4^|我-j个|在每个数据集中，前20个基因与癌症结局相关。特别是对于基因我=1。。。，20的平均表达式n个_米/2例（结果Y（Y）_米=1）随机生成制服[我,u个]。对照组基因的平均表达（结果Y（Y）_米=0）为零。与结果无关的基因的平均表达为零。此处的模拟设置对应于所有三个数据集的逻辑回归模型。癌症相关基因的回归系数因研究而异，这对应于不同研究中的不同实验设置（例如不同平台）。

我们考虑以下模拟设置的组合：（1）样本大小n个_米=30和100；（2）基因数量d日=100、500和1000；（3）不同级别的“信号”[我,u个]=[0.5，1.0]和[1.0，1.5]。因此，共有12种不同的模拟场景。

我们采用所提出的MTGDR，并通过三重交叉验证选择调谐参数。为了进行比较，我们还考虑了以下两种替代方法：（1）合并TGDR方法。除了回归系数的差异（平均表达式的偏移）外，这三个数据集是以可比较的方式生成的。我们将所有三个数据集汇集在一起，将其视为来自单个实验，并使用TGDR方法进行分析；（2）基于个体TGDR分析的元分析方法。我们首先使用TGDR方法分析每个数据集。然后我们搜索所有三项研究中确定的基因。这对应于元分析方法，其中使用TGDR分别分析每个数据集，并通过投票方法组合结果。我们注意到还有其他替代方法。例如，可以将TGDR方法替换为中讨论的惩罚方法[23]。早期研究已经确定了TGDR与其他方法的可比性能[19–21]。由于拟议的MTGDR与TGDR具有类似的阈值范式，因此我们将重点放在上述两个备选方案上。

在表中1，我们显示了基于200个重复的已鉴定基因数量和真阳性数量的平均值（标准差）。我们可以看到（1）所提出的MTGDR能够识别大多数与结果真正相关的基因，并且具有非常小的假阳性率；（2）合并分析的性能不太令人满意，但仍然可以接受。我们注意到，这三个模拟数据集比实际研究中遇到的数据集更具可比性。不同数据集的回归系数不同，尽管差异很小。这种可比性解释了合并分析的合理表现，一般来说，不应指望实际数据会如此；（3）“个体TGDR+投票”元分析方法的性能较差，这主要是由于样本量较小以及随后每个个体数据集缺乏再现性所致。我们也在其他环境下进行了模拟，得出了类似的结论（结果未显示）。

表1模拟研究。

全尺寸桌子

胰腺癌研究

数据

胰腺导管腺癌（PDAC）是恶性肿瘤相关死亡的主要原因。除了手术外，目前还没有有效的治疗方法，甚至切除的患者通常在术后一年内死亡。利用微阵列进行了几项实验，以确定胰腺癌基因组标记。在我们的研究中，我们收集并分析了四项研究，这些研究首次在[24–27]。这四个数据集还通过[28]有人认为，这四项研究中的临床设置具有可比性。因此，利用这些数据进行元分析是合理的。我们在表中显示了数据描述2四项研究中有两项使用cDNA阵列，两项使用寡核苷酸阵列。基于UniGene Build 161，将聚类ID和基因名称分配给所有cDNA克隆和Affymetrix探针。在我们的分析中考虑的两个样本组是PDAC和正常胰腺组织。慢性胰腺炎的数据可用于[25,27]，但不会用于我们的分析。

表2胰腺癌研究：数据信息。

全尺寸桌子

对于每个数据集，研究人员在每个单独的研究中分别进行了数据处理（包括标准化）。我们确定了一组共2984个UniGene ID。我们删除了四个数据集中任何一个缺失率超过30%的基因。还有1204个基因有待下游分析。对于每个单独的数据，如果使用Affymetrix，我们首先添加10的下限，并对表达式进行log2转换。然后，我们用样本中的中位数填充缺失值，并将每个基因表达标准化，使其平均值和单位方差为零。

MTGDR分析

在MTGDR分析中，通过三重交叉验证选择调谐参数。15个基因被鉴定为与患胰腺癌的风险有关。我们在表中显示了基因ID和相应的估计值三我们可以看到，如果一个基因在一个数据集中有一个非零系数，那么它在所有数据集中都有非零系数（这表明该基因在所有研究中都已确定）。我们还注意到，一个基因的估计系数在不同的研究中可能不同。这是MTGDR相对于集合分析所允许的额外灵活性，它自然地适应了不同研究中实验设置之间的差异。此外，尽管在不同的实验中，一个基因的估计系数可能不同，但它们的符号是相同的。同样的迹象导致了类似的生物学结论（即基因上调与癌症发生风险是正相关还是负相关）。

表3胰腺癌研究：MTGDR估计值和排名（边际效应的荟萃分析）。

全尺寸桌子

我们通过测量来评估选定基因的生物学意义[29]以及其他公共数据库。在这15个基因中，有几个之前已经在独立研究中确定。具体来说，基因Hs.107（类纤维蛋白原1）是纤维蛋白原家族的成员。在血清样本的大规模蛋白质组分析中，发现某些纤维蛋白原家族成员在胰腺癌样本中过度表达[30]。基因Hs.12068（肉碱乙酰转移酶）是线粒体、过氧化物酶体和内质网代谢途径中的关键酶。CRAT催化酰基-CoA硫代酯向肉碱的可逆转移，并调节亚细胞室中酰基CoA/CoA的比率。此外，已发现CRAT在PDAC样本中显著表达不足[31]。基因Hs.169900（PABPC4）主要定位于细胞质。可能有必要调节活化T细胞中不稳定mRNA物种的稳定性。它是一种胰腺癌生物标志物[26]在四个或更多PDAC标本中，其表达下调至少四倍。

基因Hs.180920（RPS9核糖体蛋白S9）编码一种核糖体蛋白质，该蛋白质是40S亚基的组成部分。该蛋白属于核糖体蛋白S4P家族。Crnogorac-Jurcevic等人[32]首次发现PRS9表达失调与PDAC之间的联系。基因Hs.287820（纤连蛋白1）编码纤连蛋白，这是一种糖蛋白，在血浆中以可溶二聚体形式存在，在细胞表面和细胞外基质中以二聚体或多聚体形式出现。纤连蛋白在维持肺上皮和内皮的结构完整性方面发挥着重要作用。急性胰腺炎期间血清纤连蛋白的减少和肺白细胞边缘化的增加可能会损害空气-血液屏障的完整性，并增加肺对循环致病物质的吸收。基因Hs.317432（BCAT1）编码胞浆形式的支链氨基酸转氨酶。这种酶催化支链α-酮酸到支链L-氨基酸的可逆转氨作用，这些氨基酸对细胞生长至关重要。它是广泛识别的胰腺癌标志物之一[33]。基因Hs.5591（MKNK1）属于MAPK通路，已被证实与多种癌症的发生有关。由基因Hs.62（PTPN12）编码的蛋白质是蛋白质酪氨酸磷酸酶（PTP）家族的成员。众所周知，PTP是调节多种细胞过程的信号分子，包括细胞生长、分化、有丝分裂周期和致癌转化。正如所指出的[28]在多项独立研究中，Hs.75335（GATM）基因已被确定为胰腺癌标志物。基因Hs.78225（NBL1）位于染色体1p36。神经母细胞瘤中此区域的物质缺失很常见。该区域可能存在肿瘤抑制基因。

理想情况下，中期发展报告的统计评估应基于独立数据，尽管通常无法获得。另一种方法是，我们使用以下一个一个离开（LOO）方法进行评估，该方法已在癌症微阵列研究中广泛采用。我们首先从数据集中删除一个主题。使用简化的数据集，我们计算了MTGDR估计值。我们注意到，为了获得相对公平的评估，需要为缩减的数据集计算一组新的调整参数。使用MTGDR，我们能够为每个单独的数据集获得一个回归模型。然后使用移除主题所属数据集的模型，我们能够预测移除主题的概率和类成员身份（通过将预测概率二分为0.5）。我们对所有受试者重复这个过程，并计算分类误差。使用LOO方法，MTGDR将数据P3中的2名受试者错误分类；否则，它实现了完美的分类。

用替代方法进行分析

为了更全面地了解MTGDR方法和胰腺研究，我们进行了以下附加分析。

A类对囚犯的分析TGDR公司方法

与模拟研究一样，我们忽略了这样一个事实，即这四个数据集来自使用不同平台的不同研究。我们将四个数据集合并，并使用TGDR方法进行分析。合并数据集的样本大小为56。使用该方法共鉴定出22个基因。具体来说，该方法识别了MTGDR识别的15个基因中的13个，但遗漏了基因BCAT1和NBL1。正如上一节所讨论的，这两个基因在胰腺癌的发展中都有重要意义。（使用此方法进行基因鉴定的更多详细信息可根据要求提供。）我们还使用LOO评估了混合方法的性能。两名受试者（P3和P4各1名）未被正确分类。

M（M）基于个人的ETA分析TGDR公司

我们首先使用TGDR方法分析每个数据集，然后搜索在多个研究中确定的基因。这是一种基于投票的元分析方法。对于四个数据集，TGDR分别鉴定了7个（P1）、10个（P2）、6个（P3）和1个（P4）基因。与使用MTGDR识别的基因重叠的数量分别为1、1、2和0。只有1个基因同时具有P2和P3。否则，四个数据集确定的基因之间没有重叠。在一项研究中确定的基因不能用于在其他研究中令人满意地预测受试者。例如，我们使用P2中确定的基因和相应的逻辑模型对其余三个数据集进行预测。四名（P1）、六名（P3）和四名（P4）受试者无法正确分类。

M（M）边际效应的ETA分析

利用MTGDR和两种替代方法，我们搜索具有共同的对胰腺癌发展的影响。为了对胰腺数据进行更全面的分析，我们进行了以下分析边缘的效果。由于胰腺数据具有“正常与癌症”二元设置，对于每个数据集和每个基因，我们使用t检验对正常与癌症样本的表达进行两个样本的比较，并计算p值。对于每个基因，我们使用Fisher方法将四项研究的p值结合起来[1]。然后，我们使用元分析中的p值对基因进行排序。组合p值较小的基因的等级较小。我们注意到，这是用于二进制结果数据的传统元分析方法。使用这种方法，我们调查边缘的每个基因与癌症结局之间的关系。我们在表中显示了MTGDR鉴定基因的等级三我们可以看到一些MTGDR鉴定的基因具有非常低的等级。具体来说，使用MTGDR识别边缘秩为1-7的基因。然而，也有MTGDR鉴定的基因具有很高的等级。例如，基因Hs.317432、Hs.5591和Hs.62的等级分别为144、56和50。我们的分析表明，具有联合效应的基因的元分析和鉴定不能被边际效应的元分析所取代。

肝癌研究

数据

肝细胞癌（HCC）是世界上导致癌症死亡的主要原因之一，人们对其进行了基因表达谱研究。我们使用中描述的四个肝癌微阵列数据集进行荟萃分析[2]。表中提供了详细的数据信息4，其中四个数据集分别称为D1–D4。这四个数据集是在韩国三家不同的医院生成的。尽管研究是在受控环境下进行的，Choi等人[2]“即使在每个数据集规范化之后，也无法直接合并数据。”

表4肝癌研究：数据信息。

全尺寸桌子

在研究D1-D3中，测量了10336个基因的表达。在D4研究中，测量了9984个基因的表达。我们关注所有四项研究中测量的9984个基因。对于每个数据集，首先执行印内时间组归一化。然后，我们对数据进行如下处理：

(1)
无监督筛查：

（1.1）如果一个基因在任何数据集中的缺失率超过30%，则将其从下游分析中删除。总共，9984个基因中有3122个通过了这项筛选。

（1.2）如果受试者3122个基因的缺失表达超过30%，则该受试者被剔除。去掉八名受试者，有效样本量为125。我们在表中显示了分析中实际使用的受试者数量4.

(2)
对于每个数据集，我们使用跨样本的中位数填充缺少的表达式值。
(3)
监督筛选：对于每个数据集，我们计算每个基因的双样本t-统计量。然后，我们根据t-统计量为每个基因指定一个等级。一个基因的总秩定义为所有四个数据集的秩之和。选择了1000个排名最低的基因进行下游分析。这种基于等级的筛选与[11].
(4)
对于每个数据集，我们对每个基因表达进行归一化，使其平均值和单位方差为零。

基因筛查是为了排除那些不太可能与癌症相关的基因。在[20]和其他。

MTGDR分析

我们采用MTGDR方法，通过三重交叉验证选择最佳调谐参数。34个基因被确定与肝癌风险相关。我们在表中提供了已识别基因的信息和相应估计5我们从表中得出类似结论5从表中三我们注意到，对于极少数的基因，四种估计值的符号是不同的。例如，对于基因15.4.E1/Rab9效应器p40，四分之三的估计系数为正，一个为负。负系数的绝对值很小，可能由随机变化引起。不同的迹象可能暗示着相互矛盾的生物学结论。在没有原始实验设置或黄金标准的情况下，我们无法对相互矛盾的迹象做出进一步解释。尽管这些基因已经被鉴定为MTGDR，但由于这些相互矛盾的迹象，对它们的解释应该格外谨慎。

表5肝癌数据集：MTGDR估计值和排名（边际效应的荟萃分析）

全尺寸桌子

我们在公共数据库中搜索已鉴定基因与肝癌发展之间关联的独立证据。在已鉴定的基因中，基因KIAA0406是PI3激酶活化的预测因子之一。PI3激酶信号通路正在成为许多癌症、炎症和心脏病的一个有希望的治疗靶点。在大鼠实验中发现，Cyt19在肝脏中的mRNA和蛋白质水平高于其他组织。Rab9基因属于RAS癌基因家族，在多种癌症中被激活。ATP酶是一类催化三磷酸腺苷（ATP）分解为二磷酸腺苷（ADP）和游离磷离子的酶。这种去磷酸化反应释放能量，而酶（在大多数情况下）利用能量来驱动其他化学反应，否则将不会发生。RalGDS是一种癌基因，可以通过激活Ras、Ral和Rho介导的途径诱导转化和基因表达。TPI与抗肿瘤核苷FTD的结合不仅增强了FTD的抗肿瘤疗效和毒性，而且还抑制了TP-诱导的血管生成。ADFP编码的蛋白质是球表面的主要成分。mRNA水平的增加是脂肪细胞分化的最早迹象之一。已发现人类G蛋白偶联受体在肺、心脏和淋巴肿瘤组织中表达。MEN-1是一种癌症易感基因，在胰腺癌、卵巢癌和男性乳腺癌中被激活。肝、肾、肠和其他器官中的多特异性有机阳离子转运蛋白对于清除许多内源性小有机阳离子以及各种药物和环境毒素至关重要。基因SLC22A1是位于6号染色体簇上的三个类似阳离子转运蛋白基因之一。在乳腺癌和非小细胞肺癌中发现了TUBB基因突变。基因H2AFZ编码组蛋白H2A家族的一个复制独立成员，与该家族的其他成员不同。对小鼠的研究表明，这种特殊的组蛋白是胚胎发育所必需的，并揭示了功能性组蛋白H2A的缺乏可能导致胚胎死亡。该基因编码Asp-Glu-Ala-Asp（DEAD）盒蛋白家族的一个成员。该家族成员被认为参与胚胎发生、精子发生、细胞生长和分裂。

我们使用上述LOO方法进行统计评估。MTGDR分别错误分类了6（D1）、8（D2）、4（D3）和2（D4）受试者，导致总分类误差为0.16。我们注意到，在分析之前已经进行了监督筛选。为了进行公平评估，在LOO程序中，我们分别对每个减少的数据（删除一个受试者）进行监督筛选。过度乐观评估的可能性可以最小化。

使用替代方法进行分析

对于胰腺研究，我们使用其他方法进行了以下分析。

A类对囚犯的分析TGDR公司方法

我们汇集了四个数据集，其合并样本大小为125，并使用TGDR方法进行分析。这种混合方法在MTGDR识别的34个基因中识别出24个，漏掉10个，并识别出了MTGDR未识别的10个额外基因。（使用这种方法进行基因鉴定的详细信息可根据要求提供。）我们还使用LOO评估了这种混合方法的性能。6名（D1）、13名（D2）、11名（D3）和6名（D4）受试者未正确分类，导致总分类误差为0.29。

M（M）基于个人的ETA分析TGDR公司

我们使用TGDR方法分析每个单独的数据集，然后搜索已识别基因的重叠。对于这四个数据集，TGDR识别出27（D1）、10（D2）、20（D3）和6（D4）个基因。与使用MTGDR识别的基因重叠的数量为4、4、3和1。在已鉴定的基因中，一个在三个数据集中鉴定，另一个在两个数据集中鉴定，其余的仅在一个数据集中鉴定。使用一个数据集识别的基因不能用于对其他数据集作出令人满意的预测。例如，当使用D1识别的基因和相应的逻辑回归模型预测三个数据集中其余的受试者时，20（D2）、8（D3）和6（D4）受试者无法正确分类。

M（M）边际效应的ETA分析

我们对胰腺癌研究中描述的边际效应进行了荟萃分析。在表中5，我们显示了MTGDR鉴定基因的边际等级。一些MTGDR鉴定的基因也有很强的边际效应。具体来说，边际秩为1和3的基因通过MTGDR进行鉴定。另一方面，有几个经MTGDR鉴定的基因具有很高的边缘等级。

结论

对于许多类型的癌症，已经独立进行了多个微阵列实验，以搜索与相同临床结果相关的基因。早期研究表明，从单个癌症微阵列数据集的分析中确定的基因可能具有低再现性。几个可能的原因是样本量小和缺乏统计能力。一个经济有效的解决方案是将多个现有数据集与类似的研究设计合并，并进行元分析。癌症微阵列数据元分析的优点已在许多早期研究中确立，并在[6]。在本文中，我们开发了一种新的基因选择方法，用于多个癌症微阵列数据的荟萃分析。

就方法而言，中期发展报告与现有方法有很大不同。与大多数现有的元分析方法相比，MTGDR侧重于选择对癌症有联合影响的基因，并将基因选择嵌入估计中。因此，它可以补充现有的边际效应元分析，并有助于更全面地描述基因的效应。与合并分析相比，MTGDR考虑了实验特定的回归系数。这种策略与传统元分析中的随机效应方法具有相似的精神。然而，现有的随机效应方法是为具有少量协变量的数据设计的，并且没有内置的基因选择机制。MTGDR通过在建模中纳入基因选择，从这些方法中取得进展。它可以自动适应不同的实验设置，尤其是不同的平台。与寻求基因表达转化的强度方法相比，MTGDR不需要逐个案例进行。与传统的元分析方法相比，MTGDR汇集并分析原始数据，而不是汇总统计数据，信息量更大。此外，MTGDR更加重视基因选择。

我们的模拟研究表明，MTGDR优于基于单个数据集基因选择方法的元分析方法。更具体地说，它能够以较低的假阳性率识别相同数量或更多的真阳性。此外，MTGDR的性能对基因数量的增加相对不敏感。胰腺癌和肝癌研究的分析表明：（a）MTGDR能够识别少数基因，这些基因在多个研究中对癌症结局表现出相对一致的影响；（b）许多已鉴定的基因已在独立研究中得到证实。LOO评估产生小的分类错误；（c）通过MTGDR鉴定的基因集可以与通过替代方法鉴定的基因集显著不同。在多项研究中鉴定的基因的不一致性和较大的分类误差方面，替代方法的性能较差；和（d）使用MTGDR识别的基因在边际效应的荟萃分析中可能与低秩基因显著不同。

尽管与现有方法相比，我们的研究取得了显著进步，但可能存在以下局限性。首先，在对肝脏数据的分析中，观察到少数基因的不一致迹象。在胰腺数据分析或模拟中没有观察到这种不一致。可以修改MTGDR算法，并在多个研究中强制符号相同。例如，对于一个特定的基因，假设一个梯度较小且为负，而其他三个梯度较大且为正。我们可以添加一个额外的阈值，并将负梯度设置为零。我们选择允许出现不一致的迹象，这可能有助于在观察到这种不一致时对数据的可比性和拟议方法的适用性发出警报。其次，在我们的数据分析中，我们能够对已确定的基因进行部分解释。其中许多已在独立研究中得到证实。然而，对于肝癌数据，没有关于几个已确定基因的详细信息。由于本研究的重点是开发一种新的元分析方法，因此我们不进一步探讨分析结果的生物学含义。第三，在分析中，我们使用LOO方法评估了MTGDR的性能。通过正确使用交叉验证，预计与其他方法的评估和比较将相当公平。在标准logistic回归分析中，当样本量远大于基因数时，有几种其他方法可以评估拟合模型和选定的协变量。例如，p值和R（右）²可以计算。然而，我们注意到，这些评估标准的有效性是在“样本大小>>协变量数量”设置下建立的，不适用于基因数量远大于样本大小的微阵列数据。据我们所知，对于癌症微阵列元分析的评估方法，还没有达成共识。

方法

数据和模型

为了简化符号，我们假设d日基因在所有M（M）不同的实验M（M）> 1. 当在不同的实验中测量不同组的基因时，通过将缺失基因的表达设为零，MTGDR仍然适用。注意，当所有研究中测得的基因数量减少时，元分析的作用可能会减弱。对于1≤米≤M（M），让Y（Y）^米表示临床结果和Z轴^米表示米第个实验。对于每个实验，我们假设一个回归模型Y（Y）_米~直径(Z轴^米'β^米)，其中β^米是回归系数，Z轴^米'表示的转置Z轴^米、和直径是已知的链接函数。通过考虑多个基因的联合建模，我们能够解释基因对临床结果的联合影响。

我们假设相同的链接功能直径通过不同的实验。这一假设通常是在元分析中做出的。然而，我们允许不同的回归系数β^米因此，在不同的实验条件下，模型也不同。这种策略是由元分析中的固定效应模型驱动的[10]。其基本原理是，实验1中一个单位的基因表达变化（例如，cDNA研究）可能不等同于实验2中一个单元的变化（例如Affymetrix研究）。衡量关联强度的回归系数应允许存在差异。

我们选择具有二进制结果的数据来描述拟议的MTGDR。我们注意到，只要能够正确定义统计模型和目标函数，这种方法也适用于其他类型的癌症临床结果。用于实验米和二元结果，Y（Y）^米=1和Y（Y）^米=0可能分别表示有无癌症或两个不同的癌症阶段。我们假设常用的logistic回归模型，其中假设条件概率的logit罗吉特(P（P）(Y（Y）^米= 1|Z轴^米)) =α^米+Z轴^米'β^米，其中α^米是未知截距。

假设有n个_米实验中的iid观察米对数似然为：

{R（右）}^{米} (α^{米}, β^{米} = \sum_{j个 = 1}^{{n个}_{米}} {Y（Y）}_{j个}^{米} 日志 (\frac{经验 (α^{米} + β^{米^{'}} {Z轴}_{j个}^{米})}{1 + 经验 (α^{米} + β^{米^{'}} {Z轴}_{j个}^{米})}) + (1 - {Y（Y）}_{j个}^{米}) 日志 (\frac{1}{1 + 经验 (α^{米} + β^{米^{'}} {Z轴}_{j个}^{米})}) .

自从拦截α^米通常没什么意思，为了简单起见，我们重写R（右）^米(α^米,β^米)作为R（右）^米(β^米).

MTGDR方法

MTGDR是一种基因选择方法。它将基因选择嵌入到回归模型的构建中。然后，基因选择等于识别回归系数的非零分量β^米.

在目前的设置下，自然会做出以下假设：（S1）具有非零系数的基因集（即已识别的癌症相关基因）在不同的实验中是相同的。在元分析中，我们预计多项研究具有一定的可比性。因此，尽管不同实验产生的数据不能直接比较，但生物学结论应该是可比较的。换句话说，我们应该得出结论，在不同的实验中，同一组基因与癌症相关；（S2）尽管在所有实验中使用类似的逻辑回归模型将基因与癌症结局联系起来，但回归系数的非零分量β^米在实验中可能不相等。这种假设主要是由于对不同实验装置，特别是平台的关注。

算法

让β= (β¹, ...,β^M（M）)和R（右）(β) =R（右）¹(β¹)++R（右）^M（M）(β^M（M）). 在这里β是一个d日×M（M）矩阵。设Δν是一个小的正增量，如在普通梯度下降搜索中。在该算法的实现中，我们选择Δν= 10^-3.让β^米(ν)表示的参数估计β^米对应于ν.设0≤τ≤1为固定阈值。MTGDR算法进行如下。

1
初始化β=0（组件方向）和ν= 0.
2
根据当前估计β，计算d日×M（M）负梯度矩阵克(ν) = -∂R（右）(β)/∂β，其中(j个,米)的元素克是 $克_{j个, 米} (ν) = - \partial {R（右）}^{米} (β^{米}) / \partial β_{j个}^{米}$ .
三。
计算长度d日元梯度向量G公司，其中j个^第个的组件G公司是 ${G公司}_{j个} (ν) = \sum_{米 = 1}^{M（M）} 克_{j个, 米} (ν)$ .
4
计算元阈值向量F类(ν)长度为d日，其中j个^第个的组件F类(ν):F类_j个(ν) =我(|G公司_j个(ν)| ≥τ×最大值_我|G公司_我(ν)|)和我是指示器功能。
5
更新(j个,米)的元素β:β_j个,米(ν+ Δν) =β_j个,米(ν) - Δν克_j个,米(ν)F类(ν)和更新ν通过ν+ Δν.
6
重复步骤2-5k个时间，其中k个由交叉验证确定。

在步骤1中，MTGDR算法从零估计开始（即，没有基因被识别为癌症相关）。在步骤2中，为每个单独的数据集计算梯度。对癌症结果影响较大的基因将具有较大的梯度。在步骤3中，计算元梯度，即不同实验的总和。它通过多项实验评估基因对癌症结局的总体影响。例如，假设基因1在实验1中只显示出较大的积极影响，而在其他实验中没有影响，而基因2在所有实验中都显示出中等的消极影响。那么，基因2的梯度之和（衡量多个实验的总体效果）可能会大于基因1的梯度。因此，基因2更有可能被选择，因为实验证明了一致的效果。在步骤4中，计算元阈值向量。有了这个载体，当一个基因被选中时，它就会在多个实验的所有模型中被选中。在第5步中，我们仅更新那些选定基因的MTGDR估计值。此外，通过考虑多个研究的不同梯度，MTGDR允许不同实验的不同估计（因此，不同模型）。

调谐参数τ和k个共同确定β以及基因选择的性质。何时τ≈ 0,β即使值很小也很稠密k个（即选择了许多基因）。何时τ≈ 1,β对于小的来说是稀疏的k个并且在相对大量的迭代中仍然如此。但最终会变得稠密。在极端情况下τ=1，MTGDR通常在每次迭代时更新单个基因的估计值，这与阶段性方法类似。何时τ处于中间范围β介于τ=0和τ= 1. 对于τ≠0，基因选择可以通过交叉验证、有限k个通过具有的某些组件β正好等于零。

可以看出，MTGDR只涉及简单的计算，可以使用许多现有软件进行编程。在我们的研究中，研究软件是使用R开发的，可在[34].

MTGDR的部分动机是TGDR[35]。这两种方法共享相似的阈值处理方案。然而，通过分析多个数据集，MTGDR与TGDR显著不同。当使用TGDR分析单个数据集时，基因的影响可以用一个数字来表示——它的回归系数。然而，当存在多个数据集时，需要在多个研究中考虑基因的影响，并用回归系数向量表示。宽松地说，TGDR负责选择单个系数，而MTGDR负责选择系数组。虽然直觉上很简单，但从个体选择到群体选择的扩展已被证明是非常重要的。

调谐参数选择

我们使用V形折叠交叉验证来选择最佳k个和τ。对于τ= 0,0.05, ..., 0.95,1，我们搜索k个最大化V形折叠交叉验证目标函数，可定义如下[20]。通过V形折叠交叉验证，还提供了防止过度装配的部分保护。在本研究中，我们设置V（V）=3，这主要是由于样本量较小。

图形演示

我们使用以下数值示例演示MTGDR参数路径。对于米=1、2和3，我们从 $我哦克我 t吨 (P（P） ({Y（Y）}^{米} = 1 | {Z轴}^{米}) = β_{1}^{米} {Z轴}_{1}^{米} + β_{2}^{米} {Z轴}_{2}^{米} + β_{三}^{米} {Z轴}_{三}^{米} + β_{4}^{米} {Z轴}_{4}^{米}$ 在这个模拟荟萃分析中，有三个独立的实验，每个实验有四个基因。 ${Z轴}_{我}^{j个}$ s是独立生成的，并且N个（0,1）分布。我们设置了β¹= (2.0, 2.0, 0,0),β²=（1.5、1.5、0,0）和β^三= (1.0, 1.0, 0,0). 在所有三个实验中，只有前两个基因与二元结果相关，它们的相应系数不同。我们在每个实验中模拟50个观察结果。

三重交叉验证选择τ=1.0和k个=620。如图所示1作为函数的参数路径k个对于τ= 1.0. 各个参数路径类似于阶段路径。我们可以看到任何k个，一个基因的估计系数在实验中要么全部为零，要么全部为非零。对于具有非零系数的特定基因，估计系数在不同的实验中是不同的。

工具书类

梅纳德A，查尔默斯I：对卫生服务研究的非随机思考伦敦：BMJ出版集团；1997
谷歌学者
Choi J，Choi J.，Kim D，Choi.D，Kim B，Lee K，Yeom Y，Yoo H，Yoo.O，Kim S：应用于肝癌研究的多基因表达谱的综合分析。欧洲生化学会联合会快报2004, 565: 93–100.
第条中国科学院公共医学谷歌学者
Ghosh D，Barette TR，Rhodes D，Chinnaiyan AM：微阵列数据荟萃分析的统计问题和方法：前列腺癌案例研究。功能整合基因组学2003, 3(4):180–188.
第条中国科学院公共医学谷歌学者
Wang J，Coombes KR，Highsmith WE，Keating MJ，Abruzzo LV：B细胞慢性淋巴细胞白血病和正常B细胞之间基因表达的差异：三项微阵列研究的荟萃分析。生物信息学2004, 20(17):3166–3178.
第条中国科学院公共医学谷歌学者
Warnet P，Eils R，Brors B：癌症微阵列数据的跨平台分析改进了基于基因表达的表型分类。BMC生物信息学2005, 6: 265.
第条谷歌学者
Guerra R、Allison DB、Goldstein D：遗传学和基因组学的荟萃分析和信息整合查普曼和霍尔/CRC；2008
谷歌学者
Kuo WP、Jenssen TK、Butte AJ、Ohno-Machado L、Kohane IS：两种不同微阵列技术的匹配mRNA测量分析。生物信息学2002, 18: 405–412.
第条中国科学院公共医学谷歌学者
Shabalin AA、Tjemeland H、Fan C、Perou CM、Nobel AB：通过跨平台标准化合并两项基因表达研究。生物信息学2008, 24: 1154–1160.
第条中国科学院公共医学谷歌学者
Smith DD、Saetrom P、Snove O、Lundberg C、Rivas GE、Glackin C、Larson GP：乳腺癌微阵列研究与保守顺式元素结合的荟萃分析显示了协调调控模式。BMC生物信息学2008, 9: 63.
第条公共医学中心公共医学谷歌学者
Stevens JR，George RW：荟萃分析结合了实验室的Affymetrix微阵列结果。Comp Funct基因组学2005, 6(3):116–122.
第条公共医学中心中国科学院公共医学谷歌学者
Hong F、Breitling R、McEntee CW、Witter BS、Nemhauser JL、Chory J:RankProd：用于检测荟萃分析中差异表达基因的生物导体包。生物信息学2006年，22日：2825–2827。
第条中国科学院公共医学谷歌学者
Jung Y，Oh M，Shin D，Kang S，Oh H：通过基于贝叶斯模型的聚类在荟萃分析中识别差异表达基因。生物医学杂志2006, 48: 435–450.
第条公共医学谷歌学者
Fung B，Ng V：多类型癌症基因表达数据的Meta-classification。第四届生物信息学数据挖掘研讨会进展2004, 31–39.
谷歌学者
姜浩，邓毅，陈浩，陶磊，沙清，陈杰，蔡C，张S：两个微阵列基因表达数据集的联合分析，以选择肺腺癌标记基因。BMC生物信息学2004, 5: 81.
第条公共医学中心公共医学谷歌学者
Conlon EM，Song JJ，Liu A：微阵列数据的贝叶斯元分析模型：一项比较研究。BMC生物信息学2007, 8: 80.
第条公共医学中心公共医学谷歌学者
Kim S、Dougherty ER、Barrera J、Chen Y、Bittner ML、Trent JM：小样本的强大功能集。计算生物学杂志2002年，9:127-146。
第条中国科学院公共医学谷歌学者
17.Ghosh D，Chinnaiyan A：使用LASSO对基因组数据中的生物标记物进行分类和选择。生物技术杂志2005，（2）：147–154。
第条谷歌学者
Gui J，Li H：高维和低样本设置下的惩罚Cox回归分析，应用于微阵列基因表达数据。生物信息学2005, 21: 3001–3008.
第条中国科学院公共医学谷歌学者
Gui J，Li H：截尾数据回归的阈值梯度下降法，及其在药物基因组学中的应用。Pac-Symp生物计算机2005, 272–283.
谷歌学者
Ma S，Huang J：利用微阵列数据进行疾病分类和生物标记物选择的规则化ROC方法。生物信息学2005, 21: 4356–4362.
第条中国科学院公共医学谷歌学者
Ma S，Huang J：聚类阈值梯度下降正则化：在微阵列研究中的应用。生物信息学2007, 23: 466–472.
第条中国科学院公共医学谷歌学者
Zhang H，Ahn J，Lin X，Park C：使用具有非凸惩罚的支持向量机进行基因选择。生物信息学2006, 22: 88–95.
第条公共医学谷歌学者
马S，黄J：生物信息学中的惩罚特征选择和分类。生物信息学简介2008年，9:392–403。
第条公共医学中心公共医学谷歌学者
Iacobuzio-Donahue CA、Ashfaq R、Maitra A、Adsay NV、Shen-Ong GL、Berg K、Hollingsworth MA、Cameron JL、Yeo CJ、Kern SE、Goggins M、Hruban RH：胰腺导管腺癌中的高表达基因：三种主要技术获得的转录谱的综合表征和比较。癌症研究2003, 63: 8614–8622.
中国科学院公共医学谷歌学者
Logsdon CD、Simeone DM、Binkley C、Arumugam T、Greenson J、Giordano TJ、Misek D、Hanash S：胰腺癌和慢性胰腺炎的分子分析确定了胰腺癌中差异调节的多个基因。癌症研究2003, 63: 2649–2657.
中国科学院公共医学谷歌学者
Crnogorac-Jurcevic T、Missiaglia E、Blaveri E、Gangeswaran R、Jones M、Terris B、Costello E、Neoptolemos JP、Lemoine NR：胰腺癌中的分子改变：表达谱分析表明，S100基因的失调表达非常普遍。病理学杂志2003, 201: 63–74.
第条中国科学院公共医学谷歌学者
Friess H，Ding J，Kleeff J，Fenkell L，Rosinski JA，Guweidhi A，Reidhar-Olson JF，Korc M，Hammer J，Buchler MW：胰腺癌中差异表达的生长和转移相关基因的微阵列鉴定。细胞分子生命科学2003, 60(6):1180–1199.
中国科学院公共医学谷歌学者
Grutzmann R、Boriss H、Ammerpoh O、Luttges J、Kalthoff H、Schackert H、Kloppel G、Saeger H、Pilarsky C：胰腺癌微阵列数据的荟萃分析定义了一组常见的失调基因。癌基因2005, 1–10.
谷歌学者
NCBI公司[网址：http://www.ncbi.nlm.nih.gov/]
Bloomston M，Zhou J，Rosemurgy AS，Frankel W，Muro Cacho CA，Yeatman TJ：通过血清样本的大规模蛋白质组学分析鉴定胰腺癌中纤维蛋白原γ过度表达。癌症研究2006年，66:2592-2599。
第条中国科学院公共医学谷歌学者
Johnson SK、Dennis RA、Barone GW、Lamps LW、Haun RS：胰腺癌中胰岛素样生长因子结合蛋白-5的差异表达：使用DNA微阵列进行鉴定。分子致癌作用2006, 45: 814–827.
第条中国科学院公共医学谷歌学者
Crnogorc Jurcevic T、Efthimiou E、Capelli P、Blaveri E、Baron A、Terris B、Jones M、Tyson K、Bassi C、Scarpa A、Lemoine NR：胰腺癌和间质结缔组织增生的基因表达谱。癌基因2001, 20: 7437–7446.
第条中国科学院公共医学谷歌学者
Crnogorac-Jurcevic T、Gangeswaran R、Bhakta V、Capurso G、Lattimore S、Akada M、Sunamura M、Prime W、Campbell F、Brentnall TA、Costello E、Neoptolemos J、Lemoine NR：慢性胰腺炎和胰腺癌的蛋白质组学分析。胃肠病学2005, 129(5):1454–1463.
第条中国科学院公共医学谷歌学者
软件网站[http://publichealth.yale.edu/faculty/labs/ma/]
Friedman J，Popescu BE:梯度定向正则化。斯坦福大学统计系技术报告2004
谷歌学者

下载参考资料

致谢

本研究得到了美国国立卫生研究院（SM和JH）的R01CA120988和R03LM009828以及耶鲁大学YCCI（SM）的CTSA奖的支持。我们要感谢三位评委提出了非常有见地的意见，这些意见使本文得到了显著的改进。

作者信息

作者和附属机构

耶鲁大学流行病学和公共卫生系，美国康涅狄格州纽黑文，06520
双鸽马
美国爱荷华州爱荷华市爱荷华大学统计与精算科学系，邮编：52242
黄健

作者

双鸽马
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
黄健
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信双鸽马.

其他信息

作者的贡献

两位作者都参与了研究设计、数据分析和写作。SM编写了用于数据分析的R代码。两位作者阅读并批准了最终手稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Ma，S.，Huang，J.癌症微阵列荟萃分析中的规则化基因选择。BMC生物信息学 10，1（2009年）。https://doi.org/10.1186/1471-2105-10-1

下载引文

已接收:2008年9月18日
认可的:2009年1月1日
出版:2009年1月1日
内政部:https://doi.org/10.1186/1471-2105-10-1

癌症微阵列meta分析中的规则化基因选择

摘要

背景

结果

结论

背景

结果和讨论

模拟研究

胰腺癌研究

数据

MTGDR分析

用替代方法进行分析

A类对囚犯的分析TGDR公司方法

M（M）基于个人的ETA分析TGDR公司

M（M）边际效应的ETA分析

肝癌研究

数据

MTGDR分析

使用替代方法进行分析

A类对囚犯的分析TGDR公司方法

M（M）基于个人的ETA分析TGDR公司

M（M）边际效应的ETA分析

结论

方法

数据和模型

MTGDR方法

算法

调谐参数选择

图形演示

工具书类

致谢

作者信息

作者和附属机构

通讯作者

其他信息

作者的贡献

作者提交的原始图像文件

图1的作者原始文件

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词

BMC生物信息学

联系我们