模拟研究
我们进行了仿真研究,以研究拟议的MTGDR的性能。我们生成M(M)=3个数据集。对于数据集米=1、2和3,我们生成n个
米
示例和表达式d日基因。基因表达的产生方式是,所有表达都具有单位方差的边缘正态分布,以及基因表达之间的相关性我和j个为0.4|我-j个|在每个数据集中,前20个基因与癌症结局相关。特别是对于基因我=1。。。,20的平均表达式n个
米
/2例(结果Y(Y)
米
=1)随机生成制服[我,u个]。对照组基因的平均表达(结果Y(Y)
米
=0)为零。与结果无关的基因的平均表达为零。此处的模拟设置对应于所有三个数据集的逻辑回归模型。癌症相关基因的回归系数因研究而异,这对应于不同研究中的不同实验设置(例如不同平台)。
我们考虑以下模拟设置的组合:(1)样本大小n个
米
=30和100;(2) 基因数量d日=100、500和1000;(3)不同级别的“信号”[我,u个]=[0.5,1.0]和[1.0,1.5]。因此,共有12种不同的模拟场景。
我们采用所提出的MTGDR,并通过三重交叉验证选择调谐参数。为了进行比较,我们还考虑了以下两种替代方法:(1)合并TGDR方法。除了回归系数的差异(平均表达式的偏移)外,这三个数据集是以可比较的方式生成的。我们将所有三个数据集汇集在一起,将其视为来自单个实验,并使用TGDR方法进行分析;(2)基于个体TGDR分析的元分析方法。我们首先使用TGDR方法分析每个数据集。然后我们搜索所有三项研究中确定的基因。这对应于元分析方法,其中使用TGDR分别分析每个数据集,并通过投票方法组合结果。我们注意到还有其他替代方法。例如,可以将TGDR方法替换为中讨论的惩罚方法[23]。早期研究已经确定了TGDR与其他方法的可比性能[19–21]。由于拟议的MTGDR与TGDR具有类似的阈值范式,因此我们将重点放在上述两个备选方案上。
在表中1,我们显示了基于200个重复的已鉴定基因数量和真阳性数量的平均值(标准差)。我们可以看到(1)所提出的MTGDR能够识别大多数与结果真正相关的基因,并且具有非常小的假阳性率;(2) 合并分析的性能不太令人满意,但仍然可以接受。我们注意到,这三个模拟数据集比实际研究中遇到的数据集更具可比性。不同数据集的回归系数不同,尽管差异很小。这种可比性解释了合并分析的合理表现,一般来说,不应指望实际数据会如此;(3)“个体TGDR+投票”元分析方法的性能较差,这主要是由于样本量较小以及随后每个个体数据集缺乏再现性所致。我们也在其他环境下进行了模拟,得出了类似的结论(结果未显示)。
胰腺癌研究
数据
胰腺导管腺癌(PDAC)是恶性肿瘤相关死亡的主要原因。除了手术外,目前还没有有效的治疗方法,甚至切除的患者通常在术后一年内死亡。利用微阵列进行了几项实验,以确定胰腺癌基因组标记。在我们的研究中,我们收集并分析了四项研究,这些研究首次在[24–27]。这四个数据集还通过[28]有人认为,这四项研究中的临床设置具有可比性。因此,利用这些数据进行元分析是合理的。我们在表中显示了数据描述2四项研究中有两项使用cDNA阵列,两项使用寡核苷酸阵列。基于UniGene Build 161,将聚类ID和基因名称分配给所有cDNA克隆和Affymetrix探针。在我们的分析中考虑的两个样本组是PDAC和正常胰腺组织。慢性胰腺炎的数据可用于[25,27],但不会用于我们的分析。
对于每个数据集,研究人员在每个单独的研究中分别进行了数据处理(包括标准化)。我们确定了一组共2984个UniGene ID。我们删除了四个数据集中任何一个缺失率超过30%的基因。还有1204个基因有待下游分析。对于每个单独的数据,如果使用Affymetrix,我们首先添加10的下限,并对表达式进行log2转换。然后,我们用样本中的中位数填充缺失值,并将每个基因表达标准化,使其平均值和单位方差为零。
MTGDR分析
在MTGDR分析中,通过三重交叉验证选择调谐参数。15个基因被鉴定为与患胰腺癌的风险有关。我们在表中显示了基因ID和相应的估计值三我们可以看到,如果一个基因在一个数据集中有一个非零系数,那么它在所有数据集中都有非零系数(这表明该基因在所有研究中都已确定)。我们还注意到,一个基因的估计系数在不同的研究中可能不同。这是MTGDR相对于集合分析所允许的额外灵活性,它自然地适应了不同研究中实验设置之间的差异。此外,尽管在不同的实验中,一个基因的估计系数可能不同,但它们的符号是相同的。同样的迹象导致了类似的生物学结论(即基因上调与癌症发生风险是正相关还是负相关)。
我们通过测量来评估选定基因的生物学意义[29]以及其他公共数据库。在这15个基因中,有几个之前已经在独立研究中确定。具体来说,基因Hs.107(类纤维蛋白原1)是纤维蛋白原家族的成员。在血清样本的大规模蛋白质组分析中,发现某些纤维蛋白原家族成员在胰腺癌样本中过度表达[30]。基因Hs.12068(肉碱乙酰转移酶)是线粒体、过氧化物酶体和内质网代谢途径中的关键酶。CRAT催化酰基-CoA硫代酯向肉碱的可逆转移,并调节亚细胞室中酰基CoA/CoA的比率。此外,已发现CRAT在PDAC样本中显著表达不足[31]。基因Hs.169900(PABPC4)主要定位于细胞质。可能有必要调节活化T细胞中不稳定mRNA物种的稳定性。它是一种胰腺癌生物标志物[26]在四个或更多PDAC标本中,其表达下调至少四倍。
基因Hs.180920(RPS9核糖体蛋白S9)编码一种核糖体蛋白质,该蛋白质是40S亚基的组成部分。该蛋白属于核糖体蛋白S4P家族。Crnogorac-Jurcevic等人[32]首次发现PRS9表达失调与PDAC之间的联系。基因Hs.287820(纤连蛋白1)编码纤连蛋白,这是一种糖蛋白,在血浆中以可溶二聚体形式存在,在细胞表面和细胞外基质中以二聚体或多聚体形式出现。纤连蛋白在维持肺上皮和内皮的结构完整性方面发挥着重要作用。急性胰腺炎期间血清纤连蛋白的减少和肺白细胞边缘化的增加可能会损害空气-血液屏障的完整性,并增加肺对循环致病物质的吸收。基因Hs.317432(BCAT1)编码胞浆形式的支链氨基酸转氨酶。这种酶催化支链α-酮酸到支链L-氨基酸的可逆转氨作用,这些氨基酸对细胞生长至关重要。它是广泛识别的胰腺癌标志物之一[33]。基因Hs.5591(MKNK1)属于MAPK通路,已被证实与多种癌症的发生有关。由基因Hs.62(PTPN12)编码的蛋白质是蛋白质酪氨酸磷酸酶(PTP)家族的成员。众所周知,PTP是调节多种细胞过程的信号分子,包括细胞生长、分化、有丝分裂周期和致癌转化。正如所指出的[28]在多项独立研究中,Hs.75335(GATM)基因已被确定为胰腺癌标志物。基因Hs.78225(NBL1)位于染色体1p36。神经母细胞瘤中此区域的物质缺失很常见。该区域可能存在肿瘤抑制基因。
理想情况下,中期发展报告的统计评估应基于独立数据,尽管通常无法获得。另一种方法是,我们使用以下一个一个离开(LOO)方法进行评估,该方法已在癌症微阵列研究中广泛采用。我们首先从数据集中删除一个主题。使用简化的数据集,我们计算了MTGDR估计值。我们注意到,为了获得相对公平的评估,需要为缩减的数据集计算一组新的调整参数。使用MTGDR,我们能够为每个单独的数据集获得一个回归模型。然后使用移除主题所属数据集的模型,我们能够预测移除主题的概率和类成员身份(通过将预测概率二分为0.5)。我们对所有受试者重复这个过程,并计算分类误差。使用LOO方法,MTGDR将数据P3中的2名受试者错误分类;否则,它实现了完美的分类。
用替代方法进行分析
为了更全面地了解MTGDR方法和胰腺研究,我们进行了以下附加分析。
A类对囚犯的分析TGDR公司方法
与模拟研究一样,我们忽略了这样一个事实,即这四个数据集来自使用不同平台的不同研究。我们将四个数据集合并,并使用TGDR方法进行分析。合并数据集的样本大小为56。使用该方法共鉴定出22个基因。具体来说,该方法识别了MTGDR识别的15个基因中的13个,但遗漏了基因BCAT1和NBL1。正如上一节所讨论的,这两个基因在胰腺癌的发展中都有重要意义。(使用此方法进行基因鉴定的更多详细信息可根据要求提供。)我们还使用LOO评估了混合方法的性能。两名受试者(P3和P4各1名)未被正确分类。
M(M)基于个人的ETA分析TGDR公司
我们首先使用TGDR方法分析每个数据集,然后搜索在多个研究中确定的基因。这是一种基于投票的元分析方法。对于四个数据集,TGDR分别鉴定了7个(P1)、10个(P2)、6个(P3)和1个(P4)基因。与使用MTGDR识别的基因重叠的数量分别为1、1、2和0。只有1个基因同时具有P2和P3。否则,四个数据集确定的基因之间没有重叠。在一项研究中确定的基因不能用于在其他研究中令人满意地预测受试者。例如,我们使用P2中确定的基因和相应的逻辑模型对其余三个数据集进行预测。四名(P1)、六名(P3)和四名(P4)受试者无法正确分类。
M(M)边际效应的ETA分析
利用MTGDR和两种替代方法,我们搜索具有共同的对胰腺癌发展的影响。为了对胰腺数据进行更全面的分析,我们进行了以下分析边缘的效果。由于胰腺数据具有“正常与癌症”二元设置,对于每个数据集和每个基因,我们使用t检验对正常与癌症样本的表达进行两个样本的比较,并计算p值。对于每个基因,我们使用Fisher方法将四项研究的p值结合起来[1]。然后,我们使用元分析中的p值对基因进行排序。组合p值较小的基因的等级较小。我们注意到,这是用于二进制结果数据的传统元分析方法。使用这种方法,我们调查边缘的每个基因与癌症结局之间的关系。我们在表中显示了MTGDR鉴定基因的等级三我们可以看到一些MTGDR鉴定的基因具有非常低的等级。具体来说,使用MTGDR识别边缘秩为1-7的基因。然而,也有MTGDR鉴定的基因具有很高的等级。例如,基因Hs.317432、Hs.5591和Hs.62的等级分别为144、56和50。我们的分析表明,具有联合效应的基因的元分析和鉴定不能被边际效应的元分析所取代。
肝癌研究
数据
肝细胞癌(HCC)是世界上导致癌症死亡的主要原因之一,人们对其进行了基因表达谱研究。我们使用中描述的四个肝癌微阵列数据集进行荟萃分析[2]。表中提供了详细的数据信息4,其中四个数据集分别称为D1–D4。这四个数据集是在韩国三家不同的医院生成的。尽管研究是在受控环境下进行的,Choi等人[2]“即使在每个数据集规范化之后,也无法直接合并数据。”
在研究D1-D3中,测量了10336个基因的表达。在D4研究中,测量了9984个基因的表达。我们关注所有四项研究中测量的9984个基因。对于每个数据集,首先执行印内时间组归一化。然后,我们对数据进行如下处理:
-
(1)
无监督筛查:
(1.1)如果一个基因在任何数据集中的缺失率超过30%,则将其从下游分析中删除。总共,9984个基因中有3122个通过了这项筛选。
(1.2)如果受试者3122个基因的缺失表达超过30%,则该受试者被剔除。去掉八名受试者,有效样本量为125。我们在表中显示了分析中实际使用的受试者数量4.
-
(2)
对于每个数据集,我们使用跨样本的中位数填充缺少的表达式值。
-
(3)
监督筛选:对于每个数据集,我们计算每个基因的双样本t-统计量。然后,我们根据t-统计量为每个基因指定一个等级。一个基因的总秩定义为所有四个数据集的秩之和。选择了1000个排名最低的基因进行下游分析。这种基于等级的筛选与[11].
-
(4)
对于每个数据集,我们对每个基因表达进行归一化,使其平均值和单位方差为零。
基因筛查是为了排除那些不太可能与癌症相关的基因。在[20]和其他。
MTGDR分析
我们采用MTGDR方法,通过三重交叉验证选择最佳调谐参数。34个基因被确定与肝癌风险相关。我们在表中提供了已识别基因的信息和相应估计5我们从表中得出类似结论5从表中三我们注意到,对于极少数的基因,四种估计值的符号是不同的。例如,对于基因15.4.E1/Rab9效应器p40,四分之三的估计系数为正,一个为负。负系数的绝对值很小,可能由随机变化引起。不同的迹象可能暗示着相互矛盾的生物学结论。在没有原始实验设置或黄金标准的情况下,我们无法对相互矛盾的迹象做出进一步解释。尽管这些基因已经被鉴定为MTGDR,但由于这些相互矛盾的迹象,对它们的解释应该格外谨慎。
我们在公共数据库中搜索已鉴定基因与肝癌发展之间关联的独立证据。在已鉴定的基因中,基因KIAA0406是PI3激酶活化的预测因子之一。PI3激酶信号通路正在成为许多癌症、炎症和心脏病的一个有希望的治疗靶点。在大鼠实验中发现,Cyt19在肝脏中的mRNA和蛋白质水平高于其他组织。Rab9基因属于RAS癌基因家族,在多种癌症中被激活。ATP酶是一类催化三磷酸腺苷(ATP)分解为二磷酸腺苷(ADP)和游离磷离子的酶。这种去磷酸化反应释放能量,而酶(在大多数情况下)利用能量来驱动其他化学反应,否则将不会发生。RalGDS是一种癌基因,可以通过激活Ras、Ral和Rho介导的途径诱导转化和基因表达。TPI与抗肿瘤核苷FTD的结合不仅增强了FTD的抗肿瘤疗效和毒性,而且还抑制了TP-诱导的血管生成。ADFP编码的蛋白质是球表面的主要成分。mRNA水平的增加是脂肪细胞分化的最早迹象之一。已发现人类G蛋白偶联受体在肺、心脏和淋巴肿瘤组织中表达。MEN-1是一种癌症易感基因,在胰腺癌、卵巢癌和男性乳腺癌中被激活。肝、肾、肠和其他器官中的多特异性有机阳离子转运蛋白对于清除许多内源性小有机阳离子以及各种药物和环境毒素至关重要。基因SLC22A1是位于6号染色体簇上的三个类似阳离子转运蛋白基因之一。在乳腺癌和非小细胞肺癌中发现了TUBB基因突变。基因H2AFZ编码组蛋白H2A家族的一个复制独立成员,与该家族的其他成员不同。对小鼠的研究表明,这种特殊的组蛋白是胚胎发育所必需的,并揭示了功能性组蛋白H2A的缺乏可能导致胚胎死亡。该基因编码Asp-Glu-Ala-Asp(DEAD)盒蛋白家族的一个成员。该家族成员被认为参与胚胎发生、精子发生、细胞生长和分裂。
我们使用上述LOO方法进行统计评估。MTGDR分别错误分类了6(D1)、8(D2)、4(D3)和2(D4)受试者,导致总分类误差为0.16。我们注意到,在分析之前已经进行了监督筛选。为了进行公平评估,在LOO程序中,我们分别对每个减少的数据(删除一个受试者)进行监督筛选。过度乐观评估的可能性可以最小化。
使用替代方法进行分析
对于胰腺研究,我们使用其他方法进行了以下分析。
A类对囚犯的分析TGDR公司方法
我们汇集了四个数据集,其合并样本大小为125,并使用TGDR方法进行分析。这种混合方法在MTGDR识别的34个基因中识别出24个,漏掉10个,并识别出了MTGDR未识别的10个额外基因。(使用这种方法进行基因鉴定的详细信息可根据要求提供。)我们还使用LOO评估了这种混合方法的性能。6名(D1)、13名(D2)、11名(D3)和6名(D4)受试者未正确分类,导致总分类误差为0.29。
M(M)基于个人的ETA分析TGDR公司
我们使用TGDR方法分析每个单独的数据集,然后搜索已识别基因的重叠。对于这四个数据集,TGDR识别出27(D1)、10(D2)、20(D3)和6(D4)个基因。与使用MTGDR识别的基因重叠的数量为4、4、3和1。在已鉴定的基因中,一个在三个数据集中鉴定,另一个在两个数据集中鉴定,其余的仅在一个数据集中鉴定。使用一个数据集识别的基因不能用于对其他数据集作出令人满意的预测。例如,当使用D1识别的基因和相应的逻辑回归模型预测三个数据集中其余的受试者时,20(D2)、8(D3)和6(D4)受试者无法正确分类。
M(M)边际效应的ETA分析
我们对胰腺癌研究中描述的边际效应进行了荟萃分析。在表中5,我们显示了MTGDR鉴定基因的边际等级。一些MTGDR鉴定的基因也有很强的边际效应。具体来说,边际秩为1和3的基因通过MTGDR进行鉴定。另一方面,有几个经MTGDR鉴定的基因具有很高的边缘等级。