癌症医学。2017年6月;6(6): 1154–1164.
一种与胃癌患者预后相关的三lncRNA表达特征
,1,† ,1,† ,1,† ,1 ,1和1 彭松
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
薄江
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
刘志坚
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
杰丁
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
宋柳
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
文县关
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
1中国南京市中山路321号南京大学医学院附属医院南京鼓楼医院普外科,210008
通讯作者。 *通信关文贤,南京鼓楼医院普外科,南京大学医学院附属医院,南京中山路321号,中国210008。电话:+025‐681‐82098;传真:+025‐681‐82097;电子邮件:moc.621@naug_naixnew, †这些作者对这项工作做出了同样的贡献。
2016年8月8日收到;2016年12月18日修订;2017年1月26日接受。
版权©2017作者。癌症医学约翰·威利父子有限公司出版。 这是一篇根据知识共享属性许可证,允许在任何媒体上使用、分发和复制,前提是正确引用了原始作品。 - 补充资料
图S1。随机存活森林——用于识别有价值lncRNAs的可变狩猎分析。(A) 作为树函数的数据错误率;(B) 三种lncRNA的袋外重要性值。
GUID:C881E24D-59D1-42FA-9F51-E36BCD55CC4B
表S1。本研究涉及的受试者的人口统计学和临床特征。
表S2。不同组胃癌患者生存率的逐步Cox回归分析结果。
表S3。基因集富集分析描述了与风险评分相关的生物途径。
表S4。不同生存模型的可能性测试。
GUID:E41CDB6E-ED91-4ABD-BC63-4C3ED34E83E5
GUID:CA4E87B9-C5A3-4D88-A4A5-5DE30289798C
摘要
长非编码RNA(lncRNAs)已成为基因调控的重要参与者。越来越多的lncRNA被发现与胃癌的生物发生和预后有关。我们的目的是开发一种lncRNA标志物,对GC的生存结果具有预测价值。使用lncRNA挖掘方法,我们分析了基因表达总表(GEO)中492名GC患者的lncRNA表达谱,该总表包括GSE62254集合(N个=300)和GSE15459集合(N个 = 192). 评估lncRNAs表达与生存结果之间的关系。一组三个lncRNA(LINC01140(链接01140),TGFB2‐OT1型、和RP11‐347C12.10)与总生存率显著相关。然后将这些lncRNA结合起来形成一个单一的预后标志。基于这三个lncRNA表达特征,GSE62254组的患者被分为总生存率显著不同的高风险亚组和低风险亚组(风险比[HR]=1.93,P(P)<0.001)和无病生存率(HR=1.91,P(P) < 0.001). GSE15459数据集证实了该lncRNA特征预测值的良好再现性。进一步分析表明,该特征的预后价值与某些临床特征无关。基因集富集分析表明,高风险评分与癌症转移的几个分子途径呈正相关。我们的结果表明,基于生物信息学分析,这种创新的lncRNA表达特征可能是GC患者预后的有用生物标记物。
关键词:胃癌核糖核酸,预后
背景
胃癌(GC)是全球第五大常见恶性肿瘤,也是导致癌症相关死亡的第二大原因,2012年新增约100万胃癌病例和70万人死亡1尽管化疗、放疗和手术技术有所改进,但GC患者的5年总生存率(OS)和无病生存率(DFS)仍不令人满意。这些低存活率的原因包括患者诊断为晚期,因此错过了最佳的手术治疗机会,以及癌症复发,尤其是腹膜复发2在临床实践中,美国癌症联合委员会(AJCC)TNM分期系统广泛用于预测预后。目前,正在大力研究GC的生物学特性,并在处理措施方面有了许多改进。然而,缺乏预测指标和治疗目标是导致不良结果的原因。因此,更好地了解GC患者的发病机制并识别新的有前景的预后分子标记物对于有效治疗至关重要,这有助于提高GC患者的生活质量和生存率。
近几十年来,生物学中对基因调控的全面研究主要集中在蛋白质编码基因及其在GC发病机制中的关键基因组改变上三,4然而,蛋白质编码基因仅占整个基因组序列的2%以下,其余非编码基因转录为非编码RNA(ncRNAs)。根据其大小,ncRNAs分为两大类:小ncRNA(18‐200个核苷酸,例如microRNAs和小干扰RNA)和长非编码RNA(lncRNAs,>200个核苷酸)5新的证据表明,ncRNAs在癌症发病机制中发挥着重要作用,这可能为GC生物学提供新的见解6,7最近,microRNA已成为lncRNA GC研究的前沿,而lncRNA的作用正在显现,越来越多的lncRNA被报道与GC肿瘤发生相关。在许多类型的癌症中发现了异常的lncRNA表达,如GC6,食管癌8和肝癌9LncRNAs因其在细胞增殖、迁移和凋亡中的重要调节功能而备受关注。对于GC,相当一部分lncRNAs是特异性表达的,这表明它们作为可能的生物标记物的潜在作用,并可能预测临床结果。
目前,重新利用常用微阵列数据进行ncRNAs表达谱分析的方法学已经建立10,11例如,Hu等人。使用一系列微阵列数据集构建临床相关lncRNA资源,并在结直肠癌中发现肿瘤特异性预后lncRNA特征10我们最初从基因表达总表(GEO)中探索了之前发布的大型GC队列的基因表达微阵列数据,并使用上述挖掘方法构建了lncRNA图谱。基于样本分割法和Cox回归分析,我们试图确定与GC患者生存相关的有用lncRNA。本研究的关键目标是发现关键的lncRNAs,它们可以作为新的生物标记物来确定GC预后。
材料和方法
GC数据集
本研究中使用的GC基因表达数据来自公开的GEO数据库。为了评估lncRNA表达特征与GC生存率之间的相关性,我们根据三个标准选择了微阵列表达谱:(1)谱应由Affymetrix HG‐U133 Plus 2.0 Array(GPL570平台)生成,(2)相应的临床数据,如组织学分类和随访信息,可在线获取,(3)样本量>100。这导致在我们的研究中筛选出两组(GSE62254和GSE15459)。
微阵列表达处理与lncRNA谱挖掘
下载了两个GEO数据集表达式的原始CEL文件,并使用R包“affy”执行鲁棒多芯片平均(RMA)算法进行背景调整、分位数归一化和对数转换12LncRNA图谱通过Seqmap V1.0.8在本地计算机上实现13简单地说,Affymetrix HG‐U133 Plus 2.0的探针组是从Affymmetrix网站上检索到的(http://www.affmetrix.com). 然后,我们将这些探针重新映射到源自GENCODE(第24版,GRCh38)的ncRNAs的染色体位置,没有错配14共获得2380个探针和2118个相应的ncRNA基因。当多个探针映射到同一个ncRNA时,我们使用探针强度的算术平均值。
基因集富集分析(GSEA)
使用GSEA软件V2.2进行基因集富集分析(GSEA)。用于富集分析的基因集是“c2.cp.v5.0.entrez.gmt”(1330个基因集),是生物过程的典型代表。GSEA结果在Cytoscape软件V3.2.1中使用Enrichment Map插件可视化15执行1000个随机样本排列后,错误发现率(FDR)值<0.05的基因集被称为“富集”
统计分析
lncRNA表达与患者OS或DFS的相关性通过单变量Cox回归分析以及使用生物统计学研究分支阵列工具V4.1.1的排列测试进行评估(FDR<0.05,P(P) < 0.01)16。基因被认为具有统计学意义,具有排列P(P) < 0.01. 采用随机生存森林(RSF)可变狩猎算法进一步识别有价值的lncRNA17在RSF模型中,蒙特卡洛迭代次数(nrep)被设置为100,并且控制正向过程中使用的步长的值(nstep)被设置为5。由于GSE62254集合比GSE15459集合提供了更大的样本量和更详细的临床信息,因此我们选择GSE622554来确定风险评分公式,使用所选lncRNA的多变量Cox回归模型。通过包括这些选定lncRNA的表达,并通过估计的回归系数进行加权,建立了该公式。根据该风险评分公式,将每组患者分为高风险组或低风险组,并将风险评分中位数作为临界点。采用Kaplan–Meier方法和对数秩检验评估低风险组和高风险组之间的生存差异。通过单变量或多变量Cox回归分析估计危险比(HR)和95%CI。采用多元Cox逐步回归分析确定GC预后的预测因素,显著性水平为P(P)<0.05用于进入和P(P)>0.10,用于删除各个解释变量。采用受试者操作特征(ROC)曲线比较lncRNA风险评分对预后的敏感性和特异性。曼·惠特尼U型采用检验(连续变量)或卡方检验(分类变量)评估lncRNA风险评分与不同临床特征患者之间的相关性。所有统计分析均使用R V3.1.3程序进行(网址:www.rproject.org)和SAS软件V9.1。A双面P(P)<0.05被认为具有统计学意义。
结果
两套GC的特点
本研究包括两组独立的GC受试者。GSE62254数据集包含300名GC患者,平均随访时间为50.6个月(范围:1.0-105.7个月)。其中男性199例(66.3%),女性101例(33.7%),贲门癌32例(10.7%),非贲门癌268例(89.3%),弥漫型134例(44.7%),肠型146例(48.7%)。此外,10.0%、32.0%、31.7%和25.7%的患者被确定为TNM I、II、III和IV期。对于GSE15459数据集,在长达157.8个月(平均38.4个月)的随访期内,95名患者(49.5%)死于GC相关疾病。其中男性125例(65.1%),女性67例(34.9%),弥漫型75例(39.1%),肠型99例(51.6%)。此外,16.1%、15.1%、37.5%和31.3%的患者分别被诊断为I期、II期、III期和IV期疾病。这两组患者的人口统计学和一些临床特征非常相似(P(P)性别=0.779,P(P)=0.191(Lauren分类),而GSE15459集合中III/IV期患者的比例(68.8%)大于GSE62254集合中的比例(57.3%,表S1(第一阶段)). 由于GSE62254集合中的两名患者没有明确的TNM分期,因此在根据TNM分期进行的亚组分析中进一步排除了他们。
预后lncRNA的鉴定
如图所示将GSE62254中300例GC患者随机分为两组,两组GC均用于检测预后ncRNAs。通过BRB‐Array Tools对ncRNA表达数据进行单变量Cox回归分析后,我们分别从两组中鉴定出85和21个与患者OS高度相关的ncRNA。在这些转录本中,有11个重叠的转录本,长度超过200个核苷酸。为了使模型更实用,在11个lncRNAs的基础上进行了RSF,结果在模型中保留了3个lncRNA。因此,选择了一组三种lncRNA作为GC生存率的预测因子(表). 其中,LINC01140(链接01140)和TGFB2‐OT1型在单变量分析中显示出正系数,表明它们的高表达水平与较短的生存期有关。负系数表明RP11‐347C12.10与表达量较低的人相比,其生存期往往更长。表还描述了这三个基因的列表及其获得的变量重要性值LINC01140(链接01140)显示出比其他预测因素更重要的重要性(图S1(第一阶段)). 所有三种lncRNA均已在LNC百科(注释人类lncRNA序列的数据库)并在本网站上确认为ncRNAs18此外,这些lncRNA的非编码性质通过编码潜力分析得到了验证。
建立风险评分模型并测试其预测值的分析流程图。GEO,基因表达总览;GSEA,基因集富集分析;ROC,接收器操作特性。
表1
LncRNAs与GSE62254患者的总体生存率显著相关
基因符号 | 排列P值一
,
b条
| 危险比一
| 系数一
| 系数c(c)
| 可变重要性 | 相对重要性 |
---|
LINC01140(链接01140)
| <1E-07年 | 3.877 | 1.35506 | 0.84321 | 0.0481 | 1 |
TGFB2‐OT1型
| <1E-07年 | 4.102 | 1.41148 | 0.87302 | 0.0354 | 0.7363 |
RP11‐347C12.10
| <1E-07年 | 0.004 | −5.5215 | −2.4496 | 0.0116 | 0.2414 |
3‐lncRNA特征与GC存活率
根据这三种lncRNAs在总GSE62254集合中的表达情况,我们使用多元Cox回归建立了一个风险评分公式,如下所示:(0.84321×表达水平LINC01140(链接01140))+(0.87302*表达水平TGFB2‐OT1型)+(−2.4496×表达水平RP11‐347C12.10). 计算GSE62254数据集中每个样本的三个lncRNA特征的风险分数,并根据这些值进行排序。图显示低风险评分的患者倾向于表达高水平的保护性lncRNA(RP11‐347C12.10)而高风险评分的患者倾向于表达高水平的风险lncRNA(LINC01140(链接01140)和TGFB2‐OT1型). 以中位风险评分(0.149)为分界点,将患者分为高风险组(评分>0.149,N个=150)和低风险组(得分≤0.149,N个= 150). 如图所示,我们观察到高风险评分的GC患者的OS和DFS发生率低于低风险评分的患者(均为对数秩检验P(P)< 0.001). 为了验证我们的发现,我们将GSE15459集合中的患者分类为高风险(N个=88)和低风险群体(N个=104)使用相同的截止值。与上述结果一致,高风险组患者的OS明显低于低风险组患者(对数秩检验P(P)= 0.003).
在GSE62254数据集中分析了三种lncRNA风险评分、患者生存状态和lncRNA表达特征的分布(N个 = 300). (A) LncRNA风险评分分布;(B) 患者的总体生存状态和时间;(C) 患者无病生存状态和时间;(D) lncRNA表达谱的热图。行表示lncRNA,列表示患者。黑色虚线表示将患者分为低风险组和高风险组的lncRNA风险评分中位数。
Kaplan–Meier使用3‐lncRNA特征估计患者的生存率。(A) GSE62254组总生存率的Kaplan-Meier曲线(N个 = 300); (B) GSE62254组无病生存率的Kaplan-Meier曲线(N个 = 300); (C) GSE15459组总生存率的Kaplan–Meier曲线(N个 = 192).
三种lncRNA特征与患者生存率的分层分析
为了控制潜在的混杂因素并分析表型特异性生存率,根据人口统计学特征和临床特征对患者进行分层。如表所示我们发现,在GSE62254集合中,≤64岁、>64岁、女性、男性、肠道、弥散性和非心脏亚组中高危评分患者的OS和DFS比率显著降低。重要的是,在GSE15459数据集中,64岁以上的亚组、男性、弥漫性和III/IV期的高风险评分个体的死亡率也显著增加(64岁以上人群的校正HR=1.84,95%CI=1.08–3.12;男性1.93,1.17–3.17;弥漫性人群2.49,1.18–5.24;III/IV期人群1.96,1.24–3.12)。
表2
变量 | 患者人数 | 单变量分析 | 多元分析一
|
---|
人力资源 | 95%置信区间 |
P(P)价值 | 人力资源 | 95%置信区间 |
P(P)价值 |
---|
GSE62254(操作系统) |
3‐lncRNA风险评分 | 300 | 1.93 | 1.36–2.72 | <0.001 | 2.02 | 1.42–2.87 | <0.001 |
年龄 |
≤64年 | 161 | 1.98 | 1.17–3.34 | 0.010 | 2.02 | 1.19–3.41 | 0.009 |
>64年 | 139 | 2.18 | 1.37–3.49 | 0.001 | 2.20 | 1.38–3.52 | 0.001 |
性别 |
女性 | 101 | 2.77 | 1.47–5.24 | 0.002 | 2.80 | 1.48–5.32 | 0.002 |
男性 | 199 | 1.62 | 1.07–2.45 | 0.024 | 1.76 | 1.15–2.69 | 0.009 |
劳伦 |
肠道 | 146 | 1.94 | 1.13–3.32 | 0.017 | 2.07 | 1.20–3.56 | 0.009 |
弥漫的 | 134 | 1.75 | 1.03–2.95 | 0.037 | 1.81 | 1.06–3.06 | 0.029 |
位置 |
卡迪亚 | 32 | 1.05 | 0.40–2.79 | 0.920 | 0.97 | 0.35–2.70 | 0.966 |
无心动过速 | 268 | 2.04 | 1.40–2.96 | <0.001 | 2.12 | 1.45–3.09 | <0.001 |
TNM公司 |
一/二 | 126 | 1.60 | 0.79–3.22 | 0.189 | 1.71 | 0.84–3.46 | 0.139 |
三/四 | 172 | 1.45 | 0.96–2.18 | 0.075 | 1.54 | 1.02–2.33 | 0.040 |
GSE62254(DFS) |
3‐lncRNA风险评分 | 300 | 1.91 | 1.33–2.75 | <0.001 | 2 | 1.38–2.89 | <0.001 |
年龄 |
≤64年 | 161 | 2.04 | 1.20–3.47 | 0.008 | 2.06 | 1.21–3.50 | 0.008 |
>64年 | 139 | 2.05 | 1.24–3.40 | 0.006 | 2.05 | 1.24–3.40 | 0.005 |
性别 |
女性 | 101 | 2.59 | 1.37–4.93 | 0.004 | 2.67 | 1.39–5.11 | 0.003 |
男性 | 199 | 1.64 | 1.06–2.55 | 0.028 | 1.74 | 1.11–2.74 | 0.016 |
劳伦 |
肠道 | 146 | 1.75 | 1.00–3.08 | 0.051 | 1.96 | 1.11–3.49 | 0.022 |
弥漫的 | 134 | 1.91 | 1.09–3.36 | 0.025 | 1.99 | 1.12–3.52 | 0.019 |
位置 |
卡迪亚 | 32 | 1.08 | 0.40–2.91 | 0.873 | 0.94 | 0.33–2.62 | 0.901 |
无心动过速 | 268 | 2.07 | 1.40–3.06 | <0.001 | 2.18 | 1.47–3.25 | <0.001 |
TNM公司 |
一/二 | 126 | 1.53 | 0.70–3.37 | 0.291 | 1.66 | 0.74–3.70 | 0.219 |
三/四 | 172 | 1.40 | 0.93–2.12 | 0.111 | 1.48 | 0.97–2.27 | 0.069 |
GSE15459(操作系统) |
3‐lncRNA风险评分 | 192 | 1.84 | 1.22–2.77 | 0.004 | 1.89 | 1.24–2.84 | 0.003 |
年龄 |
≤64年 | 72 | 1.88 | 0.98–3.64 | 0.058 | 1.93 | 1.00–3.72 | 0.051 |
>64年 | 120 | 1.82 | 1.07–3.08 | 0.027 | 1.84 | 1.08–3.12 | 0.024 |
性别 |
女性 | 67 | 1.61 | 0.77–3.35 | 0.204 | 1.68 | 0.80–3.53 | 0.175 |
男性 | 125 | 1.95 | 1.19–3.20 | 0.008 | 1.93 | 1.17–3.17 | 0.010 |
劳伦 |
肠道 | 99 | 1.41 | 0.78–2.55 | 0.250 | 1.45 | 0.80–2.61 | 0.222 |
弥漫的 | 75 | 2.39 | 1.14–5.03 | 0.021 | 2.49 | 1.18–5.24 | 0.016 |
TNM公司 |
一/二 | 60 | 2.6 | 0.80–8.47 | 0.113 | 2.35 | 0.71–7.81 | 0.163 |
三/四 | 132 | 1.83 | 1.17–2.85 | 0.008 | 1.96 | 1.24–3.12 | 0.004 |
胃癌患者三种lncRNA特征与临床病理特征的相关性
根据中位风险评分,患者被平均分为两组(相对高风险组和低风险组)。在GSE62254数据集中,lncRNA风险评分的差异与年龄显著相关(P(P)=0.049),组织学类型(P(P)<0.001)和TNM阶段(P(P) < 0.001). 然而,这种显著相关性仅与GSE15459集合中的组织学类型相关(P(P) < 0.001). 当在临床病理特征的不同层次评估三种lncRNA特征的风险评分时,观察到类似的结果(表).
表3
变量 | 患者人数 | 3‐lncRNA表达 | 3‐lncRNA评分 |
---|
低n个(%) | 高n个(%) |
P(P)价值一
| 平均值(SD) | 中位数(IQR) |
P(P)价值b条
|
---|
GSE62254标准 |
年龄 | | | | 0.049 | | | 0.043 |
≤64年 | 161 | 72 (44.7) | 89 (55.3) | | 0.28 (0.53) | 0.18 (−0.08–0.54) | |
>64年 | 139 | 78 (56.1) | 61 (43.9) | | 0.16 (0.46) | 0.10 (−0.13–0.36) | |
性别 | | | | 0.714 | | | 0.160 |
女性 | 101 | 49 (48.5) | 52 (51.5) | | 0.30 (0.57) | 0.16 (−0.02–0.55) | |
男性 | 199 | 101 (50.8) | 98 (49.2) | | 0.19 (0.46) | 0.15 (−0.13–0.41) | |
劳伦 | | | | <0.001 | | | <0.001 |
肠道 | 146 | 96 (65.8) | 50 (34.2) | | 0.05 (0.37) | 0.03 (−0.20–0.20) | |
弥漫的 | 134 | 45 (33.6) | 89 (66.4) | | 0.42 (0.56) | 0.27 (0.06–0.69) | |
位置 | | | | 1 | | | 0.655 |
卡迪亚 | 32 | 16 (50.0) | 16 (50.0) | | 0.23 (0.44) | 0.15 (−0.04–0.53) | |
无心动过速 | 268 | 134 (50.0) | 134 (50.0) | | 0.23 (0.51) | 0.15 (−0.12–0.42) | |
TNM公司 | | | | <0.001 | | | <0.001 |
一/二 | 126 | 81 (64.3) | 45 (35.7) | | 0.07 (0.43) | 0.01 (−0.21–0.21) | |
三/四 | 172 | 67 (39.0) | 105 (61.0) | | 0.35 (0.52) | 0.24 (0.01–0.59) | |
GSE15459标准 |
年龄 | | | | 0.231 | | | 0.060 |
≤64年 | 72 | 35 (48.6) | 37 (51.4) | | 0.42 (2.00) | 0.26 (−0.87–1.88) | |
>64年 | 120 | 69 (57.5) | 51 (42.5) | | −0.14 (2.04) | −0.34 (−1.72–1.19) | |
性别 | | | | | | | 0.268 |
女性 | 67 | 33 (49.3) | 34 (50.7) | 0.317 | 0.32 (2.08) | 0.21 (−1.29–1.70) | |
男性 | 125 | 71 (56.8) | 54 (43.2) | | −0.07 (2.02) | −0.38 (−1.33–1.27) | |
劳伦 | | | | <0.001 | | | <0.001 |
肠道 | 99 | 68 (68.7) | 31 (31.3) | | −0.64 (1.76) | −0.51 (−1.89–0.39) | |
弥漫的 | 75 | 26 (34.7) | 49 (65.3) | | 1.06 (1.83) | 0.86 (−0.47–2.61) | |
TNM公司 | | | | 0.639 | | | 0.431 |
一/二 | 60 | 34 (56.7) | 26 (43.3) | | −0.05 (2.38) | −0.27 (−1.62–1.50) | |
三/四 | 132 | 70 (53.0) | 62 (47.0) | | 0.13 (1.88) | −0.02 (−1.00–1.30) | |
生存的逐步Cox回归模型
采用多元逐步Cox回归分析评估变量之间的相关性,包括选定的人口统计学特征和临床特征、风险评分(作为连续变量)和GC生存率。最后,逐步回归模型中包括GSE62254集合的三个变量(年龄、TMN分期和三lncRNA风险评分)和GSE15459集合的两个变量(TMN分期及三lncRNA风险评分)(表). 此外,基于选定的变量,在每个数据集中应用多元逐步模型。因此,除GSE62254集合中的贲门、I/II期亚组和GSE15459集合中≤64岁、女性、肠道和弥漫亚组外,三种lncRNA风险评分的变量出现在大多数分层层次中(表S2系列).
表4
最终变量 | β | 东南方 | 人力资源 | 95%置信区间 |
P(P)价值 |
---|
GSE62254(操作系统) |
年龄 | 0.03 | 0.01 | 1.03 | 1.01–1.05 | 0.001 |
TNM公司 | 0.78 | 0.11 | 2.19 | 1.77–2.72 | <0.001 |
3‐lncRNA风险评分 | 0.89 | 0.16 | 2.42 | 1.79–3.28 | <0.001 |
GSE62254(DFS) |
年龄 | 0.02 | 0.01 | 1.02 | 1.00–1.035 | 0.029 |
TNM公司 | 0.83 | 0.12 | 2.28 | 1.82–2.87 | <0.001 |
3‐lncRNA风险评分 | 0.69 | 0.16 | 2 | 1.47–2.72 | <0.001 |
GSE15459(操作系统) |
TNM公司 | 1.04 | 0.14 | 2.82 | 2.16–3.68 | <0.001 |
3‐lncRNA风险评分 | 0.15 | 0.05 | 1.16 | 1.04–1.28 | 0.005 |
识别与生物途径和过程相关的三种lncRNA特征
我们进行了GSEA,以根据GSE62254集合中三个lncRNA特征的风险评分确定相关的生物过程和信号通路(表第3页). 表达显著不同的基因集被可视化为与细胞景观和富集图(图A和B)。一些癌症相关网络,即细胞外基质途径、整合素途径、局部粘附途径和TGF-β途径,在高风险组中富集,这意味着这些信号可能与肿瘤转移有关。因此,我们比较了不同TNM分期患者的风险评分,发现晚期患者的风险得分往往高于早期患者(图C、,P(P) < 0.001).
GSE62254集合中三个lncRNA签名的性能评估。(A) 基因集富集分析使用Cytoscape描绘与风险评分相关的生物途径。每个节点代表一个丰富的基因集,根据相关基因集的相似性对其进行分组和注释;(B) 四种典型的癌症相关途径;(C) 不同TNM分期患者的风险评分。
三种lncRNA对生存的鉴别和预测能力
由于GS62254数据集包含DFS信息,我们使用ROC分析比较这些患者的三种lncRNA特征风险评分、TNM分期和年龄之间GC复发的敏感性和特异性。确定受试者操作特征下面积(AUROC),并在这三个预后因素之间进行比较。图A显示,三种lncRNA风险评分的AUROC为0.688,大于单个lncRNA(0.677TGFB2‐OT1型,0.620用于LINC01140(链接01140)和0.610用于转速11‐347C12.10). 此外,如图所示B、 三种lncRNA风险评分的AUROC与TNM分期之间没有显著差异(AUROC=0.741,P(P) = 0.187). 然而,我们观察到,三lncRNA风险评分和TNM分期的合并AUROC(AUROC=0.782)大于每个个体(三lncRNA风险评分,P(P) = 0.018; 对于TNM阶段,P(P)=0.301),表现良好。
通过三种lncRNA、年龄和TNM分期对GSE62254数据集中预测无病生存期的敏感性和特异性进行受试者操作特征分析。(A)LINC01140(链接01140),TGFB2‐OT1型、和RP11‐347C12.10以及三种lncRNA风险评分;(B) 年龄、TNM分期、三lncRNA风险评分、lncRNA危险评分与TNM分期相结合。
我们还使用了似然检验来确定该特征是否真的为TNM阶段增加了一致的预测能力。使用Akaike信息准则(AIC)和Schwarz准则(SBC)访问GSE62254集合中最适合OS的模型。AIC和SBC的最低值表示首选模型,在这种情况下,该模型采用了三lncRNA特征和TNM分期预测参数(表S4系列).
讨论
在过去几年中,包括lncRNAs在内的许多基因组非蛋白编码转录物被视为无关紧要的转录“垃圾”。由于ENCODE的实现和癌症基因组图谱(TCGA)计划的实施,lncRNAs因其在癌症发展和进展中的重要作用而备受关注19,20lncRNAs参与细胞周期调节、凋亡、DNA损伤反应等基本生物学过程及其在一些人类疾病中的意义的报道越来越多。最近,大多数研究表明lncRNA表达水平的改变与疾病发展的范围有关,但其预后价值很少被研究。为了探索潜在的GC预后lncRNA,我们通过从GEO数据库中挖掘现有微阵列基因表达数据来实现lncRNA分析。在本研究中,通过分析两个大队列中GC患者的lncRNA表达谱和临床特征之间的相关性,确定了与患者OS和DFS显著相关的三lncRNA特征。
通过将三lncRNA标记应用于GSE62254和GSE15459组患者,可以在低风险或高风险标记患者的生存曲线中观察到明显的分离。结果表明,与高风险评分患者相比,低风险评分患者的生存时间显著延长。无论风险评分是作为连续变量还是类别变量进行评估,这三种lncRNA表达特征与生存率之间的相关性都是显著的。在分层分析中,我们进一步发现,除了GSE62254的贲门型、I/II期和III/IV期亚组,以及GSE15459的女性和I/II期亚组外,三层lncRNA风险评分对不同阶层的生存率有影响。
进一步分析发现,lncRNA风险评分与年龄、Lauren类型和TNM分期有关,尤其是Lauren型。与肠道GC相比,弥漫性GC更容易发生淋巴结转移、晚期TNM分期和生存率低。在弥漫性GC患者中,lncRNA的风险评分显著高于肠道GC患者。尽管lncRNA信号的确切机制仍不清楚,但高风险评分患者的不良预后可能部分是由于其与一些关键的临床特征(更具侵袭性的病理类型和TNM晚期)有关。有趣的是,即使按一些临床变量(如Lauren型)分层,lncRNA特征的预后价值仍然存在,这表明它可能是GC生存的重要决定因素,而不是转录噪声的偶然特征。
对于这三种lncRNAs的特性,没有关于它们在GC中的功能研究报道。据我们所知,我们的研究首次报道了它们的表达水平与生存时间之间的关系。然后我们分析了这些假定的lncRNA的基因组位置,发现它们与一些癌基因或抑癌基因的转录物重叠。TGFB2‐OT1型是一种新发现的lncRNA,来源于TGFB2型并能调节血管内皮细胞的自噬。Huang等人。报告说TGFB2‐OT1型作为ceRNA,与miR-4459、miR-3960和miR-4488竞争结合,并调节miRNA靶点的表达以影响自噬和炎症21.LINC01140(链接01140)和RP11‐347C12.10已被鉴定为长基因间非编码RNA,可调节基因组相邻蛋白编码基因的转录顺式(例如hs2秒1和CD2BP2号机组)和遥远的蛋白质编码基因反式
22因此,研究这些lncRNA的功能作用是值得的。
这种与GC患者预后相关的三lncRNA特征的识别具有一些临床意义。一方面,我们发现在逐步Cox回归中,我们的三lncRNA特征的预后价值与年龄和TNM分期无关。目前,年龄和TNM分期,尤其是TNM分期已被视为GC患者生存的重要预测因素23与I期和II期患者相比,III期和IV期患者表现出较高的局部复发率和较差的生存结果。然而,临床上我们可以发现,即使是具有相同TNM分期的患者,其预后也可能不同。这突出了我们不懈探索和努力寻找新生物标记物的原因,以更准确地预测GC高危患者的生存率,从而改进个性化癌症治疗。为此,我们开发了一个与III/IV期GC患者生存密切相关的三lncRNA表达特征模型。然而,这一现象在GSE15459集合中观察到,而在GSE62254集合中没有观察到,因此,前瞻性多中心大规模研究对验证这一想法至关重要。另一方面,在ROC分析中,三lncRNA特征与疾病复发的TNM分期具有相似的预测价值。三种lncRNA特征和TNM阶段的结合可能对DFS有更强的作用。我们的lncRNA标记的能力表明,它可能有助于识别具有相同TNM分期的GC患者亚群。总之,这些数据表明,三lncRNA标记可能是一个新的分子靶点。
此外,GSEA还用于根据风险评分确定预定义功能基因集是否显示协同表达。GSEA的结果表明,三lncRNA信号更有可能涉及细胞外基质途径、整合素途径和局部粘附途径。细胞外基质可以通过其受体(尤其是整合素)诱导多种细胞内信号并调节多种细胞反应,包括迁移、分化和增殖,已成为促进癌细胞生存的主要途径24最值得注意的是,整合素介导的细胞粘附被证明是肿瘤侵袭和转移所必需的25,26众所周知,胃癌预后的主要危险因素是淋巴结和远处转移,通常发生在晚期。我们的研究证实,晚期患者的风险评分高于早期患者。因此,丰富的信号通路可能支持我们的三lncRNA特征具有生存预测能力,并为未来的靶向治疗提供了可能的途径。
迄今为止,基因表达谱分析已在商业上作为癌症治疗的辅助手段,包括乳腺癌、前列腺癌和结肠癌。例如,21基因复发评分(Oncotype DX乳腺癌检测)被用作评估雌激素受体阳性乳腺癌远处疾病复发和辅助化疗益处的重要指标。然而,没有这样有效的预后工具可用于GC患者,以帮助医生和患者确定最佳治疗方案。本研究表明,少量基因(三个基因)足以预测GC的预后,为临床医生提供了有价值和可行的参考。
需要注意本研究的几个局限性。首先,在我们的研究中,只分析了一部分人类非编码RNA,这些非编码RNA是通过改变微阵列探针的用途而获得的。因此,这里确定的预后lncRNA可能并不代表所有可能与GC生存相关的lncRNA候选。其次,我们没有研究这三种lncRNA在GC中的预后价值背后的机制,对癌细胞系和异种移植物模型的实验研究将为进一步理解它们的功能作用提供重要信息。第三,我们仅在两个已发布的数据集中概括了我们的发现,因此需要更多的数据集进行进一步验证。值得一提的是,两个数据集之间的一些重要特征(年龄、TNM分期)有很大不同,但三lncRNA特征仍然与两组患者的生存率相关,表明该特征的预后价值是可靠的。
总之,我们的研究揭示了一个与GC患者生存相关的三lncRNA信号。该特征的预后价值与TNM分期无关,TNM分期是主要预测因素之一。综上所述,这种创新的特征可能作为GC的候选生物标记物和治疗靶点。未来的研究将侧重于验证我们在临床试验中的发现以及这些已确定的lncRNA的功能作用。
支持信息
图S1。随机存活森林——用于识别有价值lncRNAs的可变狩猎分析。(A) 作为树函数的数据错误率;(B) 三种lncRNA的袋外重要性值。
表S1。本研究涉及的受试者的人口统计学和临床特征。
表S2。不同组胃癌患者生存期的逐步Cox回归分析结果。
表S3。基因集富集分析描述了与风险评分相关的生物途径。
表S4。不同生存模型的可能性测试。
鸣谢
这项工作得到了国家自然科学基金(81372364)和中央高校基本科研业务费(021414380202)的资助。
工具书类
1洛杉矶托瑞。Bray F.、Siegel R.L.、Ferlay J.、Lortet‐Tieunt J.和Jemal A.,2015年。2012年全球癌症统计.加州癌症杂志临床。
65:87–108. [公共医学][谷歌学者] 2达安吉利卡,M。Gonen M.、Brennan M.F.、Turnbull A.D.、Bains M.和Karpeh M.S.,2004年。完全切除胃腺癌的初始复发模式.Ann.外科。
240:808–816.[PMC免费文章][公共医学][谷歌学者] 三。北卡罗来纳州纳加拉扬。,Bertrand D.、Hillmer A.M.、Zang Z.J.、Yao F.、Jacques P.E.等人,2012年。胃癌的全基因组重建和突变特征.基因组生物学。
13:R115。[PMC免费文章][公共医学][谷歌学者] 4.Z.J.臧。、Cutcutache I.、Poon S.L.、Zhang S.L、McPherson J.R.、Tao J.等。2012胃腺癌外显子序列测定确定细胞粘附和染色质重塑基因的复发性体细胞突变.自然遗传学。
44:570–574. [公共医学][谷歌学者] 5M.古特曼。、Amit I.、Garber M.、French C.、Lin M.F.、Feldser D.等人。2009染色质特征揭示了哺乳动物中超过1000个高度保守的大型非编码RNA.自然
458:223–227.[PMC免费文章][公共医学][谷歌学者] 6彭,W。、司S.、张奇、李C.、赵峰、王峰等。2015长非编码RNA MEG3作为竞争性内源性RNA调节胃癌进展.《实验临床杂志》。癌症研究。
34:79.[PMC免费文章][公共医学][谷歌学者] 7X·东。,Chen K.,Cuevas‐Diaz Duran R.,You Y.,Sloan S.A.,Zhang Y.等人。2015对大脑纯化细胞类型中长非编码RNA的全面鉴定揭示了LncRNA在OPC命运决定中的功能.公共科学图书馆-遗传学。
11:e1005669。[PMC免费文章][公共医学][谷歌学者] 8Z·潘。、毛伟、鲍毅、张明、苏旭、徐旭,2016。长非编码RNA CASC9调控食管癌的迁移和侵袭.癌症医学。
5:2442–2447.[PMC免费文章][公共医学][谷歌学者] 9X·杨。、谢旭、肖玉芳、谢瑞、胡春杰、唐斌等。2015长非编码RNA在肝细胞癌发生中的出现.癌症快报。
360:119–124. [公共医学][谷歌学者] 10胡,Y。、陈海勇、余春云等。2014.一种长的非编码RNA信号改善结直肠癌预后预测.Oncotarget公司
5:2230–2242.[PMC免费文章][公共医学][谷歌学者] 11张晓强。、孙S.、林国富、姜国明、蒲建凯、何安生等。2013多形性胶质母细胞瘤中一个长的非编码RNA信号预测生存率.神经生物学。数字化信息系统。
58:123–131. [公共医学][谷歌学者] 12爱尔兰共和国。博尔斯塔德·B.M.、科林·F.、科普·L.M.、霍布斯·B.和斯皮德·T.P.,2003年。Affymetrix基因芯片探针级数据汇总.核酸研究。
31:e15。[PMC免费文章][公共医学][谷歌学者] 13.H·江。和Wong W.H.2008。SeqMap:将大量寡核苷酸映射到基因组.生物信息学
24:2395–2396.[PMC免费文章][公共医学][谷歌学者] 14J·哈罗。、Frankish A.、Gonzalez J.M.、Tapanari E.、Diekhans M.、Kokocinski F.等人。2012. GENCODE:ENCODE项目的参考人类基因组注释.基因组研究。
22:1760–1774.[PMC免费文章][公共医学][谷歌学者] 15.梅里科,D。、Isserlin R.、Stueker O.、Emili A.和Bader G.D.,2010年。富集图:一种基于网络的基因集富集可视化和解释方法.公共科学图书馆
5:e13984。[PMC免费文章][公共医学][谷歌学者] 16西蒙,R。2007年,Lam A.、Li M.C.、Ngan M.、Menenzes S.和Zhao Y。使用BRB‐ArrayTools分析基因表达数据.癌症信息。
三:11–17.[PMC免费文章][公共医学][谷歌学者] 17伊什瓦兰,H。和Kogalur U.B.2010。随机存活森林的一致性.统计概率。莱特。
80:1056–1064.[PMC免费文章][公共医学][谷歌学者] 18P.J.沃尔德斯。、Verheggen K.、Menschaert G.、Vandepele K.、Martens L.、Vandercompele J.等人。2015LNCipedia更新:人类lncRNA序列注释数据库.核酸研究。
43:D174–D180。[PMC免费文章][公共医学][谷歌学者] 19李,J。、韩磊、罗巴克·P、刁磊、刘磊、袁毅等。2015TANRIC:探索lncRNAs在癌症中作用的交互式开放平台.癌症研究。
75:3728–3737.[PMC免费文章][公共医学][谷歌学者] 21黄,S。、陆伟、葛迪、孟南、李毅、苏磊等。2015长非编码RNA TGFB2‐OT1在血管内皮细胞自噬和炎症中调节的新microRNA信号通路.自噬
11:2172–2183.[PMC免费文章][公共医学][谷歌学者] 22巴蒂斯塔,P.J。,和Chang H.Y.,2013年。长非编码RNA:发育和疾病中的细胞地址码.单元格
152:1298–1307.[PMC免费文章][公共医学][谷歌学者] 23宋,P。,Wu L.,Jiang B.,Liu Z.,Cao K.和Guan W.,2016年。年龄对胃癌术后预后的影响:基于SEER人群的分析.Oncotarget公司
7:48614–48624.[PMC免费文章][公共医学][谷歌学者] 24J.D.胡德。和Cheresh D.A.,2002年。整合素在细胞侵袭和迁移中的作用.Nat.Rev.癌症
2:91–100. [公共医学][谷歌学者] 25W.郭。和Giancotti F.G.,2004年。肿瘤进展过程中的整合素信号.自然修订版分子细胞生物学。
5:816–826. [公共医学][谷歌学者] 26博格,C。沃内克·V.S.、贝伦斯·H.M.、卡尔索夫·H·、古德曼·S.L.、贝克尔·T·等人。2015整合素αvbeta3和αvbeta 5作为胃癌的预后、诊断和治疗靶点.胃癌
18:784–795.[PMC免费文章][公共医学][谷歌学者]