跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2012; 13(12):R115。
2012年12月13日在线发布。 数字对象标识:10.1186/gb-2012-13-12-r115
PMCID公司:项目经理4056366
PMID:23237666

胃癌的全基因组重建和突变特征

关联数据

补充资料

摘要

背景

胃癌是全球癌症死亡率第二高的原因。为了探索胃癌体细胞改变的完整序列,我们结合大规模平行短阅读和DNA配对标记测序,首次对两种胃癌进行了全基因组分析,一种是染色体不稳定,另一种是微卫星不稳定。

结果

综合分析和从头开始程序集揭示了一种野生类型的体系结构KRAS公司放大是胃癌常见的驱动因素。我们在胃癌中发现了三种不同的突变特征——在全基因组氧化和微卫星不稳定性相关突变特征的背景下,我们确定了第一个外显子特异性突变特征。通过结合40个完整胃癌外显子的测序数据和另外94个独立胃癌的靶向筛查,进一步表征这些特征的影响ACVR2A型,RPL22型LMAN1型微卫星不稳定性阳性胃癌和PAPPA公司作为反复突变的基因TP53型野生型胃癌。

结论

这些结果强调了全基因组癌症测序如何能够揭示与组织特异性致癌相关的信息,否则这些信息将从外显序列数据中丢失。

背景

胃癌是全球第四大常见癌症,也是导致癌症死亡的第二大原因。早期GC通常无症状或伴有非特异性症状,导致大多数患者出现晚期疾病。晚期GC患者的治疗选择是有限的,手术和化疗方案提供了适度的生存益处。GC的环境风险因素包括高盐饮食、吸烟和感染幽门螺杆菌[1]. 了解这些环境暴露对胃上皮细胞基因组的突变影响对于阐明与胃肿瘤发生相关的特定基因和途径至关重要。

肺癌的前期研究[2,]、黑色素瘤[4]和白血病[5]研究表明,环境致癌物和药物可以在癌症基因组中引发特定的体细胞突变,称为“突变特征”。虽然先前关于GC的研究已经应用外显子测序方法来识别频繁突变的基因[6,7],识别突变特征最好使用全基因组数据,因为其完整性和同时揭示微观和宏观尺度的体细胞变化的能力。在这项研究中,我们试图通过分析两个GC及其匹配的正常对照的全基因组序列,使用短读(SR)下一代测序和长插入(约10kbp)DNA配对末端标签(DNA-PET)方案,对GC的突变过程提供更全面的了解[8]. 我们还试图探索这些数据集的组合从头开始组装癌症和正常基因组,并对肿瘤中的一系列(点突变到兆碱基大小)体细胞变化进行全面分类。最后,我们使用该目录来描述突变过程对基因的影响,并使用筛选方法验证特定突变过程定义的GC亚型中的复发突变基因。

结果

综合短读/DNA-PET分析和从头开始装配

分析的匹配肿瘤和正常样本来自两名新加坡患者。一个GC显示了微卫星不稳定性(MSI)和活动性的证据幽门螺杆菌感染(见附加文件中的表S11其他临床特征)。通过Illumina SR测序将每个肿瘤和匹配的正常样本测序到平均碱基对覆盖率的30倍以上(材料和方法;附加文件中的表S21),并使用大插入(约10 kbp)DNA-PET测序将物理覆盖率提高130倍以上[9]在SOLiD平台上(材料和方法;附加文件中的表S3和注释11). 结合肿瘤和正常基因组的单核苷酸变异(SNV)和短插入和缺失(indels)来识别体细胞变异(表(表11以及材料和方法),并使用靶向测序(SNV验证率为90%,indels验证率为96%;材料和方法。SR和DNA-PET数据也用于识别体细胞拷贝数变异(CNV)和结构变异(SVs)(验证率=81%;材料和方法;附加文件中的注释11).

表1

全基因组测序方法鉴定的两种GC肿瘤的体细胞变异

患者IDNGCII082公司NGCII092标准
SNV,全部为体细胞14,85617, 473
编码区域119116
非同义词8673
促销员区域101161
Indels,全部为体细胞11,7382,486
编码区域122
CNV,全部为体细胞83621,776
影响基因265
SV,全部为体细胞12146
影响基因1196
删除656
串联复制28
未配对反转026
反转(Inversions)02
插入(染色体内)00
插入(染色体间)00
孤立易位0
平衡易位00
复杂事件(染色体内)449
复杂事件(染色体间)02

我们整合了SR和DNA-PET序列信息来执行从头开始肿瘤和正常基因组的组装。完成时从头开始肿瘤基因组的组装仍然面临着重大的技术挑战,以前从未尝试过,我们能够使用SR/DNA-PET数据构建高度连续的支架长度中值(N50)的草图组装,范围为41至148 kb,DNA-PET数据有助于组件的三倍序列连续性(材料和方法;附加文件中的注2和表S51). 重要的是,执行从头开始SR/DNA-PET组装揭示了使用SR数据的常规分析未观察到的几个发现。首先从头开始该方法允许以单基板分辨率表征大规模体细胞结构变异(SR库无法识别近一半的已验证SV和融合基因;附加文件中的注释11). 例如,NGCII092在含有野生型的染色体12p11-12上显示了局部基因组扩增KRAS公司基因,GC中常见的基因组事件[10]. 结合SR/DNA-PET数据(材料和方法),可以详细推测扩增的进化谱系的重建KRAS公司一个拟议抑癌基因伴随缺失的位点RASSF8系统(以及染色体6p处的另一个焦点扩增子),如补充文本所述(图(图1;1; 附加文件中的图S1、S2和注释31). 肿瘤基因组的重建还可以预测融合基因和复杂重排,这些类似于复制耦合机制产生的模式[11]并在补充文本中进一步描述(注释4以及附加文件中的图S3和S41和附加文件中的表S62).

保存图片、插图等的外部文件。对象名称为gb-2012-13-12-r115-1.jpg

两种胃癌基因组拷贝数、12p扩增机制及融合基因的构建.(a)两个胃肿瘤中的体细胞CNV(染色体排列在x轴上,拷贝数显示在y轴上)。(b)12号染色体的拷贝数(顶部)和12p上的扩增子(中间)以橙色显示(y轴)。尺寸≥45的DNA-PET簇确定的重新排列由箭头和连接线表示(底部)。深红色和粉红色箭头分别表示5'和3'簇区域,深红色的尖端和粉红色箭头的钝端之间存在连接。数字表示集群大小。(c)之间的融合SOX5系列OVCH1公司由簇大小为129 in(b)的重排点预测。

第二,SR/DNA-PET联合分析使我们能够组装肿瘤基因组中的序列,而不是参考人类基因组中的。例如,患者NGCII082表现出活性幽门螺杆菌感染后,我们检测到大约2000个短序列读取和>600个DNA-PET标记,这些标记与幽门螺杆菌基因组(来自肿瘤测序的细菌病原体的第一份此类报告),以及肿瘤相关微生物组(NGCII092中未发现这些;参见附加文件中的图S5和注释51详细信息)。注意,尽管数量较少,但DNA-PET标签对基因组的物理覆盖和分析有显著贡献(附加文件中的图S5和注释51).

第三从头开始参考基因组中缺失的人类基因和序列变体的组装注释。总的来说,我们鉴定出超过3 Mbp的新序列(长度超过500 bp),包含几个基因(包括细胞因子受体样因子的同源基因-CRLF2号机组),每个患者有1000多个体细胞和生殖系变体(材料和方法;附加文件中的注2和表S51).

活性氧、脱氨和微卫星不稳定性损伤的突变特征

我们基于NGCII082中的14856个体细胞SNV(11738 indels)和NGCII092中的17473个体细胞snV(2486 indels(表1)。1). 这说明平均突变频率为每兆碱基5个,每个肿瘤的蛋白质编码区中包含>100个SNV(表(表1;1; 附加文件中的注释61). 注意,我们鉴定出的体细胞变异数量是早期测序研究中发现的体细胞变体数量的五倍以上[6,7]仅限于外显子(从37个外显子中鉴定出5588个SNV和2347个indels),突出了全基因组分析在研究突变特征方面的统计优势。总的来说,NGCII082是一种MSI阳性肿瘤,在蛋白质编码区显示出过多的SNV(P(P)-值<0.02,χ2试验)和高出7倍的微振型频率(图(图22和3d)三维)但缺乏大规模SV和扩增或删除(图(图22和表表1)。1). 相比之下,NGCII092表现出广泛的局部放大和缺失的复杂拷贝数特征,以及突变的TP53型基因,与肿瘤基因组中存在的染色体不稳定(CIN)一致(图(图2)。2). 这些结果与MSI和CIN通路中诱导其他癌症突变的互斥性一致[12].

保存图片、插图等的外部文件。对象名称为gb-2012-13-12-r1152.jpg

两种胃癌基因组的体细胞改变图谱Circos图按照从外环到内环的顺序描述了以下信息:使用WGS数据(1)CNV(以红色表示的增益为10份,以灰色表示的丢失),(2)indel密度(以蓝色表示的indel频率为每10 kbp,以5 indels/10 kbp为上限),(3)SNV密度(以黑色表示的SNV频率为每10kbp,每个环为5 SNV/10 kbp、以10 kbp为限),使用DNA-PET数据,(4)缺失(红色)、串联重复(绿色)和反转(紫色)、(5)染色体内和(6)染色体间、插入(橙色)和未配对SV(灰色)。

保存图片、插图等的外部文件。对象名称为gb-2012-13-12-r115-3.jpg

基因组和外显子突变指纹.(a)全基因组各类体细胞SNV的频率。(b)体细胞SNV外显频率。(c)利用34个外显子的数据,将突变偏向作为感染状态的函数(SNV分类的偏向计算为-克)/克,其中和g是体细胞和种系SNV频率)。注意,当MSI肿瘤从分析中排除时,得到了几乎相同的结果(*P(P)-值<0.1**P(P)-值分别<0.01)。(d)全基因组生殖系和体细胞指数的大小分布。

MSI阳性GC中的微振型明显过剩(图(图3d;三维; 附加文件中的图S101)其特征是单核苷酸重复序列中存在单碱基对胸腺嘧啶缺失模式(79%)。相比之下,在MSI阳性和CIN阳性的GC中都有相当数量的插入,以前也发现了类似的缺失特异性模式[13]. 此外,未发现非胸腺嘧啶和非单核苷酸重复缺失过多。先前的外显子测序数据进一步证实了MSI表型与此处确定的特异性缺失特征之间的相关性[7](四个MSI阳性外显子组),尽管这一方面在之前的工作中没有发现。就基因组位置而言,缺失随机分布在整个基因组中,并且与胸腺嘧啶单核苷酸重复序列的区域存在成比例(即85%的均聚物>5 bp)。因此,尽管存在胸腺嘧啶缺失的偏见,但似乎在MSI相关特征的基因组上缺乏靶向机制。

尽管表现出非常不同的体细胞改变模式(MSI或CIN),但两种GC在单核苷酸水平上的突变频率高度相似,与正常基因组相比,显著偏向于C>A和T>A的改变(P(P)-值<10-16, χ2测试;图3a)。3a年). 这些变化可能代表活性氧和氮物种(ROS和RNS)引起的突变,已知这些突变会产生C>A和T>A突变[14]. 此外,可能的触发因素是幽门螺杆菌感染,已被证明会导致胃上皮细胞的慢性炎症和ROS/RNS生成[14]. 观察到的C>A突变与高度显著的序列选择性相关,以CpCpT过量为标志(NGCII082,比值比(OR)=3.2,P(P)-值<10-16, χ2测试)或TpCpA站点(NGCII092,or=1.7,P(P)-值<10-16, χ2测试)和这些图案的扩展(材料和方法;附加文件中的注释6和图S61和附加文件中的表S146). 这种模式与吸烟相关的小细胞肺癌中的C>A特征不同,后者在CpG岛外的CpG二核苷酸中过量,提示与甲基化状态有关[2,]. 需要进一步的工作来确定这种全基因组GC-特异性签名中序列选择性的机制基础。

GC中的外显子突变特征

与基因组编码区和非编码区中存在的MSI和ROS/RNS特征不同,我们还检测到第三个GC突变特征仅在编码区中明显(图(图3b),3亿)其特征是C>T突变过多。这些突变在CpG处过量(NGCII082,OR=1.2,P(P)-值<10-16, χ2测试)和GpC位点(NGCII092,P(P)-值<10-16, χ2试验)二核苷酸。CpG的改变可能代表甲基化胞嘧啶的脱氨基,随后是与转录偶联修复相关的错误,这在其他癌症中也有观察到[2,4]. 然而,后者倾向于发生在GpC基序上的C>T改变,这似乎是以前在其他癌症中没有报道过的一个独特特征[2,4]并可能代表因酶如AID(激活诱导胞苷脱氨酶)而脱氨基[15]. 已知AID优先靶向转录区域[16]并且由于以下原因异常激活幽门螺杆菌胃上皮感染[17]. 总的来说,我们的全基因组测序数据表明GC基因组中至少存在三个与MSI、ROS/RNS和脱氨过程相关的突变特征。

为了进一步表征突变特征,我们结合早期研究的数据,重新分析了总共40个GC外显子[6,7]本研究中有两个新的外显子组(材料和方法;附加文件中的表S8和图S71). 具体而言,外显子体细胞和种系频率的比较表明,除一名患者外,其他所有患者的C>a(ROS/RNS相关)或C>T(脱氨基相关)改变均显著过量,23名GCs(>50%)的两种突变均过量(Fisher精确检验P(P)-值<0.01),确定这两个突变类别为GC中最显著的单核苷酸改变。这些模式独立于组织学亚型(肠型、弥漫型和混合型)和MSI状态(除一个非MSI肿瘤外,其他所有肿瘤中也存在过量)。此外,在活动性GCs中,C>T和C>A突变的频率显著不同幽门螺杆菌感染与缺乏活动性感染的患者相比(Wilcoxon秩和检验P(P)-值分别<0.006和0.06;图3c)。3厘米). 总的来说,这些结果支持ROS/RNS相关C>A和脱氨酶相关C>T突变在胃癌中的广泛作用,并提示其与幽门螺杆菌感染。

以前在其他癌症中曾描述过转录偶联修复的强烈特征[2,4]我们的分析也在GC中证实了这一点,基因组转录不良的区域与显著更多的突变相关(附加文件中的图S8和注释81). 然而,与早期的报告相比,我们没有发现大多数突变类别中转录链与非转录链的突变存在显著差异(除了T>G,P(P)-值<0.05,χ2测试;附加文件中的图S81). 后一种模式的缺失可能是诱变剂的更高突变负担的结果,诱变剂也以转录偶联方式起作用(例如AID[16]).

突变特征对GC中基因的影响

这里确定的突变特征对胃肿瘤发生的总体影响是一个复杂的问题,受到几个因素的影响,包括突变的性质、经常受到影响的基因的功能以及遗传背景和选择过程。我们旨在使用两种方法进行初步评估:(i)通过表征受各种突变类别影响的基因的比例;和(ii)通过识别突变过程定义的GC亚型中的反复突变基因。

总的来说,NGCII082中的大多数突变基因是由SNV引起的(77%),而CNV和SVs在NGCII092中起主导作用(82%)(表(表1)。1). 总的来说,我们发现107种SV通过基因体内的截断、融合、缺失、串联复制或重排影响基因。其中96例(90%)在CIN表型中被鉴定为肿瘤NGCII092,说明了该突变过程的基因负担。相反,即使在MSI表型的肿瘤中,也很少有基因出现小的插入和缺失(indels)(尽管indels与SNVs基因组范围内的情况大致相同;表表1),1)尽管它们引起移码的能力可能比SNV更频繁地影响基因功能。在SNV中,尽管脱氨基相关的C>T信号只在基因组的一小部分中出现,但由于其对基因的靶向影响,它在GC中发挥着更大的作用。这两种肿瘤中48%以上的非同义突变(NGCII092中48%,NGCII082中59%)是由C>T突变引起的,而C>A突变不到19%(表(表1)。1). GC中反复突变的基因(附加文件中的表S71和附加文件中的表S9),抑癌基因中的非同义突变TP53型(50%的样本发生突变)和PTEN公司(18%的样本)和致癌基因皮克3卡(13%;8%有PTEN公司皮克3卡突变)和CTNNB1公司(10%)常为C>T突变(29%)。这也见于一些新的反复突变基因,如AQP7类,SPTA1标准RP1L1型(>10%的肿瘤发生突变;附加文件中的表S71).

突变基因的通路分析显示,两组最丰富的是β1-整合素介导的细胞表面相互作用和由III类组蛋白脱乙酰酶介导的信号事件,这是对先前分析的改进[7](附加文件中的表S104). 此外,我们确定了与RAC1系统83%的基因突变幽门螺杆菌阳性样品(P(P)-值<0.05 Fisher精确试验)。RAC1系统是已知的Rho GTPase家族成员,具有多种致癌作用[18],用于调节幽门螺杆菌毒力因子真空断路器已知可促进上皮细胞中的液泡形成[19]. RAC1系统因此,pathway可以同时促进幽门螺杆菌感染和胃肿瘤的发生。

最后,为了进一步描述突变过程对GC基因的影响,我们考虑了两种用于识别复发突变基因的特定亚型,MSI阳性GC和TP53型-野生型GC(附加文件中的表S11和S131和附加文件中的表S125). 我们使用TP53型-野生型状态作为无CI表型肿瘤的替代标记TP53型已知可以抑制染色体不稳定性[20]. 在这类GC中,除了肿瘤抑制基因PTEN公司TTK公司与交互的TP53型,我们确定PAPPA公司,非整倍体胎儿妊娠的标记[21],作为反复突变(附加文件中的表S131; 请注意,全基因组测序(WGS)样本在大约2Mbp窗口内的平均突变率PAPPA公司与全基因组比率相似,即5.3对5.2突变/Mbp)。对另外94对胃癌/正常配对的筛查证实了PAPPA公司所有GC样品中的突变为6%(附加文件中的表S125)其中20%TP53型野生型GC(关键功能域发生突变;附加文件中的图S13和S141)强调它是该亚型中潜在的驱动基因。

在MSI阳性GC中,ACVR2A型,RPL22型,LMAN1号机组、和车站2在poly(T)区域观察到反复出现单碱基胸腺嘧啶缺失(附加文件中的表S111)这在另外94个胃癌/正常配对样本的筛查中得到了证实(9个MSI阳性;附加文件中的表S125以及附加文件中的图S9和注释91). 总的来说,ACVR2A型在86%的MSI阳性GCs肿瘤的8个胸腺嘧啶区域发生突变,RPL22型64%的胸腺嘧啶区域,LMAN1号机组在一个含有9种胸腺嘧啶的区域中,50%和车站2在8个胸腺嘧啶区占29%。基于MSI阳性肿瘤中均聚物区域的平均突变频率(8条胸腺嘧啶延伸中的4.5%(n个=778)和9个胸腺嘧啶延伸的4.8%(n个=183),分别在外来区域)ACVR2A型,RPL22型LMAN1号机组明显超标(Bonferroni纠正P(P)-值≤0.0003,精确二项式检验)。在每一个基因中,所有缺失都发生在含有胸腺嘧啶的同一同聚物束中,这是一种与MSI表型相关的模式,而MSI阴性GC肿瘤中没有一个携带这些突变。相反,最近报道的MSI相关假定驱动基因的突变ARID1A公司不限于缺失或MSI阳性肿瘤[7]. 有趣的是,ACVR2A型(编码TGF-β超家族分化因子)在MSI阳性的结直肠癌中被描述为反复突变[22]. 此外,这里所见的突变频率与之前报道的MSI阳性结直肠癌的频率相当[23,24]并强调ACVR2A型以及MSI阳性GC中TGF-β信号转导,同时揭示RPL22型LMAN1型需要进一步调查。

讨论

在几个千碱基对的长读测序成为常规之前,SR和长片段配对测序的结合仍然是全面捕获癌症基因组微观和宏观变化的最有力方法。因此,本研究中SR和DNA-PET测序的结合首次对GC中的体细胞变化进行了全面评估。特别是,我们的结果强调了全基因组分析在重建复杂体细胞结构变异谱系、表征突变过程及其在癌症中的基因组影响方面的重要性。例如,虽然在KRAS公司基因已被很好地表征,我们的全基因组分析使第一个详细的扩增重建成为可能KRAS公司基因座(GC中的常见事件)和拟议抑癌基因的伴随缺失RASSF8系统.

早期研究中几个外显序列数据集的分析[6,7]只能提供GC中突变过程的有限视图。全基因组分析对于提供足够的细节和统计数据以确定各种突变过程(例如MSI、ROS/RNS和CI)的特征和相对影响至关重要。这最好的例证是识别一个独特的局部脱氨酶连锁突变指纹,其重要性在基于外显子的研究中可能会被忽略。我们进一步描述了这种突变过程的影响,并确定了反复突变的基因PAPPA公司,ACVR2A型,RPL22型,LMAN1号机组、和车站2在突变过程定义的GC亚型中。

结论

虽然计算工具用于从头开始癌症基因组组装是有限的,其实用性通过我们重建的幽门螺杆菌菌株基因组和基于组装的SV和融合基因在碱基对水平上的表征。随着测序成本持续下降,受影响组织的全基因组测序和组装可作为癌症和其他疾病中生物标记物和病原体发现的工具。装配工具需要改进,以应对基因组扩增和混合细胞群的双重挑战,本研究中临床样本的全基因组SR和DNA-PET数据的可用性应作为这项工作的有用资源。

材料和方法

患者样本和临床信息

从新加坡国立大学医院和新加坡Tan Tock Seng医院接受胃癌手术的患者中获取患者样本以及组织和血液样本的临床信息。所有受试者都获得了知情同意,该研究得到了新加坡国立大学机构审查委员会(参考代码05-145)和国家医疗保健集团领域特定审查委员会的批准(参考代码2005/00440)。通过全基因组测序分析样本的两名患者的临床信息见附加文件中的表S11附加文件中的表S12提供了用于靶向筛查的94种胃肿瘤的附加信息5.

文库准备和测序

对于WGS测序,按照制造商的说明(美国威斯康星州麦迪逊),使用罗氏喷雾器随机分离肿瘤和血液样本中的基因组DNA。然后对分离出的DNA进行末端修复,在3'端A尾,与Illumina成对末端适配器连接,PCR扩增,然后选择400到600 bp的片段作为模板,并用Illuminia GA从两端测序,以获得两端76或101 bp的读数(附加文件中的表S21). DNA-PET库的构建如其他地方所述[9]并由Applied Biosystems SOLiD系统进行测序(美国加利福尼亚州卡尔斯巴德,附加文件中的表S31). 如前所述,使用SureSelect Human All Exon Kit v1(美国加利福尼亚州圣克拉拉市安捷伦科技公司)进行外显子序列测定,并使用76 bp配对读码在Illumina GA-IIx测序器的两条序列线上进行测序[6].

映射和变量调用

使用ELAND(Illumina Inc.)将成对的Illuminia读数映射到参考人类基因组(UCSC hg18),并从进一步分析中删除未通过过滤器的读数。使用SAM工具分别对每个样本调用SNV和indels[25](v0.1.7-6,SNP质量阈值=20,一致性质量阈值=30)(附加文件中的表S41). 在肿瘤和匹配的正常样本中使用相同的变异调用来识别生殖系变异。提供了体细胞变异列表,其中SAMtools调用的正常基因型不同,并且在正常样本中看到的变异基因型读数不到两次。BWA后使用此管道分析外显子序列中的Illumina读数[26]映射(附加文件中的表S81). 作为对照,我们注意到来自WGS和外显子组测序数据集的所有外显子的种系SNV频率几乎相同(附加文件中的图S71). 将体细胞SNV频率和邻域与生殖系频率进行比较,以评估其富集情况。SNV周围高达2 bp的邻域用于识别丰富的基序。躯体indel调用需要至少20%的读取支持,通过两条链上的读取,至少有10个读取与肿瘤中的位置重叠,正常样本中没有indel调用。Sanger测序证实,蛋白质编码区和内含子中的体细胞SNV和indels具有较高的验证率(83个SNV,验证率=90%;72个indels,验证率=96%)。通过提取突变上游和下游的5 bp序列进行SNV邻域分析。使用RDXplorer程序鉴定了种系和体细胞拷贝数变体[27]使用默认参数。

SOLiD系统分析管道工具Corona Lite(Applied Biosystems Inc.)在颜色空间中将DNA-PET标签单独映射到参考人类基因组(UCSC hg18),允许每个标签有两个颜色代码不匹配。带有未解析位置(random_chr)和替代MHC单倍型的参考序列轮廓被排除在绘图参考之外。Corona Lite对单个映射标签进行配对。在一个或两个标签具有多个映射位置的情况下,一个称为“拯救”的过程有利于创建一致的PET(两个标签位于相同的染色体上、相同的链、相同的方向、正确的5'→3'顺序以及彼此之间的预期距离)。

基于非一致PET集群的SV使用GIS DNA-PET管道调用[9]根据完善的质量控制标准:(i)排除尺寸<6的PET簇;(ii)簇的5'和3'标记映射到的区域的大小必须分别至少为1kbp;(iii)具有超集群的PET集群(重叠集群的连接组件[9])大小>100需要更高的集群大小10;和(iv)排除了两个融合区域之间序列高度相似的PET簇(预测断点周围20 kbp窗口的BLAST得分>2000)。为了区分生殖系SV和体细胞SV,如前所述对正常和肿瘤样本进行了比较[9]. 已知种系SV的进一步筛选和PCR验证在附加文件的注释1中进行了描述1.

癌症基因组组装

使用汇编程序SOAPdenovo对Illumina测序数据进行Contig组装、支架和间隙填充[28]. 使用Bowtie将DNA-PET读数映射到SOAPdenovo组件[29]根据最佳架子工Opera,将得到的链接信息用于生产更大的脚手架[30]. 在可行的情况下,使用SOAPdenovo中的间隙填充模块进一步完善脚手架和连续梁,用于桥接脚手架间隙。单独使用SR读取,我们获得了两种肿瘤的12 kb支架N50。DNA-PET读数允许将NGCII082和NGCII092的组件连通性分别提高到65 kb和41 kb。使用MUMmer软件包将组装物与参考人类基因组(UCSC hg18)进行比较[31]长度大于1kbp的比对用于识别大于20bp的缺失和插入。总的来说,在NGCII082和NGCII092中发现12861个缺失和143个插入,9274个缺失和108个插入,其中在每个样本中通过DNA-PET分析发现3个>2 kbp的缺失事件。通过使用SOAPdenovo中的间隙填充模块桥接断点周围构建的支架,验证了融合基因,并确认了断点。参考人类基因组中缺失的序列是根据长度应大于500 bp且与参考基因组不匹配的标准确定的,其同源性大于90%。使用Bowtie将读数映射到新序列,以识别支架中间没有读数覆盖的区域,这些区域可能指示潜在的组装错误。

微生物序列分析

通过将未映射到人类基因组的读取数据映射到NCBI中完整的细菌和病毒基因组数据库(使用Bowtie[29]). 对匹配的低复杂度序列进行筛选(任何5 mer都有三个以上的匹配),其余的读取用于估计每个物种的丰度(汇集映射到一个物种的不同菌株的读取)。对每个物种的基因组进行多个不同的读取匹配检查(>4个不同区域,其中基因组在1 kbp窗口中分段),并检查是否存在唯一的读取匹配(使用Bowtie中的唯一选项)。在测定肿瘤相关微生物群时,将匹配血样中推测细菌来源的一小部分读数(可能是试剂污染)用作对照,并排除与相应物种的读数匹配。的浓度幽门螺杆菌与肿瘤细胞相关的细胞是基于两种细胞类型均匀覆盖的假设来估计的,其中覆盖率=k×细胞数×基因组大小,对于常数k,假设种群是克隆的。

SNV和索引的功能注释

对于所有样本,使用SeattleSeq服务器对SNV和indel调用进行注释[32]和SIFT[33]分别是。使用Pathway Interaction Database基于非同义SNV和indels进行通路分析[34](样品pfg005T来自Wang等。[7]被排除在外,因为它只有四个体细胞突变)。

数据访问

本出版物的序列数据已保存在NCBI的基因表达总览中[35]并可通过GEO系列登录号GSE30833访问。

缩写

CIN:染色体不稳定性;CNV:拷贝数变化;DNA-PET:DNA配对标签;GC:胃癌;MSI:微卫星不稳定性;OR:比值比;RNS:活性氮物种;ROS:活性氧物种;SNV:单核苷酸变异;SR:短读;SV:结构变化;WGS:全基因组测序。

作者的贡献

YR和KGY发起了这项研究。NN、DB、AMH、PBOT和YR设计了实验。JR、MT、FZ、JBYS、RS和KGY获得了伦理批准、患者信息和患者样本,并对基因组发现的临床相关性发表了评论。ASMT、ZZ和AH构建了全基因组测序库(SR和DNA-PET)。NN、DB和AMH协调了数据分析。DB和NN在LV和AS的协助下进行突变分析。PEJ进行表达分析。AMH、FY、WHL、PNA、XYW和CCK在WKS、GB和MLH的指导下进行了拷贝数和结构变化分析。FY、ASMT和YYS对结构变异和点突变进行了验证,并筛选了复发突变和indels。YYS进行了定量PCR。SG和DB在NN的指导下进行装配分析。DB在AMH、NN、PBOT和KVD的指导下分析了突变的影响。MW、SYC、BP和RS对筛选复发突变的患者样本队列进行了微卫星不稳定性分析。XR协调Illumina和SOLiD对WGS样品进行测序。ZJZ、IC、CKO、ND、BTT、SR和PBOT协调并执行了外显子组测序和数据映射分析。NN、DB、AMH和PBOT撰写了这份手稿。所有作者阅读并批准了最终手稿。

补充材料

附加文件1:

补充方法、表格和图表.

单击此处获取文件(270万,DOCX)
附加文件2:

表S6。DNA-PET在胃肿瘤NGCII082和NGCII092中鉴定的体细胞SV的详细信息.

单击此处获取文件(199K,XLS)
附加文件6:

表S14。C>A突变附近的丰富碱基和基序.

附加文件3:

表S9。40个GC外显子中有4个或更多患者的非同义SNV或indels基因反复突变.

单击此处获取文件(112K,XLS)
附加文件4:

表S10。胃癌中丰富的功能和途径.

附加文件5:

表S12:。用Sanger测序筛选94对GC肿瘤/正常对照的复发突变.

致谢

这项工作得到了新加坡科学技术与研究局(A*STAR)、转化临床研究(TCR)旗舰计划——“新加坡胃癌联合会——改善患者的预后”、美国国家癌症研究所的支持NCI:5 R33 CA126996-02(用于融合基因完整注释的双端双标记技术)以及来自Lee基金会和国家癌症中心研究基金会的资金。新加坡国家医学研究委员会和A*STAR生物医学研究委员会(BMRC)的新加坡基因组研究所内部研究基金提供了额外支持。我们感谢Hwee Meng Low和Yeen Hui Choy对PCR验证的帮助,感谢HervéThoreau对测序平台的管理,感谢See Ting Leong、Say Chuan Neo和Poh Sum D Choi对SOLiD测序的支持,感谢Chin Thing Ong、Adeline Lai San Chew、Kian Chew Lim、Yen Ling Yee、Thompson Poh、Raquel Peh和Crystal Toh对Illumina测序的帮助。

工具书类

  • 比较D、Rocco A、Nardone G胃癌危险因素。欧洲药理学评论。2010;13:302–308.[公共医学][谷歌学者]
  • Pleasance ED、Stephens PJ、O'Meara S、McBride DJ、Meynert A、Jones D、Lin ML、Beare D、Lau KW、Greenman C、Varela I、Nik-Zainal S、Davies HR、Ordonez GR、Mudie LJ、Latimer C、Edkins S、Stebbings L、Chen L、Jia M、Leroy C、Marshall J、Menzies A、Butler A、Teague JW、Mangion J、Sun YA、McLaughlin SF、Peckham HE、Tsung EF。等。具有烟草暴露复杂特征的小细胞肺癌基因组。自然。2010;13:184–190. doi:10.1038/nature08629。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lee W、Jiang Z、Liu J、Haverty PM、Guan Y、Stinson J、Yue P、Zhang Y、Pant KP、Bhatt D、Ha C、Johnson S、Kennemer MI、Mohan S、Nazarenko I、Watanabe C、Sparks AB、Shames DS、Gentleman R、de Sauvage FJ、Stern H、Pandita A、Ballinger DG、Drmanac R、Modrusan Z、Seshagiri S、ZhangZ。肺癌患者配对基因组序列显示的突变谱。自然。2010;13:473–477. doi:10.1038/nature09004。[公共医学] [交叉参考][谷歌学者]
  • Pleasance ED、Cheetham RK、Stephens PJ、McBride DJ、Humphrey SJ、Greenman CD、Varela I、Lin ML、Ordonez GR、Bignell GR、Ye K、Alipaz J、Bauer MJ、Beare D、Butler A、Carter RJ、Chen L、Cox AJ、Edkins S、Kokko Gonzales PI、Gormley NA、Grocock RJ、Haudenschild CD、Hims MM、James T、Jia M、Kingsbury Z、Leroy C、Marshall J、Menzies A.等人。人类癌症基因组体细胞突变的综合目录。自然。2010;13:191–196. doi:10.1038/nature08658。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Puente XS、Pinyol M、Quesada V、Conde L、Ordonez GR、Villamor N、Escaramis G、Jares P、Bea S、Gonzalez-Diaz M、Bassaganyas L、Baumann T、Juan M、Lopez-Guerra M、Colomer D、Tubio JM、Lopez C、Navarro A、Tornador C、Aymerich M、Rozman M、Hernandez JM、Puente DA、Freije JM、Velasco G、Gutierrez-Ferandez A、Costa D、Carrio A、Guijarro S、,Enjunes A.等人。全基因组测序确定慢性淋巴细胞白血病的复发突变。自然。2011;13:101–105. doi:10.1038/nature10113。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 臧志杰、Cutcutache I、Poon SL、Zhang SL、McPherson JR、Tao J、Rajasegaran V、Heng HL、Deng N、Gan A、Lim KH、Ong CK、Huang D、Chin SY、Tan IB、Ng CC、Yu W、Wu Y、Lee M、Wu J、Poh D、Wan WK、Rha SY、So J、Salto-Tellez M、Yeoh KG、Wong WK、Zhu YJ、Futreal PA、Pang B.等人。胃腺癌的外显子序列测定确定细胞粘附和染色质重塑基因的复发性体细胞突变。自然遗传学。2012;13:570–457. doi:10.1038/ng.2246。[公共医学] [交叉参考][谷歌学者]
  • Wang K,Kan J,Yuen ST,Shi ST,Chu KM,Law S,Chan TL,Kan Z,Chan AS,Tsui WY,Lee SP,Ho SL,Chan AK,Cheng GH,Roberts PC,Rejto PA,Gibson NW,Pocaliko DJ,Mao M,Xu J,Leung SY。外显子序列测定发现胃癌分子亚型中ARID1A的频繁突变。自然遗传学。2011;13:1219–1223. doi:10.1038/ng.982。[公共医学] [交叉参考][谷歌学者]
  • Fullwood MJ,Wei CL,Liu ET,Ruan Y.成对标记(PET)的下一代DNA测序,用于转录组和基因组分析。基因组研究。2009;13:521–532. doi:10.1101/gr.074906.107。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hillmer AM、Yao F、Inaki K、Lee WH、Ariyaratne PN、Teo AS、Woo XY、Zhang Z、Zhao H、Ukil L、Chen JP、Zhu F、So JB、Salto-Tellez M、Poh WT、Zawack KF、Nagarajan N、Gao S、Li G、Kumar V、Lim HP、Sia YY、Chan CS、Leong ST、Neo SC、Choi PS、Thoreau H、Tan PB、Shahab A、Ruan X.等人。全面的大跨度配对标记图谱揭示了上皮癌基因组结构变异的特征模式。基因组研究。2011;13:665–675. doi:10.1101/gr.11355.110。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 邓N、吴立科、王H、达斯K、陶J、谭IB、张S、李M、吴J、林坤、雷Z、吴庚、林奎、雷坑Tan A、辛坡DY、里亚希S、贝尔S、史MM、林纳茨R、朱F、Yeoh KG、托赫HC、勇WP、昌HC、Rha SY、Boussioutas A、Grabsch H、罗岑S、谭P。胃癌基因组改变的综合调查揭示了不同治疗靶点之间分子排他性和共现性的系统模式。内脏。2012;13:673–684. doi:10.1136/gutjnl-2011-301839。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Gu W,Zhang F,Lupski JR。人类基因组重排的机制。病理遗传学。2008;13:4.数字对象标识代码:10.1186/1755-8417-1-4。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lengauer C,Kinzler KW,Vogelstein B.人类癌症中的遗传不稳定性。自然。1998;13:643–649. doi:10.1038/25292。[公共医学] [交叉参考][谷歌学者]
  • Ferreira AM、Westers H、Wu Y、Niessen RC、Olderode-Beneds M、van der Sluis T、van de Zee AG、Hollema H、Kleibeuker JH、Sijmons RH、Hofstra RM。结肠直肠肿瘤和子宫内膜肿瘤的微卫星不稳定性真的不同吗?基因染色体癌。2009;13:552–557. doi:10.1002/gcc.20664。[公共医学] [交叉参考][谷歌学者]
  • Ohsima H、Sawa T、Akaike T.8-硝基鸟嘌呤,活性氮物种引起的硝化DNA损伤的产物:形成、发生以及在炎症和致癌中的意义。抗氧化剂氧化还原信号。2006;13:1033–1045. doi:10.1089/ars.2006.8.1033。[公共医学] [交叉参考][谷歌学者]
  • Wedekind JE、Dance GS、Sowden议员、Smith HC。哺乳动物信使RNA编辑:APOBEC家族的新成员在家族企业中寻求角色。趋势Genet。2003;13:207–216. doi:10.1016/S0168-9525(03)00054-4。[公共医学] [交叉参考][谷歌学者]
  • Pavri R、Gazumyan A、Jankovic M、Di Virgilio M、Klein I、Ansarah-Sobrinho C、Resch W、Yamane A、Reina San-Martin B、Barreto V、Nieland TJ、Root DE、Casellas R、Nussenzweig MC。激活诱导的胞苷脱氨酶通过与Spt5相互作用靶向RNA聚合酶II停滞位点的DNA。单元格。2010;13:122–133. doi:10.1016/j.cell.2010.09.017。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Marusawa H,Chiba T.幽门螺杆菌诱导活化诱导胞苷脱氨酶表达和致癌。Curr Opin免疫学。2010;13:442–447. doi:10.1016/j.coi.2010.06.001。[公共医学] [交叉参考][谷歌学者]
  • Sahai E,Marshall CJ。RHO-GTPases与癌症。Nat Rev癌症。2002;13:133–142. doi:10.1038/nrc725。[公共医学] [交叉参考][谷歌学者]
  • 潘瑜,毕凤,刘恩,薛瑜,姚X,郑毅,范迪。七个主要Rho家族成员在胃癌中的表达。生物化学与生物物理研究委员会。2004;13:686–691. doi:10.1016/j.bbrc.2004.01.108。[公共医学] [交叉参考][谷歌学者]
  • Dalton WB、Yu B、Yang VW。p53抑制人类细胞有丝分裂阻滞后的结构染色体不稳定性。致癌物。第1929-1940页。[PMC免费文章][公共医学]
  • Breathnach FM,马龙FD。孕早期和中期非整倍体筛查:是否存在最佳范式?目前妇产手术。2007;13:176–182. doi:10.1097/GCO.0b013e3280895e00。[公共医学] [交叉参考][谷歌学者]
  • Woerner SM、Yuan YP、Benner A、Korff S、von Knebel Doeberitz M、Bork P.SelTarbase,人类单核苷酸微卫星突变及其对肿瘤发生和免疫学的潜在影响数据库。核酸研究。2010;13:D682–689。doi:10.1093/nar/gkp839。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hempen PM,Zhang L,Bansal RK,Iacobuzio-Donahue CA,Murphy KM,Maitra A,Vogelstein B,Whitehead RH,Markowitz SD,Willson JK,Yeo CJ,Hruban RH,Kern SE。胃肠道癌激活素AⅡ型受体(ACVR2)基因基因失活克隆选择的证据。癌症研究。2003;13:994–999.[公共医学][谷歌学者]
  • Jung B、Doctolero RT、Tajima A、Nguyen AK、Keku T、Sandler RS、Carethers JM。微卫星不稳定结肠癌激活素受体2型蛋白表达缺失。胃肠病学。2004;13:654–659.[公共医学][谷歌学者]
  • Li H、Handsaker B、Wysoker A、Fennell T、Ruan J、Homer N、Marth G、Abecasis G、Durbin R。序列比对/地图格式和SAMtools。生物信息学。2009;13:2078–2079. doi:10.1093/bioinformatics/btp352。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行长读数对齐。生物信息学。2010;13:589–595. doi:10.1093/bioinformatics/btp698。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Yoon S,Xuan Z,Makarov V,Ye K,Sebat J.使用读取覆盖深度敏感准确地检测拷贝数变体。基因组研究。2009;13:1586–1592. doi:10.1101/gr.092981.109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li R,Zhu H,Ruan J,Qian W,Fang X,Shi Z,Li Y,Li S,Shan G,Kristiansen K,Yang H,Wang J.利用大规模并行短阅读测序进行人类基因组从头组装。基因组研究。2010;13:265–272. doi:10.1101/gr.097261.109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;13:R25.doi:10.1186/gb-2009-10-3-R25。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Gao S、Nagarajan N、Sung WK。Opera:利用高通量配对基因序列重建最佳基因组支架。Res-Comput分子生物学。2011;13:437–451. doi:10.1007/978-3-642-20036-640。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kurtz S、Phillippy A、Delcher AL、Smoot M、Shumway M、Antonescu C、Salzberg SL。用于比较大型基因组的通用开放软件。基因组生物学。2004;13:R12.doi:10.1186/gb-2004-5-2-R12。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 西雅图顺序。http://gvs.gs.washington.edu/SeattleSeq注释/
  • Ng PC,Henikoff S.SIFT:预测影响蛋白质功能的氨基酸变化。核酸研究。2003;13:3812–3814. doi:10.1093/nar/gkg509。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pathway交互数据库。网址:http://pid.nci.nih.gov
  • Edgar R,Domracev M,Lash AE。基因表达总览:NCBI基因表达和杂交阵列数据存储库。核酸研究。2002;13:207–210. doi:10.1093/nar/30.1.207。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自基因组生物学由提供BMC公司