自然遗传学。作者手稿;PMC 2013年10月21日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理3802528
NIHMSID公司:美国国家卫生研究院326825
大肠腺癌基因组测序确定复发VTI1A-TCF7L2聚变
,#1,2,三,4 ,#4 ,1 ,1,4 ,5 ,4 ,4 ,4 ,4 ,4 ,4 ,4 ,1,4 ,1,4 ,4 ,1 ,4 ,6 ,7 ,8 ,8 ,8 ,9 ,10 ,11之间,12 ,1,2 ,1 ,1,2,三,4 ,4 ,1,11之间,12,13 ,1,2,14,15 ,1,4,15,16 ,1,2,三,4 ,1,2,13 ,9,17 ,9 ,4 ,4,18,19 ,4和1,三,4,11
亚当·J·巴斯
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
三美国马萨诸塞州波士顿达纳-法伯癌症研究所癌症基因组发现中心。
4美国马萨诸塞州剑桥市布罗德学院。
李尔王E背带
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
亚历克斯·H·拉莫斯
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
4美国马萨诸塞州剑桥市布罗德学院。
约坦干燥机
5以色列Rehovot Weizmann科学研究所复杂系统物理系。
克里斯蒂安·西布尔斯基斯
4美国马萨诸塞州剑桥市布罗德学院。
安德烈·西瓦琴科
4美国马萨诸塞州剑桥市布罗德学院。
瑞晶(Rui Jing)
4美国马萨诸塞州剑桥市布罗德学院。
特雷弗·帕格
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
4美国马萨诸塞州剑桥市布罗德学院。
Roel G Verhaak公司
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
4美国马萨诸塞州剑桥市布罗德学院。
尼古拉斯·斯特兰斯基
4布罗德研究所,美国马萨诸塞州剑桥市。
亚当·T·鲍廷
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
大卫·B·索利特
6美国纽约州纽约市斯隆-凯特琳纪念癌症中心人类肿瘤和发病机制项目。
埃维·瓦基亚尼
7美国纽约州纽约市斯隆-凯特琳纪念癌症中心病理科。
Yuji Mishina公司
8诺华生物医学研究所,美国马萨诸塞州剑桥。
马库斯·沃穆特
8诺华生物医学研究所,美国马萨诸塞州剑桥。
何塞·希梅内兹
9西班牙巴塞罗那Passeig Vall d'Hebron Vall d'Hebron医院肿瘤内科。
德里克·Y·蒋
10美国北卡罗来纳大学教堂山分校遗传学系。
萨宾娜·西格诺雷蒂
11美国马萨诸塞州波士顿哈佛医学院病理学系。
12美国马萨诸塞州波士顿市百翰女子医院病理科。
小威廉·G·凯林
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
妮可·斯巴迪
1美国马萨诸塞州波士顿Dana Farber癌症研究所肿瘤医学系。
威廉·C·哈恩
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
三美国马萨诸塞州波士顿达纳-法伯癌症研究所癌症基因组发现中心。
4美国马萨诸塞州剑桥市布罗德学院。
宇津浩士达(Yujin Hoshida)
4美国马萨诸塞州剑桥市布罗德学院。
舒吉·奥吉诺
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
11美国马萨诸塞州波士顿哈佛医学院病理学系。
12美国马萨诸塞州波士顿市百翰女子医院病理科。
13美国马萨诸塞州波士顿市布里格姆女子医院医学部Channing实验室。
罗纳德·德皮尼奥
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
14美国马萨诸塞州波士顿哈佛医学院遗传学系。
15美国马萨诸塞州波士顿达纳-法伯癌症研究所贝尔弗应用癌症科学研究所。
琳达·琴
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
4美国马萨诸塞州剑桥市布罗德学院。
15美国马萨诸塞州波士顿达纳-法伯癌症研究所贝尔弗应用癌症科学研究所。
16美国马萨诸塞州波士顿哈佛医学院皮肤科。
李维·A·加洛韦
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
三美国马萨诸塞州波士顿达纳-法伯癌症研究所癌症基因组发现中心。
4美国马萨诸塞州剑桥市布罗德学院。
查尔斯·S·富克斯
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
13美国马萨诸塞州波士顿布莱根妇女医院医学部钱宁实验室。
何塞·巴塞尔加
9西班牙巴塞罗那Passeig Vall d'Hebron Vall d'Hebron医院肿瘤内科。
17美国马萨诸塞州波士顿市马萨诸塞总医院血液和肿瘤科。
约塞普·塔伯内罗
9西班牙巴塞罗那Passeig Vall d'Hebron Vall d'Hebron医院肿瘤内科。
斯泰西·加布里埃尔
4美国马萨诸塞州剑桥市布罗德学院。
埃里克·S·兰德
4美国马萨诸塞州剑桥市布罗德学院。
18美国马萨诸塞州剑桥市麻省理工学院。
19美国马萨诸塞州剑桥市怀特海生物医学研究所。
马修·梅尔森
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
三美国马萨诸塞州波士顿达纳-法伯癌症研究所癌症基因组发现中心。
4美国马萨诸塞州剑桥市布罗德学院。
11美国马萨诸塞州波士顿哈佛医学院病理学系。
1美国马萨诸塞州波士顿达纳-法伯癌症研究所肿瘤内科。
2美国马萨诸塞州波士顿哈佛医学院医学系。
三美国马萨诸塞州波士顿达纳-法伯癌症研究所癌症基因组发现中心。
4美国马萨诸塞州剑桥市布罗德学院。
5以色列Rehovot Weizmann科学研究所复杂系统物理系。
6美国纽约州纽约市斯隆-凯特琳纪念癌症中心人类肿瘤和发病机制项目。
7美国纽约纪念斯隆-凯特琳癌症中心病理学系。
8美国马萨诸塞州剑桥市诺华生物医学研究所。
9西班牙巴塞罗那Passeig Vall d'Hebron Vall d'Hebron医院肿瘤内科。
10美国北卡罗来纳大学教堂山分校遗传学系。
11美国马萨诸塞州波士顿哈佛医学院病理学系。
12美国马萨诸塞州波士顿市百翰女子医院病理科。
13美国马萨诸塞州波士顿市布里格姆女子医院医学部Channing实验室。
14美国马萨诸塞州波士顿哈佛医学院遗传学系。
15美国马萨诸塞州波士顿达纳-法伯癌症研究所贝尔弗应用癌症科学研究所。
16美国马萨诸塞州波士顿哈佛医学院皮肤科。
17美国马萨诸塞州波士顿市马萨诸塞州总医院血液科和肿瘤科。
18美国马萨诸塞州剑桥市麻省理工学院。
19美国马萨诸塞州剑桥市怀特海生物医学研究所。
#贡献均等。
结直肠癌已成为了解基因和途径中致癌突变的渐进获取的模型,例如APC、CTNNB1,TP53型RAS基因与TGF-β信号转导1,7.外显子全序列测定最近发现了可能导致致癌的其他复发突变2,三此外,结直肠癌的基因组研究有详细的肿瘤亚群,其特征是染色体不稳定(约60-70%),或高度微卫星不稳定,通常与遗传或散发性错配修复缺陷相关(约15%),还有一些病例属于这两类7,8.
我们对9例结直肠癌和配对非肿瘤组织对照的基因组进行了测序(). 肿瘤在化疗或放疗前切除,并根据病理学估计纯度>70%进行测序。我们使用SNP阵列来确认肿瘤纯度和推断的倍性,并选择拷贝数改变提示染色体不稳定表型的样本。我们用成对的101碱基读码对这些样本进行了全基因组测序,平均肿瘤基因组的序列覆盖率为30.7倍,生殖系的覆盖率为31.9倍(). 我们能够可靠地调用约83%碱基的突变(范围为78-87%),这是基于唯一对齐序列读取的能力,并在肿瘤中获得≥14倍的覆盖率,在生殖系中获得≥8倍的覆盖度。
表1
用于全基因组测序的大肠肿瘤特征以及每个肿瘤DNA测序结果总结
个人 | 阶段 | 病理学 纯度估计 | 计算型 纯度估计 | 计算型 倍性估计 | 肿瘤 新闻报道 | 正常 新闻报道 | 基因组学 突变 | 突变 每Mb | 非silent编码 突变 | 重新安排 |
---|
CRC-1号机组 | 我 | 90 | 83.7 | 2.02 | 27.3 | 24.1 | 10,445 | 4 | 70 | 24 |
CRC-2号机组 | 我 | 90 | 79.9 | 2.14 | 31.1 | 31.1 | 10,561 | 4.1 | 47 | 5 |
CRC-3号机组 | 三 | 80 | 53.7 | 2.1 | 35.1 | 34.4 | 13,572 | 5.1 | 89 | 124 |
CRC-4公司 | 三 | 80 | 92.7 | 2.35 | 34.7 | 40.3 | 13,883 | 5.5 | 89 | 92 |
CRC-5型 | 四、 | 70 | 83.7 | 3.37 | 29.4 | 30.2 | 17,315 | 6.7 | 76 | 83 |
中铁六局 | 二 | 80 | 58.4 | 2.67 | 29.6 | 33 | 10,296 | 4 | 30 | 75 |
CRC-7公司 | 二 | 75 | 95.1 | 2.91 | 30.5 | 29.3 | 15884人 | 6.2 | 76 | 22 |
CRC-8公司 | 二 | 70 | 82.5 | 3.33 | 28.5 | 30.1 | 19,931 | 7.7 | 88 | 68 |
中铁九局 | 二 | 80 | 80.2 | 1.77 | 30.5 | 34.6 | 26,081 | 9.8 | 147 | 182 |
平均
| | | | |
30.7
|
31.9
|
15,330
|
5.9
|
79
|
75
|
总计
| | | | | | |
137,968
| |
712
|
675
|
这些病例揭示了序列和基因组结构的频繁变化。使用MuTect和Indelocator算法9——11,我们称9个样本中的137968个候选体细胞突变。为了评估我们的突变调用,我们验证了预测会导致蛋白质编码序列中非同义替换或插入缺失的候选突变(补充表1和2). 在这712名候选者中,521人可以通过质谱基因分型进行检测,我们确认84%(439人)为体细胞改变。值得注意的是,对于高等位基因比例(>0.33)的突变,基因分型验证率约为95%(308例中有292例)。较高等位基因分数突变的较高验证率与质谱技术要求变异等位基因检测最低阈值的可能性一致。
全基因组序列还允许我们评估体细胞突变的总体特征。使用所有候选突变,我们计算出相对于单倍体基因组的总体突变率约为5.9/Mb,范围为4.0-9.8个/Mb突变(). 假设这些事件中有多达16%为假阳性,这将预测每Mb约5个突变的突变率。该突变率超过了之前估计的测序拼接阵列中每Mb 1.2个突变率三这可能反映了大规模平行测序的更高灵敏度。基因间区域的突变率(6.7/Mb)略高于内含子和外显子序列(分别为4.8/Mb和4.2/Mb),可能是因为选择压力和转录偶联修复12,13在编码序列中,我们看到的非同义突变率为3.1/Mb,类似于桑格重测序中的2.8/Mb突变率2.
体细胞突变的基本背景与之前的报道一致,即结直肠癌在CpG二核苷酸处表现出强烈的C>T转换倾向2,三; 我们发现CpG位点的突变(百万分之37–72)比CpG跃迁以外的所有突变(百万分之3.2–8.5)都有所增加(补充图1). 用于检测偶发性错配修复缺陷的一致基因座的检查14没有微卫星不稳定的迹象。我们观察到编码区内的插入-缺失率较低(每个肿瘤0-5个事件)。
通过对非同义编码体细胞替换和小插入缺失的分析,在两个或多个肿瘤中鉴定出24个具有此类突变的基因(补充表3). 虽然小样本集不足以检测复发突变,KRAS、APC和TP53型尽管如此,相对于背景突变率而言,得分仍然显著。事实上,我们注意到KRAS、APC和TP53型分别在5个、7个和6个个体的肿瘤中(补充表2). 我们发现了其他已知的结直肠癌突变基因,例如NRAS、SMAD4、PIK3CA和FBXW7型,但鉴于样本集较小,这些基因的突变率没有达到统计显著性。需要大型测序项目来确定一组具有显著重复突变的完整基因;这些项目目前正在癌症基因组图谱下进行(见URL)。
全基因组测序可以详细研究染色体重排的性质。使用我们的算法(dRanger10,11),我们在9个肿瘤中确定了675个候选体细胞重排(平均值75;范围5-182;和补充表4)通过识别多个配对读取映射到不同基因组位点或方向错误的实例。为了评估这些发现的准确性,我们通过在肿瘤和生殖系DNA的假定连接处进行PCR,检测了331个候选体细胞重排;我们汇集PCR产物并对其进行热测序。我们确认92%的呼叫是真正的体细胞重排;我们发现四个调用(约1%)是种系重排,并将其从进一步分析中删除,其余22个调用(大约7%)未能在肿瘤或种系DNA中生成PCR产物。具有更多体细胞编码突变的肿瘤也包含更多重排(R(右)2= 0.55).
在以CIRCOS图显示的9例大肠肿瘤中检测到DNA结构重排和拷贝数改变33染色体端到端呈圆形排列,每个染色体的细胞带标记在外环中。内环显示从全基因组测序推断出的拷贝数数据,蓝色表示缺失,红色表示获得。在圆圈内,重排显示为弧,其中染色体内事件显示为绿色,染色体间易位显示为紫色。
大多数预测的重排(82%)是染色体内重排,在这些重排事件中,大约一半(46%)涉及将染色体区域相隔超过1Mb的“长程”重排事件。根据配对序列的分析,我们将发生在亚Mb尺度的短程重排分为缺失(64%)、串联重复(19%)和反转(17%)(补充图1). 我们研究了这些重排中断点处的序列,方法是对跨越连接的PCR产物进行焦磷酸测序,并使用BreakPointer工具对连接预测重排的融合序列进行测序10连接处通常显示1–6个碱基的显著微同源性,非模板DNA的插入并不常见(补充图1),观察结果与乳腺癌报告的结果一致15也与之前的报告一致,串联重复显示出更大程度的微同源性15.
三个样本(CRC-3、CRC-4和CRC-6)显示了染色体间易位的聚集性,其中一系列重排通过平衡易位导致两到三条不同染色体的广泛区域重排(). 我们看到了CRC-4中第8和20号染色体与CRC-6中第5和11号染色体之间的融合网络(). 因为这些事件中的大多数都不涉及拷贝数发生实质性改变的区域,它们代表了一种模式的变体(称为色三胞菌16)涉及由单个灾难性复杂基因组事件诱导的交替拷贝数状态。我们的结果表明,根据拷贝数分析,基因组中似乎“安静”的区域有可能发生复杂的结构改变。
两种结直肠癌染色体对之间的复杂重排。图的中央部分包含所有染色体上的拷贝数剖面,并在x个轴和复制数比率(log2)的比例年每个图的轴。上面的图显示肿瘤CRC-4,下面的图显示CRC-6的拷贝数分布,黑点标记沿着基因组每个位点推断的拷贝数比率。上面的插入框显示了CRC-4染色体8(深蓝色)和20(赭石色)的拷贝数和重排的详细视图,着丝粒标记为紫色圆圈。dRanger检测到的重排显示为绿色(染色体内)和紫色(染色体间)。下部的插入框显示CRC-6的详细拷贝数和重排图像,插入框显示5号染色体(红色)和11号染色体(灰色),并用线条标记基因组重排的位置。
我们检测了受基因组重排影响的特定基因。我们在已知的癌症相关基因中发现了微小的缺失,包括删除了表皮生长因子受体CRC-9中删除了PTEN公司在CRC-8中。多个样本中有22个基因存在断点。最常见的重排基因是宏2,A2BP1型,FHIT公司和IMMP2L公司(补充表3)它跨越了大量的基因组位点。以前的研究表明,这些基因在癌症中经常会出现局部缺失17,18可能是因为结构脆弱。值得注意的是,两个样本CRC-5和CRC-7包含染色体3:12易位,其中染色体3的不同基因间区域融合到甲基转移酶编码的第一内含子PRMT8项目然而,我们没有发现PRMT8项目两个样本中任意一个样本的RNA转录本(数据未显示)。
接下来,我们试图鉴定功能性融合基因。这种情况以前在肺癌中也曾出现过19和前列腺20除其他外,据我们所知,尚未有结肠癌的报道。我们发现了11个重排(2个染色体间重排和9个染色体内重排),这些重排可以产生框架内融合转录本(). 通过从97例原发性结直肠癌中筛选互补DNA(cDNA),我们发现其中一个可能的融合转录物反复表达。最初的观察发生在CRC-9,涉及10号染色体上的染色体内融合,融合了VTI1A型编码一种v-SNARE蛋白,介导高尔基复合体内细胞内小泡的融合21相邻基因的第四外显子,TCF7L2型(). 我们在框架中找到VTI1A至TCF7L2另外两例和97例原发性结直肠癌中的三例(包括CRC-9指数病例)的融合(补充图2).
复发基因融合VTI1A型和TCF7L2型. (一)上部示意图描述了外显子(垂直线)在VTI1A型和TCF7L2型在第10号染色体上彼此相邻。放大显示了在肿瘤CRC-9中发现的不一致配对末端读数的位置,其中一个读数(用蓝色标记)位于VTI1A型另一个阅读(标记为红色)是在TCF7L2型. (b条)上图描述了融合生成的预测融合转录本的结构。插图中描述了跨越两个内含子融合的精确读数(用闪电标记),读数区域与原始值相对应VTI1A型蓝色内含子和TCF7L2型红色(c(c))天然蛋白质结构域VTI1A型和TCF4-TCF7L2型,包括TCF4的两个备用C端子尾部,如图所示。以下是由融合基因外显子3编码的融合蛋白的结构VTI1A型第4外显子TCF7L2型CRC-9中确定。融合的两个变体显示为来自NCI-H508细胞系的数据,并显示编码全长(E-tail)和较短(B-tail)C末端的变体均表达(数据未显示)。(d日)相对表达式的测量VTI1A-TCF7L2用两种短发夹RNA构建物中的一种感染NCI-H508细胞中的mRNA,靶向融合基因,相对于靶向控制载体感染细胞中的表达GFP公司. (e(电子))NCIH508细胞系的锚定非依赖性生长,表达VTI1A-TCF7L2和阴性对照DLD-1大肠腺癌细胞在RNA干扰介导的敲除VTI1A-TCF7L2与控制击倒目标相比GFP公司.
表2
肿瘤 | 融合 | Fusion站点 |
---|
CRC-3号机组 | 药物20外显子2至 PKHD1系列外显子61 | chr6:41989443至 电话:6:51716875 |
CRC-3号机组 | 眼睛外显子40至 PDSS2型外显子2 | chr6:64543886至 chr6:107883344 |
CRC-3型 | CLIC5系列外显子2至 SCGN公司外显子5 | chr6:25774444至 chr6:46056110 |
CRC-4公司 | ZCCHC2公司外显子8至 DYM公司外显子14 | chr18:45023683至 电话18:58380361 |
CRC-5公司 | ZBP1型外显子5至 SLC24A3型外显子3 | chr20:19298150至 铬20:55620385 |
CRC-5公司 | 骨形态发生蛋白7外显子1至 宏2外显子13 | chr20:15891802至 电话20:55255653 |
中铁六局 | 西班牙N3外显子1至 TEX11型外显子26 | chrX:69736103至 chrX:142429599 |
CRC-6型 | SAPS3外显子10至 CEP120号机组外显子20 | chr5:122715537至 电话:11:68093742 |
中铁六局 | RGMB公司外显子2至 采埃孚91外显子2 | chr5:98134842至 基督11:58106127 |
中铁九局 | VTI1A型外显子3至 TCF7L2型外显子4 | chr10:114220869至 电话:10:114760545 |
中铁九局 | FBXW11型外显子1至 铸造外显子26 | chr5:96131900至 电话:5:171355322 |
复发的发现VTI1A-TCF7L2融合特别有趣。TCF7L2型编码一种转录因子,称为TCF4,属于TCF/LEF家族,与β-catenin(编码CTNNB1公司)激活和抑制肠上皮细胞增殖和分化所必需基因的转录22.TCF7L2型是TCF/LEF家族在结直肠癌中表达最广泛的成员23其表达与结直肠癌的生存率呈负相关24此外,结直肠癌的遗传风险受基因多态性的影响TCF7L2型(参考文献。25,26)以及增强子的多态性MYC公司TCF4与β-catenin协同结合27,28值得注意的是,TCF7L2型已知在结直肠癌中存在体细胞点突变2,三我们还发现CRC-5中的一个点突变影响了第10外显子3′端的剪接位点,这是编码HMG-box DNA结合域的外显子,可能是一种有害突变。
测试的功能重要性VTI1A-TCF7L2融合后,我们找到了一个包含这种事件的细胞系。因为CRC-9中的融合是由介于VTI1A型和TCF7L2型,我们研究了38个结直肠癌细胞系的SNP阵列数据,以寻找类似的缺失。我们发现细胞系NCI-H508(补充图2)携带这样一个缺失,我们发现存在一个连接VTI1A型第5外显子TCF7L2型我们设计了针对跨越融合序列的RNA干扰载体。根据定量RT-PCR测定,两种载体将融合mRNA的表达降低了70%以上,导致NCI-H508细胞的锚定非依赖性生长显著减少,但DLD-1细胞系不含融合基因(). 这一结果表明VTI1A-TCF7L2融合在NCI-H508细胞生长中起着关键作用。
生物化学功能VTI1A-TCF7L2融合蛋白尚不清楚。融合省略了TCF4的氨基末端结构域,该结构域结合β-连环蛋白(). 对于TCF/LEF系列的其他成员(但不适用于TCF7L2型),省略氨基末端结构域的亚型自然产生,并产生显性负蛋白29然而,我们并不期望VTI1A-TCF7L2融合蛋白作为一种完全显性负性蛋白,因为工程化显性负性TCF4等位基因已被证明强烈抑制结直肠癌细胞系的增殖30考虑到该融合基因中遗漏了β-连环蛋白结合域,我们最初假设该新鉴定的蛋白质可以使TCF4和/或β-连环素靶点的β-连链蛋白非依赖性激活。然而,携带融合蛋白的三种肿瘤也携带突变空气污染指数其产物抑制β-catenin。(CRC-9在空气污染指数,第二个肿瘤在空气污染指数第三个肿瘤有p.Ala1247Val空气污染指数变更)。NCI-H508是杂合的空气污染指数(携带半合子缺失)并携带正常等位基因CTNNB1公司,编码β-catenin,但在功能上依赖于β-catening(补充图2).
这些结果表明VTI1A-TCF7L2在激活的β-catenin环境中表达,NCI-H508依赖于融合基因和β-catening,尽管VTI1A-TCF7L2β-catenin结合域。需要进行研究以确定是否以及如何(i)融合基因与β-catenin的功能相互作用或干扰,以及(ii)添加一段N末端SNARE结构域影响功能或定位。与最近的报告相结合时TCF7L2型结直肠癌的突变以及TCF4在结直肠癌中也具有肿瘤抑制功能的证据31,32这些数据表明,β-catenin及其协同因子在结直肠癌中的功能更加复杂。
本报告描述了首次对结直肠癌进行的全基因组测序研究。我们的结果没有证据表明高频复发易位,例如前列腺癌中的易位20然而VTI1A-TCF7L23%的结直肠癌发生融合,表明该病发生了功能重要的融合事件,并提示进一步的结构特征可能会发现新的复发性重排。
在线方法
样品选择和制备
根据机构审查委员会批准的方案,在手术时收集并冷冻来自既往未接受化疗或放疗的患者的结肠腺癌和匹配的邻近非癌性结肠(每次采集都由手术中心的当地机构审查委员会批准。随后,博大研究所的机构审查委员会审查了当地机构审查理事会的批准和同意文件,以批准使用样本进行测序,参见补充说明). 对肿瘤进行回顾,以确认诊断并估计肿瘤含量。选择了9个估计肿瘤含量至少为70%的肿瘤。使用标准技术提取DNA。
对肿瘤DNA样本进行处理,并与Affymetrix SNP阵列杂交,以进行拷贝数分析。使用STY I阵列对六个样本进行了评估34用SNP6阵列对其余肿瘤进行评估。使用标准方法对阵列数据进行处理和分割,以识别拷贝数畸变35使用工具ABSOLUTE(S.L.Carter、M.Meyerson和G.Getz,个人通讯)进一步分析SNP阵列数据,以推断肿瘤纯度和倍性10,11肿瘤要求估计纯度为50%或等位基因比率为0.25。
全基因组测序
使用Illumina GA-II进行测序10简单地说,从每个样本中提取1-3微克DNA,通过剪切DNA,然后连接测序适配器来制备测序文库。每个样本在多个Illumina流式细胞上进行测序,以实现约30×基因组覆盖率。
序列数据处理
原始数据使用Broad Institute开发的“Picard”管道进行处理9如前所述10,11,生成每个肿瘤和生殖系样本(hg18)的BAM文件并导入Firehose分析管道11该系统设计用于存储包含序列数据的输入文件,然后组织执行多个分析工具来识别体细胞畸变。如前所述,使用全基因组测序数据对序列数据进行拷贝数分析36.
序列覆盖率计算、突变调用和显著性分析
我们比较了测序呼叫和SNP基因型的一致性,这是检测突变的测序覆盖率的一个指标37从肿瘤的Affymetrix数据中,我们提取了高置信杂合基因型调用,并将其与从Illumina数据中提取的基因型进行了比较。我们在肿瘤中确定了94-99%的一致率,在匹配的生殖系DNA样本中确定了97-99%的符合率。我们进一步评估了适合突变调用的所有碱基的比例,其中,如果肿瘤和生殖系测序中至少有14个和8个碱基的读数与碱基重叠,则将碱基定义为覆盖。随后使用MuTect评估这些覆盖区域的单核苷酸变异9——11在基因组编码区内发现的通过的单核苷酸变体对其对氨基酸序列和外显子剪接的预测影响进行了注释。使用Indelocator算法评估编码区域的插入删除事件10,11.
从候选体细胞突变和插入-缺失中,使用多重质谱基因分型法在肿瘤和匹配种系DNA中验证了预测的非同义编码改变10,35在712个候选样本中,基因分型分析可以针对一个子集(521个候选样本)进行设计并产生可解释的数据,验证率为84%。值得注意的是,由于在Illumina文库构建和测序后发生肿瘤DNA降解,CRC-5的所有检测在PCR中均失败;这些分析已从验证率评估中删除。在非肿瘤DNA中确定的候选突变被认为是种系多态性,并从分析中删除。考虑到验证实验中可能出现假阴性结果(尤其是已知在低等位基因突变情况下,多重质谱基因分型缺乏敏感性),以最大限度地挖掘新事件的发现潜力,我们在分析中纳入了所有699个未作为生殖系无效的突变。如所示补充表1,突变被注释为那些被测试和验证、测试和未验证以及那些由于分析失败而未测试的突变。
在识别出所有编码的单核苷酸变体和插入缺失后,使用MutSig算法来识别反复发生非同义基因改变的基因,其频率高于预期10,11。计算出的特定数量突变偶然发生的可能性考虑到了突变的基本背景和这些事件在基因组集合中的发生率。错误发现率(或q个值)作为临界值来定义显著性。所有突变率都是相对于理论上的单倍体基因组计算的。
重新安排的识别
dRanger算法10,11通过识别两个读取对映射到不同区域的实例,或以暗示另一个结构事件(例如反转)的方式映射来识别基因组重排。然后在匹配的生殖系基因组和一组非肿瘤基因组中查询所有这些候选病变,以删除在生殖系基因组中检测到的事件。然后,通过将支持读对的数量乘以候选重排的估计“质量”,计算这些体细胞阅读的最终得分,一种从0到1的度量,它考虑到通过假定重排连接的两个区域的对齐性,以及在给定库的碎片大小分布的情况下看到这样一个读对的可能性。结果得分≥3的事件(因此至少在三对阅读中出现)被纳入本分析。如前所述,使用跨越预测断点的引物通过PCR进行重排验证10PCR产物在454焦磷酸测序平台上用来自肿瘤和匹配正常样本的DNA进行测序,以验证候选事件的存在和躯体状态。对于那些在第一组PCR中验证失败的事件,对每个候选重排使用两组引物进行后续PCR和焦磷酸测序。
为了识别两个基因组位点之间实际融合的DNA序列,采用了BreakPointer算法。BreakPointer搜索读取对,其中一个读取完全映射到断点的一侧,而配对部分映射到断口上或在任何地方都无法对齐。预计其中许多读取跨越实际融合点。这些未映射的读数经过修改的Smith-Waterman校准程序,能够在最适合的点(Drier,Y。等。,手稿正在准备中)。根据这些断点,计算两个相邻序列的碱基重叠程度或微同源性,并鉴定非模板DNA的插入。Illumina数据的BreakPointer分析能够预测214个重排的融合位点,其中200个(93.5%)通过焦磷酸测序数据验证。
验证VTI1A-TCF7L2融合转录本
NCI-H508细胞系是根据《Broad-Novartis细胞系百科全书》中38个结直肠癌细胞系的SNP阵列衍生拷贝数鉴定的。使用QIAGEN QuantiTect试剂盒,使用从新鲜冷冻的结直肠癌样本或新鲜细胞颗粒(对于NCI-H508细胞系)制备的RNA进行cDNA合成。cDNA质量通过PCR扩增GAPDH公司成绩单。通过第一轮聚合酶链式反应评估cDNA的通过,使用对VTI1A型和第6外显子TCF7L2型然后用第一外显子的引物进行巢式PCRVTI1A型和第5外显子TCF7L2型(使用的引物列于补充表5). 对条带进行凝胶纯化、克隆(TOPO TA克隆;Invitrogen)和测序,以验证融合的存在和框架。
RNA干扰实验
使用VTI1A型和第5外显子TCF7L2型从NCI-H508细胞系中,产生了含有21个与融合序列唯一同源的种子序列的shRNA载体,并将其克隆到pLKO慢病毒载体中38从这些载体和靶向GFP的对照shRNA载体中,产生慢病毒并用于感染NCI-508细胞系39选择嘌呤霉素后,提取RNA进行cDNA合成。实时PCR(使用两个不同的引物集量化VTI1A-TCF7L2融合;补充表5)用于量化VTI1A-TCF7L2与a表达相关的mRNAGAPDH公司控件。选择了两种能够诱导显著(约70%)敲除的shRNAs进行进一步实验。这些载体标记为shFusionA(目标GAAGCGAAAAACTGTCTAAC)和shFusion B(目标GCGAAAACTGCTAACAA)。在这些病毒和shGFP新感染到NCI-H508和DLD-1细胞系后,这两种细胞系均在罗斯韦尔公园纪念研究所培养基(RPMI)中培养,其中含有10%的FBS和谷氨酰胺以及青霉素链霉素,然后用嘌呤霉素筛选细胞,然后将其接种到软琼脂中,如前所述,以评估凤尾鱼的非依赖性生长39.
用于击倒CTNNB1公司在NCI-H508细胞中,使用了两个CTNNB1 shRNA构建物,该构建物已封闭在多环素诱导的pLKO.1载体中。这两个载体包含针对以下位点的测序:sh35:CCCTAGCCTTTGTTAAAA和sh36:GGACAGCACAAGATACAA,敲除通过实时PCR验证(Applied Bisosystems Hs00170025_m1)。感染NTC(非靶向对照)或CTNNB1 shRNA的细胞在存在或不存在20 ng/ml多西环素的情况下生长48小时。为了定量敲除,用实时PCR定量shRNA感染细胞的RNA。然后将细胞置于软琼脂中,加入或不加入20 ng/ml强力霉素,以评估菌落形成。