胃癌和食管癌导致70多万人和40多万人死亡分别代表2个第和6第个主要原因全球癌症死亡1对于GC,感染幽门螺杆菌是所有人群的主要致病因素,尽管大多数感染者没有发展成癌症。吸烟和饮酒酒精饮料解释了美国和其他西方国家近90%的ESCC病例国家2,但这些暴露代表了以下方面的次要因素中国高危人群三和其他地方4高发病率人群中ESCC的风险因素费用包括家族史5和饮食不足6但在这些人群中有很大比例的病因仍然无法解释。GC和ESCC发生在中国中北部太行山的一些癌症发病率最高7; 超过20%这些癌症导致了该地区的死亡8,9然而,高利率和这两个解剖上相邻但组织学上不同的肿瘤的地理相关性尚未确定。该区域的胃癌主要发生在胃(近端3cm)和被称为贲门癌,而胃的其余部分被称为非贲门癌。在中国胃癌是主要的上消化道肿瘤10.
调查种族中这些高度致命疾病的遗传因素中国受试者,我们对GC和ESCC进行了平行全基因组关联研究(GWAS)具有共享控件。使用Illumina 660W Quad芯片,我们扫描了来自山西省上消化道肿瘤遗传学的病例对照和病例组分项目(山西)和来自前瞻性队列的1389个样本,临县营养干预试验(NIT);这两项研究都是在太行山进行的(补充表1). 质量控制后已应用指标(联机方法)对1625例GC、1898例ESCC和2100例对照。12000个SNP,最小连锁不平衡(成对r2<0.004)用于测试人群差异下部结构11并且没有表现出显著性研究中人口亚结构的证据(数据未显示)。在第二阶段,我们优化TaqMan分析,对在全基因组阶段具有显著意义的8个SNP进行基因分型GC、ESCC或两者在一组独立的受试者中(615名GC、217名ESCC和1202名对照)山西和NIT研究以及另外三个前瞻性队列(上海男性健康研究,上海女性健康研究和新加坡华人队列研究)(补充表1). 对于这八个SNP,我们对2240例GC病例、2115例ESCC病例和3302例对照进行了综合分析(详细信息在里面补充表1).
独立分析的GC和ESCC初始GWAS结果如下以曼哈顿地块的形式呈现补充的图1使用P(P)-logistic回归中1df趋势检验的值模型根据年龄、性别和研究进行了调整。我们发现独立全基因组显著GC和ESCC在染色体10q23上的关联(和2,). 对于GC,最初在染色体1q22上观察到的关联在综合数据(); 需要额外的研究以确定该基因座是否会导致华人GC风险。
区域的关联结果、重组和连锁不平衡图胃癌(GC)和食管鳞状细胞全基因组意义的10q23癌(ESCC)P(P)-值来自logistic回归模型中的1个df趋势测试根据年龄、性别和研究进行调整,并显示假定重组的LR值使用SequenceLDhot(垂直条)的热点。成对r2显示在GWAS分析中包含的所有SNP的底部。坐标参考基因组构建36.1。这个图中描述了染色体10q23(95980823-96174210)的一个区域,其中包括PLCE1号机组基因和不同的符号表示四个不同的端点胃癌、贲门癌、非贲门癌或食管鳞癌。
表1
所有病例中10q23和1q22的SNP与胃癌风险的相关性胃内的解剖位置
| | | 全基因组阶段 | 第二阶段 | 组合 |
---|
癌症组和染色体位置 | NCBI dbSNP标识符(主要、次要等位基因) | MAF控制,案例组合的 | P(P)1df分数 | 每等位基因OR(95%CI) | P(P)1df分数 | 每个等位基因的OR(95%CI) | P(P)1df分数 | 每等位基因OR(95%CI) |
---|
总胃容量
| | | | 控制/案例2100/1625 | | 控制/案例1202/615 | | 控制/案例3302/2240 |
第10季度23 | rs2274223(A、G) | 0.209, 0.259 | 2.33 × 10−9 | 1.40 (1.25–1.56) | 0.12 | 1.15 (0.97–1.36) | 8.40 × 10−9 | 1.31 (1.19–1.43) |
| rs3765524(C、T) | 0.207, 0.259 | 2.78 × 10−9 | 1.39 (1.25–1.56) | 0.079 | 1.17 (0.98–1.38) | 5.32 × 10−9 | 1.31 (1.20–1.44) |
| rs3781264(T,C) | 0.152, 0.199 | 3.94 × 10−11 | 1.51 (1.33–1.70) | 0.40 | 1.09 (0.90–1.31) | 3.76 × 10−9 | 1.36 (1.23–1.50) |
| rs11187842(C,T) | 0.147, 0.190 | 3.65 × 10−10 | 1.48 (1.31–1.68) | 0.42 | 1.08 (0.89–1.31) | 2.53 × 10−8 | 1.34 (1.21–1.49) |
| rs753724(G,T) | 0.147, 0.190 | 2.65 × 10−10 | 1.49 (1.31–1.68) | 0.51 | 1.07 (0.88–1.30) | 2.74 × 10−8 | 1.34 (1.21–1.49) |
第1季度22 | rs4072037(A、G) | 0.159, 0.125 | 1.10 × 10−6 | 0.71 (0.62–0.82) | 0.083 | 0.84 (0.69–1.02) | 4.22 × 10−7 | 0.75 (0.67–0.84) |
| rs4460629(C、T) | 0.142, 0.112 | 3.37 × 10−7 | 0.68 (0.59–0.79) | 0.34 | 0.91 (0.74–1.11) | 2.26 × 10−6 | 0.75 (0.67–0.85) |
卡迪亚
| | | | 控制/案例2100/1110 | | 控制/案例1202/103 | | 控制/案例3302/1213 |
第10季度23 | rs2274223(A,G) | 0.209, 0.291 | 5.88 × 10−14 | 1.59 (1.41–1.80) | 0.016 | 1.49 (1.08–2.07) | 4.19 × 10−15 | 1.57 (1.40–1.76) |
| rs3765524(C、T) | 0.207, 0.289 | 9.94 × 10−14 | 1.59(1.40–1.79) | 0.014 | 1.50 (1.08–2.08) | 7.36 × 10−15 | 1.56 (1.40–1.75) |
| rs3781264(T,C) | 0.152, 0.222 | 7.94 × 10−14 | 1.66(1.45–1.90) | 0.17 | 1.29(0.89–1.87) | 1.06 × 10−13 | 1.60 (1.41–1.81) |
| rs11187842(C,T) | 0.147, 0.211 | 1.44 × 10−12 | 1.63 (1.42–1.87) | 0.25 | 1.25 (0.86–1.81) | 2.56 × 10−12 | 1.56 (1.38–1.77) |
| rs753724(G,T) | 0.147, 0.210 | 1.61 × 10−12 | 1.63 (1.42–1.87) | 0.49 | 1.15 (0.77–1.70) | 5.21 × 10−12 | 1.56 (1.37–1.76) |
第1季度22 | rs4072037(A,G) | 0.159, 0.122 | 3.37 × 10−4 | 0.75 (0.65–0.88) | 0.18 | 0.74 (0.48–1.15) | 9.45 × 10−5 | 0.75 (0.65–0.87) |
| rs4460629(C、T) | 0.142、0.108 | 1.13 × 10−4 | 0.72 (0.61–0.85) | 0.58 | 0.89 (0.58–1.36) | 1.27 × 10−4 | 0.74 (0.64–0.86) |
无心动过速
| | | | 对照/病例2100/515 | | 对照/病例1202/402 | | 控制/案例3302/917 |
第10季度23 | rs2274223(A,G) | 0.209, 0.221 | 0.78 | 1.02 (0.86–1.22) | 0.34 | 1.10 (0.90–1.35) | 0.44 | 1.05 (0.93–1.20) |
| rs3765524(C、T) | 0.207, 0.222 | 0.73 | 1.03 (0.87–1.22) | 0.25 | 1.12 (0.92–1.37) | 0.32 | 1.07 (0.94–1.21) |
| rs3781264(T,C) | 0.152, 0.171 | 0.094 | 1.18 (0.97–1.42) | 0.60 | 1.06 (0.85–1.33) | 0.14 | 1.11 (0.97–1.29) |
| rs11187842(C,T) | 0.147, 0.166 | 0.099 | 1.17 (0.97–1.42) | 0.55 | 1.07 (0.86–1.34) | 0.13 | 1.12 (0.97–1.29) |
| rs753724(G,T) | 0.147, 0.167 | 0.070 | 1.19 (0.99–1.44) | 0.53 | 1.08 (0.86–1.35) | 0.098 | 1.13(0.98-1.30) |
第1季度22 | rs4072037(A,G) | 0.159, 0.126 | 7.26 × 10−6 | 0.60 (0.47–0.75) | 0.40 | 0.91 (0.73–1.14) | 5.74×10−5 | 0.72(0.62–0.85) |
| rs4460629(C、T) | 0.142, 0.115 | 1.53 × 10−5 | 0.59 (0.47–0.75) | 0.79 | 0.97 (0.77–1.22) | 5.38 × 10−4 | 0.75 (0.64–0.88) |
在第10季度23,我们分析了GC和ESCC中的五个相关SNP,包括两个非同义变体。GC与rs3781264的关联性最强(P(P)=3.76 × 10−9; 每等位基因OR=1.36,95%c.i.1.23–1.50)。其他的10q23的四个SNP也显示出全基因组意义(). 当胃癌被分为两种解剖类型时,两者之间的联系不同子网站。与贲门癌相关性最强的是rs2274223(P(P)=4.19 × 10−15; OR=1.57,95%c.i.1.40–1.76,),但没有胃癌与非贲门癌的相关性(P(P)= 0.44; OR=1.05,95%c.i.0.93– 1.20). rs2274223和其他10q23位点的SNP也显示了ESCC的全基因组意义(P(P)=3.85×10−9; OR=1.34,95%c.i。1.22–1.48) (). 我们发现了一致的结果在比较太行山高发区的两项研究时(补充表2). 五个SNP10q23,具有强的成对LD(r2对照组为0.62至0.98),映射到磷脂酶Cε1基因(PLCE1号机组)靠近核仁的复合物相关3同源基因(NOC3L(氮氧化物)) ().
表2
22q12和10q23的SNP与食管鳞状细胞风险的相关性癌
| | | 全基因组阶段 | 第二阶段 | 组合 |
---|
染色体定位 | NCBI dbSNP标识符(主要、次要等位基因) | MAF控制,案例组合的 | P(P)1df分数 | 每等位基因OR(95%CI) | P(P)1df分数 | 每等位基因OR(95%CI) | P(P)1df分数 | 每等位基因OR(95%CI) |
---|
ESCC公司 | | | | 控制/案例2100/1898 | | 控制/案例1202/217 | | 控制/案例3302/2115 |
第10季度23 | rs2274223(A,G) | 0.209, 0.259 | 1.19 × 10−7 | 1.33 (1.20–1.48) | 2.13 × 10−4 | 1.59 (1.24–2.05) | 3.85 × 10−9 | 1.34 (1.22–1.48) |
| rs3765524(C、T) | 0.207、0.258 | 9.42 × 10−8 | 1.34 (1.20–1.49) | 6.01 × 10−5 | 1.66 (1.29–2.12) | 1.74 × 10−9 | 1.35 (1.22–1.49) |
| rs3781264(T,C) | 0.152,0.194 | 1.15 × 10−7 | 1.38 (1.22–1.55) | 7.92 × 10−4 | 1.60 (1.21–2.11) | 7.30 × 10−9 | 1.38 (1.23–1.53) |
| rs11187842(C,T) | 0.147, 0.187 | 2.67 × 10−7 | 1.37 (1.21–1.54) | 3.91 × 10−4 | 1.64 (1.25–2.17) | 1.20 × 10−8 | 1.37 (1.23–1.53) |
| rs753724(G,T) | 0.147, 0.187 | 2.23 × 10−7 | 1.37 (1.22–1.55) | 5.13 × 10−4 | 1.63 (1.24–2.16) | 1.15 × 10−8 | 1.38 (1.23–1.54) |
2012年第22季度 | rs738722(C、T) | 0.254, 0.308 | 5.67 × 10−8 | 1.32 (1.19–1.45) | 0.14 | 1.20 (0.94–1.53) | 1.41 × 10−8 | 1.30(1.19–1.43) |
在第10季度23,在PLCE1号机组该基因包括两个SNPs,导致编码中的错义突变区域、rs2274223(Arg1927His)和rs3765524(Ile1777Thr)。需要进一步的工作来确定如果这些SNP中的任何一个在功能上很重要,但研究结果表明存在单一位点与两种癌症的风险相关。值得注意的是,当胃癌被分为两类时解剖位置不同,仅限于贲门肿瘤().
PLCE1号机组是磷脂酶C蛋白家族的成员,在这个家族中是独一无二的,它与原癌基因相互作用ras(拉斯维加斯)12在其他蛋白质中。中的变量PLCE1号机组是已知可导致人类早发肾病综合征13,但该基因也可能与致癌过程有关。PLCE1号机组基因剔除小鼠对12-O-十四烷基佛波-13-乙酸酯的促进作用具有抵抗力7,12-二甲基苯并蒽诱发皮肤癌14当与APC交叉时,对肠道肿瘤形成具有抵抗力最小值/+老鼠15此外,SNP位于两个区域之间重组热点还包括NOC3L(氮氧化物),已链接到有丝分裂克隆扩增过程中DNA复制的控制16.
对于ESCC,我们最初观察到与rs738722的独立显著关联位于染色体22q12(P(P)= 5.67 × 10−8; OR=1.32,95%c.i.1.19–1.45)()在第一阶段,但是在第二阶段,这种关联本身在统计学上并不显著。在合并的数据显示,关联性仍然很强(P(P)= 1.41 × 10−8;OR=1.30,95%c.i.1.19–1.43)。该SNP映射到CHK2检查点内的一个区域同源基因(支票2),但也在LD中含有Hsc B铁硫区域簇共伴侣同源基因(高速断路器) (补充图2). 以前的研究白种人群体表明CHEK2(检查2)(rs2267130和rs17879961)和上消化道风险癌症17,18,但是这些SNP没有包括在我们的扫描中。中的罕见变体CHEK2(检查2)也一直是与乳房易感性相关19、结肠直肠、,和其他癌症20。这种联系似乎很有希望,但由于缺乏独立的确认,还需要进一步的研究来验证它。
我们还检查了先前在GWAS中报告的基因座21用于GC(补充表三). 具体来说,我们在8q24检查了rs2920297和rs2294008;两个SNP都很近前列腺干细胞抗原基因(PSCA公司). 我们没有发现GC的关联,但当我们将分析局限于胃非心脏肿瘤时,两个SNP都显示出与与最近东亚研究的荟萃分析中报告的数值相似22(例如rs2294008 OR=1.35,95%c.i.0.94–1.94)。对于ESCC,我们还检测了标记醇代谢基因的SNPADH1B型(rs1159918和rs1042026)和ALDH2型(rs3782886和rs671)候选基因研究报告23在GWAS中24.总体和层次由饮酒和我们发现吸烟与这些SNP没有关联(补充表4),可能是由于与之前相比,我们研究人群中ESCC的不同环境风险因素与强烈的酒精和烟草相关风险的研究。在山西5和NIT三研究,仅有的两项研究在这部分分析中,酒精饮料和烟草的使用不是主要的ESCC风险因素。
总之,我们在年对GC和ESCC进行了平行全基因组关联研究中国少数民族科目。10q23英寸变型PLCE1号机组显示全基因组贲门癌和食管鳞癌的显著相关性。这些发现表明遗传机制可能与这两种癌症的病因有关。精细绘图和测序这些位点将被用来确定实验室研究的最佳遗传变异解释这些关联信号的系统。需要额外的研究来确认和在东亚和亚洲人群中发现更多与GC和ESCC风险相关的基因座在别处25.
在线方法
研究参与者
GWAS的研究参与者来自两项研究,山西上层山西省胃肠道肿瘤遗传学项目和临县营养干预试验(NIT),一个前瞻性队列。在第二阶段,我们对来自山西的其他受试者进行了基因分型NIT以及上海男性健康研究(SMHS)、上海女性健康研究健康研究(SMHS)和新加坡中国健康研究(SCHS)(补充表1). 山西研究病例对照组的年龄和性别与NIT对照组相匹配被选为病例组,按年龄和性别进行频率匹配。对于SMHS、SWHS和SCHS队列,对照组是活的,没有上消化道癌症,并且与如中所述的情况补充表1在山西和NIT研究中,已知所有病例的肿瘤解剖位置>85%的病例经病理证实。对于第二个队列中添加的三个队列阶段,胃中解剖位置的比例为补充表1和病理学95%以上的病例得到了确认。所有检查的食管癌均为鳞状细胞癌(ESCC)和胃癌(GC)均为腺癌。贲门癌位于胃的近端3厘米处,而非贲门癌则位于那些在胃的剩余部分。没有位置信息的胃癌包括在总GC分析中,但不包括在GC解剖亚基分析中。
五项参与研究中的每一项都获得了受试者的知情同意来自他们的研究机构审查委员会。NCI专题研究——制度审查董事会批准了GWAS总体研究。
基因分型和质量控制
使用Illumina 660W Quad对6384个样本进行了全基因组扫描炸薯条。排除8个没有观测到强度数据的样本后,剩下的6376个样本共分析了4987份,其中来自山西研究,1389份来自NIT。群集是用1270个先前扫描过的白种人样本进行检测,以提高对低东亚样本中的MAF单核苷酸多态性。
参与者被排除在外,因为:1)完成率低于94%(n=485样品);2) 异常杂合度值小于25%或大于30%(n=53,其中其中36人因完成率低而被排除在外;3) 不协调的预期重复项(n=3成对);4) 一致的意外重复(n=5对,均来自山西);5) 性别不一致(n=55,均来自山西);6) 表型排除(由于不合格或不完整信息)(n=46)。我们使用所有基因型检查研究对象之间的相关性州间一致性大于45%的受试者对。这些已输入GLU qc.ibds模块(http://code.google.com/p/glu-genetics网站/)估计同一度比并推断关联度(1–2度)。我们发现了20对完整的兄弟姐妹,2对亲子配对和22对同父异母的兄弟姐妹配对。这种关联程度并不奇怪因为这两项研究中受试者的地理位置相近。我们选择并对于PCA,但包括所有关联分析。对于132个已知重复对一致性为99.98%。
在低连锁不平衡(成对)中使用12000个SNP第页2<0.004)11,我们确定并根据结构分析排除了两名亚洲血统低于90%的受试者(http://pritch.bsd.uchicago.edu/structure.html)26(补充图3).山西和NIT研究对象通过质量控制指标、主成分分析显示了研究之间的临界显著差异,但不在研究范围内27为了进行后续分析,我们对研究进行了调整。
对于全基因组扫描阶段的所有受试者,我们尝试了657364个基因型分析。为了进行分析,我们删除了通话率<90%的SNP。551152个SNP被提升关联分析。分位数图(补充图4)对病例对照分析分别进行了检查GC和ESCC,没有证据表明人口结构或病例对照匹配:GC和ESCC的未标度λ分别为0.990和0.989,而λ1000GC和ESCC分别为0.995和0.994,分别地28.Illumina Infinium基因型探针所选SNP(rs2274223和rs3781264)的聚类图如所示补充图5.
在全基因组阶段完成后,我们在10q23选择了6个SNP,在10q232选择了2个SNP1q22和22q12的两个用于我们第二阶段的TaqMan基因分型。所有十个SNP都处于或接近总GC、ESCC或两者的全基因组意义。对于选定的SNP,我们成功地优化了八种TaqMan分析(ABI),而两种未通过制造或验证。对于第二阶段使用TaqMan,我们包括来自山西和NIT研究的样本全基因组阶段的扫描或失败QC指标以及三个前瞻性样本中国民族受试者的队列研究(SMHS、SWHS和SCHS)(补充表1). 总的来说,我们完成2034名受试者的TaqMan分析。应用标准质量控制指标后,总体样本完成率为98.8%。被称为Illumina基因型的一致性TaqMan大于99.4%。
关联分析
我们使用logistic回归模型估计遗传变异之间的关联和疾病风险。主要模型根据10年组的年龄、性别和研究进行了调整。我们报告趋势模型(,2),也适合基因型模型进行比较(补充表3). 所有已报告P(P)-数值基于双边测试。
在第二阶段和合并阶段,logistic回归模型根据年龄进行了调整,性和学习。因为之前的研究报告了ESCC风险与酒精之间的相互作用或烟草消费,以及标记ADH1B型或ALDH2型基因位点,我们拟合这些模型的调整和分层因素(补充表4).
使用GLU(基因分型库和实用程序版本1.0),这是一套工具,可作为一个开源应用程序用于GWAS数据的管理、存储和分析。