人类从田园和农村生活方式向城市生活方式的转变伴随着哮喘、糖尿病和癌症等多种慢性病发病率的增加1环境因素,可能包括饮食变化、污染和心理因素,是正在进行的流行病学研究的主题。同样有趣的问题是,基因对疾病易感性的影响是否会在不同环境中发生变化。由于疾病风险通常被认为与差异基因表达有关2,我们通过对三个地区两个种族的白细胞基因表达谱进行全基因组关联研究,评估了转录物丰度对环境变化的稳健性。我们以前的工作已经证明了环境地理学的重大影响三摩洛哥Amazigh人的基因表达,这里我们还添加了与阿拉伯人的对比,让我们测试地理和/或种族是否影响基因型和转录物丰度之间数百种强大关联中的每一种。
摩洛哥南部的苏斯地区居住着两个主要民族的数百万人,他们要么住在城市,要么住在乡村(). Amazigh Berbers是35000年或更长时间前居住在北非的第一批现代人类的后代4,许多人仍然住在低阿特拉斯山脉的传统村庄。相比之下,阿拉伯人在7年前进入摩洛哥南部第个和11第个几个世纪以来,他们往往居住在低地村庄,而这两个群体都居住在城市中,往往保留着他们的语言和文化特征。
摩洛哥南部索斯地区地图显示了Tiznit镇附近的两个乡村Boutroch和Ighrem的位置,分别相对于阿加迪尔市北部和南部的城市位置Anza和Dchiera。
2008年6月和7月,我们从四个地点的284名健康成年人采集了外周血样本,其中包括人数大致相等的男性和女性,以及阿玛齐格人和阿拉伯人。一半的样本来自阿加迪尔市两侧的两个高密度、低收入到中等收入的城市社区,即安扎和奇埃拉。另一半来自提兹尼特附近的两个乡村,距离南部120公里。Boutroch主要是Amazigh人,并且仍然很孤立,而Ighrem主要是阿拉伯人,(根据我们在收集点的自我报告信息和观察结果)许多人,尤其是通勤到城市。
在血液取样时,通过贫化过滤技术从血清、血小板和红细胞中分离出白细胞5并在RNALater中修复®采血后几分钟内解决。使用Illumina HumanHT12微珠阵列从208个高质量RNA样品中获得了基因表达谱,其中包括48804个探针,其中16738个基因中的22300个RefSeq探针被认为具有背景以上信号。为了将批处理效应降至最低,所有样品均在同一周内处理,提取、标记和杂交步骤均按照随机区组设计进行。使用Illumina Human 610-Quad阵列从全血样本中获得全基因组基因型。经过质量控制筛选后,194名同样具有基因表达谱的个体获得了516972个SNP。
结果
摩洛哥南部人口结构
使用Eigenstrat软件,通过检测基因型谱方差的主成分(PC)来评估种群结构6初步检查显示,有几组兄弟姐妹和其他近亲(堂兄妹或类似亲属)的相似性使轴线倾斜;在有数据的情况下,这些身份与参与者记录一致。除去这些亲属后,对163名无关个体的分析显示出7个重要的特征向量。所有这些都不能解释超过5%的变异,而PC3到PC7都被一条或几条染色体上的大簇SNP严重加权。正如其他人所描述的那样,这种轴是常见的,不能提供可靠的全基因组人口结构估计值7,8,但有趣的是,PC3将Ighrem与其他位置区分开来(在线补充图1a).
前两个特征向量的图()强调了历史对摩洛哥南部人口结构的主要影响。PC1只分离了十几个个体,通过对21个约鲁班个体进行分析,我们推断该轴代表撒哈拉以南非洲的贡献,与摩洛哥的预期混合水平一致(在线补充图1b). PC2与地理位置和自我报告的种族高度相关,因此可以推断出阿拉布-亚马逊血统的主要组成部分。
摩洛哥南部人口结构(一)对579144个单核苷酸多态性的特征主成分分析揭示了7个显著的特征向量,其中前两个特征向量分别解释了1.3%和0.8%的基因型方差。根据自我报告,Boutroch Amazigh是蓝色正方形、Agadir Amazigh绿色三角形、Agadir-Arabs绿色加号、Ighrem-Arabsred圆圈和Ighrem Amazigh红色三角形。3名可能包括撒哈拉以南地区血统在内的种族不确定个体显示为灰色斑点,PC1值较高,这是约鲁班血统的特征,如图所示在线补充图1b. (b条)对16000个常染色体单核苷酸多态性进行结构分析,其中k=3,采用具有相关等位基因频率的混合模型,突出显示具有较大PC1值(棕色条)的相同个体,并表明Boutroch Amazigh主要来自一个群体(淡蓝色)而所有其他样本都是由淡红色和蓝色条带代表的两个种群混合而成。
这一分析的一个令人惊讶的方面是,伊格里姆阿拉伯人在布特罗赫·阿马齐格和PC2沿线一半阿加迪尔阿拉伯人之间的位置。结构分析证实了这一点916000个随机选择的常染色体单核苷酸多态性,假设混合了两个祖先群体(),这表明伊格雷姆居民往往是混合的,而大多数阿马齐格人来自一个人口,只有少数阿加迪尔阿拉伯人代表另一个人口。因此,在很长一段时间内,这两个群体之间可能存在着相当大的混杂,可能是因为阿拉伯人最近从其他地区迁移到阿加迪尔。伊格利姆阿拉伯人相对于阿加迪尔阿拉伯人向PC2的阿马齐格极点的轻微转变,也符合50代以上村庄之间的一些遗传交换。对该地区村庄的进一步采样可能会揭示摩洛哥南部地区微妙的人口结构10–13.
基因表达的区域分化
接下来,我们询问地区、位置和种族是否影响基因表达谱,以及它们是否以特定于性别的方式影响基因表达。由于村庄的地理位置和种族混杂,因此进行了几项平行分析,以区分这些影响。转录物丰度数据通过以对数基数2为中心的中值进行转换(在线补充图2),从而在不改变其方差的情况下,最大程度地重叠轮廓。
基因特异性方差分析14表达与区域、性别和相互作用有关,发现1521个探针的错误发现率为1%(FDR;P(P)< 0.0007). 区域,即农村(Boutroch+Ighrem)与城市(Anza+Dchiera)的比较是本联合分析中的主要影响。接近7%的所有表达基因按照这个保守标准区分这些个体,而不到1%的探针显示出性别差异。基因的完整列表见在线补充表1在进行这种生活方式比较的几类代表性过高的基因中,小核仁RNA基因脱颖而出:前8个基因中的5个,29个成员中的15个SNORD公司与10个家庭中只有1个相比,家庭在这一重要名单中斯诺拉基因。文献中几乎没有说明为什么会出现这种情况,或者可能的生理后果,但有趣的是,许多小核仁RNA基因已经观察到表观遗传修饰15.
当我们对包括位置、性别及其交互作用在内的方差模型进行拟合分析时,发现差异更大。由于探索性分析表明Anza和Dchiera样本无论是基因表达还是基因型都无法区分,因此在随后的所有分析中,将它们合并到一个位置Agadir。在三种方法的比较中,8459个探针(38%)在1%的FDR阈值下定位显著(在线补充表2). Boutroch不同于Ighrem和Agadir,每个探针超过7000个,具有高度重叠(;). 伊格利姆和阿加迪尔之间的相似性要大得多,部分原因是伊格瑞姆样本中的多样性大大增加,这降低了位置对比的重要性。我们还注意到,女性在不同地区的差异要比男性大得多(). 这些结果证实了我们之前的报告2贝都因游牧民、城市安扎和另一个偏远的阿马齐格村庄Sebt Nabor之间存在着巨大的差异。
位置影响基因表达转录本(一)三个成对比较的方差分析显示,在1%FDR下显著的基因数文氏图。表达变异的方差分量(b条)仅在阿加迪尔的118名居民中(不包括9名gPC1得分为强阳性的人,包括根据gPC2对11名与自我报告相关的人重新分配种族),补充表5),其中种族性被建模为基因型变异的PC2,如,或(c(c))对于208个个体的完整样本中的所有22300个探针。
表1
位置 | | | 性别 | | | 互动 | | |
---|
方差分析 | 协方差分析 | | 方差分析 | 协方差分析 | | 方差分析 | 协方差分析 |
---|
3路 | 8459 | 7057 | 男:女 | 151 | 233 | 位置*性别 | 133 | 203 |
阿加:布 | 6744 | 4974 | 在阿加迪尔 | 24 | 24 | 股骨(Aga:Bou) | 4830 | 3791 |
阿加:Igh | 635 | 651 | 在Boutroch | 13 | 14 | 雌性(Aga:Igh) | 1451 | 1467 |
鲍:伊格 | 7339 | 6286 | 在伊格勒姆 | 589 | 890 | Mal(阿加语:Bou)† | 407 | 806 |
Aga:农村 | 1521 | 607 | | | | Mal(阿加:Igh) | 8 | 8 |
为了更仔细地评估种族可能的独立贡献,对表达变异进行了方差成分分析。如然而,在整个数据集中,有一些证据表明有贡献:研究表明,当与位置相结合时,种族、族裔和性别-位置交互作用术语对表达谱有很大贡献。
尽管性别和种族对基因表达的影响小于位置,但PC1和PC2对差异表达最大的1500个基因的表达图表明对于许多基因来说,这三个因素之间的相互作用是相当复杂的。这也可以在特征性个体基因的表达谱中看到(在线补充图3). Boutroch和Ighrem村民通常沿着PC1分开,而所有Boutroh居民(第1组)和Ighresm的阿拉伯妇女(第2组)的PC2值较高。来自Ighrem的Amazigh女性(第3组)和Ighresm男性(第4组)的PC2值较低,与所有阿加迪尔居民的PC2数值相似。最简单的解释是,文化或行为差异,可能包括在村外的时间,对观察到的性别和种族影响有很大影响。需要进行更深入的取样,以确定性别和/或人群之间固有的生物学差异是否也会对淋巴细胞的表达差异做出重大贡献,就像它们对培养的淋巴母细胞系所做的那样16–19.
差异表达最多的基因的主成分图1500个最重要基因表达的两个主要成分显示,个体按位置(PC1和PC2)和性别(PC2)显著分离(所有P(P)<0.0001),如文中所述。Boutroch的个体为蓝色、Ighrem红色和Agadir绿色。阿拉伯人用实心点表示,Amazigh圆圈表示,男性是每种颜色的较浅符号。伊格勒姆的布特罗奇和阿拉伯妇女(第1和第2组)与阿玛齐格妇女和伊格勒m的阿拉伯男子(第3和第4组)分开,后者距离阿加迪尔居民更近。如果将Boutroch居民和Ighrem阿拉伯妇女分组,并与Agadir居民、Ighrem-Amazigh妇女和Ighrem男子进行对比,则8239个基因在1%FDR率下的差异显著,超过任何位置的配对比较。所有基因的类似图如所示补充图11.
有两类基因在不同的位置表现出显著的差异。这些是大小亚单位以及细胞质和线粒体亚单位的核糖体蛋白质,以及参与氧化磷酸化的蛋白质,在一半的阿加迪尔居民中高度上调(在线补充图4a). 编码这些蛋白质的所有转录物形成了共同调控基因的模块,但如在线补充图4b,值得注意的是,此模块没有与SNORD公司s、 这在阿加迪尔往往相对下调,但在伊格勒姆的阿拉伯女性中尤其高。核糖体生物合成的调节可能与对病毒感染的反应有关,它似乎还与线粒体活性相关的肿瘤发生有关20,21氧化磷酸化与肾脏健康和自由基的产生或处置相关22因此,我们的数据表明,深入评估与生活方式转变相关的健康风险可能会有所启示。
基因表达变异与全基因组关联
通过全基因组关联所有22300个探针的表达来评估基因对表达变异的贡献。首先对每个转录物丰度和每个基因型之间的相关性进行简单测试,然后过滤以仅保留次要等位基因频率大于0.05的eSNP,我们观察到3430个关联P(P)< 10−8.进一步筛选eSNP,以仅保留与注释基因的常染色体关联,并施加额外的严格性P(P)< 10−11用于假定反式一条染色体上的eSNP和另一条染色体的探针之间的关联将其减少到1636个关联。其中1569(96%)为染色体内连锁,绝大多数在50kb以内,因此顺式-代理(在线补充图5)在不同的染色体间隔中只有3个清晰可见。在第二个探针所代表的39个靶基因中观察到传真关联(37个顺式, 2反式). 进一步减少数据集以排除单倍型块中的关联,使346唯一顺式和10个独特的反式严格的全基因组5%显著性水平上的关联。这些比例与大多数其他关于血液或淋巴细胞系的GWAS表达研究一致16,17,23–26,并且超过30倍或更大顺式结束反式关联性也分别得到600个和20个基因的1%FDR估计的支持。完整的峰值列表顺式和反式关联在中提供在线补充表3.
考虑到基因表达的高度群体结构,我们通过计算eSNP等位基因频率的分化可能有助于观察到的关联F类装货单对516972个SNP和16500个基因位置的每一个配对比较的估计。未观察到固定差异F类装货单比较(在线补充图6a)表明只有适度的总体遗传分化,偶尔有SNPF类装货单数值在0.12和0.3之间。这些异常值没有表现出高表达分化的趋势,事实上,几乎所有前10%差异表达最多的基因都属于遗传分化最少的基因。两者之间也没有任何相关性F类装货单基因表达差异及其意义(在线补充图6b),证实了观察到的地点之间的表达差异在很大程度上不是由于地点之间的基因特异性等位基因频率差异。
通过对数据拟合两个额外的线性趋势模型,进一步评估了3430个关联对环境方差来源和人口结构的稳健性。第一个包括地点、性别和他们之间的互动。第二个包括两个种族测量(前三个基因型特征向量和一个四向分类种族聚类:见方法),一个基于血统身份测量的相关性矩阵27以及性别与种族簇和基因型的相互作用。通过染色体位置显示第二个模型的曼哈顿关联图,以及顺反式针对eSNP位置的目标图。和在线补充图7表明基因型显著性项的对数高度相关(第页>0.95)。此外,表明在任何关联趋势测试中都没有证据表明存在显著的基因型-位置交互作用。种族和相关方差成分都不能解释任何转录本的显著表达差异(在线补充图8).
基因组与转录物丰度的关联(一)曼哈顿1636个全基因组关联图P(P)< 10−8(NLP>8)用于模型3,包括对基因型决定的种族、地点、相关性和性别的控制。每条染色体用不同的颜色表示。水平红线表示全基因组显著性阈值(NLP>11.4)反式关联。请注意,由于多个顺-eSNP,6号染色体上MHC复合体的峰值过多。(b条)Cis公司-变速箱显示靶转录物位置相对于eSNP位置的图,表明大多数eSNP位于顺式到规定的成绩单,而只有13反式NLP>11.4时的相关性可见。(c(c))通过基因型与表达的简单相关性(模型1)或对种族、性别和位置的稳健控制(模型3)检测到所有eSNP的显著性测量值的高度相关性。(d日)基因型-位置相互作用效应的全基因组意义缺失,这与基因型效应无关。
通过绘制表达作为基因型的函数,并对每个关联的每个位置进行颜色编码,可以很容易地看出没有交互作用。一个示例反式中的关联在线补充图9显示出明显的表达增加趋势AMY1A型(1号染色体)的A等位基因的纯合子动作g1γ-肌动蛋白(17号染色体),在三个位置上一致,尽管总体位置影响很小。的表达式AMY1A型与十亿日元(第页>0.8)以及共表达模块中的数十个其他基因,但eSNP仅调节AMY1A型,因为它以加性方式将基因的表达增加了两倍。一个代表性基因的类似图,在顺式,C21ORF57,提供于并在下文中进一步讨论,更多示例可参见在线补充图9c.
基因型、表达和表型之间的关系(一)一个典型的转录物示例(编码C21ORF57,一种假定的金属蛋白酶)显示了两个位置之间的显著差异(P(P)< 10−5)和a顺式-eSNP关联,带有rs1556337(P(P)< 10−13)但在对数尺度上,加性模型中没有交互作用。Boutroch(蓝色点和线)的表达较低,而基因型在所有三个位置(Ighrem,红色;Agadir,绿色)具有一致的影响。(b条)实际与预测图按位置区分基因型,以便于明确。假设疾病或表型仅见于转录物丰度小于1.0的个体(相对对数2标度),由灰色区域表示。然后,在Agadir和Ighrem(分别为绿色和红色),几乎所有受影响的都是AA纯合子,而在Boutroch(蓝色)杂合子和一些GG纯合子也受影响。因此,在没有G×E相互作用的情况下,表型存在G×E交互作用,因为环境将更多个体转移到易感区。类似的论点也适用于具有高表达值的表型,以及分级而非阈值依赖的性状。
与潜在疾病等位基因的新关联
在一个组织中检测到的GWAS-表达关联可以识别可能在直接参与疾病病因的其他组织中活跃的调节性变体23,25,26一个例子是顺式-外周血与染色体12q13处T1D易感性位点的联系。最强的表达关联是与转速26核糖体蛋白基因和网络分析已经被用来证明这是比最初报道的更可能的糖尿病候选基因ERBB3号机组28然而,与表达和/或剪接相关的SNP不同,T1D相关性最强24属于RPS26型我们进一步发现,eSNP的相同链接组以rs10876864为中心SUOX公司基因35kb来自RPS26型,也与反式与六个其他RP26旁系同源物(可能是由于交叉杂交)CCDC4公司在第4染色体上,尽管处于暗示意义水平P(P)= 3.5×10−10有趣的是RPS26型与区分位置的核糖体蛋白质模块的相关性很弱(在线补充图4b)因此,这种关联与环境对核糖体蛋白基因转录的影响无关。
另一个反式-利益关联涉及rs11987927MYOM2公司8p23,带ZNF71型2013年第19季度,但也有自己的MYOM2公司成绩单。逻辑表明顺式-这种关联可能会影响MYOM2肌球蛋白的丰度,进而调节ZNF71型,但是反式关联性实际上明显更强,条件依赖性分析29,30指向相反的方向,即MYOM2公司监管场地影响ZNF71型,然后反馈给MYOM2公司成绩单(在线补充图10). 这个例子可能是一个关于条件依赖性结果解释的警示故事。值得一提的是,七个最强的四个反式关联性涉及基因座的调控,这些基因座包括编码结构蛋白的基因,其他基因座是拉马5层粘连蛋白(20q13)OSBPL2系统、和PLEKHM1系列plekstrin同源结构域蛋白(17q21)地图8IP1.
还有一个反式-协会特别令人感兴趣。地中海贫血患者常观察到成人胎儿γ-血红蛋白表达延长。我们发现两个探测到两者的探针之间存在关联HBG1型和HBG2型第二内含子中含有rs766432的11p15转录本BCL11A型锌指原癌基因位于2p16。同样的SNP以前也与含有可测量胎儿血红蛋白的红细胞比例有关31BCL11A活性的改变最近显示了小鼠和人类在珠蛋白转换方面的差异32中的另一个SNPBCL11A型,rs4671393与两个丰度有关BCL11A型CEU和YRI HapMap淋巴母细胞系的转录亚型33,但与无关BCL11A型白细胞数据中的转录物丰度,表明BCL11A翻译或蛋白质活性的调节更有可能影响HBG公司我们的示例中的表达式。
数量众多顺式-协会也可能感兴趣。我们扫描了GWAS关联数据库,以确定我们的研究与已建立的疾病关联之间的重叠第页<10−5在1628个条目中,有10个涉及顺式在我们的数据集中观察到的关联解释了15%到55%的转录差异(在线补充表4). 其中五种与疾病有关(类风湿性关节炎、腹腔疾病、T1D、溃疡性结肠炎和SLE),五种与内表型有关(PAFAH1B2和ICAM-1蛋白水平、甘油三酯、LDL胆固醇和髋骨密度)。两种血清蛋白相关性34,35与我们检测到的SNP相同,因此表明蛋白质丰度在很大程度上是在转录水平上调节的。
讨论
基因和环境对表达变异的贡献
我们对摩洛哥南部基因表达变异的地理基因组调查强调了两个平行且大部分不重叠的见解。一方面,很明显,多达一半的转录组受到环境的高度协调影响,以至于一个人居住的地方可以解释多达四分之一的转录组变异。环境影响可能是生物和非生物因素以及文化和行为因素的组合,而北非两个民族之间的遗传差异相对较小。另一方面,基因组中充斥着强烈的遗传关联,主要是在顺式这解释了5%的成绩单的15%到60%的差异。尽管这些关联令人印象深刻,特别是因为它们是在不到200个个体的样本中发现的,但它们基本上与绝大多数转录变异无关,也不能提供环境反应的遗传基础信息。
观察到的与环境效应相关的稳健性提出了基因型-环境相互作用是否影响外周血转录组的问题。如果没有显著的主基因型效应,一般不太可能发生基因组范围的显著交互作用36只有在两个位置的基因型效应方向相反,并且这些位置的遗传效应至少与本GWAS中检测到的主要效应大小相同的情况下,才能解释特定转录物30%以上的方差。虽然可能存在一些这样的相互作用,但需要进行一项研究,比较每个地点数千名个体,以揭示较弱的基因型-环境相互作用。如果转录的遗传结构通常与可见表型(如身高和体重)的遗传结构相似37,38即使这样的研究也无法解释绝大多数的转录差异。
一个相关的问题是,转录水平上的基因型与环境的相互作用是否有必要解释疾病的基因型-环境相互作用。GWAS检测水平以下的微小相互作用可能普遍存在,或者疾病主要是由罕见的具有重大影响的等位基因引起的,其外显率可能以特定于环境的方式进行调节。然而,转录相互作用并不需要解释慢性病发病率的增加。不难想象,属于转录组图谱主要类别的个体(例如和在线补充图4)具有不同的疾病易感性分布,从而在全基因组范围内改变基因型-疾病关联矩阵,从而诱发疾病的环境-基因型相互作用。参与该表达成分的一些基因的转录也可能与疾病直接相关,有效地揭示了隐性变异,并导致环境特异性eSNP疾病关联,而在转录水平上没有任何交互作用()39由此得出的一个推论是,基因表达谱分析可用于对疾病风险较高的个体进行分层,从而通过将注意力集中在遗传对疾病影响最显著的个体子集上,提高全基因组关联研究的分辨率。