自然。作者手稿;PMC 2012年3月15日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理3276836
EMSID:英国MS40894
小鼠基因组变异及其对表型和基因调控的影响
,1,* ,2,* ,1,* ,三 ,1 ,2 ,4 ,2 ,1 ,2 ,5 ,5 ,4 ,2 ,2 ,2 ,2 ,2 ,4 ,4 ,1 ,2 ,2 ,2 ,2 ,1 ,1 ,1 ,1 ,2 ,1 ,6 ,7 ,8 ,7 ,7 ,三 ,4 ,8 ,2和1
托马斯·基恩
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
顾汝德
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
彼得·丹切克
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
迈克尔·怀特
三美国威斯康星州麦迪逊市威斯康星大学遗传学实验室,邮编53706
金·王(Kim Wong)
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
宾纳兹·亚尔钦
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
安德烈亚斯·海格
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
阿维盖尔·阿甘
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
盖·斯莱特
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
马丁·古德森
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
尼古拉斯·福洛特
5加利福尼亚大学洛杉矶分校,加利福尼亚州90095-1596,美国
埃利亚扎·埃斯金
5加利福尼亚大学洛杉矶分校,加利福尼亚州90095-1596,美国
克里斯托夫·内尔·克尔
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
海伦·惠特利
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
詹姆斯·克莱克
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
黛博拉·贾诺维茨
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
波琳卡·埃尔南德斯·普利戈
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
安德鲁·爱德华兹
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
T.格兰特·贝尔加德
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
彼得·奥利弗
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
丽贝卡·麦金太尔
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
阿马尔吉特·博姆拉
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
杰罗姆·尼科德
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
甘香超
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
魏源
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
路易丝·范德韦登
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
查尔斯·斯图尔特
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
Sendu Balasubramaniam公司
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
吉姆·斯塔克
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
理查德·莫特
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
德宾
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
伊恩·J·杰克逊
6英国爱丁堡EH4 2XU Crew Road医学研究委员会人类遗传学部
安妮·切申斯基(Anne Czechanski)
7美国缅因州巴尔港杰克逊实验室,邮编:04609
何塞·阿方索·格雷拉·阿桑桑奥
8英国剑桥CB10 1SD Hinxton Wellcome Trust基因组校园欧洲生物信息研究所
Leah Rae Donahue女士
7美国缅因州巴尔港杰克逊实验室,邮编:04609
劳拉·莱因霍尔德
7美国缅因州巴尔港杰克逊实验室,邮编:04609
布雷特·佩瑟尔
三美国威斯康星州麦迪逊市威斯康星大学遗传学实验室,邮编53706
克里斯·蓬廷(Chris P.Ponting)
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
伊万·伯尼
8英国剑桥CB10 1SD Hinxton Wellcome Trust基因组校园欧洲生物信息研究所
乔纳森·弗林特
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
大卫·J·亚当斯
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
1英国剑桥CB10 1HH Hinxton Wellcome Trust Sanger Institute
2英国牛津OX3 7BN罗斯福大道威康人类遗传学信托中心
三美国威斯康星州麦迪逊市威斯康星大学遗传学实验室,邮编53706
4英国牛津OX1 3QX南帕克斯路牛津大学生理学、解剖学和遗传学系MRC功能基因组学单元
5加利福尼亚大学洛杉矶分校,加利福尼亚州90095-1596,美国
6英国爱丁堡EH4 2XU Crew Road医学研究委员会人类遗传学部
7美国缅因州巴尔港杰克逊实验室,邮编:04609
8英国剑桥CB10 1SD Hinxton Wellcome Trust基因组校园欧洲生物信息研究所
*这些作者为这项工作做出了同等贡献。
作者贡献D.J.A.和J.F.构思了该研究,指导了该研究并撰写了论文。T.M.K.、P.D.、L.G.、B.P.、M.W.、K.W.、B.Y.、A.H.、A.A.、G.S.、M.G.、N.F.、E.E.、C.N.、H.W.、J.C.、D.J.、P.H.-P、A.B.、J.N.、X.G.、W.Y.、A.B.、L.v.D.W.、C.A.S.、S.B.、J.S.、R.M.、R.D.、I.J.、C.P.P.和E.B.进行数据分析。L.R.、A.C.和L.D.提供了基本的生物资源。
- 补充资料
补充信息1。
GUID:79B2EAB6-25DC-4CE1-B3CF-23ACA730F785
补充信息2。
GUID:9CD0FCA7-0AE7-41AF-A62D-992D9504611B
摘要
我们报告了17种近交系实验小鼠的基因组序列,并鉴定出了比先前已知的近十倍多的变体。我们使用这些基因组来探索实验小鼠的系统发育史,并检查等位基因特异性变异对转录物丰度的功能后果,发现至少12%的转录物显示出显著的组织特异性表达偏差。通过在718个数量性状基因座上识别候选功能变体,我们表明功能变体的分子性质及其相对于基因的位置随基因座的效应大小而变化。这些序列为关键模型生物功能分析的新时代提供了一个起点。
直到20世纪末,实验室小鼠形态、生理、生化和行为变化的分子基础基本上仍不清楚1-三21世纪初,对小鼠参考基因组C57BL/6J的完整基因组进行解码,彻底改变了我们将序列与功能联系起来的能力4,5它使小鼠的基因筛查达到了前所未有的规模6,它促进了为所有基因创建一组完整的空等位基因的任务7,8加速了小鼠序列多样性的发现9,10.
然而,我们的目录仍然不完整,一些形式的变化基本上没有文件记录。然而,我们现在更多地了解了实验室品系小鼠的表型变异程度11-16以及遗传作用的复杂性,从完全渗透孟德尔效应到部分渗透改性剂17,18和非加性效应18大多数数量性状的准无限遗传结构19,我们对大多数遗传影响表型的分子基础仍然一无所知。
在这里,我们描述了17个关键小鼠基因组序列的生成和分析,这些基因组是通过下一代测序获得的20,21基因组包括经典实验室菌株C3H/HeJ、CBA/J、A/J、AKR/J、DBA/2J、LP/J、CBA/J、BALB/cJ、NZO/HlLtJ和NOD/ShiLtJ的基因组,以及四个野生自交系CAST/EiJ、PWK/PhJ、WSB/EiJ和SPRET/EiJ的基因组,其中包括常见实验室菌株的祖先,是锥体肌,小肌肉,西欧家鼠和马斯普雷图斯分类群。我们还测序了三个相关的129序列(129S5SvEv英国129P2/OlaHsd和129S1/SvImJ),代表5000多只基因敲除小鼠的遗传背景22和C57BL/6NJ,全基因组敲除程序KOMP、NorCOMM和EUCOMM使用的菌株7,8,22这些菌株的序列共同捕获了大多数常用小鼠菌株及其祖细胞的基因组14,23-25.
我们记录了我们发现的变异,描述了不同菌株之间变异的分布,并探索了产生实验室小鼠的亚种的进化起源。通过两个例子,我们演示了如何使用序列来研究表型变异的分子起源。首先,我们使用序列变异来检测基因表达中的等位基因特异性变异。我们展示了如何结合基因启动子活性的测量,在基因表达调控中牵涉到功能性变体。其次,我们探索了数量性状的分子基础。我们询问负责数量变异的功能变体在其位置(基因内部或外部)和分子类别(小核苷酸多态性(SNP)、indels或结构变体)方面是否具有共同的分子特征。
数据生成和变体发现
和总结生成的序列和发现的变体。我们将所有序列定义为与参考菌株(C57BL/6J;MGSCv37组装)的序列相同或不同,并且我们报告了关于可访问基因组的结果:序列读取的那些位点可以以大于40的映射质量唯一映射(补充方法). 这平均代表了每个菌株参考基因组的83.8%和编码序列的94.7%。
与参考文献相关的17个小鼠基因组变异概述一,四个野生菌株(CAST/EiJ、WSB/EiJ,PWK/PhJ和SPRET/EiJ)代表了锥体肌,小肌肉,西欧家鼠和马斯普雷图斯分类群,包括衍生出经典实验室菌株的祖细胞。这些基因组显示在一个圆圈中,其轨迹表示SNP、结构变体(SV)和不可命名区域(被分为10-Mb区域)的相对密度。转置元素(TE)插入是结构变量调用的子集,显示为单独的轨迹。圆圈右侧的13个经典实验室菌株中的每个菌株都显示了相应的轨迹。穿过圆圈的链接表示参考上野生菌株最接近参考的区域(375-kb容器)。b条维恩图中的数字表示野生和经典实验室菌株中SNP、indels、结构变异缺失和转座元件插入的数量。每个维恩图下的数字表示野生和经典实验室菌株中每种变体的总数。
表1
17个小鼠基因组序列和变异的概述
应变 | 千兆字节 映射 数据 | 新闻报道 | %第页,共页 基因组 无法访问 | 单核苷酸多态性 | (私人) | 索引 | (私人) | 结构 变体 | (私人) |
---|
C57BL/6N型 | 77.29 | 29.29 | 13.21 | 9,844 | (1,488) | 22,228 | (4,259) | 431 | (75) |
129S1/瑞典 | 71.91 | 27.25 | 15.30 | 4,458,004 | (1,489) | 886, 136 | (16,140) | 29,153 | (786) |
129S5SvEvBrd公司 | 50.27 | 19.05 | 15.17 | 4,383,799 | (1,991) | 810, 310 | (21,214) | 25,340 | (691) |
129P2/奥拉 | 115.52 | 43.78 | 14.47 | 4,694,529 | (23,677) | 1,028,629 | (58,173) | 32,227 | (3,430) |
A/J公司 | 70.39 | 26.68 | 15.90 | 4,198,324 | (44,837) | 823,688 | (24,502) | 28,691 | (1,474) |
AKR/J公司 | 107.16 | 40.61 | 14.86 | 4,331,384 | (87,527) | 966,002 | (64,422) | 30,742 | (3,576) |
BALB/cJ公司 | 65.72 | 24.90 | 15.09 | 3,920,925 | (29,973) | 831, 193 | (30,998) | 25,702 | (1,056) |
C3H/HeJ(高度) | 92.81 | 35.17 | 15.09 | 4403599 | (16,804) | 949,206 | (34,834) | 28,532 | (1,779) |
哥伦比亚广播公司/日本 | 77.43 | 29.34 | 14.79 | 4,511,278 | (34,203) | 929,860 | (35,976) | 28,183 | (1,178) |
数据库管理员/2J | 65.11 | 24.67 | 15.09 | 4,468,071 | (72,214) | 868,611 | (37,085) | 28, 346 | (1,469) |
LP/J公司 | 73.03 | 27.67 | 15.29 | 4,701,445 | (53,509) | 947,614 | (33,817) | 30,024 | (1,194) |
NOD/ShiLtJ公司 | 75.88 | 28.75 | 17.30 | 4,323,530 | (143,489) | 797,086 | (41,113) | 30,605 | (2,479) |
新西兰/新西兰有限公司 | 45.68 | 17.31 | 16.06 | 4,492,372 | (210,256) | 806,511 | (60,231) | 25,125 | (1,938) |
普华永道/菲律宾 | 66.99 | 25.38 | 19.26 | 17,202,436 | (4,461,772) | 2,635,885 | (833,794) | 90,125 | (25,383) |
CAST/EiJ公司 | 64.84 | 24.57 | 19.18 | 17,673,726 | (5,368,019) | 2,727,089 | (956,828) | 86,322 | (25,232) |
WSB/EiJ公司 | 48.19 | 18.26 | 16.23 | 6,045,573 | (894,875) | 1,197,006 | (211,348) | 35,066 | (5,957) |
SPRET/EiJ公司 | 70.41 | 26.68 | 23.26 | 35,441,735 | (23,455,525) | 4,456,243 | (2,936,998) | 157,306 | (91,721) |
总计 | 1,238.63 | 469.36 | | 129,260,574 | | 21,683,297 | | 711,920 | |
每个基因组中有13%到23%是无法获取的(和补充图1-17). 野生菌株中难以接近区域的比例较高,表明与小鼠参考的差异是无法接近的主要原因。在可访问的小鼠基因组中,我们鉴定了5660万(M)个独特的SNPs、8.8M个独特的indel和0.28M个结构变体,包括0.07M个转座元件插入位点().
我们使用一个非参考菌株(NOD/ShiLtJ)的1750万碱基(Mb)DNA建立了我们变异呼叫的敏感性和特异性,我们使用已建立的测序技术生成了该菌株。我们对107条细菌人工染色体(BAC)进行了测序26分布在第1、6、11和17号染色体上的位点上。该序列的估计精度为每100000个碱基对(bp)一个错误。我们将16.2Mb的BAC序列与MGSCv37小鼠参考比对,由此估计,我们下一代衍生的NOD/ShiLtJ SNP调用中有3.6%是假阳性,6.5%是假阴性。我们将我们的基因型呼叫与公共数据库中的呼叫进行了比较,发现与两个最大的SNP数据集(Perlegen9和dbSNP27). 然而,我们也发现这些数据集的假阴性率分别为83.7%和84.1%。
我们确定的indels(1-100 bp)远远少于SNPs,并且置信度较低(). 我们依靠与NOD/ShiLtJ BAC序列的比较进行验证,估计假阳性率和假阴性率分别为2.2%和20.1%。总的来说,我们估计每10千碱基(kb)的可访问序列平均有2.61个序列错误,在NOD/ShiLtJ中的准确度为99.97%,这应该扩展到其他测序菌株。
我们使用NOD/ShiLtJ BAC序列来估计不可访问区域中包含多少变体。我们发现,在不可访问的区域中,BAC序列的每个碱基的SNPs大约是BAC序列其余部分的2.8倍。序列读取无法明确地映射到这些区域,导致错过变体调用。不可访问序列的内容分析见补充表1我们对NOD/ShiLtJ BAC序列的分析表明,我们测序的菌株基因组中至少30%的SNP仍有待发现。这些SNPs中的大多数位于基因组的基因间区域。除了纯合SNP位置外,我们还将其称为2.2M杂合位置。这些是由于indels和结构变异断点周围的错位、重复位点和低深度位置造成的。
我们称之为0.71M结构变体>100 bp(0.41M简单缺失,0.29M简单插入,2100个反转,1556个拷贝数增加和3658个复杂结构变体)(和)0.28M位置,如我们随附的文件所述28每个菌株的平均48.4 Mb序列属于基因组的结构变异区域(实验室菌株为33 Mb,野生菌株为98.2 Mb)。每个菌株中的结构变体与SNP聚集(补充图1-17)这表明这些事件中的绝大多数可能起源于祖先。这也可能反映了结构变体生产过程中因防波堤诱导复制而导致的高多态率29只有7.5%的结构变异体是一个经典实验室菌株的私有变异体。
功能变体
我们在蛋白质编码序列中确定了0.12M SNP位置,这些位置导致氨基酸变化(非同义取代),而0.26M则不会(同义替代)。在所有菌株和转录物中共发现2051个终止密码子,经典实验室菌株平均为85个,野生菌株平均为251个。补充图18显示了这些变体在菌株中的分布。平均每1454个密码子出现一次非同义变化,很少出现集群。然而,极端变异发生在项目9,“物种形成基因”30其锌指编码域在测序菌株中差异很大(补充图19). 通过对RNA进行测序,我们确认了99.84%的编码SNP被表达基因中10个或更多的RNA-Seq读取所覆盖(补充表2).
以前在一个菌株中报道的一些功能性变体在其他菌株中首次发现。在LP/J小鼠中,我们发现DNA聚合酶区发生突变(波利)基因。这种提前终止密码子可以消融基因功能,此前已经在129只小鼠中发现(MMU18:70688442)31。我们还发现磁盘1129代小鼠已知,与工作记忆缺陷有关32此外,我们在微染色体维持基因中发现了一个截断突变(MMU10:53345838)麦克姆9(参考。33)SPRET/EiJ中。该基因被认为在复制中具有重要作用,表明SPRET/EiJ中存在功能冗余或旁系基因。
小鼠品系间的变异
经典的实验室小鼠菌株携带相对较少的私人变种(约占每个菌株中所有变种的2%)(). 这些变异在全基因组范围内分布,表明它们要么是在这些菌株分化后出现的(补充图1-17)、或是错误。我们观察到实验室和野生菌株中转座因子家族的显著差异(). 转座元件变异体(TEV)在转录起始位点附近、外显子内或外显子附近缺失,而长散布的核元件(LINE)变异体在转录因子基因的内含子内缺失。在内含子中,我们发现插入到感觉转录方向的内源性逆转录病毒(ERV)TEV数量显著减少。
C57BL/6J参考基因组中缺失的位点很难获得。我们鉴定了424 Mb的新序列(contigs>100 bp;contigs>1 kb为48.4 Mb)(补充图20). 不出所料,在野生菌株中发现的数量比在经典实验室菌株中多,这些实验室菌株大多来自共同的创始人群体。新序列20.4 Mb与Celera混合应变组件对齐34以及参考基因组中不存在的其他小鼠序列;562.9 kb映射至大鼠参考基因组,18.9 kb映射到兔子参考基因组。在多个菌株中约有30 Mb的新序列保持不变(补充图20).
小鼠的系统发育史
我们使用野生来源菌株的可访问序列来探索产生实验室小鼠的主要亚种的进化史。我们进行了贝叶斯一致性分析35使用以下序列小肌M.M(PWK/PhJ),家蝇M.M.domesticus(WSB/EiJ),M.M.锥体(CAST/EiJ)和M.斯普雷图斯(SPRET/EiJ),以大鼠为外群。
我们观察到小肌M.M,家蝇M.M.domesticus和M.M.锥体(). 面对这种不一致,我们确定了一个小肌M.M.锥体M.M主要亚种历史(一致性因子(CF)=37.9%;95%可信区间(CI)=37.8-38.0%)。其他两种可能的病史得到了相同数量的基因座的支持(CF=30.3%;95%CI=30.2-30.4%;CF=30.2%;95%CI=30.1-30.3%),与不完全谱系分类理论模型的预期非常匹配36-38系统发育转换发生在短的物理尺度上,与家鼠自然种群中连锁不平衡的空间模式大致一致39中位基因座大小与三个系统发育史(原始史,40975bp;替代史,33626bp和33412bp)平行。尽管它与家鼠有相当长的差异时间,但我们还发现了涉及以下方面的系统发育不一致M.斯普雷图斯:12.1%的基因座没有将该物种作为一个外群小M亚种分支。
系统发育史的基因组划分从43255个个体位点树中估计贝叶斯一致性因子。87.9%的基因位于M.斯普雷图斯(Spret)和老鼠作为小M亚种。在小M亚种,有原始历史支持小肌M.M(音乐)/M.M.锥体(演员)姐妹关系(37.9%)家蝇M.M.domesticus(Dom)首先分支。这两种替代拓扑由相同比例的基因组支持(30.3%和30.2%)。所有估计值的95%可信区间为±0.001。
等位基因特异性功能差异
我们将等位基因特异性变异的测量与基因启动子活性的测量相结合,以揭示功能性变异。对两个测序菌株的F1杂交后代的RNA进行测序,并分析转录物中等位基因变体的相对丰度,从而可以评估基因表达的变化。我们对六种组织(肝、胸腺、脾、肺、海马和心脏)的RNA进行了测序(补充表2))通过将参考菌株(C57BL/6J)与一个序列菌株(DBA/2J)杂交产生的F1获得。共有40521个SNP位点被分布在15884个基因上的RNA读取覆盖(每个基因≥1个读取),其中6975个SNP位置至少有20个读取40.
我们将等位基因偏见定义为归因于特定亲本菌株的表达比例,范围从0到1,在没有任何偏见的情况下,零假设为0.5。由于全基因组测序揭示的许多基因中RNA序列数据和SNPs的丰度非常高,许多(41%)基因座在至少一个组织中显示出对一个或其他等位基因的显著偏向;12%的位点表现出明显的表达偏差(表达低于25%或高于75%的参考等位基因)。
显示了基因水平和补充表3显示了每对受检组织的等位基因特异性偏差的一致性。在至少一对组织中发现2871个基因存在显著差异(0.01假发现率,FDR)(补充表4). 组织间的大多数差异(95%)是由于仅在一个组织中发生的偏倚等位基因表达所致。然而,336(4.8%)个受试转录本显示了不同的模式:它们在多个组织中显示有偏见的等位基因表达,但偏见发生在相反的方向。一个例子是博士基因:在肝脏中,76%的信息读取来自C57BL/6J单倍型,但在脾脏中,这一数字仅为39%。
C57BL/6J x DBA/2J F1小鼠组织间RNA表达水平的等位基因特异性偏差对海马、脾脏、肝脏、心脏、肺和胸腺六个组织的RNA进行测序。每个点代表一个基因,偏差范围从1.0(仅C57BL/6J)到0.0(仅DBA/2J)。各图上方显示了组织比较。这些点的颜色取决于偏差差异是否显著(蓝色)、偏差是否显著不同但方向相同(粉红色)或偏差是否显著差异但方向不同(绿色)。
使用DAVID工具将组织间显示不同等位基因特异性模式的基因分为不同的功能类别41在这些基因中,线粒体中的编码蛋白在肝和脾之间显著富集(FDR=9.5×10−6)胸腺和脾脏之间的细胞周期基因(FDR=3.4×10−4)表明等位基因特异性偏差与这些组织中发生的功能程序有关。
为了确定等位基因特异性偏差的分子来源,我们对通过活性基因启动子标记(组蛋白3、赖氨酸4三甲基化;H3K4me3)沉淀的染色质结合的肝脏DNA进行了测序。在这些ChIP-Seq(染色质免疫沉淀后测序)读取的19258个SNP中,H3K4me3的信息读取超过7个,386个(2%)显示出显著的等位基因偏见。在具有等位基因表达偏差的基因启动子中,H3K4me3的等位基因偏差之间存在高度显著的相关性,这一点不足为奇(P(P)< 10−10). 与基因的其他部分相比,启动子区域的组蛋白修饰最能预测转录偏差(Spearman的rho=0.29),特别是对于强偏差基因,显示低于25%或高于75%的参考等位基因表达(Spearman's rho=0.67)。因此,我们已经能够识别出在顺式-C57BL/6J和DBA/2J之间的调控启动子序列可能会显著导致等位基因特异性表达偏差。通过访问基因组序列,我们可以使用功能定义的顺式序列变异来识别重要的调控元件。
数量性状的分子基础
我们使用多个自交系的完整基因组序列来解决复杂性状遗传学中的一个关键挑战:识别数量性状背后的序列变异。我们询问功能性变体是否具有共同的分子特征,以及它们是否更可能位于基因内或基因外,是否包含结构变体、indels或SNP。我们检验了一个假设,即具有较大影响的数量性状位点(QTL)(表示为归因于该位点的总表型变异的百分比)更有可能由某些类别的序列变异组成。
我们使用2000多只异质库存小鼠中鉴定的843个QTL来检验这种关系,这些小鼠是8个测序菌株(A/J、AKR/J、BALB/cJ、C3H/HeJ、C57BL/6J、CBA/J、DBA/2J和LP/J)的后代24由于自创建以来,许多重组体在异质砧木中积累,QTL被解析为平均基因组大小为3Mb。绘制的100个特征包括疾病模型(哮喘、焦虑和2型糖尿病),以及血液学、免疫学、生物化学和解剖学表型24,42.
我们对所有变异体的异质库存小鼠的基因型进行了插补,然后进行了一项测试,以区分可能有功能的变异体和没有功能的变种43。在每个变量中,我们比较了两个模型。在一个(单倍型模型)中,用八个等位基因(代表每一个创始人单倍型)来模拟QTL的影响。在第二种情况下,用变异的等位基因数量(通常一个SNP有两个)来模拟对QTL的影响。在718个QTL(85%)中,至少有一个变异体的等位基因模型比基于单倍型的模型更适合44这意味着,在这些QTL中,在同一单倍型上要么存在一个功能变体,要么存在一系列功能变体。合并后每个QTL的变异中位数P(P)-值超过最小单倍型P(P)-值为7;我们将这些变体称为功能变体。在10%的QTL中,有一个这样定义的单一功能变异体。
我们询问了相对于基因,功能变异是否更有可能发生在某些位置,以及它们是否更有可能属于某些分子类别。假设在一个QTL中,我们将0.1%的变体归类为潜在功能性变体。如果一个基因的位置和一个功能性变体之间没有关系,我们预计基因中0.1%的变体将被归类为功能性变体。我们计算了QTL中功能性变体的百分比与五个位置相对于基因的变体百分比的比率:基因间、外显子、内含子或侧翼(上游或下游位于转录起始或结束位点的2kb范围内)。比值大于1表示功能变体在分类中富集,小于1表示相对缺乏。我们根据经验计算了比率偏离1的显著性(). 我们对分子类别进行了类似的分析,比较了预测对蛋白质功能有害的SNP、结构变体、indels和编码多态性。
表2
序列变异的分子性质及其对表型变异的影响
QTL(数量限制) 百分比 变量 | 基因间的 | 下游 | 外显子 | 内含子 | 上游 | 编码 (有害) | SNP公司 | 结构 变体 | 索引 |
---|
全部 | 1.18** | 0.71 | 0.7 | 0.79 | 0.67 | 0.79 | 1 | 0.84 | 1.04 |
<4% | 1.21** | 0.67 | 0.67 | 0.75* | 0.63 | 0.74 | 0.99 | 0.69** | 1.07 |
>4% | 0.57** | 1.05 | 1.28 | 1.43* | 0.97 | 1 | 1.02 | 0.85 | 0.95 |
>10% | 0.65** | 1.32 | 1.59* | 1.69** | 1.32 | 2.13* | 0.88** | 1.69* | 1.48** |
显示了718个QTL的结果,这些QTL按效应大小(归因于QTL表型方差的百分比)分组,因此每个组包含大约100个QTLs。我们还显示了22个最大效应QTL的结果(解释了10%以上的方差)。显示了大效应(>4%)和小效应(<4%)QTL之间显著差异的测试结果。
功能变体的丰富每行显示一个QTL的功能变异百分比与预期变异百分比的比率。比率大于1表示功能变体在分类中丰富,比率小于1表示功能变量缺乏。功能性变体根据其相对于基因的位置和分子类别进行分类:SNPs、结构性变体和插入/缺失(indels)多态性。
小效应QTL上的功能变异更可能是基因间的,而不太可能是结构变异;相比之下,在大效应QTL上的功能变异明显不太可能是基因间的,而更可能是内含子的。然而,只有3%的QTL解释了10%以上的表型变异,我们发现编码变异的显著富集被预测为有害的。这些QTL极有可能来自indels和结构变异。因此,我们的分析表明,数量性状变异的位置和分子性质都会影响QTL的效应大小。
讨论
我们获得的序列具有许多显著的特征。首先是我们发现的变体数量的绝对数量。早期的目录基于与寡核苷酸阵列杂交的重新测序,在15个菌株的8.3M个独特位点上鉴定了SNPs9; 我们在17个菌株中的总计数为56.6百万个独特位点。此外,我们的目录还包括以前难以在全基因组范围内评估的其他类型的序列多态性:8.8M独特位点的indels和0.28M结构变体。
其次,我们利用一个非参考菌株17.5Mb的高质量序列来估计假阳性和假阴性率。然而,我们应该注意,BAC序列不是从基因组中随机选择的;例如,当映射回参考基因组时,它们的共线性表明它们并不位于结构变异丰富的区域。重要的是,对BAC序列的访问告诉我们新测序技术遗漏了什么,这是其他脊椎动物序列项目目前缺乏的信息。我们发现,不可访问区域包含的序列变化量几乎是可访问区域中观察到的速率的三倍。这一观察结果来源于对近亲繁殖基因组的分析,近亲繁殖的基因组代表了变种召唤的最佳情况,它对远交群体(如人类)的全基因组测序具有重要意义,而远交群体的变种召唤要困难得多。
当前的变体目录有什么用途?首先,简单地知道变异在测序菌株基因组中的分布很重要。驯化的进化时间尺度很短,这意味着经典实验室菌株的大多数基因组来源于自然发生的种群。我们的系统发育分析都证实了小肌M.M和M.M.锥体是姐妹亚种35并证明野生小鼠基因组是多种进化历史的复杂镶嵌。我们的结果进一步表明M.斯普雷图斯并不是一个可靠的外群来确定家鼠12%位点的祖先状态,因为我们观察到的广泛的系统发育不一致表明多态性通常在亚种之间共享(或与M.斯普雷图斯). 对大量野生小鼠的基因组序列进行分析,可以更详细地了解实验室小鼠的起源。
我们目录的第二个用途是探索基因型和表型之间的关系。我们已经用两个例子证明了这一点。通过检测单个杂交(C57BL/6J×DBA/2J)中的六个组织,我们能够在12%的表达位点检测到高水平的等位基因偏倚。此外,4.8%的测试转录物在组织间显示出不同的等位基因特异性模式:在一个组织中相对高表达的等位蛋白在第二个组织中则相对低表达。再次使用我们的目录和这里报告的基因组序列,我们已经开始确定这种复杂的基因调控模式的分子基础。进一步的分析和功能研究将使我们能够确定导致这些等位基因表达差异的确切序列差异。
我们还表明,序列变体的分子性质及其相对于基因的位置会影响其功能的可能性。使用统计方法预测变异体的等位基因模式是否与其作为数量性状变异的分子原因的作用一致,我们能够表明,有助于小效应QTL的功能变异体明显更可能是基因间的;相比之下,效应较大的QTL更有可能由内含子变异引起,并且显著不太可能是基因间的。
结合小鼠表型项目提供的近交系表型信息,17个小鼠基因组的序列和相关的变异目录将成为理解性状差异的基础,并将允许进一步深入了解功能变异的性质。此外,接近完整的序列将有可能插补测序菌株的任何衍生物的基因组,包括协作杂交23,一大组重组自交系,用于多个复杂表型的高分辨率绘图。总之,我们在这里描述的序列将有助于剖析从序列变体到表型的路径。
方法总结
这个补充信息提供了样本、数据生成协议、读取映射、SNP调用、短插入和删除调用、结构变化调用以及所有其他计算方法的完整详细信息。
致谢
该项目得到了英国医学研究委员会和威康信托基金会的支持。D.J.A.由英国癌症研究所支持,L.R.、L.R.-D.和A.C.由杰克逊实验室支持。B.A.P.获得了NSF拨款DEB 0918000的支持,M.A.W.获得了威斯康星州大学生物与医学计算与信息学NLM培训拨款(NLM 2T15LM007359)的支持。R.M.和L.G.获得了Wellcome信托拨款085906/Z/08/Z和083573/Z/07/Z以及BBSRC拨款BB/F022697/1的支持。NOD/ShiLtJ BAC测序和下一代Illumina测序由免疫耐受网络合同AI 15416资助,该合同由国家过敏和传染病研究所、国家糖尿病、消化和肾脏疾病研究所和国际青少年糖尿病研究基金会赞助。我们感谢桑格研究所测序和信息学团队的工作人员使这个项目成为可能。
工具书类
1.Paigen K.老鼠遗传学百年:一部智力史。二、。分子革命(1981-2002)遗传学。2003;163:1227–1235. [PMC免费文章][公共医学][谷歌学者] 2Paigen K.老鼠遗传学百年:一部智力史。一、古典时期(1902-1980)遗传学。2003;163:1–7. [PMC免费文章][公共医学][谷歌学者] 三。Dietrich WF等。Mom-1基因的遗传鉴定,这是一个影响小鼠Min诱导的肠道肿瘤的主要修饰基因座。单元格。1993;75:631–639.[公共医学][谷歌学者] 4Church DM等。小鼠基因组组装完成后揭示的特定于谱系的生物学。《公共科学图书馆·生物》。2009;7:e1000112。 [PMC免费文章][公共医学][谷歌学者] 5Chinwalla AT等。小鼠基因组的初始测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者] 6van der Weyden L,Adams DJ,Bradley A.小鼠基因组定向操作工具。生理学。基因组学。2002;11:133–164.[公共医学][谷歌学者] 7Ringwald M等人。IKMC门户网站:国际敲除鼠标联盟数据和资源的中心入口。核酸研究。2011;39:D849–D855。 [PMC免费文章][公共医学][谷歌学者] 8Skarnes WC等。小鼠基因功能全基因组研究的条件敲除资源。自然。2011;474:337–342. [PMC免费文章][公共医学][谷歌学者] 9Frazer KA等人。近交系小鼠中827万SNP的基于序列的变异图。自然。2007;448:1050–1053.[公共医学][谷歌学者] 10Quinlan AR等人。小鼠基因组中结构变异断点的全基因组映射和组装。基因组研究。2010;20:623–635. [PMC免费文章][公共医学][谷歌学者] 11Gale GD等。一组全基因组同源小鼠揭示了行为数量性状基因座的广泛上位性。摩尔精神病学。2009;14:631–645. [PMC免费文章][公共医学][谷歌学者] 12Iakoubova OA等人。基因组标记小鼠(GTM):两组全基因组同源菌株。基因组学。2001;74:89–104.[公共医学][谷歌学者] 13Bennett BJ等人。用于解剖小鼠复杂性状的高分辨率关联绘图面板。基因组研究。2010;20:281–290. [PMC免费文章][公共医学][谷歌学者] 14Singer JB等。小鼠染色体替代品系复杂性状的遗传解剖。科学。2004;304:445–448.[公共医学][谷歌学者] 16Hunter KW,Crawford NP。全基因组关联研究时代小鼠QTL定位诊断疾病的未来。每年。修订版Genet。2008;42:131–141.[公共医学][谷歌学者] 17Rozmahe R等。二级遗传因子对囊性纤维化跨膜电导调节因子缺陷小鼠疾病严重程度的调节。自然遗传学。1996;12:280–287.[公共医学][谷歌学者] 18邵华,等。复杂性状的遗传结构:大型表型效应和普遍上位性。程序。美国国家科学院。科学。美国。2008;105:19910–19914. [PMC免费文章][公共医学][谷歌学者] 19Flint J,Mackay TF。小鼠、苍蝇和人类数量性状的遗传结构。基因组研究。2009;19:723–733. [PMC免费文章][公共医学][谷歌学者] 20Bentley DR等人。使用可逆终止剂化学进行精确的全人类基因组测序。自然。2008;456:53–59. [PMC免费文章][公共医学][谷歌学者] 21Turner DJ、Keane TM、Sudbery I、Adams DJ。脊椎动物实验生物的下一代测序。妈妈。基因组。2009;20:327–338. [PMC免费文章][公共医学][谷歌学者] 22.关C,叶C,杨X,高J.当前大规模小鼠敲除工作的回顾。起源。2010;48:73–85.[公共医学][谷歌学者] 23Churchill GA等人。协作十字,用于复杂性状遗传分析的社区资源。自然遗传学。2004;36:1133–1137.[公共医学][谷歌学者] 24Valdar W等。异质种系小鼠复杂性状的全基因组遗传关联。自然遗传学。2006;38:879–887.[公共医学][谷歌学者] 25Davis RC等。一组在C57BL/6J背景下从DBA/2J衍生的全基因组同源小鼠菌株。基因组学。2005;86:259–270.[公共医学][谷歌学者] 26Steward CA等。NOD/MrkTac和NOD/ShiLtJ小鼠基因组的全基因组最终测序BAC资源。基因组学。2010;95:105–110. [PMC免费文章][公共医学][谷歌学者] 27Sherry ST、Ward M、Sirotkin K.dbSNP单核苷酸多态性和其他类别的微小遗传变异数据库。基因组研究。1999;9:677–679.[公共医学][谷歌学者] 28Yalcin B等。小鼠基因组结构变异的序列特征。自然。doi:10.1038/nature10432(本期)[PMC免费文章][公共医学][谷歌学者] 30Mihola O,Trachtulec Z,Vlcek C,Schimenti JC,Forejt J。小鼠物种形成基因编码减数分裂组蛋白H3甲基转移酶。科学。2009;323:373–375.[公共医学][谷歌学者] 31McDonald JP等人。129株衍生小鼠DNA聚合酶缺失,免疫球蛋白发生正常突变。实验医学学报2003;198:635–643. [PMC免费文章][公共医学][谷歌学者] 32Koike H、Arguello PA、Kvajo M、Karayiorgou M、Gogos JA。Disc1在129S6/SvEv菌株中发生突变,并调节小鼠的工作记忆。程序。美国国家科学院。科学。美国。2006;103:3693–3697. [PMC免费文章][公共医学][谷歌学者] 33Lutzmann M,Mechali M。如何将复制解旋酶加载到染色质上:进化过程中一种越来越复杂的物质。细胞周期。2009;8:1309–1313.[公共医学][谷歌学者] 34Mural RJ等。全基因组鸟枪衍生小鼠16号染色体与人类基因组的比较。科学。2002;296:1661–1671.[公共医学][谷歌学者] 35White MA,Ane C,Dewey CN,Larget BR,Payseur BA。家鼠基因组的精细系统发育不一致。公共科学图书馆-遗传学。2009;5:e1000729。 [PMC免费文章][公共医学][谷歌学者] 36Pamilo P、Nei M、Li WH。有性和无性群体中突变的累积。基因。物件。1987;49:135–146.[公共医学][谷歌学者] 37Rosenberg NA。基因树和物种树拓扑一致的概率。西奥。大众。生物。2002;61:225–247.[公共医学][谷歌学者] 38一致树,一致因子,以及网状谱系的探索。出租车。2007;56:417–426. [谷歌学者] 39Slatkin M,Pollack JL。基因树和物种树在两个连锁位点上的一致性。遗传学。2006;172:1979–1984. [PMC免费文章][公共医学][谷歌学者] 40McDaniell R等人。人类遗传性个体特异性和等位基因特异性染色质特征。科学。2010;328:235–239. [PMC免费文章][公共医学][谷歌学者] 41黄德伟,等。用DAVID从大基因列表中提取生物学意义。货币。协议。生物信息学。2009;1313.11单元。[公共医学][谷歌学者] 42Solberg LC等。高通量表型分析协议,适用于小鼠的数量性状分析。妈妈。基因组。2006;17:129–146.[公共医学][谷歌学者] 43Yalcin B,Flint J,Mott R.利用祖细胞株信息鉴定远交小鼠的数量性状核苷酸。遗传学。2005;171:673–681. [PMC免费文章][公共医学][谷歌学者] 44Mott R,Talbot CJ,Turri MG,Collins AC,Flint J.一种在远缘动物种群中精细定位数量性状基因座的方法。程序。美国国家科学院。科学。美国。2000;97:12649–12654. [PMC免费文章][公共医学][谷歌学者]