跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2017年5月;27(5): 865–874.
数字对象标识:10.1101/gr.207456.116
预防性维修识别码:项目编号:5411780
PMID:27646534

利用多重从头组装技术全面发现猪基因组中的变异并恢复缺失序列

关联数据

补充资料

摘要

由于只有与参考基因组相似的序列才被检测,因此通过重新测序来揭示遗传变异受到了限制。由于地理差异和独立的人口统计事件,参考基因组往往不完整,不能代表全部的遗传多样性。更全面地描述猪的遗传变异(苏斯克罗法),我们产生了九头来自欧亚大陆的具有地理和表型代表性的猪的从头组装。通过将它们与参考猪集合进行比较,我们发现了大量新的SNP和结构变体,以及137.02-Mb序列,其中包含1737个蛋白质编码基因,而这些基因在参考集合中缺失,揭示了选择留下的变体。我们的结果说明了全基因组从头测序相对于重新测序的威力,并提供了宝贵的遗传资源,使猪能够在农业生产和生物医学研究中得到有效利用。

苏斯克罗法(即猪或猪)具有巨大的农业重要性,也是生物医学研究和应用的一个有吸引力的模式。全世界有730多个不同的猪品种,其中三分之二位于欧洲和中国(Chen等人,2007年),其多样的表型是由局部适应和人工选择的综合作用形成的(Ai等人,2015年). 利用重测序数据和欧洲家养杜洛克猪的基因组作为参考,已努力确定这种表型多样性背后的遗传变异特征(Groenen等人,2012年;Rubin等人,2012年;Choi等人,2015年;Moon等人,2015年). 然而,重测序在捕获遗传变异和评估参考基因组的缺口和错误分配区域方面存在局限性(Weisenfeld等人,2014年). 相反,来自不同地区和品种的猪基因组的多个从头组装保证了对该物种遗传变异的更准确和全面的理解(Besenbacher等人2015;Chaisson等人,2015b). 植物种群(球虫[Read等人,2013年],拟南芥[Gan等人,2011年],大豆[Li等人2014]和大米[Zhang等人,2014年])、动物(蚊子[Neafsey等人,2015年]和猕猴[Yan等人,2011年])甚至现代人(Li等人2010a)de novo组件发现了惊人的大量变化。

为了进一步描述猪的遗传多样性,我们从欧亚大陆的九个具有地理和表型代表性的个体中重新生成了集合。将该资源与西藏野猪基因组组装相结合(Li等人,2013年),我们对10个从头组装和参考基因组进行了深入的比较。我们发现了大量单核苷酸多态性(SNP)和结构变异,以及参考基因组中不存在的数亿个碱基对,包括参考基因组中缺失或片段化的数千个蛋白编码基因,其中包含与猪进化相关的潜在重要遗传信息。

结果

九个猪品种的从头基因组组装

我们使用Illumina测序技术和全基因组猎枪策略,对来自9个不同品种(5个起源于欧洲,4个起源于中国)的9个雌性个体的基因组进行了测序,平均覆盖范围为~100倍(~229.5千兆字节[Gb])(补充图S1;补充表S1). 使用SOAPdenovo独立组装基因组(补充方法;Li等人2010b),产生了28.99到42.66千碱基(kb)的连续N50大小,1.26到2.45兆碱基(Mb)的支架N50大小以及2.45到2.49 Gb的未映射序列,这些序列显示出与参考组装相似的基因组特征(补充图S2–S7;补充表S2S6系列;Groenen等人,2012年). 我们还改进了西藏野猪的可用基因组组装(Li等人,2013年)通过将连接N50大小从20.69 kb增加到22.54 kb,将未映射基因组组装大小从2.43 Gb增加到2.44 Gb(补充表S4).

SNP的发现和表征

我们使用组装与组装的方法在单个猪基因组中鉴定出886–1595万(M)个SNP(补充方法). 这些SNP与从Illumina猪60K基因分型芯片中鉴定的98%以上的SNP一致(v.2)(补充表S7)并涵盖了SAMtools中通过重新排序确定的大多数SNP(Li等人2009)(98.78%)和GATK(McKenna等人,2010年)(97.65%)和3.12–5.40 M SNP(33.46%–35.25%)在这些算法无法编目的发散区域,其中未组装的短读很难映射(图1;补充图S8、S9).

保存图片、插图等的外部文件。对象名称为865f01.jpg

比较汇编与汇编方法和基于读映射的重排序方法之间的SNP调用。带有与条形图对应的颜色的维恩图显示了已识别SNP在装配与装配方法以及SAMtools和GATK中实现的两种重新排序算法之间的共享。每个品种的平均4.25 M SNPs通过装配-对比-装配方法(标记为黄色)进行了专门鉴定,而每个品种只有0.24 k SNPs根据重新排序方法进行了分类(标记为红色)。SAMtools和GATK检测到的SNP中有很大一部分是一致的(分别为8.11 M和7.77 M)(分别为7.41 M、91.24%和95.34%)(补充图S8).

与欧洲来源的参考杜洛克基因组相比(15.14-15.95 M SNPs;Ts/Tv比率:2.13-2.15),中国猪的变异量显著大于欧洲猪和杜洛克猪(8.86-10.14 M SNPs:1.95-1.99),这反映了广泛的洲际基因组差异(P(P)< 10−16曼·惠特尼U型测试)(图2A、 B类;补充图S10)这归因于欧洲和亚洲血统(至少100万年)之间的巨大差异,以及过去~10000年他们在欧亚大陆多个地方的独立驯化(Larson等人,2005年;Groenen等人,2012年;Frantz等人,2013年).

保存图片、插图等的外部文件。对象名称为865f02.jpg

中国和欧洲猪的基因组变异。()原始猪品种的地理位置。杜洛克猪(参考基因组的供体,用星号表示)和汉普郡猪主要在北美培育,但起源于欧洲。(B类)10个品种的邻接系统发育树、SNP数量、转换/颠倒比率(Ts/Tv)、杂合SNP比率、纯合子区域模式(ROHs)以及indels的长度和数量(左边正确的). 使用非重叠1-Mb窗口生成杂合SNP比率和Ts/Tv比率的小提琴图(显示中间值)。对于ROH,圆圈区域表示每个品种中ROH的总长度。(C类)中国和欧洲猪在基因组中每个10kb窗口内的相同评分(IS)值的成对基因组相似性(n个= 259,511).

我们还观察到中国猪的基因组多样性高于欧洲猪,这反映在中国猪的杂合SNP比率较高(2.17×10−3至2.69×10−3与0.94×10相比−3至1.63×10−3)和低纯合子(382个纯合子区域[ROH]总大小为107.5 Mb,而907个ROHs总大小为289.9 Mb)(P(P)< 10−16曼·惠特尼U型测试)(图2B类;补充图S11、S12). 成对品种基因组的主成分分析(PCA)和同一性得分(IS)分析也概括了这些发现(图2C类;补充图S13A). 这可能反映了这样一个事实:欧洲起源的品种在经济性状的近交商业品系中经历了激烈的选择,而中国品种在分散的个体农场中经历了较弱的选择,并且表现出相对较弱的连锁不平衡(LD)(补充图S13B;白色2011). 另一种可能的解释是,与亚洲野猪相比,欧洲野猪(欧洲家猪的祖先)在上一次冰川盛期(约20000年前)可能遭遇了更为明显的种群瓶颈(Bosse等人,2012年;Groenen等人,2012年).

我们将10个品种的SNP汇集到一个由33.60 M个位点组成的非冗余集合中,占猪SNP估计储备量的~81.25%(补充图S14;补充表S8;补充方法)其中6.34 M(占33.60 M的18.87%)SNP被认为是新的,因为它们在猪dbSNP(构建143)条目中不存在(补充图S15). 与同义单核苷酸多态性(122.44k)相比,错义单核苷酸多样性(83.39k)在品种间表现出更大的多样性(占估计总库的77.44%,而不是80.61%),在种特异性(因而罕见)单核苷酸多态件中所占比例更大(32.42%,而不是30.18%),纯合子与杂合子SNP的比例更高(0.37,而不是0.32)(补充图S14、S16)这可能与品种特异性适应有关。

结构变化图

与参考基因组相比,我们在单个基因组中检测到161.45–279.98 k插入(长度15.99–23.07 Mb)和137.89–269.55 k缺失(长度3.61–5.63 Mb)(图2B类;补充表S9;补充方法). 80%以上的插入和缺失(indels)长度为1–10 bp,并且由于tRNA indels的富集,indels~300 bp的长度也相对较高谷氨酸-衍生的短散布元素(SINE/tRNA谷氨酸) (补充图S17;Ai等人,2015年). 重复元素(基因组的38.05%)包含约52.73%的indels,是猪基因组结构变异的重要来源。此外,SINE/tRNA谷氨酸(290.47 Mb,含吲哚18.09%)的吲哚发生率高于主要的长散布元素(LINE/L1)(636.50 Mb,含有吲哚15.48%)(补充图S18).

indel似乎受选择调控:大多数indel位于基因间区域(72.20%–74.14%),编码序列中的indel比率低于内含子(补充图S19)更保守的基因显示更少的结构变异(补充图S20). 我们观察到短indels(长度为1–15 bp)在编码序列中的富集(1582中的414个,或26.17%),这些编码序列是3 bp的倍数,有望保留阅读框架,并在947个基因中鉴定出1152个移码突变(补充图S21;补充表S10)主要代表“核苷、ATP和阳离子结合”和“神经元发育”的细胞功能(补充表S11). 与SNP一样,indels在基因组中的分布也反映了欧洲猪和中国猪之间存在着深刻的系统发育差异,中国猪的遗传变异性高于欧洲猪(补充图S22;Bosse等人,2012年;Groenen等人,2012年).

猪品种多样化选择的特征

为了揭示猪表型多样性背后的遗传变异,我们使用相对纯合子SNP密度(RSD)算法识别了多样性选择留下的种特异性特征(补充方法;Atanur等人,2013年). 我们确定了493个20–150 kb的单独基因组区域(总计20.10 Mb,包含308个基因)有待选择(FDR<0.05)(图3A;补充表S12). 这些假定的选定区域也表现出显著强的LD和较低的负Tajima’sD类-值(P(P)< 10−16曼·惠特尼U型测试)(补充图S23),与基因组背景相比具有明显的系统发育关系(补充图S24).

保存图片、插图等的外部文件。对象名称为865f03.jpg

特定品种选择性扫描的识别。()育种特定选择区域中纯合子SNP的数量。在20.10 Mb选定区域的74.21 k纯合子SNP中,65.75 k(88.60%)是特定品种特有的,高度集中在基因组的一小部分(0.79%),可能有助于多样化选择。(B类)荣昌猪的选择性扫描区域。(顶部面板,顶部半)位于所选区域内或附近(±5 kb)的基因针对每条染色体呈现,并根据其位置排序。(顶部面板,降低半)10个品种间配对比较中选定区域的单倍型共享程度。使用单个品种的纯合子SNP频率计算10-kb窗口中的身份分数。盒子(左边)根据指定给每个猪品种的颜色,在该行(E,欧洲猪;C,中国猪)上显示成对比较(正确的). 热图颜色表示身份分数。(中部面板)百分比堆叠列,显示10个已测序品种的荣昌特定选定区域的RSD值。荣昌的RSD值明显高于其他品种,表明与该地区的参考基因组相比,只有该品种具有SNPs。(底部荣昌在10-kb窗口中的RSD沿染色体绘制。黑线表示所选区域(FDR<0.05)。九个与哺乳动物脂肪沉积基因同源的选定基因用红色标记。

所选地区的大多数纯合子SNP(88.60%)是特定品种所特有的(图3A) 与其他品种相比,与其他品种的单倍型共享程度较低(图3B类;补充图S25). 这些私有SNP高度集中在少数离散的基因组区域(基因组的0.79%),可能与标准品种标准描述的表型有关(Wang等人,2011年):通常为9人(49人中,占18.37%;P(P)= 0.004, χ2测试)和6个(59个,或10.17%;P(P)= 0.491, χ2试验)脂肪型荣昌猪和金华猪中选定区域内或附近的基因与成熟的哺乳动物脂肪沉积基因同源(图3B类;补充图S25A;Kunej等人,2013年),包括与饲料摄入量和能量稳态调节有关的因素(CEP120号机组,GABRA2公司,NPPA公司,净现值1R、和纽约P5R),脂质代谢(ABCC4公司,角度2,LRPAP1号机组、和PRKAG2系列)以及肥胖诱导的高血压、炎症信号和胰岛素抵抗的指标(添加1,热休克蛋白1,基质金属蛋白酶2,PIK3R4、RAE1、和TBCA公司) (补充表S13). 与高度近交的欧洲猪相比,为了满足现代社会减少热量摄入的需求,它们选择了瘦肉生长(高蛋白质和低脂肪含量;胴体瘦肉百分比在63%-73%之间),中国猪一直被选为极度肥胖症(典型瘦肉率低于45%)(补充图S1)直到10年前,受发展中国家对高能量食品的需求驱动(Wang等人,2011年).

我们还确定了16个(31.37%;P(P)= 8.21 × 10−11, χ2test)西藏野猪51个具有强选择性扫描信号的基因(补充图S25B;补充表S13)这可能是由青藏高原恶劣缺氧的环境驱动的,并可能在特征表型的形成中起作用,例如由坚硬的皮肤、浓密的长发和较大的肺和心脏形成的隔离层(Li等人,2013年).

识别参考猪基因组的缺失序列

参考清管器组件(Sscrofa10.2)中有大量未知区域(2.81 Gb的289.24 Mb,或10.29%)(Groenen等人,2012年)其中266.15Mb(91.92%)由5317个长度至少为50kb的间隙组成(补充图S26). 为了恢复这些缺失的遗传信息,我们检索了~9.17 G的“孤儿读数”,其两端都没有映射到参考基因组(补充图S27)并将其重新调整到各自的源程序集。因此,我们确定了83.8 k个≥500 bp(长度137.02 Mb)的序列,这些序列在参考基因组中缺失(表1;补充表S14). 只有一小部分缺失序列被认为是插入(~0.91 Mb)或拷贝数增加(~4.16%)(补充表S14,第15节;补充方法). 与整个装配体相比,这些缺失序列表现出相似的杂合SNP比率(2.67×10−3与2.56×10相比−3;P(P)=0.623,曼·惠特尼U型但GC含量显著较高(43.07%对41.41%;P(P)< 10−16曼·惠特尼U型测试)和重复率(47.57%对38.38%;P(P)< 10−16曼·惠特尼U型测试)(补充图S28).

表1。

参考基因组(Sscrofa10.2)缺失序列和基因摘要

保存图片、插图等的外部文件。对象名称为865tb01.jpg

参考基因组中缺失的大多数序列在不同的装配体之间是常见的,因为大多数孤立读取(95.04%)可以与其他装配体的缺失序列交叉对齐,覆盖率(97.10%,深度≥4个碱基)与它们各自的装配体相当(映射率=95.83%,覆盖率=99.51%)(补充图S29). 10个品种之间孤儿阅读和缺失序列的成对相似性揭示了欧洲猪和亚洲猪之间的明显区别,以及中国猪的遗传变异性相对高于欧洲猪(补充图S30;Bosse等人,2012年;Groenen等人,2012年)这表明这些在参考基因组中缺失的常见序列可能是猪多样性的重要来源,并包含有生物学意义的信息。

我们还能够用至少一个品种的缺失序列填补参考基因组中71.37%(5317个品种中的3795个)的空白(补充图S27;补充表S14、S16;补充方法). 这些填补缺失的序列在10个品种之间高度共线,在参考装配间隙上表现出类似的分布(两两皮尔逊的平均值第页= 0.89,P(P)< 10−16) (补充图S31). 典型示例如所示补充图S32.

缺失基因的恢复

在平均20782个蛋白编码基因中(87.13%得到转录证据的支持),预测在10个集合中的每一个中(补充图S33–S35;补充表S17;补充方法),我们发现在参考装配的缺失序列中平均有1096个(5.27%)基因被嵌入或几乎完全包含(基因长度重叠>50%到>90%)(表1;补充表S18)我们称之为“缺失”基因(Kidd等人,2010年;Genovese等人,2013年).

为了检查这些预测的缺失基因是否可能具有功能,我们比较了它们在19个哺乳动物基因组中的保护水平,发现它们通常表现出与注释基因相似的同一性(81.55%对83.60%)和覆盖率(96.32%对97.37%)(补充图S36). 缺失基因的编码序列在高跨物种(人、牛和羊)身份水平(>90%)富集,也与参考基因组注释良好的编码序列的序列身份分布一致(补充图S37). 然后,我们从96个配对的RNA-seq文库(每个品种7-10个文库)中检索到相对于参考基因组的约0.59 G孤儿读数,并将其映射到各自组合中缺失的基因上(补充图S38A、B). 因此,每个集合中平均91.51%(1096个集合中的1003个)的缺失基因显示对数2-在至少一个库中,转换后的FPKM表达值(表示为每Mb孤儿读取的每kb转录片段数)大于0.3(补充图S38C)这表明大量缺失的基因在功能和生物学上都很重要。

为了确定10个品种之间缺失基因的共线关系,我们分别将9个装配体的蛋白质序列与支架N50尺寸最长(2.45Mb)的大白种的装配体进行了比对。使用MCScanX工具包(Wang等人,2012年)我们发现,10个集合中10959个缺失基因中有10313个(94.10%)属于1091个集合间共线基因模型,其中871个(79.84%)模型存在于所有集合中(表1;补充表S18、S19). 仅在一个品种中,共有646个缺失基因(每个组合14–95个)被组装在一起,当使用短插入(180和500 bp)文库的孤儿读取进行绘图时,可以在其他组合中找到这些缺失基因(覆盖率94.05%,至少1×深度),这表明这些来自其他装配体的单体基因的缺失可能是短阅读装配体中碎片化或错误分配的产物(补充图S39;Alkan等人,2011年;Chaisson等人,2015b).

结合1091个装配间共线基因和646个单基因的最长基因模型,我们获得了1737个缺失基因模型(表1). 将这些缺失的基因与猪、人、牛和小鼠的RefSeq蛋白进行比对,在至少一个物种中获得1731个(99.65%)的命中率(补充表S19),其中359个(20.66%)缺失基因不能与猪的任何已知RefSeq蛋白比对,表明这些基因尚未在猪中得到表征。在匹配功能分类蛋白质的点击中,最丰富的是嗅觉受体成员(65次点击,P(P)= 1.60 × 10−12, χ2测试)、G蛋白偶联受体(104次点击,P(P)= 9.81 × 10−6, χ2测试),以及那些涉及神经系统过程的人(112次点击,P(P)= 4.26 × 10−6, χ2测试)(补充表S20)它们在物种之间迅速进化(大陆等,2014年). 我们还恢复了与重要经济性状相对应的基因,这些性状对猪作为重要家畜物种的未来功能分析和改良具有价值,例如与猪肉生产相关的基因(1515个脂肪沉积基因中的74个)[Kunej等人,2013年],或4.88%)和抗病性(1517个GO注释基因中的76个:0002376;免疫系统过程,或5.01%)(补充表S19). 典型示例如所示补充图S40.

缺失基因的选择

为了揭示选择留下的变异,我们利用遗传算法对中国野猪(32.57 k编码SNP)和7个中国家畜(23.02 k编码SNPs/群体)之间缺失基因中编码SNPs的群体分化程度进行了配对测量FDIST公司Arlequin中实现的方法(补充图S41、S42;补充表S21;Excoffier和Lischer,2010年). 在7个中国国内人群中,共发现嵌入328个缺失基因的605个非冗余编码SNP处于定向选择状态(FDR<0.05,FDIST公司测试)(补充图S43;补充表S22)也表现出明显更低的-贝叶斯测试中的值(Foll和Gaggiotti 2008)和F类装货单“无模型”全局中的值F类装货单与其他未选择的基因座进行比较时进行测试(P(P)< 10−16曼·惠特尼U型测试)(补充图S44). 在7个中国家庭群体中,缺失的基因通常被富集用于与“肌动蛋白、钙离子和细胞骨架蛋白的结合”相关的生物过程(补充图S45A). 有趣的是,71个基因包含110个家养二花脸猪(已知最高产的猪品种之一)的选择性编码SNP(Wang等人,2011年)主要属于与生育有关的类别,如“有性生殖”(七个基因:ADAM20公司,AKT1型,GMCL1号机组,MICALCL公司,缺口1,自旋4、和SPTBN4号机组;P(P)=0.001)和“胎盘发育”(三个基因:AKT1型,RXRA公司、和大众汽车(VWF);P(P)=0.012),这可能是该品种产仔数显著增加的原因(每窝多出约3至5头小猪)(补充图45B).

在选择下缺失基因的表达也显示出显著更高的组织特异性,这反映在较低的香农熵上(H(H))值(跨组织基因表达特异性的度量)(Schug等人,2005年)与未选择的缺失基因相比(每个基因1.98对2.37;P(P)< 10−16曼·惠特尼U型测试)(补充图S46). 与普遍表达且对基本细胞功能至关重要的构成基因不同,组织特异性基因通常与一般理想性状的发育相关,例如抗病性、肌肉生长、脂肪沉积和生殖,因此更容易通过选择形成。

所选编码SNP中没有一个是无意义突变(导致转录的mRNA中提前终止密码子)(补充表S22)支持基因失活在养猪驯化过程中没有发挥显著作用的观点,并与鸡的筛选结果一致(Rubin等人,2010年),只兔子(Carneiro等人,2014年)和猪(基于参考基因组)(Rubin等人,2012年). 与同义替换相比,错义替换显示出显著较低的遗传分化(全球F类标准与每个位点0.10相比,0.05;P(P)< 10−16曼·惠特尼U型中国野猪和家猪之间的试验(补充图S47). 尽管如此,仍有127个基因含有选定的错义突变,这些错义突变在高度可变的嗅觉受体家族中过度表达(12个基因;P(P)= 0.02, χ2测试)(补充表S22;大陆等,2014年). 其中,与肥胖发展相关的两个基因中嵌入的三个错义突变引起了人们的兴趣:紧密相连的Asn566-His(T1696-G)和Ser578-Cys(G1733-C)替代(D类′ = 1,第页2=0.975)发现于ALPK3型(α激酶3)(图4;补充图S48)和Thr18-Ile(C53-T)替代PKD1L2型(多囊蛋白1样2[基因/假基因])(补充图S49). 这三个错义突变显示出显著的选择信号(FDR<0.05,FDIST公司中国野猪和七个家猪群体中的一个(分别是闽猪和二花莲猪)之间的差异,但在基因更为同质的欧洲/北美家猪中几乎是固定的,这可能是由于西方社会更强的选择压力,尽管样本量更大,猪基因组的洲际遗传差异,需要进行功能分析来验证这些基因的非中性性。

保存图片、插图等的外部文件。对象名称为865f04.jpg

组装细节ALPK3型基因和选择的变体。()组装后的结构ALPK3型. (顶部面板)10个集合中的集合间共线基因(彩色矩形)由灰色线连接,而不存在于所有10个集合的基因用黑色标记。ALPK3型用圆表示。不同的脚手架显示为白色和灰色背景的交替。(底部面板)结构比较ALPK3型在10个组件中。方框和线条分别表示外显子和内含子。(B类)最长基因模型的覆盖范围和深度ALPK3型(基因ID:RCGENE17759)通过交叉映射读取10个装配体的配对DNA文库(插入大小为180和500 bp)。较高的覆盖深度(≥30×)表明ALPK3型,这是由于短读汇编的局限性造成的;因此,最长的基因模型被认为更可靠,并用于后续分析。(C类)两个选定的错义突变(T1696-G和G1733-C)ALPK3型在中国野猪之间(n个=6)和家养Min猪(n个= 6). (顶部面板)F类装货单和杂合性/(1−F类装货单),FDR(爱琴),以及-绘制了45个编码SNP(18个错义和27个同义突变)的值(BayeScan)。(底部面板)中国101头家猪45个SNP的LD模式(n个=41),北美(n个=12)和欧洲(n个= 48). 粉红色或红色阴影的方框表示SNP对之间的显著LD(亮红色表示成对D类′=1),白色方块表示没有显著LD的证据,蓝色方块表示成对D类′=1,无统计学意义。相邻的T1696-G和G1733-C紧密相连(D类′ = 1,第页2=0.975,检出限=41.6)。

ALPK3型在心肌细胞分化中起作用;小鼠中该基因的敲除与明显的肥厚型和扩张型心肌病相关(Van Sligtenhorst等人,2012年).ALPK3型显示了北极熊积极选择的最有力证据,北极熊一生的饮食富含油脂(Liu等人2014). 选择ALPK3型在家猪身上表明,对心血管系统的“糖尿病”环境(高热量、致动脉粥样硬化的饮食和少量运动)的慢性有害影响的潜在保护可能是有利的(Gerstein和Waltman 2006;Koopmans和Schuurman 2015年).PKD1L2系列主要与骨骼肌纤维中的脂肪酸合成酶有关;它在小鼠中的过度表达导致肌纤维萎缩并抑制脂肪生成(Mackenzie等人,2009年). 肌纤维间或肌纤维内积累的甘油三酯是一种巨大的能量来源(在人体体育锻炼期间占总能量转换的20%)(Roepstorff等人,2005年). 选择PKD1L2系列这可能与家猪相对于野猪的运动表现相对较弱有关,因为养猪场的活动空间有限。

讨论

我们描述了一种组装与组装的方法,它依赖于多个独立组装的基因组来提高变异检测的能力,而不是目前占主导地位的重测序方法。这一变异体目录,包括SNP、indels和常见和罕见变异体,是进一步研究猪表型多样性和适应性进化遗传构成的宝贵资源。我们表明,个体基因组的高质量从头组装,然后与参考序列进行比较,对于识别跨越地理范围和不同进化历史的新遗传变异是必要的。随着测序技术的进步,这种实验设计越来越便宜(Zook and Salit 2015年),尤其是长读取排序(Chaisson等人,2015a)和单分子映射(Koren等人2012)技术。

对遗传变异后果的解释通常依赖于参考序列,与之相关的基因和变异被注释和检查。然而,我们恢复了数亿个在猪参考基因组中不存在的碱基对,包括数千个在参考基因组中缺失或片段化的蛋白编码基因,这些基因含有大量与可能受到人工选择的经济性状相关的变异。这些新恢复的基因现在可以并入基因分型平台和表达微阵列,以促进其功能表征。从参考基因组中缺失的恢复序列也可能是遗传信号的来源,这些信号已通过连锁、关联和拷贝数变异研究确定,但尚未映射到因果突变。

方法

猪基因组的从头测序和组装

我们使用Illumina测序技术和全基因组鸟枪策略对9个具有地理和表型代表性的猪品种的基因组进行了测序(图2A;补充图S1). 在Illumina HiSeq 2500平台上对短插入(180和500 bp)和长插入(2、5、6和10 kb)DNA文库进行配对测序(补充图S2;补充表S1). 我们使用SOAPdenovo独立组装了9个基因组(Li等人2010b),这是一个基于de Bruijn图算法的从头基因组组装器(补充方法). 我们使用相同的管道对10个品种组合和参考基因组进行了重复注释(补充图S5、S6;补充方法).

使用汇编与汇编方法的SNP和indel调用

我们利用组装与组装的方法来识别候选变异体,并通过对齐短序列读取进一步筛选出虚假变异体(补充方法). 简而言之,我们首先使用LASTZ程序,通过10个装配体和参考基因组装配体(Sscrofa10.2)的成对间隙比对,在10个装配体内提取候选SNP和中小型indels(1–50 kb)。然后,使用BWA软件(v.0.7.12)将配对的短插入读取(180和500 bp)分别与10个组装基因组和参考基因组对齐(李和杜宾2009). 我们使用SAMtools筛选假SNP并确定杂合或纯合突变(深度≥10)(v.1.3)(Li等人,2009年). 关于indel,我们根据indel≤50 bp或>50 bp的不同标准计算每个indel位点的读取覆盖率,消除了虚假的indel调用(Li等人,2011年).

使用RSD算法识别选定区域

为了识别猪品种多样性选择的特征,使用先前报告的方法计算了参考基因组中非重叠10-kb窗口中每个个体的相对纯合子SNP密度(RSD)(补充方法;Atanur等人,2013年).

RNA-seq和数据处理

在Illumina HiSeq 2500平台上对92个特定于股的RNA文库(10个个体中每个个体有7到10个组织文库,用于重新组装基因组)进行了测序(补充方法). 高质量读取映射到各自的从头开始程序集(补充图S35、S46)或参考基因组(补充图S38)使用TopHat(v.2.1.0)(Trapnell等人,2009年). 袖扣(v.2.2.1)(Trapnell等人,2012年)用于量化基因表达。

发现缺失序列和缺失基因

我们从配对DNA文库中检索到10个品种中每一个的插入大小分别为180和500 bp的“孤儿读取”,其中读取的两端无法唯一映射到参考基因组(补充图S27). 我们将这些孤立读取重新调整到了各自的程序集。公共参考基因组集合中缺失的序列(长度≥500 bp)被认为是“缺失序列”,这些序列由每个碱基至少四个孤儿读取所映射(Kidd等人,2010年).

为了识别缺失序列中的基因,我们结合参考装配指导方法、基于从头算和同源性的方法以及RNA-seq数据,分别对10个装配体中的蛋白编码基因进行了注释(补充图S33、S34;补充表S17;补充方法). 我们认为,在参考基因组中,基因长度与缺失序列重叠超过50%的基因要么缺失,要么片段化,并将其称为“缺失基因”

装配间共线基因的测定

使用BLASTp和E值截止值为10的BLASTp分别查询九个集合中基因的蛋白质序列和大白集合的蛋白质序列,大白集合具有最长的支架N50大小(~2.45 Mb)−5并将输出限制为每个基因最多五次点击,以作为MCScanX算法的输入(Wang等人,2012年),用于检测和分类编码基因的高置信度共线块(补充表S18、S19).

在选择下检测缺失基因中的编码SNPs

为了测试参考基因组中缺失的恢复基因是否处于选择中,我们从117个公开可用的猪基因组中检索到相对于参考基因组的约365.55 Gb孤儿读数(Ai等人,2015年;Choi等人,2015年;Moon等人,2015年)并将它们与10个品种组合中含有缺失基因的完整支架对齐(每个组合约636.38 Mb)(补充图S41). 其中,中国7个种群的6头野猪和41头家猪具有高覆盖深度(参考基因组的27.29倍,每个个体3.91 Gb孤儿读取量的14.43倍缺失基因嵌入支架)(Ai等人,2015年)用于测试分化和可能的选择(补充图S42). 其余70只个体(包括10只韩国野猪和60只欧洲/北美家猪)具有中间覆盖率(参考基因组的15.87倍,每个个体2.60 Gb孤儿读取数的6.99倍缺失基因嵌入支架)(Choi等人,2015年;Moon等人,2015年)用于调查所选基因座的模式(补充图S41).

我们用配对的方法测量了中国野猪和7个中国家养种群之间缺失基因编码SNP的种群分化程度FDIST公司Arlequin中实施的方法(v.3.5.2.2)(补充图S43;补充表S21;补充方法;Excoffier和Lischer,2010年). 我们还测量了成对全局F类装货单值(补充图S44A)并使用BayeScan(v.2.1)程序进行了贝叶斯测试(补充图S44B;Foll和Gaggiotti 2008)检测群体间高分化SNP。

数据访问

NCBI生物项目可访问九头猪和西藏野猪生物项目(http://www.ncbi.nlm.nih.gov/生物项目)注册号分别为PRJNA309108和PRJNA186497。组装的全基因组序列已提交给NCBI GenBank(网址:http://www.ncbi.nlm.nih.gov/genbank)注册号为LUXQ00000000.1(眉山)、LUXR00000000.1号(荣昌)、LUXS00000000.1编号(汉普郡)、LUXT00000000.1名称(长白猪)、LUXU00000000.1型号(皮埃特兰)、LUXXV00000000.1类型(巴美)、LUX W00000000.1数量(伯克希尔)、LUXXX00000000.1大小白猪、LUXY00000000.1重量(金华)和AORO00000000.2重量(藏族野猪,v.2)。九头猪和藏野猪的未组装测序数据已提交给NCBI序列读取档案馆(SRA;http://www.ncbi.nlm.nih.gov/sra)注册号分别为SRP068560和SRA065461。Illumina猪60K基因分型芯片(v.2)的所有RNA-seq读取和基因分型数据均已提交给NCBI基因表达总署(GEO;https://www.ncbi.nlm.nih.gov/geo网站/)登录号分别为GSE77776和GSE83910。已向NCBI dbSNP提交使用组装与组装方法识别的SNP和小指数(1–50 bp)(https://www.ncbi.nlm.nih.gov/projects/SNP/)试验编号为ss2137144068、ss2590667644–ss2624264572(SNP)、ss2137114058–ss2137297824和ss2586846515–ss259067643(indels,不连续)。使用组装与组装方法确定的大型指数(>50 bp)已提交给NCBI dbVar(https://www.ncbi.nlm.nih.gov/dbvar网站)注册号为nstd138。

补充材料

补充材料:

致谢

这项工作得到了国家自然科学基金(31530073、31522055、31472081、31372284、31402046和31401073)、国家转基因物种专项基金(2014ZX0800950B和2014ZX0.8006-003)、全国顶尖青年专业人才支持计划、,四川省创新研究团队计划(2015TD0012)、农业部专项研究基金(NYCYTX-009)、长江学者和高校创新研究团队项目(IRT13083)、国家高技术研究发展计划(863计划)(2013AA102502)四川省科技支撑计划(生猪繁育-16ZC2850)、霍英东教育基金(141117)、国家重点技术研发计划(2011BAD28B01)、重庆市应用发展基金(CSTC 2013YYKFC80003)、现代农业产业技术体系(CARS-36)、,重庆市农业发展基金会(12404和14409)。

作者贡献:明兹。L.、S.T.、J.W.、R.L.和X.L.领导了实验并设计了分析策略。L.C.、D.L.、A.J.、Yingk。L.、S.S.、L.Z.、Y.J.和L.B.进行动物实验并制备生物样品。L.J.、J.M.、X.W.、Zongg。L.、S.Z.和Z.J.构建了DNA和RNA文库并进行了测序。明兹。L.、S.T.、Yu。L.Q.T.,洪福。L.和T.C.设计了生物信息学分析过程。于磊,X.Z.,Y.F.,Haif。L.、D.W.、宗古。L.和H.Z进行了基因组组装和注释。S.T.、Mingz。L.、L.C.、Yan L.、C.L.和G.W.执行变更调用。明兹。L.、S.T.、Y.G.、C.L.、Z.G.、G.T.和J.Z.鉴定了缺失序列和缺失基因。S.T.、Mingz。L.、Q.T.、X.Z.、Q.P.、M.M.和C.Y.进行了选择性扫描分析。明兹。L.、L.C.、R.L.和X.L.写了这篇论文。明。L.、J.W.、V.N.G.和S.Z.修订了论文。

脚注

[本文有补充材料。]

文章印刷前在网上发布。文章、补充材料和发布日期位于http://www.genome.org/cgi/doi/10.1101/gr.2007456.116.

通过免费在线提供基因组研究打开访问选项。

工具书类

  • 艾H,方X,杨B,黄Z,陈H,毛L,张F,张L,崔L,何W,等。2015全基因组测序鉴定猪的适应性和可能的古种间渐渗.自然基因 47: 217–225. [公共医学][谷歌学者]
  • Alkan C、Sajjadian S、Eichler EE.2011年。下一代基因组序列组装的局限性.Nat方法 8: 61–65.[PMC免费文章][公共医学][谷歌学者]
  • Atanur SS、Diaz AG、Maratou K、Sarkis A、Rotival M、Game L、Tschannen MR、Kaisaki PJ、Otto GW、Ma MC等。2013基因组测序揭示了实验室大鼠疾病表型的人工选择位点.单元格 154: 691–703.[PMC免费文章][公共医学][谷歌学者]
  • Besenbacher S、Liu S、Izarzugaza JM、Grove J、Belling K、Bork-Jensen J、Huang S、Als TD、Li S、Yadav R等。2015新型变体和从头开始的人群突变率从头开始的集合的丹麦三人组.国家公社 6: 5969.[PMC免费文章][公共医学][谷歌学者]
  • Bosse M、Megens HJ、Madsen O、Paudel Y、Frantz LA、Schook LB、Crooijmans RP、Groenen MA,2012年。猪基因组中的纯合子区域:人口统计学和重组景观的结果.公共科学图书馆-基因 8:e1003100。[PMC免费文章][公共医学][谷歌学者]
  • Carneiro M、Rubin CJ、Di Palma F、Albert FW、Alfoldi J、Barrio AM、Pielberg G、Rafati N、Sayyab S、Turner-Maier J等。2014兔基因组分析揭示了驯化过程中表型变化的多基因基础.科学类 345: 1074–1079.[PMC免费文章][公共医学][谷歌学者]
  • Chaisson MJ、Huddleston J、Dennis MY、Sudmant PH、Malig M、Hormozdiari F、Antonacci F、Surti U、Sandstrom R、Boitano M等。2015年a。利用单分子测序解决人类基因组的复杂性.自然 517: 608–611.[PMC免费文章][公共医学][谷歌学者]
  • Chaisson MJ、Wilson RK、Eichler EE.2015b。遗传变异和从头开始的人类基因组的组装.Nat Rev基因 16: 627–640.[PMC免费文章][公共医学][谷歌学者]
  • Chen K、Baxter T、Muir WM、Groenen MA、Schook LB.2007年。猪的遗传资源、基因组作图和进化基因组学(苏斯克罗法).国际生物科学杂志 : 153–165.[PMC免费文章][公共医学][谷歌学者]
  • Choi JW、Chung WH、Lee KT、Cho ES、Lee SW、Choi BH、Lee SH、Lim W、Lim D、Lee YG等。2015五个猪品种的全基因组重测序分析,包括韩国野生和本地猪品种,以及三个欧洲原产猪品种.DNA研究 22: 259–267.[PMC免费文章][公共医学][谷歌学者]
  • Excoffier L,Lischer HE。2010Arlequin套件3.5版:在Linux和Windows下执行群体遗传学分析的一系列新程序.Mol Ecol Resour公司 10: 564–567. [公共医学][谷歌学者]
  • Foll M,Gaggiotti O.2008年。一种用于识别显性和共显性标记所选位点的基因组扫描方法:贝叶斯观点.遗传学 180: 977–993.[PMC免费文章][公共医学][谷歌学者]
  • Frantz LA、Schraiber JG、Madsen O、Megens HJ、Bosse M、Paudel Y、Semiadi G、Meijaard E、Li N、Crooijmans RP等。2013基因组测序揭示了物种形成过程中的精细规模多样性和网状历史苏斯.基因组生物学 14:R107。[PMC免费文章][公共医学][谷歌学者]
  • Gan X、Stegle O、Behr J、Steffen JG、Drewe P、Hildebrand KL、Lyngsoe R、Schultheiss SJ、Osborne EJ、Sreedharan VT等。2011多参考基因组和转录组拟南芥.自然 477: 419–423.[PMC免费文章][公共医学][谷歌学者]
  • Genovese G、Handsaker RE、Li H、Altemose N、Lindgren AM、Chambert K、Pasaniuc B、Price AL、Reich D、Morton CC等。2013使用人口混合来帮助完成人类基因组图谱.自然基因 45: 406–414.[PMC免费文章][公共医学][谷歌学者]
  • Gerstein HC,Waltman L.2006年。为什么猪不会得糖尿病?生活在糖尿病环境中的人群对糖尿病易感性变化的解释.Can Med Assoc J公司 174: 25–26.[PMC免费文章][公共医学][谷歌学者]
  • Groenen MA、Archibald AL、Uenishi H、Tuggle CK、Takeuchi Y、Rothschild MF、Rogel-Gaillard C、Park C、Milan D、Megens HJ等。2012对猪基因组的分析为猪的人口统计和进化提供了见解.自然 491: 393–398.[PMC免费文章][公共医学][谷歌学者]
  • Kidd JM、Sampas N、Antonacci F、Graves T、Fulton R、Hayden HS、Alkan C、Malig M、Ventura M、Giannuzzi G等。2010缺失的人类基因组序列和拷贝数多态性插入的特征.Nat方法 7: 365–371.[PMC免费文章][公共医学][谷歌学者]
  • Koopmans SJ,Schuurman T.2015。关于食欲、代谢综合征和肥胖II型糖尿病猪模型的思考:从食物摄入到代谢疾病.欧洲药理学杂志 759: 231–239. [公共医学][谷歌学者]
  • Koren S、Schatz MC、Walenz BP、Martin J、Howard JT、Ganapathy G、Wang Z、Rasko DA、McCombie WR、Jarvis ED等。2012混合纠错和从头开始的单分子测序读码器的组装.Nat生物技术 30: 693–700.[PMC免费文章][公共医学][谷歌学者]
  • Kunej T、Jevsinek Skok D、Zorc M、Ogrinc A、Michal JJ、Kovac M、Jiang Z.2013年。哺乳动物肥胖基因图谱.基因组学杂志 1: 45–55.[PMC免费文章][公共医学][谷歌学者]
  • Larson G、Dobney K、Albarella U、Fang M、Matisoo-Smith E、Robins J、Lowden S、Finlayson H、Brand T、Willerslev E等。2005世界野猪的谱系地理学揭示了养猪的多个中心.科学类 307: 1618–1621. [公共医学][谷歌学者]
  • Li H,Durbin R.,2009年。使用Burrows-Wheeler变换快速准确地进行短读对齐.生物信息学 25: 1754–1760.[PMC免费文章][公共医学][谷歌学者]
  • Li H,Handsaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,Abecasis G,Durbin R,基因组项目数据处理小组。2009序列对齐/映射格式和SAMtools.生物信息学 25: 2078–2079.[PMC免费文章][公共医学][谷歌学者]
  • 李锐、李毅、郑和、罗锐、朱华、李强、钱伟、任毅、田刚、李杰等。2010年a。构建人类泛基因组序列图.Nat生物技术 28: 57–63. [公共医学][谷歌学者]
  • 李锐,朱赫,阮杰,钱伟,方X,石Z,李Y,李S,山G,克里斯蒂安森K,等。2010年b。从头开始利用大规模并行短阅读测序组装人类基因组.基因组研究 20: 265–272.[PMC免费文章][公共医学][谷歌学者]
  • 李毅、郑浩、罗锐、吴浩、朱浩、李锐、曹浩、吴斌、黄S、邵浩等。2011全基因组单核苷酸分辨率下两个人类基因组的结构变异从头开始的装配.Nat生物技术 29: 723–730. [公共医学][谷歌学者]
  • 李明,田S,金L,周G,李Y,张Y,王T,杨CK,陈L,马J,等。2013基因组分析确定家猪和藏野猪的不同选择模式.自然基因 45: 1431–1438. [公共医学][谷歌学者]
  • 李彦宏,周庚,马杰,姜伟,金LG,张Z,郭毅,张J,隋毅,郑L,等。2014从头开始大豆野生近缘种的组合及其多样性和农艺性状的泛基因组分析.Nat生物技术 32: 1045–1052. [公共医学][谷歌学者]
  • Liu S、Lorenzen ED、Fumagalli M、Li B、Harris K、Xiong Z、Zhou L、Korneliussen TS、Somel M、Babbitt C等。2014种群基因组学揭示了北极熊最近的物种形成和快速进化适应.单元格 157: 785–794.[PMC免费文章][公共医学][谷歌学者]
  • Mackenzie FE、Romero R、Williams D、Gillingwater T、Hilton H、Dick J、Riddoch-Contreras J、Wong F、Ireson L、Powles-Glover N等。2009上调PKD1L2系列在小鼠中引发一种复杂的神经肌肉疾病.人类分子遗传学 18: 3553–3566.[PMC免费文章][公共医学][谷歌学者]
  • 大陆JD、Keller A、Li YR、Zhou T、Trimmer C、Snyder LL、Moberly AH、Adipietro KA、Liu WL、庄H等。2014嗅觉错义:人类气味受体的功能变异.自然神经科学 17: 114–120.[PMC免费文章][公共医学][谷歌学者]
  • McKenna A、Hanna M、Banks E、Sivachenko A、Cibulskis K、Kernytsky A、Garimella K、Altshuler D、Gabriel S、Daly M等。2010基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架.基因组研究 20: 1297–1303.[PMC免费文章][公共医学][谷歌学者]
  • Moon S、Kim TH、Lee KT、Kwak W、Lee T、Lee SW、Kim MJ、Cho K、Kim N、Chung WH等。2015家猪定向选择特征的全基因组扫描.BMC基因组学 16: 130.[PMC免费文章][公共医学][谷歌学者]
  • Neafsey DE、Waterhouse RM、Abai MR、Aganezov SS、Alekseyev MA、Allen JE、Amon J、Arca B、Arensburger P、Artemov G等。2015高度进化的疟疾载体:16种载体的基因组按蚊蚊子.科学类 347: 1258522.[PMC免费文章][公共医学][谷歌学者]
  • Read BA、Kegel J、Klute MJ、Kuo A、Lefebvre SC、Maumus F、Mayer C、Miller J、Monier A、Salamov A等。2013浮游植物的泛基因组艾米利亚巩固其全球分布.自然 499: 209–213. [公共医学][谷歌学者]
  • Roepstorff C,Vistisen B,Kiens B,2005年。肌肉内三酰甘油在人体运动期间能量代谢中的作用.运动科学评论 33: 182–188. [公共医学][谷歌学者]
  • Rubin CJ、Zody MC、Eriksson J、Meadows JR、Sherwood E、Webster MT、Jiang L、Ingman M、Sharpe T、Ka S等。2010全基因组重测序揭示了鸡驯化过程中的选择位点.自然 464: 587–591. [公共医学][谷歌学者]
  • Rubin CJ、Megens HJ、Martinez Barrio A、Maqbool K、Sayyab S、Schwochow D、Wang C、Carlborg O、Jern P、Jorgensen CB等。2012家猪基因组中的强选择特征.国家科学院程序 109: 19529–19536.[PMC免费文章][公共医学][谷歌学者]
  • Schug J、Schuler WP、Kappen C、Salbaum JM、Bucan M、Stoeckert CJ Jr.2005。香农熵测量的与组织特异性相关的启动子特征.基因组生物学 6:R33。[PMC免费文章][公共医学][谷歌学者]
  • Trapnell C、Pachter L、Salzberg SL.2009年。TopHat:使用RNA-seq发现拼接连接.生物信息学 25: 1105–1111.[PMC免费文章][公共医学][谷歌学者]
  • Trannell C、Roberts A、Goff L、Pertea G、Kim D、Kelley DR、Pimentel H、Salzberg SL、Rinn JL、Pachter L,2012年。用TopHat和Cufflinks进行RNA-seq实验的差异基因和转录表达分析.Nat Protoc公司 7: 562–578.[PMC免费文章][公共医学][谷歌学者]
  • Van Sligtenhorst I、Ding ZM、Shi ZZ、Read RW、Hansen G、Vogel P.2012。α-激酶3型心肌病(ALPK3型)-缺陷小鼠.兽医病理学 49: 131–141. [公共医学][谷歌学者]
  • Wang LY、Wang AG、Wang LX、Li K、Yang GS、He RG、Qian L、Xu NY、Huang RH、Peng ZZ等人。2011中国动物遗传资源:猪(第页中国动物遗传资源委员会),第2-16页。中国农业出版社,北京。[谷歌学者]
  • 王毅、唐浩、黛巴里·JD、谭X、李杰、王浩、李·TH、金·H、马勒·B、郭浩等。2012MCScanX:用于检测和进化分析基因共线性和共线性的工具包.核酸研究 40:e49。[PMC免费文章][公共医学][谷歌学者]
  • 魏森菲尔德NI、尹S、夏普T、刘B、海加蒂R、霍姆斯L、索戈洛夫B、塔巴阿D、威廉姆斯L、罗斯C等。2014人类单个基因组中的综合变异发现.自然基因 46: 1350–1355.[PMC免费文章][公共医学][谷歌学者]
  • 怀特S.2011。从全球化猪品种到资本主义猪:动物文化和进化史研究.环境历史 16: 94–120.[谷歌学者]
  • Yan G、Zhang G、Fang X、ZhangY、Li C、Ling F、Cooper DN、Li Q、Li Y、van Gool AJ等。2011食蟹猴和中国恒河猴两种非人灵长类动物模型的基因组测序及比较.Nat生物技术 29: 1019–1023. [公共医学][谷歌学者]
  • 张庆杰,朱婷,夏爱华,史C,刘玉玲,张毅,刘毅,蒋伟凯,赵玉洁,毛SY,等。2014五家公司的快速多元化水稻与水稻适应性相关的AA基因组.国家科学院程序 111:E4954–E4962。[PMC免费文章][公共医学][谷歌学者]
  • Zook JM,Salit M.2015年。推进基因组测序基准.细胞系统 1: 176–177. [公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社