跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;2017年4月20日PMC提供。
以最终编辑形式发布为:
PMCID公司:PMC5313049
美国国立卫生研究院:NIHMS816017标准
PMID:27762356

异源四倍体青蛙的基因组进化非洲爪蟾

Adam M.会议,1,2,* 吉野幸男,三,* 跆拳道,4,5,* 贾罗德·查普曼,2 丰田Atsushi,6 高桥秀吉(Shuji Takahashi),7 福井昭夫,8 阿基拉·希科萨卡,9 铃木Atsushi,7 马里科·孔多,10 西蒙·范·海林根,11 伊恩·奎格利,12 斯文·海因茨,13 Hajime Ogino先生,14 哈里基·奥奇,15 乌菲·赫尔斯滕,2 杰西卡·B·莱昂斯,1 奥列格·西马科夫,16 尼古拉斯·普特南,17 乔纳森·斯泰茨,17 Yoko Kuroki先生,18 田中俊一,19 Tatsuo Michiue先生,20 渡边美奴,21 奥兹伦·博格丹诺维奇,22 瑞安·李斯特,22 乔治奥·乔治奥,11 Sarita S.Paranjpe公司,11 伊拉·范克鲁伊斯伯根,11 《圣魁书》,2 约瑟夫·卡尔森,2 津木县,23 大田裕子,24 Shuuji Mawaribuchi公司,25 杰里·詹金斯,2,26 简·格林伍德,2,26 杰里米·施穆茨,2,26 特蕾丝·米特罗斯,1 萨哈尔·莫扎法里,27 铃木裕隆,28 原本吉香,29 Takamasa S.Yamamoto公司,30 高木智彦,30 丽贝卡·希尔德,31 凯莉-米勒,31 克里斯蒂安·豪登柴尔德,32 雅各布·基茨曼,33 中山拓哉,34 伊津由美,35 雅克·罗伯特,36 约书亚·福特里德,37 凯文·伯恩斯,37 瓦尼特·洛泰,38 卡姆兰·卡里米,38 柳井裕久,39 达尔文·S·迪克曼,1 马丁·弗拉伊尼克,24 道格拉斯·W·休斯顿,40 杰伊·森德尔,33 路易斯·杜帕斯基尔,41 彼得·维泽,38 亚伦·M·佐恩,37 伊藤美彦,42 埃德·马科特,4 约翰·沃林福德,4 伊藤让,29 明岛诚,29 内藤上野,30,43 松田洋一, 格特·扬·维恩斯特拉,11 藤山朝雄,6,44,45 理查德·哈兰德,通讯作者1 Taira正典,通讯作者46丹尼尔·洛克萨尔通讯作者1,2,16

关联数据

补充资料

摘要

为了探讨非洲爪蛙四倍体的起源和后果,我们对其进行了测序非洲爪蟾基因组并与相关二倍体进行比较十、热带基因组。我们证明了异四倍体起源于X·莱维斯通过将其基因组划分为两个同源亚基因组,以“化石”转座元件的不同家族为标志。根据这些元素的活性和数百个单一假基因的年龄,我们估计这两个二倍体祖先物种在约3400万年前分化(Mya),并结合形成约17–18个异四倍体Mya。56%的基因保留在两个同源拷贝中。蛋白质功能、基因表达和侧翼保守序列的数量都与保留率相关。亚属的进化是不对称的,一组染色体往往保持着祖先的状态,而另一组则经历了更多的基因丢失、缺失、重排和基因表达减少。

古代多倍体化事件形成了多种真核生物基因组1包括脊椎动物辐射基础上的两轮全基因组复制2虽然这种多倍体在羊膜中很少见,可能是由于性染色体剂量的限制,4,常见于鱼类5和两栖类血统6,7和在植物中8多倍体为进化多样性提供了原料,因为基因重复可以支持新的功能和网络9然而,多倍体的组成亚基因组必须相互合作,以调节剂量、调控、蛋白质相互作用和转座因子活性的潜在不相容性。

非洲爪蛙非洲爪蟾是从二倍体到十二倍体的多倍体系列之一,因此是研究基因组复制影响的理想材料10尤其是考虑到其作为细胞和发育生物学首要模型的地位11.拉埃维斯X.laevis染色体数(2N=36)几乎是西方爪蛙的两倍爪蟾(原名爪蟾)热带的(2N=20)和大多数其他二倍体青蛙12,并被认为是一个异源四倍体通过将2N=18的二倍体祖细胞进行种间杂交,然后进行基因组加倍以恢复减数分裂配对和二体遗传10,13(请参见补充说明1,扩展数据图1供讨论爪蟾异四倍体假说)。

在这里,我们通过追踪同源四倍体的起源来证明异源四倍体假说X·莱维斯其已灭绝的祖先二倍体的基因组。这两个亚基因组是不同的,并保持着不同的重组身份。尽管拥有相同的细胞核,但我们发现亚基因组进化不对称:两个亚基因组中的一个经历了更多的染色体内重排、缺失和假基因化导致的基因丢失、基因表达水平的变化以及组蛋白和DNA甲基化。叠加在这些全球趋势之上的是局部基因家族扩张和基因表达模式的改变。

结果

组装、注释和核型

我们测序了X·莱维斯通过全基因组鸟枪法结合长插入克隆末端测序(补充说明2)并利用荧光将组装好的序列组织成染色体就地798个细菌人工染色体克隆(BACs)和体内在体外染色质构象捕获分析(补充说明3联机方法). 这些互补的方法产生了高质量的染色体比例草案,其中包括所有已知的拉埃维斯X.laevis基因并将>91%的组装序列(以及90%的预测蛋白编码基因)分配给染色体位置。

我们使用来自14个卵母细胞/发育阶段和14个成人组织和器官的RNAseq注释了45099个蛋白编码基因和342个microRNA(补充说明4)、与转录相关的组蛋白标记分析以及与十、热带和其他四足动物(补充说明5联机方法). 24,419X·莱维斯蛋白质编码基因可以与15613对应为2:1或1:1十、热带基因,定义8806对同源基因X·莱维斯带有的基因十、热带直方图和6807个单拷贝直方图。其余的基因是较大基因家族的成员(嗅觉受体基因,等。)谁的十、热带正畸学更为复杂。

这个X·莱维斯核型(图1a)揭示了9对同源染色体1,14,15。前八对中的每一对都与对应的热带X染色体,分别为较长和较短的同源同源日志附加“L”和“S”16.XLA2L是Z/W性染色体17为此,我们在q亚端粒区域中确定了一个W特异性序列,该序列包含性别决定基因dmw公司17和相应的Z特异单倍型。相比之下,同源XLA2Sq没有这样的基因座,XTR2也没有(扩展数据图2a,补充说明6). 第九对同源基因是与XTR9和XTR10同源的原染色体的q-q融合,可能发生在异源四倍体形成之前(扩展数据图2b–d补充说明6). S染色体平均核型缩短13.2%16组装序列比L对应序列短17.3%。单核苷酸多态率X·莱维斯约0.4%,远低于同源基因之间约6%的差异(扩展数据图1c补充说明8.8).

保存图片、插图等的外部文件。对象名称为nihms816017f1.jpg
染色体进化爪蟾

a。XLA和XTR染色体的比较细胞遗传学图。品红色系显示了XLAL和S染色体之间198个同源基因对的染色体位置关系,通过使用BAC克隆进行FISH定位确定(补充表1,请参阅补充注释3.1). 蓝线显示了XTR染色体与(i)XLA L和S染色体(实线)(XLAL和S之间的线被省略)、(ii)仅XLAL(虚线)或(iii)仅XLAS(虚线14,15.浅蓝色线表示的位置关系演员3lypd1型在XTR9q和rpl13a型转速11在XTR10q和XLA9_10LS染色体上(参见补充注释6.2). XLAS染色体右侧的双头箭头表示发生反转的染色体区域。XTR和XLA染色体的象形图取自我们之前的报告15,16.

b。同源基因(紫色)、单基因(灰色)和亚基因组特异重复序列在XLA1L(顶部)和XLA1S(底部)的分布。Xl-TpL_Harb为红色,Xl-Tp S_Harb为蓝色,Xl-Tp S_Mar为绿色。紫色线表示L和S染色体上都存在同源基因,黑色线表示每条染色体上的着丝粒大致位置。同源基因对,从左到右:rnf4型,特殊目的公司3,内部sl2,狐狸1,特别提款权,ap3s1型,升降机,aqp7每个箱子大小为3 MB,与前一个箱子重叠0.5 MB。

c。Xl-TpS_Mar序列的染色体定位。杂交信号仅在S染色体上观察到。比例尺显示10μm。

亚基因组鉴定和异源四倍体形成时间

我们推断,每个祖细胞特有的转座因子的分散残留物将标记异源四倍体中的后代亚属(图2c,扩展数据图1). 三类DNA转座子残体几乎只出现在L或S染色体上(补充说明7). Xl-TpL_Harb和Xl-Tp S_Harb是PIF/Harbinger超家族的微型反向重复转座元件(MITE)的新亚科18,19其残体几乎完全分别局限于L或S染色体(图1b,扩展数据图3a). 类似地,Tc1/mariner超家族成员Xl-TpS_Mar(与鱼类MMTS亚家族密切相关20)几乎只在S染色体上发现(图1b),使用Xl-TpS_Mar作为探针进行FISH分析证实(图1c,补充说明7.4; 看见补充说明7.3有关映射到相反亚属的稀有元素的详细信息)。

保存图片、插图等的外部文件。对象名为nihms816017f2.jpg
分子进化与异源四倍体

a.(顶部)假基因年龄的分布,如补充说明9.(底部)系统发生树说明了爪蟾,以times为基础的琵琶类蛋白质编码基因系统发育,包括爪蟾,琵琶,boettgeri膜壳虫、和淡色蛙(仅限爪蟾如图所示)。我们确定了十、热带X·莱维斯48 Mya的祖先,34 Mya的L和S多倍体祖先,以及多倍体的分化爪蟾17 Mya的辐射。利用这些时间作为校准点,我们估计了18Mya(水手,蓝星)和33-34Mya(预兆,红星)的转座子活动爆发。紫星是杂交的时间,大约17-18 Mya。

b。基于四足类蛋白质编码基因的系统发生树,由象鲨生根(未显示)。对齐由MACSE完成,最大似然树由PhyML构建。分支长度刻度显示在底部。之间的分支长度差异非洲爪蟾-L和非洲爪蟾-S与小鼠和大鼠之间的S相似。两个亚属X·莱维斯分支长度大于十、热带.

因此,L和S染色体组代表两个不同的二倍体祖细胞的后代,即使在没有现存祖细胞物种的情况下也证实了异四倍体假说。基于对蛋白质编码基因同义差异的分析,L和S亚基因组相互分化~ 34 Mya(T2)和来自热带X约48 Mya(T1)(图2a),与之前转录组的基因-基因估计一致2124(补充说明8,扩展数据图4联机方法). L-和S-特异性转座因子活性约为18-34 Mya,表明这两个祖细胞在此期间独立进化二倍体(图2a补充说明7.5扩展数据图3). 最近的转座子活性更均匀地分布在L和S染色体上(未显示)。最后,与四倍体的共同起源一致爪蟾物种,我们可以在另一种异源四倍体青蛙的全基因组序列中清楚地识别L和S基因的同源序列,北极狐,并估计X·莱维斯-北极狐散度为~17 Mya(T). 这些因素限制了异四倍体事件为~17–18 Mya(T*)。这个时间与四倍体辐射的其他估计一致爪蟾据推测,这些物种是从共享的异倍体创始种群的瓶颈中出现的23,24.

核型稳定性

值得注意的是,除了9/10号染色体融合外,X·莱维斯十、热带染色体自分化至48 Mya以来一直保持着保守的共有性(图1a、b). 与哺乳动物相比,两栖类和鸟类核型的相对稳定性与缺乏染色体间重排相一致25,通常显示数十种染色体间重排26它还与许多植物多倍体形成对比,多倍体可以显示出相当大的亚基因组间重排27L和S特异重复序列沿整条染色体的分布意味着同源染色体自异源四倍体化以来没有交叉重组,可能是因为这两个祖细胞充分分化以避免同源染色体之间的减数分裂配对,尽管我们不能排除非常有限的本地化跨组织交流(补充说明7).

同系物之间的广泛共线性X·莱维斯L和十、热带染色体(图1a)意味着它们代表了祖先的染色体组织。相反,S亚基因组显示了广泛的细胞内重排,明显表现在XLA2S、XLA3S、XLA4S、XLA5S和XLA8S的大反转以及较短的重排(图1a). S亚基因也经历了更多的缺失。例如,45S前核糖体RNA基因簇发现于X·莱维斯XLA3Lp,但其在XLA3Sp上的同源位点缺失(扩展数据图5a). 大规模小规模删除(扩展数据图5b)减少S染色体相对于L染色体的长度十、热带副本(见下文)。

亚属对异源四倍体的反应

多倍体中多余的功能元件有望通过固定失活突变和/或丢失而迅速恢复为单拷贝28除非被新功能化阻止8,子功能化26或基因剂量选择29同源染色体之间的差异基因丢失有时被称为“基因组分馏”3032(请参见补充说明1)异源四倍体复制的蛋白编码基因中至少有56.4%保留在X·莱维斯基因组(补充说明10; 如果包括未指定短支架上的基因,则为60.2%)。以往依赖cDNA的研究21和EST调查22,33,34观察到保留率低得多,可能是因为基因表达的取样偏差(补充注释8.2).

同源microRNAs的保留率更高(156/180,86.7%),同样在沙门氏菌特异性重复中也发现5,并且两个主要拷贝都表达为基因间同源microRNA(补充说明8.6扩展数据图5e). 假定为泛顶点顺式-监管保守的非编码元件35也被高度保留(550人中有541人,98.4%;补充说明8.7表1). CNE保存于X·莱维斯十、热带然而,保留率明显较低(49%;表1). 更长的基因(通过基因组跨度、外显子数量或编码长度)更有可能被保留(Wilcoxon p值<=1E-5;补充说明10.5扩展数据图5 h–j)这与更长的基因具有更独立的可变功能的想法大致一致,因此更容易发生亚功能化和随后的保留36.

表1

与二倍体相比,不同基因组元件的保留摘要十、热带基因组。有关更多详细信息,请参阅补充表2.

序列元素XTR公司XLA-L型XLA-S公司保留
蛋白质编码基因15,61313,78110,24156.4%
基因组DNA(MB)1,2271,2221,010不适用
微小RNA18016616886.7%
泛脊椎动物保护的非编码元素55054253696.6%
H3K4me3峰值7,4736,9275,83370.6%
p300峰值4,3213,4572702个42.5%
CACTUS公司1,294,3421,026,204888,89949.0%
米托卡塔91771750146.0%
德国1515640.0%

基因在两个亚属之间不对称丢失X·莱维斯一些植物多倍体也有类似的结果30但不是虹鳟鱼5。对于X·莱维斯具有明确1:1或2:1同源序列的蛋白质编码基因十、热带,我们发现S亚基因组上丢失的基因明显更多(31.5%)与。L亚属(8.3%;χ2测试p值=2.23E-50,补充表2)其他类型的功能元件,如富含H3K4me3的启动子和p300结合增强子,也有相同的趋势(表1). 在大多数基因组中,基因的丢失似乎独立于它们的邻居,因为基因丢失的分布几乎呈几何分布(图3a,右侧)。我们确实观察到一些大块删除(例如.,几个嗅觉簇(扩展数据图5b)以及一些功能无关的基因的异常长的区块,它们保留在两个拷贝中而没有丢失(图3a,左)。

保存图片、插图等的外部文件。对象名称为nihms816017f3.jpg
对异四倍体的结构反应

a。L(红色)和S(蓝色)亚基因组中连续保留(左)和缺失(右)的分布。使用方程y=a*(e)拟合分布bx公司)+c*(e)dx公司). y轴显示在对数刻度上。在这两种分布中,L和S亚基因组之间存在显著差异(Student t检验,保留率p=3.6E-22,缺失率p=4.5E-84)。

b。进化守恒爪蟾MHC和差分MHC静音拉埃维斯X.laevis亚属。上面显示的选定基因名称。“适应性MHC”编码与T细胞抗原呈递相关的紧密联系的必要基因;这组基因是原始连锁群,在大多数非哺乳动物脊椎动物中保存下来,包括爪蟾。差异基因沉默尤其明显,因为围绕I类基因的四个基因在S染色体上有功能,但没有(dma系统,二甲基溴)或假基因(环3,潜伏膜抗原2)在L染色体上。基因图不按比例绘制;假基因(p)如图所示。HSA、XLA、GGA:人类,爪蟾和鸡肉MHC。请参阅补充表8获取更详细的MHC图。

c。霍克斯基因簇。X·莱维斯在L和S染色体上保留了八个Hox簇,由成对的HoxA、B、C和D簇组成。均匀滑动基因(evx1版evx2)位于Hoxa和Hoxd集群的两侧。霍克斯基因分为四类:唇型、鼻唇型、中央型和后部型。请注意hoxb2.L型(黑色)是假基因。

d。围绕混合基因家族。物种和染色体数量的缩写:人类(智人; HSA1),鸡肉(加卢斯; GGA3),十、热带(XTR5),X·莱维斯(XLA5L和XLA5S),斑马鱼(斑马鱼; DRE20)。每个爪蟾(亚)基因组经历了其家族的独立扩张(参见扩展数据图5详细信息)。

许多丢失的基因被简单地删除,正如保守的侧翼基因之间的距离明显缩短所证明的那样。S亚基因组上缺失的大小和数量都较大(扩展数据图5c). 我们确定了985个“单一”(详细检查了1531个位点中的假基因。这64%的检出率与X·莱维斯与鳟鱼的报告相当5.基于非同义突变的积累37我们估计这些假基因中的大多数都逃脱了进化限制~15 Mya(图2a,扩展数据图6),这与异源四倍体中广泛冗余的开始相一致,尽管我们对假基因年龄的估计精度很低(补充说明9). 大多数假基因没有表达证据,但在769个长度超过100 bp的假基因中,133个(17.2%)显示残留表达(扩展数据图6). 相反,在同源基因对中,我们发现760个成员在28个样本条件下几乎没有表达。尽管这些保留了一些基因结构(起始和终止密码子,没有框架移位,良好的剪接信号),但它们显示出氨基酸变化率增加,并且似乎处于宽松的选择之下(扩展数据图5f). 我们称这些名义上濒临死亡的基因为“thanagenes”(补充说明12.5). 表达减少可能是由于突变的顺调控元件所致,例如六个6基因对(图4e扩展数据图8 g–i补充说明13.1).

保存图片、插图等的外部文件。对象名称为nihms816017f4.jpg
保留和功能分化

a.(左)按KEGG分类比较L和S基因丢失。X轴是L基因的分数丢失,y轴是S基因的分数损失。蓝线是基于全基因组平均值(56.4%)的预期L/S损失。红点表示损失程度较高的功能类别(χ2检验p<0.01)。品红点是显示高度保留的功能类别(p<0.01)。(右)组织WGCNA类别的类似散点图。请参见补充说明10.1以进行更详细的讨论。

b。日志的箱线图10(升tpm公司/S公司tpm公司)对于同源基因对,放大显示中值。左侧为卵巢和母系控制的发育时间点(分别为浅蓝色和深蓝色条),右侧为受精卵控制的发育时间点和成年组织(分别为红色和绿色条)。红线表示等比对数10(1). 平均而言,母体数据集中同源对的L基因表达比S高12%(中位数=0%),而合子组织和时间点表达同源对的L-基因比S高25%(中位数=1.8%)。平均值和中位数之间的差异由许多同源基因之间差异较大的基因解释,如扩展数据图8c在这里,为了说明合子表达中位数的差异,我们放大箱线图的中心。

c.(左)发育表达图和(右)后生景观环境霍克斯b4.L表达式为红色,S表达式为蓝色,热带的表达式以黑色显示。右侧面板显示了H3K4me3(绿色)和p300(黄色)ChIP-seq轨迹的基因组图谱,以及通过全基因组亚硫酸氢盐测序(灰色)确定的DNA甲基化水平。基因注释轨迹显示霍克斯b4L(顶部)和S上的基因。L和S基因组序列之间的保守性在基因注释轨道之间以灰色显示。

d.(左)发育表达图和(右)后生景观环境数字.L表达式为红色,S表达式为蓝色,热带的表达式以黑色显示。母亲的少量表达麻木的,麻木的。L(左)重复之间是一致的。除了介绍的轨道外c),右侧面板显示RNA聚合酶II(RNAPII;紫色)和H3K36me3(蓝色)ChIP-seq剖面。

e。GFP表达的代表性胚胎六个六角-CNE或六个六角不锈钢-与基底启动子-GFP盒相连的CNE(六个六角-CNE:GFP和六个六角不锈钢-CNE:GFP)。原位杂交检测GFP的表达。半定量图像分析显示,它们的平均表达水平存在统计学显著差异(p<0.01);由驱动的表达式六个六角不锈钢-CNE(n=27)比六个六角-眼部CNE(n=32)。鉴于其内源性表达的眼睛特异性模式六个6基因可能有额外的沉默物来限制眼睛中CNE的增强子活性。

虽然四倍体产生了几乎每个基因的两个“拷贝”,但串联复制会不断产生额外的基因拷贝(图3d扩展数据图7). 串联簇的数量在十、热带比在X·莱维斯L亚属,它又大于S亚属(补充说明11.1). 虽然串联复制在十、热带比中的X·莱维斯,损失率也较高。由于在减数分裂期间通过不平等的交叉发生串联复制和缺失,这些不同的速率与更短的世代时间相一致十、热带(扩展数据图7 f,g). 旧串联复制品的平均丢失时间约为40 Mya inX·莱维斯(在任一亚属上)与~ 16 Mya相比十、热带地区。家谱基因丢失和串联复制可以结合起来为一些基因家族产生复杂的历史。我们讨论了这些家族如何对全基因组复制进化的文献做出贡献补充注释10和13.

基因保留和丢失的功能模式

我们发现许多功能类别优先保留或丢失(图4a扩展数据图4e,,9,9,,10;10补充说明13). DNA结合蛋白和发育调节信号通路(TGFβ、Wnt、Hh和Hippo)的成分以及细胞周期调节的保留率显著高于平均水平(>90%)(扩展数据图10). 古脊椎动物基因组复制后保留在多个拷贝中的基因也更有可能作为同源基因保留在X·莱维斯(补充说明10.4)正如硬骨鱼和鳟鱼基因组重复所发现的那样5一个显著的例子是在四对同源Hox簇中几乎完全保留了37/38个重复基因,只有一个假基因(图3c). 这些类别中大多数基因的同源基因保持率很高,这表明可能需要化学计量学控制的表达水平,或者同源基因可能在其表达域或靶特异性中发生亚功能化。

相反,其他功能类别中的同源基因丢失率较高,可能是因为缺乏相应的剂量选择。例如,参与DNA修复的基因丢失率很高(79%)(补充注释10.1)这与异四倍体发生后立即进行修复的选择减少一致,当时每个体细胞的所有基因都有四个拷贝5其他代谢类别也容易丢失,可能是因为编码酶的单个位点就足够了38显著缺失的基因组区域包括S亚基因组上的主要组织相容性复合体基因(图3b)和几个嗅觉受体簇(扩展数据图5b). 我们假设在这些情况下同源基因可能在功能上不兼容,导致整体删除以响应此选择压力。重复基因保留和丢失的具体案例研究详见扩展数据图9,,1010补充说明13.

基因表达的进化

基因表达也是保留的预测因子,高表达的基因更有可能被保留(扩展数据图8b),与中的结果相似草履虫属 39,40根据发育和成体组织表达构建的基因表达网络,发育调控基因的表达水平在母体-合子转换(MZT)或神经分化期间达到峰值,但仍保持在较高水平(p<0.01)(联机方法图4a(右);扩展数据图10e补充说明12.3). 我们推测,发育调控基因的异常保留是由于这些因子的化学计量剂量的选择,在某些情况下,与二倍体青蛙相比,物理上更大的异源四倍体细胞和胚胎的表达更高,尽管这是一种倾向36这些基因中的亚功能或新功能化也可能起作用。在成年人中,大脑和眼睛中表达峰值的基因也保持在较高水平(图4b).

X·莱维斯,同源基因的表达高度相关(扩展数据图8a),表明同源同源基因的整体表达在爪蟾物种41然而,许多同源对在发育过程中或在成体组织中以时空模式(一种亚功能化形式)差异表达36补充说明12.4扩展数据图8d–f)或者以相同的模式,但表达水平不同。当同源基因对均表达时,成人组织中L拷贝的平均表达水平比S拷贝高约25%,MZT后42(图4b补充说明12.2). 然而,在卵母细胞和MZT前期早期,L的过度表达平均仅约为12%,这表明这两个亚基因组作为母体转录物的表达更加均匀,但在MZT后不对称性增加。令人惊讶的是,我们发现391例患者中有一个同源基因日志没有检测到母体mRNA(卵母细胞、卵子和8期;图4c、d扩展数据图8c). 与来自热带X,我们发现了明显的表达缺失(“母体亚功能化”:即,十、热带和一个X·莱维斯基因表达,另一个X·莱维斯基因沉默前MZT;238个基因,例如.,数字。S公司)以及令人惊讶的收获(“母体新功能化”:即,十、热带基因不是母体表达的,而是一个X·莱维斯基因表达;153个基因,例如.,霍克斯b4.L). 我们在其他表达域中没有看到如此大的差异(补充说明12.2扩展数据图8c)表明母体mRNA调节在X·莱维斯同源对数,类似于爪蟾物种41.

总的来说,数千个同源对数对要么具有不同的时空模式,要么具有不同表达水平的相似模式。与表达相似的同源对数对相比,这些同源对数对在替代率和CDS长度差异上存在差异(补充说明12.4扩展数据图8图。8d–f),在鲑鱼同源配对中也发现了这种模式5这些表达差异在很大程度上可归因于表观遗传调控的变化(Random Forest分类;ROC AUC 0.78),H3K4me3和DNA甲基化的变化对我们的表观遗传变量的解释力最强(补充说明14). 两个亚基因组的详细比较将有助于识别控制顺式-同源日志之间的监管差异。

结论

两个亚属非洲爪蟾进化是不对称的,L亚基更一致地类似于祖先的状态,S亚基更容易被缺失和重排破坏。异源多倍体植物中观察到不对称基因丢失30和酵母43在节段水平上,但还没有直接证明类似的“分馏”节段来自同一祖先(图1c). 我们的结果与优化基因表达水平是影响多倍体后基因保留的重要因素的模型一致39,40L和S之间的不对称可能是它们的二倍体祖细胞之间内在差异的结果。或者,S基因组的重塑可能是对L-S合并本身的反应,即“基因组休克”44由转座因子的激活引起的(图2a补充说明8.5).爪蟾作为脊椎动物发育、细胞生物学和免疫学研究的首要模型,以及许多相关多倍体的存在,将继续为脊椎动物多倍体研究提供丰富的材料。

联机方法

符号和术语

“同源”染色体是古老的同源染色体,通过物种形成而分化,但通过多倍体化事件在同一细胞核中重新组合。它们是Paralog的特例。同源基因有时被称为“等位基因”,以强调其作为基因替代形式的作用,但由于同源基因是不相关的,并且是独立分类的,所以我们不使用这个术语。同样,同源基因的丢失有时被称为“二倍体化”。我们更喜欢更简单、更具描述性的术语“基因丢失”非洲爪蟾有两个相关的亚属,但这些亚属都通过常规二体遗传传递给后代。因此,在异源四倍体化之后,新物种的基因已经是二倍体。这显然是X·莱维斯,因为我们没有发现同源染色体之间重组的证据,这将产生具有混合“L”和“S”型转座元件的新序列。

排序和装配

从近交J株的一只雌性血液中提取DNA,进行全基因组鸟枪测序。我们从一系列插入物中产生了46亿对端Illumina读码,并使用Sanger双脱氧测序获得了磷和细菌人工染色体(BAC)末端对和完整的BAC序列。我们用meraculous45作为主要的基因组组装者。请参见补充说明了解更多详细信息。

染色体鳞片组织

我们鉴定出798条细菌人工染色体(BAC),其中包含分布在爪蟾基因组,并进行荧光就地杂交(FISH),根据Hoechst 33258染色的晚复制带模式将这些BAC分配给特定染色体(补充表1). 如前所述,从动物帽中捕获“HiC”染色质46并与HiRise组装47.

性别基因座特征

性别决定拉埃维斯X.laevis遵循雌性异配子ZZ/ZW系统48.我们对代表W和Z单倍型的BAC克隆进行了全序列测定,并鉴定了W和Z特异序列(扩展数据图2a). Z特异序列的存在是意料之外的,因此通过使用特定引物集和来自具有W或Z位点的雌核发育蛙DNA的PCR分析进行验证。

基因注释

我们利用之前生成的大量转录组数据X·莱维斯十、热带,其中697015X·莱维斯EST序列(见综述49). 此外,本项目从J株的14个卵母细胞/发育阶段和14个成人组织中产生了超过10亿个RNAseq读取拉埃维斯X.laevis(请参见补充说明4). 这些数据与同源性和从头算使用联合基因组研究所的集成基因调用管道进行预测(参见补充注释4和8更多详细信息)。

亚基因组特异转座元件的表征

我们使用RepeatMasker发现了亚基因组特异性重复50结果。重复序列用于重建全长亚基因组特异转座子序列。根据靶位点序列和末端反向重复序列(TIR)对特异性转座子Xl-TpL_Harb、Xl-Tp S_Harb和Xl-TpS S_Mar进行分类。利用转座子的一致序列作为查询,根据BLASTN搜索结果(E值<1E-5)计算每个染色体上转座子的覆盖长度。FISH分析揭示了Xl-TpS_Mar的染色体分布(参见补充说明7.4).

系统发育、分化时间和进化速率

我们使用boettgeri膜壳虫,Pipa carvalhoi,淡色蛙序列作为外群来估计重复基因的进化速率X·莱维斯以及它们与十、热带s.参见补充说明7和8了解更多详细信息。

缺失和假基因

假基因序列包含各种缺陷,包括提前终止密码子、移码、中断剪接和/或部分编码缺失。在1531个“2-1-2区”中鉴定出985个假基因,其他假基因被删除或因突变而无法识别。根据伪基因、同源基因和同源基因之间非同义和同义替换的积累,可以对368/985进行计时X.热带,为每个假基因提供一个自失去约束以来的时间37.

基因的功能注释

我们使用了几种生物信息学方法和高通量数据集来为爪蟾基因。使用InterPro(包括PFAM和Panther)分配蛋白质域51和KEGG52。使用InterPro2Go分配基因本体51。我们通过线粒体图谱鉴定了编码线粒体蛋白质的基因53从鼠标到最新的数据库十、热带蛋白质组。爪蟾使用广泛的爪蟾文献(参见补充说明13).

基因表达

我们分析了14个卵母细胞/发育阶段和14个成体组织(除卵母细胞阶段外)的转录组数据(参见补充说明4). 通过将配对RNA-seq读码映射到预测的全长cDNA并报告每百万映射读码的转录本(TPM)来测量表达水平。我们认为可检测表达的极限是TPM>0.5。通过加权基因共表达网络分析(WGCNA)聚类定义了共表达模块54(请参见补充说明12).

表观遗传学分析

我们通过全基因组亚硫酸氢盐测序测定DNA甲基化水平(DNAme),并使用ChIP seq生成启动子标记组蛋白H3赖氨酸4三甲基化(H3K4me3)、转录延伸标记H3K36me3以及RNA聚合酶II(RNAPII)和增强子相关共激活物p300的图谱。为了测试哪些调控特征对L与S表达差异的贡献最大,我们应用随机森林机器学习算法来分析L和S同源基因之间的差异表达(参见补充说明14).

扩展数据

预计违约频率1

保存图片、插图等的外部文件。对象名称为nihms816017f5.jpg
分配倍增管和组件

(a–e)不同祖先二倍体物种a和B异源四倍体形成的场景。水平单线表示正常配子,水平双线表示未减数配子;黑色方块代表施肥;垂直双谱线表示自发(体细胞)基因组加倍。

  1. (i)来自物种A和B的未还原配子的融合。(ii)种间杂交后自发加倍。(iii)由种间杂种产生的未减数配子的融合。(iv)种间杂种产生未减数配子,该配子与A种的正常配子融合。由此产生的三倍体再次产生未减量配子,与B种的正常配子融合(v)种A的未减数配子与种B的正常配子融合。产生的AAB三倍体产生未减数的配子,这些配子由正常配子种B受精。参见补充注释1.1以进行更详细的讨论。
  2. J菌株的历史。请参见补充注释2.1了解详细信息。事件发生的年份和世代数(例如方案中指出了青蛙转移到另一个研究所、建立纯合子、构建材料)。世代数是由于失去旧的繁殖记录而估算的。
  3. 直系同源基因(绿色)、同源基因(红色)和等位基因(蓝色)的核苷酸距离在补充说明8.7。距离以对数刻度显示,以区分分布。
  4. 51mer频率直方图显示了霰弹枪数据集中具有指定计数的51mer的数量。显著的峰值意味着每个基因组位点在51米范围内取样29次。请注意,在这个深度的两倍处没有特征,这表明同源特征具有高度一致性是罕见的。
  5. 51米的累积比例作为相对深度的函数(.,深度/29)。相对深度提供了基因组拷贝数的估计。相对深度1的快速上升意味着70–75%X·莱维斯相对于51个mers,基因组是单拷贝的。基因组的其余部分主要集中在拷贝数为≫100的重复序列中。注意对数刻度。
  6. JGIv72.000090484.chr4S是XENLA_JGI_v72组件中的一个3.1Mb脚手架,其85260对芝加哥读数对的接触图。
  7. JGIv72.000090484.chr4S的85260个HiC读取对的接触图。读取对以10kb的间隔装箱。对于每个读取对,正向和反向读取地图的质量分数至少为20。
  8. HiC和Chicago读取对的插入分布映射到XENLA_JGI_v72的同一支架,至少有20个地图质量分数。x轴是读取对的间隔距离。y轴是该箱子的计数除以总读取次数。箱子是1kb。

预计违约频率2

保存图片、插图等的外部文件。对象名称为nihms816017f6.jpg
染色体结构

  1. 性染色体的结构拉埃维斯X.laevis(XLA2L)并与XLA2S和XTR2进行比较。XLA2L的W型含有含有女性性别决定基因的W特异性序列,dmw公司(红色),而Z具有不同的Z特定序列(蓝色)。五角大楼箭头和黑色三角形分别表示基因和嗅觉受体基因。他们的小费与他们的3'末端相对应。
  2. 将XTR9和10的q端子区域与XLA9_10L和XLA9~10S的相应区域对齐。XTR 9和XTR10的q末端区域附近的基因在十、热带基因组组装v9,但是转速11,rpl13a型,lypd1型、和演员3根据与人类染色体的同步性,预计将定位在那里,然后通过cDNA FISH(上部面板)进行验证。XLA9_10L和S上的小三角形表明,在距离预期9/10连接点±2Mb的区域内,针对来自Ensembl的人和鸡肽序列,显示同一性和覆盖率均大于30%的基因模型的分布。HSA:人类染色体。GGA:鸡染色体。放大后的图像代表了同步基因与人类基因对应的颜色的比例。
  3. XTR9、XTR10、XLA9_10L和XLA9~10S之间的同源基因顺序。绿色箭头:通过检测p与q臂的细胞遗传学染色体长度比预测XTR9和10的着丝粒位置15.蓝色箭头:着丝粒重复的位置,青蛙着丝粒的重复-162,在XLA9_10L和S.洋红色和黄色椭圆中:snrpn公司(洋红)和车站1(黄色)来自十、热带v9和X·莱维斯v9.1组件。红色椭圆:四个基因的染色体位置,转速11,rpl13a型,lypd1型、和演员3.XTR9被翻转以便于比较。蓝色双向箭头表示可能在原染色体上发生中心周围反转的同源区域(参见扩展数据图2d)。
  4. 染色体重排的两个假设过程(融合和反转)的示意图,这两个假设过程发生在假设的原-XTR9和10之间,产生原-XLA9_10,最终产生XLA9_10L和S。染色体重排的过程以两种不同的方式简单解释(左图和右图),从proto-XTR9和10开始。实际和假设的祖先染色体位置信噪比车站1分别以洋红色和黄色圆圈显示。请注意,这两种模型中原-XTR10上这些基因的染色体位置不同。与XTR9和XTR10同源的染色体片段分别显示为红色和蓝色。XTR9倒置以便于比较。双向箭头指示可能发生中心周围反转的区域。黑色箭头表示染色体进化的方向。

预计违约频率3

保存图片、插图等的外部文件。对象名称为nihms816017f7.jpg
交通

  1. 每个染色体上亚属特异转座子的密度(转座子元件的覆盖长度[bp]/染色体长度[Mbp])。使用一致序列作为查询,根据BLASTN搜索的结果(E值截止1E-5)计算转座子的覆盖长度。
  2. 非CpG站点之间的Jukes-Cantor距离,按补充说明7.5.之间的距离十、热带X·莱维斯转座子一致序列如图所示。这个X·莱维斯-特定的转座子差异是针对该亚科的一致序列的每个单独的转座子序列。
  3. Xl-TpS_Mar转座子扩增的系统发生树X·莱维斯基因组,使用Jukes-Cantor校正距离构建(补充说明7.5). 突出显示具有足够成员以确定准确计时的子簇。比例尺表示校正后的Jukes-Cantor距离。

预计违约频率4

保存图片、插图等的外部文件。对象名称为nihms816017f8.jpg
系统发育

  1. 以象鲨为根的泛脊椎动物保守非编码元件(pvCNEs)的系统发育树。使用MUSCLE进行比对,并使用PhyML构建最大似然树。分支长度刻度显示在底部。四足动物分支长度的差异遵循与蛋白质编码树相同的拓扑结构(图2b).
  2. 完整的系统发育树图2a,散度时间由r8s计算。
  3. K的分布和K在L和S物种形成之间的特定亚属上X·莱维斯北极狐物种形成。我们发现Ks和Ka的T2和T3之间的加速突变率(p=1.4e-5(左),8.6e-3(右))。
  4. K的分布和K在金龟和北极子物种形成后的特定亚属上。我们没有发现替代率显著加快。(p=0.10(左)和0.03(右))。
  5. 表中显示了古代脊椎动物复制品(或历史上称为ohnologs)中被确定为同源同源基因的同源基因和单基因的数量63.79.9%的ohnolog在X·莱维斯今天,在排除ohnologs(χ2测试p值=4.44E-69)。
  6. 表显示了中所述的自举最大似然树的分支长度补充说明12.5。这些列指的是十、热带(XTR),L染色体X·莱维斯(XLA.L),S染色体X·莱维斯(XLA.S)和XLA。L/XLA号。S分支长度。第一行是所有基因都表达的三联体,第二行是三联体,其中L是一个thanagene,第三行是三联体,其中S是一个thanagene。当所有基因都表达时,或当S为thanagene时,L分支长度明显较小(Wilcoxon p值分别为1.7E-216和6.4E-212)。当L为thanagene时,S分支长度较小(p=2.4E-223)。与所有基因都表达时相比,L或S thanagene数据集的分支长度比(L/S)显著不同(分别为p=3.55E-214和7.48E-220)。两个thanagene数据集之间的比率也不同(p=1.79E-217)。

预计违约频率5

保存图片、插图等的外部文件。对象名称为nihms816017f9.jpg
结构演变

  1. 45S前核糖体RNA基因的染色体定位(rna 45)它编码18S、5.8S和28S rRNA的前体RNA,使用pHr21Ab(5′部分为5.8-kb)和pHr14E3(3′部分为7.3-kb)片段作为FISH探针进行测定。探针所用的DNA片段由大阪国立生物医学创新、健康和营养研究所提供,并通过刻痕翻译用生物素16-dUTP(罗氏诊断)标记。杂交后,将载玻片与FITC抗生物素(Vector Laboratories)一起孵育。XLA3L短臂上检测到杂交信号(箭头),但XLA3S未检测到。比例尺代表5μm。
  2. 包含嗅觉受体基因的大缺失()集群。的示意结构第8染色体上的基因簇和邻近基因十、热带(XTR8)和X·莱维斯(XLA8L和XLA8S)。染色体位置:XTR8:107524547-108927581;XLA8L:105062063–106610199;XLA8S:91630596–92060451。水平条,基因组DNA序列;三角形,基因。外部基因簇,仅显示代表性基因。三角形的长度是按比例计算的。三角形的方向指示基因的5′至3′方向。细线连接着同源/同源基因。品红色三角形,基因;绿色三角形、假基因(点突变或截短基因)。的数量基因显示在基因簇下面。虚线,与XLA8L相比,XLA8S中的删除区域。着丝粒位于左侧,端粒位于右侧。
  3. S(蓝色)和L(绿色)染色体上分别缺失的基因组区域的相对频率(左面板)和大小(右面板)。这两个亚基因组都经历了因缺失而导致的序列丢失,然而,S亚基因组上的缺失更大且更频繁。根据仙人掌序列在爪蟾L和S亚属和十、热带基因组。第9_10号染色体莱维斯根据与热带X染色体。来自L的序列在S上不存在,但至少可以在十、热带在S中,由不超过25%长度的间隙组成的被称为删除区域。在L中,删除区域遵循相同的程序。
  4. 三联体基因座的识别如所述补充说明8.1根据基因2在两种基因中的存在情况,将基因座分为组X·莱维斯亚属(保留同源基因),与那些中间有假基因(假基因)或没有中间基因残余的亚属相比,通过脱殖(缺失)进行评估。为了使基因间长度正常化,我们将基因1和3之间的核苷酸距离分为X·莱维斯亚属的直系距离十、热带。标准化比率分布的中位数绘制在条形图上。平均而言,S缺失似乎大于L缺失(长度为52.9%,直向同源大小为80.2%十、热带区域)。
  5. 将前体miRNA位点(红色)的RNA-seq读取对齐+/-1kb的数量与基因组中10000个随机未标记的2.1 kb区域(蓝色)的读取计数进行比较。所有83对同源、基因间miRNA对在其区域内均显示出对齐,而随机选择的基因间序列中只有4127/10000对(41.27%)。假定的primary-miRNA位点的读取计数也高于随机选择的表达区域(Wilcoxon p=1.4E-38)。
  6. 对CACTUS序列进行分析,以识别每个序列周围的侧翼CNE十、热带基因。单线态长度大于50bp的CNE数量以红色显示,同源异型以蓝色显示。Komologov-Smirnov试验p值为1E-11。
  7. 计算每个染色体位点到最近基因的平均距离十、热带.单基因携带者的平均基因间距离X·莱维斯基因显示为红色,有两个基因的显示为蓝色。Wilcoxon p值=9.8E-24。
  8. 通过基因组足迹的基因保留分布十、热带正交曲线。我们将基因组足迹定义为CDS起始信号到终止信号(包括内含子)的基因组距离。x轴显示日志10(基因组足迹),y轴是每个bin的保留率。误差条是总偏差除以每个bin中的基因数的标准差。我们通过Wilcoxon检验测试了同源基因和单基因的长度差异(p值=2.4E-96)。
  9. 根据CDS长度的基因保留分布热带X正交曲线。x轴显示日志10(CDS长度),y轴是每个bin的保留率。误差条是总偏差除以每个bin中的基因数的标准差。我们通过Wilcoxon检验测试了同源基因和单倍体之间的长度差异(p值=1.7E-21)。
  10. 基因保留率的外显子数分布十、热带正交曲线。x轴表示外显子的数量;y轴是每个bin的保留率。误差条是总偏差除以每个bin中的基因数的标准差。我们通过Wilcoxon检验测试了同源基因和单基因之间的长度差异(p值=3.2E-8)。

预计违约频率6

保存图片、插图等的外部文件。对象名称为nihms816017f10.jpg
假基因

  1. 的插图高温超导。S公司假基因比对X.热带htt,以及现存的X.laevis htt公司。L(左),翻译成氨基酸。氨基酸位置显示在每行的开头。缺失的密码子用“−”标记。换档和提前停止分别用“X”和“*”标记(并用红色箭头指向)。(顶部)假基因的第一个外显子在S染色体上完全缺失。特征poly-Q区域由两个高温超导嗯。L(左).(底部)假基因中具有保守性的外显子,说明尽管有许多移码、提前终止、缺乏正确的开始和插入新序列,但我们在假基因中识别出许多密码子,这些密码子出现在较大的保守性区块中。
  2. 计算假基因年龄的模型说明。恒星代表当前伪基因化轨迹的非功能化点。我们假设非同义变化的预期速率可以通过现有基因的Ka和十、热带然后,我们比较假基因序列的Ks和Ka,以估计无功能化的时间。请参见补充说明9以进行更详细的讨论。
  3. 估计430个基因的假基因时代与突然出现的大于10 Mya(K> 0.03). 请参见补充说明9以进行更详细的讨论。
  4. 假基因表达与其现有同源基因的相关性。假基因中的少量表达往往与现有同源基因无关。
  5. 与所有现存基因(蓝色)相比,所有28个组织和发育阶段的假基因表达值直方图(红色)。假基因很少表达,并且往往表达水平低于现有的蛋白编码基因。
  6. 伪基因(红色)与现有基因(蓝色)的表达方差直方图。观察到的少量假基因表达在不同组织和发育阶段并不像现有基因那样发生变化。

预计违约概率7

保存图片、插图等的外部文件。对象名称为nihms816017f11.jpg
串联复制

  1. 系统发育树混合/商业银行集群。使用MUSCLE对核苷酸序列进行比对,并使用带有1000个自举序列的ML方法生成系统发育图(MEGA6)。不同颜色的圆圈表示X·莱维斯L基因(洋红),X·莱维斯S基因(蓝色),以及热带X基因(绿色)。该表显示了商业银行本研究中提出的和以前使用的基因名称(同义词)。
  2. FISH分析显示XLA3S特异性缺失节点5基因簇。一个单元节点5基因区域,包括外显子、内含子和基因间区域被用作FISH的探针(用Hoechst复染)。箭头表示杂交信号节点5s.比例尺指示5 um。
  3. 比较节点5基因簇。基因组测序显示节点5.e1.L~.e5.L型(粉红色)和节点6.L是群集的。放大节点5XLA3L中的基因和XLA3S中该簇的丢失得到了确认。伪基因(节点5p1.L~第4.L页节点5p1.S)以黑色表示。这个节点5的群集X.热带药物不包含任何假基因。
  4. X·莱维斯L染色体有四个完整的拷贝节点3(节点3.e1.L~.e4.L),而基因簇从X·莱维斯S染色体。A截断节点3基因(节点3p1.L)可能是假基因,高度退化的假基因(节点3p2.L和节点3p3.L)也存在于L染色体上。
  5. 喜欢节点3,vg1版本从S染色体上丢失,尽管有一个假基因(vg1页。S公司).vg1版本拉埃维斯X.laevisL染色体(vg1.e1.L版~.电子3.L)与相比十、热带Vg1蛋白中的氨基酸变化(Ser20到Pro20)已被证明会导致功能差异(补充说明13.9).vg1版本德里埃与哺乳动物同源gdf1.
  6. 在不同时期(半对数尺度),每1个预期4DTV(四倍退化颠倒)复制并保留到当前时期的所有基因的分数。图中还显示了线性拟合,这与恒定出生率和死亡率模型一致(两个拟合数据集中都省略了第一个历元X·莱维斯). 请参见补充说明11以进行更详细的讨论。
  7. 相同,但分别适用于“短基因”(CDS<600 bp)和“长基因”(CDMS>1200 bp)。新副本的丢失率似乎相似。如果在第一次100%失活突变发生时,新复制的基因的额外拷贝丢失了,我们预计平均丢失的基因会更长。

预计违约频率8

保存图片、插图等的外部文件。对象名称为nihms816017f12.jpg
基因表达分析

  1. 同源基因(红色)和所有基因(蓝色)之间的成对皮尔逊相关分布。左边的柱状图是阶段数据;权利是针对成年人的数据。x轴是相关性;y轴是数据的百分比。同源基因的相关分布更接近于一,因为它们最近是同一个位点。X·莱维斯TPM值0.5降至0。从分析中删除任何TPM不大于0的基因。然后,我们向所有TPM值添加0.1,并转换日志(log10).
  2. 按中位数比较装仓基因的散点图十、热带表达64他们的保留率X·莱维斯(co)-正交曲线。误差线是整个数据集的标准偏差除以在一个箱子中分析的基因数量的平方根。我们通过同源和单基因分布的Wilcoxon检验来评估显著性,p值=6.31E-113。
  3. 完整的箱线图如所示图4c放大后很难看到亚基因组之间的差异,这说明许多基因座偏离了偏好L同源对数的全基因组中位数。有一些L异常值表示为104与他们的S同源基因一样多,而没有S基因显示出如此强烈的趋势。这些差异在中进行了更详细的讨论补充说明12.
  4. 根据中定义的同源对数类绘制4DTv(四重简并断面)的箱线图补充说明12.4显著差异用红色星号标记(Wilcoxon p<1E-5)。HCSE组显示出比其他组更低的序列变化(p=3.7E-12),而NCDE组显示出高的序列变化率(p=5.6E-14)。
  5. CDS长度差异的箱线图X·莱维斯根据中定义的同源日志类进行同源日志补充说明12.4显著差异用红色星号标记(Wilcoxon p<1E-5)。HCSE组的CDS长度差异小于其他组(p=2.4E-13),NCDE组的同源对数CDS长度存在较大差异(p=2.1E-32)。
  6. Ka/Ks之间的箱线图X·莱维斯根据中定义的同源日志类进行同源日志补充说明12.4显著差异用红色星号标记(t检验p<1E-5)。HCSE组的非同义序列变化率低于其他组(p=8.2E-19),NCDE组和NCSE组的不同义序列改变率较高(分别为p=2.0E-12和p=7.0E-9)。
  7. RNA-seq分析六个六角(红色)和六个六角不锈钢(蓝色)期间X·莱维斯发育(左侧面板)和成人组织(右侧面板)。的表达式级别六个六角不锈钢低于六个六升在大多数发育阶段和成人组织中。
  8. 的示意图智人,十、热带X.laevis六个6位置(上面板)。洋红色和黑色方框分别表示CNE和外显子。系统发育树分析智人,十、热带X.laevis六个6CNE(左下面板)和Six6蛋白质(右下面板)。尤其是,六个六角不锈钢更加偏离X.热带六x6六个六角在编码蛋白序列和距离转录起始位点3kb内的保守非编码元件(CNE)中。材料、方法和基因组组装上的CNE位置在补充材料(补充注释13.1).
  9. 基于染色质状态属性,随机森林机器学习算法可以准确预测L与S的表达偏差。该分类基于所有在NF 10.5期表达差异大于3倍的基因(一组1129个基因)。曲线下ROC面积的平均值(黑色虚线)为0.778(10倍交叉验证)。使用线性支持向量分类选择特征,如扩展数据图8j所示。
  10. 随机森林分类中使用的选定特征的相对重要性(基于基尼杂质)。显示了分类中使用的所有特征。在各种变量中,启动子处H3K4me3和DNA甲基化的比率对决策树模型的贡献最大。基因周围基因组区域p300结合的差异也有助于Random Forest分类,启动子中是否存在一些特定转录因子基序也是如此。

预计违约频率9

保存图片、插图等的外部文件。对象名称为nihms816017f13.jpg
路径响应示例

  1. Wnt途径。左侧面板:经典Wnt通路的几个关键组成部分X·莱维斯基因组。括号中的数字表示Paralog的数量。含有同源基因对或单基因的成分分别以蓝色和红色显示。每个基因(Wnt:21个基因,LRP:2个基因,Fzd:10个基因,Dvl:3个基因,Frat(GBP):1个基因,GSK3:2基因,Axin:2个基因组,bcatenin:1基因,APC:2基因,TCF/LEF:4基因)根据亚细胞定位分为4组,单基因和同源基因保留的数量通过饼图显示。右侧面板:围绕四个单核基因的同步。
  2. 细胞周期。右上面板:细胞周期图和对每个阶段至关重要的调节蛋白。细胞周期蛋白H(CcnH)和Cdk7构成Cdk活化激酶(CAK),是激活所有Cdk所需的关键因子。编码细胞周期蛋白H和Cdk7(红色)而非其他调节因子(蓝色)的基因成为单核。左上面板:饼图显示了每个功能类别中同源对(蓝色)和单体(红色)的数量,如图所示。左下面板:的同步中央控制室cdk7型基因座十、热带X·莱维斯物种和染色体编号缩写:热带X(XTR1),X·莱维斯(XLA1L和XLA1S)。右下表:用于绘制饼图的单个基因如表所示。
  3. 河马路径。上部面板:河马途径成分及其同源基因对的保留。所示河马途径成分的所有基因均在X·莱维斯蓝色图标表示这两个同源基因都在正常发育和成人器官中表达。红色图标Taz表示单例。在大多数情况下,Yap可以与Taz互换,但Taz(而不是Yap)是Wnt信号(虚线)的中介。饼图显示了根据亚细胞定位分类的每种河马途径成分中同源对数对(蓝色)和单体(红色)的数量。下部面板:关于合成音的比较分析塔兹基因。十、热带scaffold 247没有被纳入染色体尺度组装(v9),因此其染色体位置尚不清楚。XLA8L和XLA8S的p臂端子位于左侧。

预计违约概率10

保存图片、插图等的外部文件。对象名为nihms816017f14.jpg
通道第2部分

  1. 转化生长因子β途径。饼图显示差异表达同源对(橙色)和单基因(红色)的比率。大部分细胞外调节因子要么受到差异调节,要么成为单一因子。I型受体、共受体和抑制性Smad的基因也受到不同的调节。多拷贝基因如节点3,节点5、和vg1版本虽然这些S基因被删除,但不算作单基因。相反,这些和重复腱蛋白基因分为差异调节基因。
  2. 刺猬小径。上部面板:示意图显示了Shh信号中已知的简化Hedgehog通路。大多数信号成分由两个同源基因编码,而Hhat(显示为红色)由单一基因编码。如果存在paralogs,Paralog的数量显示在括号中。在左侧细胞中,Shh前体(Hh前体)通过涉及Hhat和Hhatl的过程成熟并分泌。在右侧细胞中,Shh(Hh)与Ptch1(Ptch)受体的结合抑制Ptch1介导的对Smo的抑制,导致Smo激活和随后的PKA抑制;否则PKA会将Gli激活物转化为截断的阻遏物。因此,Gli蛋白激活靶基因,如Ptch1和Hhip。跨膜蛋白Hhip结合Shh并抑制Shh活性。下部面板:周围同步器的示意图比较小时的基因十、热带5号染色体(顶部)和X·莱维斯5L染色体(中间)和X·莱维斯5S染色体(底部)。该图未按比例绘制。
  3. 不同Pfam组的L(x轴)和S(y轴)缺失率。对于Pfam组,我们计算了X·莱维斯单拷贝基因(singleton)vs同源对数对,并计算保留的分数。根据全基因组平均值(56.4%),该线预计L/S损失。红点表示损失率高或低的组(p<0.01)。请参见补充表5了解更多信息。
  4. 不同阶段WGCNA组的L(x轴)和S(y轴)上的缺失率(可视化为图4a). 对于阶段WGCNA组,我们计算了X·莱维斯单拷贝基因(singleton)vs同源对数对,并计算保留的分数。根据全基因组平均值(56.4%),该线预计L/S损失。红点表示损失率高或低的组(p<0.01)。
  5. 不同GO组在L(x轴)和S(y轴)上的缺失率。对于GO组,我们计算了X·莱维斯单拷贝基因(singleton)vs同源对数对,并计算保留的分数。根据全基因组平均值(56.4%),该线预计L/S损失。红点表示损失率高或低的组(p<0.01)。请参见补充表5了解更多信息。

补充材料

支持指南

单击此处查看。(57K,docx)

支持_信息

单击此处查看。(352K,docx)

支持表1

单击此处查看。(65K,xlsx)

支持_表格10

单击此处查看。(83K,xlsx)

支持表11

单击此处查看。(56K,xlsx)

支持表2

单击此处查看。(96K,xlsx)

支持表3

单击此处查看。(56K,xlsx)

支持表4

单击此处查看。(23K,xlsx)

支持表5

单击此处查看。(92K,xlsx)

支持表6

单击此处查看。(24M,xlsx)

支持表格7

单击此处查看。(810万,xlsx)

支持表8

单击此处查看。(56K,xlsx)

支持表9

单击此处查看。(28K,xlsx)

致谢

作者贡献

RMH、MT、DSR、GJcV、AF、AS、AS、TK、YU、AF,MK和HO提供了项目领导,YM、MA、YI、NU、JS、JW、EM、JS、AMZ、PDV和MI.YI和JR近交J系青蛙提供了额外的项目管理。AT、CH、AF、JG、JC、JL、JS、TM和JL生成了基因组序列数据。JC、AS、TK、JJ和JS进行了基因组组装和验证。ST、TK、AS、US、TT、AT、AS和MT生成并分析转录组数据。AS、TK、SvH和SS生成了注释。注释的手动验证由HO、ST、AF、AS、MK、HO、TT、TM、MW、TK、YO、SM、YH、TN、YY、JF、KB、VL和KK完成。KM、AS和RH生成了膜壳病毒转录组数据。AS在SM和UH的帮助下进行了系统发育分析。MW、AF、SM、YU、YM和MT进行染色体结构分析。AS、AH、OS、JC和YU研究了转座因子。BAC-FISH由YU、AF、MK、AT、ST、HO、HO,YK、TT、TM、MW、TK、YO、YH、TY、CT、TN、AS、YM、NU、MA、YI、AF和MT.IQ、SH、NP和JS生成并分析染色质库及其在远程支架中的应用。HO和HO进行转基因增强子分析。SvH、GG、SP、IvK、OB、RL和GJcV生成并分析了表观遗传数据。AS、AS、TK、MK、MT、YO、TT、AF、MW、TM、TN和LD进行了基因和通路分析。DSR、AS、TK、RMH、MT、AS、YU、GV、MK、UH、SvH、AF、AH、OS、HO TTm IQ、JK、YO、ST、MW、TM、AT、HO、TK,SM、YS、TN、YI和MFF撰写了论文补充说明,由所有作者输入。

竞争性财务利益

Dovetail Genomics LLC是一家开发基因组组装方法的商业实体。尼古拉斯·普特南(Nicholas Putnam)和乔纳森·斯泰茨(Jonathan Stites)是鸽子尾巴基因组公司(Dovetail Genomics)的员工,丹尼尔·罗克萨(Daniel Rokhsar)是鸽尾巴的科学顾问和小投资者。

脚注

补充信息链接到该论文的在线版本。请参阅补充说明15获取资金信息和数据沉积信息。

工具书类

1Van de Peer Y,Maere S,Meyer A.古代基因组复制的进化意义。Nat Rev基因。2009;10:725–32.[公共医学][谷歌学者]
2Holland PW,Garcia-Fernández J,Williams NA,Sidow A.脊椎动物发育的基因复制和起源。发展。1994:125–33.[公共医学][谷歌学者]
三。穆勒·HJ。为什么动物多倍体比植物少。美国国家。1925;59:346–353。 [谷歌学者]
4或者HA。”为什么动物多倍体比植物多倍体更罕见。美国国家航空航天局。1990;136:759–770. [谷歌学者]
5彩虹鳟鱼基因组为脊椎动物全基因组复制后的进化提供了新的见解。国家公社。2014;5:3657. [PMC免费文章][公共医学][谷歌学者]
6Woods IG等人。斑马鱼基因图谱定义了祖先脊椎动物的染色体。基因组研究。2005;15:1307–14. [PMC免费文章][公共医学][谷歌学者]
7Glasauer SMK,纽豪斯SCF。硬骨鱼类的全基因组复制及其进化后果。分子遗传学。2014;289:1045–60。[公共医学][谷歌学者]
8Otto SP.多倍体的进化后果。单元格。2007;131:452–62.[公共医学][谷歌学者]
9Ohno S公司。基因复制进化。施普林格;柏林-海德堡:1970年。[交叉参考][谷歌学者]
10Kobel HR,Du Pasquier L.《多倍体非洲爪蟾遗传学》。趋势Genet。1986;2:310–315. [谷歌学者]
11Harland RM,Grainger RM。爪蟾研究:遗传学和基因组学的变形。趋势Genet。2011;27:507–15. [PMC免费文章][公共医学][谷歌学者]
12Kuramoto M.无尾两栖类染色体数目列表。公牛福冈大学教育。1990;39:83–127. [谷歌学者]
13Bisbee CA、Baker MA、Wilson AC、Haji-Azimi I、Fischberg M.爪蛙白蛋白系统发育科学。1977;195:785–7.[公共医学][谷歌学者]
14Uno Y、Nishida C、Takagi C、Ueno N、Matsuda Y。非洲爪蟾的同源染色体在全基因组复制后高度保守。遗传(Edinb)2013;111:430–6. [PMC免费文章][公共医学][谷歌学者]
15Uno Y等。根据比较基因图谱推断羊膜和四足动物的原核类型以及微染色体的进化过程。公共科学图书馆一号。2012;7:e53027。 [PMC免费文章][公共医学][谷歌学者]
16Matsuda Y等,基于与Silurana/Xenopus tropicalis系统发育关系的非洲爪蟾染色体新命名。细胞遗传学基因组研究。2015;145:187–91.[公共医学][谷歌学者]
17Yoshimoto S等人。一个W连锁的DM-域基因,DM-W,参与非洲爪蟾的初级卵巢发育。美国国家科学院程序。2008;105:2469–74. [PMC免费文章][公共医学][谷歌学者]
18Zhang X,et al.P不稳定因子:与Tourist样MITE扩增相关的活性玉米转座子系统和一个新的转座子超家族。美国国家科学院程序。2001;98:12572–7. [PMC免费文章][公共医学][谷歌学者]
19Jurka J,Kapitonov VV。PIF与游客和先驱见面:超级家庭团聚。美国国家科学院程序。2001;98:12315–6. [PMC免费文章][公共医学][谷歌学者]
20Ahn SJ、Kim MS、Jang JH、Lim SU、Lee HH。MMTS,一个新的Tc1样转座子亚家族。分子细胞。2008;26:387–95.[公共医学][谷歌学者]
21Morin RD等。非洲爪蟾和热带爪蟾10967个全长cDNA克隆的测序和分析揭示了四倍体后转录组重构。基因组研究。2006;16:796–803. [PMC免费文章][公共医学][谷歌学者]
22Hellsten U等。加速伪四倍体非洲爪蟾的基因进化和亚功能化。BMC生物。2007;5:31. [PMC免费文章][公共医学][谷歌学者]
23Bewick AJ、Chain FJJ、Heled J、Evans BJ。尖音根。系统生物学。2012;61:913–26.[公共医学][谷歌学者]
24Cannatella D.Xenopus在时空中:化石、节点校准、Tip-Dating和古生物地理学。细胞遗传学基因组研究。2015;145:283–301.[公共医学][谷歌学者]
25Voss SR等。通过分裂、融合和保留祖先染色体来研究两栖类和鸟类染色体的起源。基因组研究。2011;21:1306–12. [PMC免费文章][公共医学][谷歌学者]
26Ferguson-Smith MA,Trifonov V.哺乳动物核型进化。Nat Rev基因。2007;8:950–62.[公共医学][谷歌学者]
27Langham RJ等。基因组复制、分馏和监管新颖性的起源。遗传学。2004;166:935–45. [PMC免费文章][公共医学][谷歌学者]
28霍尔丹JBS。进化中反复突变所起的作用。美国国家。1933;67:5–19. [谷歌学者]
29Birchler JA、Veitia RA。基因平衡假说:将生物学科中的剂量敏感性问题联系起来。美国国家科学院程序。2012;109:14746–53. [PMC免费文章][公共医学][谷歌学者]
30Schnable JC,Springer NM,Freeling M.通过基因组优势和古代和正在进行的基因丢失区分玉米亚属。美国国家科学院程序。2011;108:4069–74. [PMC免费文章][公共医学][谷歌学者]
31Sankoff D,Zheng C,Wang B.全基因组复制后有偏分馏模型。BMC基因组学。2012;13(补充1):S8。 [PMC免费文章][公共医学][谷歌学者]
32Garsmeur O等人。两类进化上截然不同的古多倍体。分子生物学进化。2014;31:448–54.[公共医学][谷歌学者]
33Sémon M,Wolfe KH。非洲爪蟾异源多倍体化后慢进化基因的优先亚功能化。美国国家科学院程序。2008;105:8333–8. [PMC免费文章][公共医学][谷歌学者]
34Chain FJJ,Dushoff J,Evans BJ。多倍体化后重复基因持续存在的几率。BMC基因组学。2011;12:599. [PMC免费文章][公共医学][谷歌学者]
35Lee AP、Kerk SY、Tan YY、Brenner S、Venkatesh B。古代脊椎动物保守的非编码元素在硬骨鱼中迅速进化。分子生物学进化。2011;28:1205–15.[公共医学][谷歌学者]
36Force A等。通过互补性退化突变保存重复基因。遗传学。1999;151:1531–45. [PMC免费文章][公共医学][谷歌学者]
37Meredith RW、Gatesy J、Murphy WJ、Ryder OA、Springer MS。牙齿基因珐琅质(ENAM)的分子衰变反映了胎盘哺乳动物化石记录中珐琅质的丢失。公共科学图书馆-遗传学。2009;5:e1000634。 [PMC免费文章][公共医学][谷歌学者]
38Kondrashov FA,Koonin EV.理解基因显性起源和基因重复进化命运的通用框架。趋势Genet。2004;20:287–90.[公共医学][谷歌学者]
39Aury JM等。纤毛虫草履虫四urelia揭示的全基因组复制的全球趋势。自然。2006;444:171–8.[公共医学][谷歌学者]
40痛风JF、Kahn D、Duret L草履虫遗传后联合会。基因表达、基因剂量的进化和蛋白质进化率之间的关系。公共科学图书馆-遗传学。2010;6:e1000944。 [PMC免费文章][公共医学][谷歌学者]
41Yanai I,Peshkin L,Jorgensen P,Kirschner MW。两种爪蟾物种的基因表达定位:进化约束和发育灵活性。开发单元。2011;20:483–96. [PMC免费文章][公共医学][谷歌学者]
42Langley AR、Smith JC、Stemple DL、Harvey SA。关于母体到合子转变的新见解。发展。2014;141:3834–41.[公共医学][谷歌学者]
43Marcet-Houben M,Gabaldón T.《超越全基因组复制:贝克酵母世系中古代种间杂交的系统发育证据》。《公共科学图书馆·生物》。2015;13:e1002220。 [PMC免费文章][公共医学][谷歌学者]
44McClintock B.基因组对挑战的反应的重要性。科学。1984;226:792–801.[公共医学][谷歌学者]
45Chapman JA等人。Meraculous:用短配对读码进行从头基因组组装。公共科学图书馆一号。2011;6:e23501。 [PMC免费文章][公共医学][谷歌学者]
46Burton JN等。基于染色质相互作用的从头基因组组装的染色体尺度支架。国家生物技术。2013;31:1119–25. [PMC免费文章][公共医学][谷歌学者]
47Putnam NH等人。使用体外方法进行长距离连锁的染色体规模鸟枪组装。基因组研究。2015新闻界。[PMC免费文章][公共医学][谷歌学者]
48Chang CY,Witschi E.爪蟾性别分化的基因控制和激素逆转。Proc-Soc实验生物医药。1956;93:140–4.[公共医学][谷歌学者]
49Gilchrist MJ。从表达克隆到基因建模:爪蟾基因序列资源的开发。创世纪。2012;50:143–54. [PMC免费文章][公共医学][谷歌学者]
50Smit AFA、Hubley R、Green P。重复遮罩打开-4.0。 http://www.repeatmasker.org.
51Mitchell A等人。InterPro蛋白质家族数据库:15年后的分类资源。核酸研究。2015;43:D213–D221。 [PMC免费文章][公共医学][谷歌学者]
52Kanehisa M等人。数据、信息、知识和原理:回到KEGG中的新陈代谢。核酸研究。2014;42:D199–205。 [PMC免费文章][公共医学][谷歌学者]
53Calvo SE、Clauser KR、Mootha VK。MitoCarta2.0:哺乳动物线粒体蛋白质的最新清单。核酸研究。2015年doi:10.1093/nar/gkv1003。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
54Langfelder P,Horvath S.WGCNA:加权相关网络分析的R包。BMC生物信息学。2008;9:559. [PMC免费文章][公共医学][谷歌学者]