摘要

我们提出了一个概率框架,用于从任意性染色体类型(XY、ZW和UV)的杂交RNA-seq数据推断常染色体和性连锁基因。性染色体(尤其是非重组和重复意义的Y、W、U和V)的测序非常困难。已经制定了获得部分组装的性染色体序列的策略。它们中的大多数仍然很难应用于许多非模式生物,要么是因为它们需要参考基因组,要么是由于它们是为进化上古老的系统设计的。通过RNA-seq对杂交后代(亲本和后代)进行测序,以研究等位基因的分离并推断与性别相关的基因是一种成本高效的策略,它还提供了表达水平估计。然而,由于缺乏适当的统计框架,这一方法的广泛应用受到了限制。经验测试安静数据表明,我们的方法识别出的性连锁基因比现有管道多20-35%,同时为下游分析提供了可靠的推断。基于模拟的最佳结果需要大约12个人。对于具有未知性别决定系统的物种,该方法可以通过模型比较策略评估性染色体的存在和类型(XY与ZW)。该方法特别适用于年轻或中等年龄的性染色体,预计在数千个尚未研究的谱系中存在这种性染色体。任何可以在实验室中繁殖的生物,包括事先未知的非模型生物,都适合我们的方法。SEX-DETector及其在Galaxy工作流中的实现是免费提供的。

介绍

性别不同的物种(雄性和雌性)占动物总数的约95%(2012周). 在被子植物中,尽管更为罕见,但在约15000种植物中可以发现两性分离(雌雄异株)(雷纳2014). 大约20%的作物(例如番木瓜、葡萄、草莓、猕猴桃和菠菜)是雌雄异株的或来自雌雄同株的祖先(Ming等人,2011年). 然而,大多数植物和一些动物物种的性别决定机制尚不清楚(Bachtrog等人,2014年). 在许多情况下,甚至不知道是否存在性染色体。在被子植物中,雌雄同体已经独立地从祖先的雌雄同株状态进化了871-5000次(雷纳2014),但迄今为止报道的性染色体不到40条(Ming等人,2011年). 这表明,在95-99%的雌雄异株被子植物物种中,性别决定是未知的。这种情况在其他植物中更为严重,在约6000种雌雄异株苔类、约7250种雌雄异株叶藓和约381种雌雄异株裸子植物中,只描述了少数性染色体(Ming等人,2011年). 目前缺乏对褐藻和绿藻中雌雄异体发生频率的准确估计,而且在这些类群中描述的性染色体很少。因此,需要进一步研究描述非模式生物性别决定和性染色体的多样性(Bachtrog等人,2014年).

性染色体最初是一对正常的常染色体,在获得决定性别的基因后,会停止重组并彼此分离(2013年Bachtrog). 在雄性异配子系统中,雄性为XY,雌性为XX,而在雌性异配子体系中,雌性为ZW,雄性为ZZ。在具有单倍体生命周期的物种中,性别可以在单倍体阶段表达,U雌性和V雄性,二倍体个体是异配子UV(Bachtrog等人,2011年). Y、 W、U和V染色体都有一个非重组区域,可以很小,也可以扩散到大多数染色体。带有小的非重组区域的性染色体是同态的(X和Y大小相似),这使得通过细胞学鉴定它们很困难。然而,这种类型的性染色体可能在被子植物等群体中很常见,在这些群体中,许多雌雄异株物种最近进化而来,必须具有年轻的性染色体(Ming等人,2011年)在性染色体周转率高的鱼类等群体中(Mank and Avise 2009年)或偶尔重组限制性染色体分化的群体,如两栖类(Stock等人2013). 在这种情况下,需要序列来识别性染色体。

然而,由于重复序列在性染色体的非重组区域积累,获得组装良好的性染色体序列极为困难(Charlesworth等人,1994年;Gaut等人,2007年). 只有在物理图中组织BAC克隆的昂贵使用,才有可能从非重组区域完全组装DNA序列(休斯和罗森2012). 这就是为什么迄今为止只有少数非重组性染色体(Y、W、U或V)已被完全测序和组装(<15)。这包括八条哺乳动物Y染色体(Bellott等人2014)以及其他具有小的非重组区域的物种:苔类马坎蒂亚(Yamato等人,2007年),鱼美达卡(Kondo等人,2006年),绿藻沃尔沃(Ferris等人,2010年),木瓜树(Wang等人,2012年)和褐藻水云属(Ahmed等人,2014年). 组装Y的稀缺性是真实的,即使对于像果蝇属到目前为止,只有10%的Y染色体在黑腹果蝇基因组释放6(2013年Bachtrog;Hoskins等人,2015年)、和米兰达果蝇新Y染色体是草稿(周和巴赫特罗格2012). 然而,生产高质量的组件并不总是必要的,最近已经开发出了替代性的、成本较低的策略,用于根据下一代测序(NGS)数据识别性染色体序列(参见Muyle等人,2016年).

第一类方法依赖于女性和男性DNA-seq(使用NGS进行DNA测序)数据的比较(维科索和巴赫特罗格2011;卡瓦略和克拉克2013;Vicoso、Emerson等人,2013年;Vicoso,Kaiser等人,2013年;Akagi等人,2014年;Cortez等人,2014年). 由于这些方法需要参考基因组(来自所研究物种或近亲),因此很难应用于非模型生物,因为缺乏参考基因组和/或基因组较大且复杂。另一种方法使用SNP的倍性来识别性染色体序列(戈蒂埃2014)但需要对100个个体进行测序,这取决于测序方法,对非模式生物来说可能过于昂贵。最近在疟疾蚊子身上发现,PacBio等长读测序技术可以通过提供更大的Y支架来改进这些方法(Hall等人2016)或大猩猩(Tomaszkiewicz等人2016). 使用长读测序比使用BAC克隆更便宜,但对于基因组较大的生物体来说,即使可以分离出Y染色体,成本也相当昂贵(Tomaszkiewicz等人,2016年). 到目前为止引用的方法要求X和Y序列的发散程度足够大,不能相互组合或映射。这意味着它们在旧系统中工作良好,但在最近进化的性染色体中可能会失败。其他方法在年轻性染色体上也很有效,例如使用性标记(从多态性数据或遗传图谱推断)来识别基因组组装中属于性染色体的支架(Al-Dous等人,2011年;Picq等人,2014年;Hou等人,2015年). 然而,对参考基因组的需要可能再次成为许多非模型生物的障碍,尤其是那些基因组较大的生物。在这种情况下,研究转录组而不是基因组可能是一种非常有效的节约成本的措施。RNA-seq可以直接获取基因序列及其表达水平,这对各种生物分析都有价值。通过男性和女性的测序和SNP分析,可以确定转录组中哪些基因是性连锁的(即位于性染色体的非重组区域)。例如,一个近交系的兄弟姐妹可以测序并用于推断性连锁基因(Muyle等人,2012年). 但在大多数非模式生物中不太可能获得近交系。通过对等位基因分离的研究证明,一种依靠RNA-seq对杂交后代(每种性别的父母和后代)进行测序的策略在鉴定性连锁基因方面非常成功(图1). 该策略要求X和Y拷贝共同组装并相互映射,以便使用X/Y SNP识别X/Y基因(图1b). 如果Y拷贝因退化而缺失,或者如果X和Y过于分散而无法共同组装,则也可以自行识别X拷贝(图1c). 因此,这种策略更适合于具有低或中等程度差异的性染色体。然而,只要数据集中存在合适的SNP,它仍将在旧系统中提供性连锁基因的X个拷贝(图1c). 任何可以在受控条件下生长的生物都可以获得杂交后代,杂交后代是一种常见的资源,因为它们是构建遗传图谱所必需的。通过这种方法,在没有完全测序基因组的物种中鉴定出数百个性连锁基因,例如叉枝蝇子草(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011)或在没有任何基因组资源的物种中,例如哈氏酸模(Hough等人,2014年)和酸模(Michalovova等人,2015年).

三种分离类型的示例:(a)常染色体,(b)X/Y和(c)X半合子(当Y拷贝丢失或组装在单独的对照中时)。TFG代表真异配子亲本基因型,TMG代表真同配子亲代基因型。
F类免疫球蛋白. 1.—

三种偏析类型的示例:()常染色体(b条)X/Y,和(c(c))X半合子(当Y拷贝丢失或组装在一个单独的contig中时)。TFG代表真异配子亲本基因型,TMG代表真同配子亲代基因型。

尽管这种基于RNA-seq的交叉策略在研究非模式生物的性染色体方面非常有希望,但现有的方法有很多局限性,因为性别连锁的推断是通过经验过滤器进行的,而没有统计框架。一旦RNA-seq-reads被映射到参考转录组,为了研究杂交中的等位基因分离,需要对个体进行基因分型(图1). 基因分型要么通过用固定阈值过滤每个位点的读取次数来完成(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011)或使用为DNA-seq数据设计的基因型(Hough等人,2014年;Michalovova等人,2015年). 在性连锁基因中,Y等位基因的表达通常低于X等位基因,这是有问题的(参见2013年Bachtrog)并且可能与RNA-seq数据中的测序错误混淆。对于具有不同排序深度的另一个数据集,根据经验确定的给定数据集的读取数阈值可能是次优的。在许多情况下,为了降低成本,将每种性别的后代个体分别汇集在一起进行测序(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011;Michalovova等人,2015年). 然而,这使得不可能区分群体中的所有个体或只有少数杂合个体,这是从常染色体中分离性连锁基因的关键标准(图1). 最后,筛选出具有超过给定数量的性连锁SNP的性连锁基因(奇巴利纳和菲拉托夫2011;Hough等人,2014年)以及没有任何常染色体SNP(Bergero和Charlesworth 2011;Michalovova等人,2015年). 这些任意的过滤器明确地限制了该策略仅适用于特定数据集,并可能阻止检测许多真正的性连锁基因。此外,目前缺乏一种允许研究UV系统的方法。

在这里,我们提出了一种称为SEX-DETector的概率方法,该方法解决了以前基于RNA-seq交叉方法的警告,适用于任何性染色体类型(XY、ZW和UV)。该方法旨在从数据中发现尽可能多的性连锁基因,同时保持推理对于下游生物分析的可靠性。该流水线是在银河系工作流程中实现的,通过经验和模拟数据进行了测试,证明在非模型生物中发现许多性染色体和性连锁基因非常有希望,尤其是在年轻系统中。

材料和方法

概率模型

观察数据和隐藏数据

数据由每个重叠群的每个位置的杂交(每个性别的父母和后代)中的基因型组成,通常可以从RNA-seq实验中获得。该模型旨在描述在给定的杂交中,等位基因从父母到后代的传递,以推断一个基因是否是性连锁的,即它是否位于性染色体的非重组区(图1). 观测数据,表示为G公司由观察到的亲本和子代基因型组成,我们假设观察到这些基因型的概率取决于未知信息或我们想要恢复的隐藏变量。

隔离类型S公司描述了所研究的基因座是常染色体还是性连锁,这会影响父母向后代的等位基因传递。有三种分离类型j个:常染色体(j个=1),X/Y(或Z/W,j个=2)和X半合子(当Y等位基因缺失时),j个= 3). 离析类型的概率j个对于位置t吨继续k个P(P)(S公司k个t吨j个=1)=πj个.

引入真同配子亲本基因型TMG(在雄性异配子的情况下为真母基因型)来解释可能导致观察到的基因型与真基因型不同的基因分型错误。有十种可能的基因型对于同配子亲本:AA、AC、AG、AT、CC、CG、CT、GG、GT和TT在位置t吨contig的k个,给定分离类型j个是:P(P)(TMG公司k个t吨j个=1|S公司k个t吨j个=1)=α假设常染色体和性连锁基因座之间的真正母亲基因型频率没有差异,因此参数α独立于隔离类型j个.

真异配子亲本基因型TFG(对于雄性异配子的真父基因型)。可能的基因型n个对于异配子亲本,取决于研究位点的分离类型:常染色体分离类型有十种可能(AA、AC、AG、AT、CC、CG、CT、GG、GT和TT),X/Y(或Z/W)分离类型有十二种可能(XA类Y(Y)C类,XC类Y(Y)A类,XA类Y(Y)G公司,XG公司Y(Y)A类,XA类Y(Y)T型,XT型Y(Y)A类,XC类Y(Y)G公司,XG公司Y(Y)C类,XC类Y(Y)T型,XT型Y(Y)C类,XG公司Y(Y)T型、和XT型Y(Y)G公司)X半合子(或Z半合子)分离型(XA类,XC类,XG公司、和XT型). 给定隔离类型j个,真异配子亲本基因型的概率n个在位置t吨contig的k个,是:P(P)(TFG公司k个t吨j个n个=1|S公司k个t吨j个=1)=βj个n个也假设常染色体位点的真正父母基因型频率没有差异(β1=α).

基因分型错误(GE)。该变量描述了受试个体是否存在基因分型错误这取决于所研究基因座的分离类型和真正的亲本基因型。个体发生基因分型错误的概率在位置t吨继续k个,考虑到隔离类型j个和真正的亲本基因型n个是:P(P)(G公司E类k个t吨j个n个=1|S公司k个t吨j个=1,TMG公司k个t吨j个=1,TFG公司k个t吨j个n个=1)=ϵ。假设此参数对于所有连续和连续位置都是固定的。

Y(或W)基因分型错误YGE。这个变量解释了一个事实,即Y和W等位基因由于退化和低表达而导致基因分型错误更为常见。Y或W基因分型错误只能发生在异配子个体中赫特和X/Y隔离型(j个= 2). 与基因分型错误类似通用电气公司,这取决于真正的亲本基因型。个体发生Y或W基因分型错误的概率关于性的第页在位置t吨继续k个,考虑到隔离类型j个和真正的亲本基因型n个是:P(P)(YGE公司k个t吨j个n个第页=1|S公司k个t吨j个=1,TMG公司k个t吨j个=1,TFG公司k个t吨j个n个=1)=j个第页.年少者对于同配子个体等于零第页=高阶模任何分离类型。年少者对于异配子个体也等于零第页=赫特常染色体和X半合子分离型(j个2). 假设此参数对于所有连续和连续位置都是固定的。

当受到模型所有隐藏数据的制约时,可以定义观察父代和子代基因型的概率。观察的概率OG公司k个t吨第页,基因型后代个体性别的第页在位置t吨contig的k个,考虑到隔离类型j个,真正的亲本基因型n个,基因分型错误小时(有一个错误小时=ϵ或没有错误小时=(1ϵ))和Y基因分型错误d日(有一个错误d日=j个第页或没有错误d日=(1j个第页))是λj个n个小时d日,第页类似地,观察的概率PG公司k个t吨第页,基因型父母个人的关于性的第页在位置t吨contig的k个,假设所有隐藏数据μj个w个小时d日,第页,其中w个是被研究个体的真实基因型(或n个). 例如,常染色体分离型(j个=1),如果异配子亲本为真基因型n个是AC和同源配子亲本真基因型是AA(如所示图1a)如果没有发生基因分型错误[小时=(1ϵ)d日=(1j个第页)],然后是概率λj个n个小时d日,第页观察基因型=AA公司在后代中,雄性和雌性都是1/2。然而,对于X/Y分离类型,如图1b然后观察到AC基因型男性概率为1,AA基因型女性概率为1。同样,如果真的同配亲本基因型是AA并且没有发生基因分型错误,那么概率μj个小时d日,第页观察基因型=AA公司在同配子亲本中为1,如果该个体发生基因分型错误,则所有其他基因型AA公司可以以1/9的概率观察到(因为除AA外还有9种基因型)。在X/Y分离型与真异配子亲本基因型的情况下n个是XA类Y(Y)C类,如果存在Y基因分型错误,则观察到该个体的基因型AA的概率为1。的所有值λμ可以在中找到补充表S1,补充材料在线。

推断

使用期望最大化(EM)算法估计模型的参数值θ=(π,α,β,ϵ,)。EM算法的详细方程可以在中找到补充文本S1,补充材料在线。一旦估计了参数后面的根据观测数据计算隐藏数据的概率:Ŝk个t吨j个=P(P)(S公司k个t吨j个|G公司)后面的离析类型概率j个在位置t吨继续k个,给定观测数据G公司。使用贝叶斯规则,我们得到:
S公司^k个t吨j个=P(P)(S公司k个t吨j个)P(P)(G公司|S公司k个t吨j个)j个P(P)(S公司k个t吨j个)P(P)(G公司|S公司k个t吨j个)=π^j个,n个α^β^j个n个第页小时,d日小时d日(ϕj个n个小时d日,第页)G公司k个t吨第页j个π^j个,n个α^β^j个n个第页小时,d日小时d日(ϕj个n个小时d日,第页)G公司k个t吨第页,
具有小时(ϵ^,1ϵ^),d日(^j个第页,1^j个第页)和:
G公司k个t吨第页={O(运行)G公司k个t吨第页如果个人一个后代P(P)G公司k个t吨第页如果个人起源
Φj个n个小时d日,第页={λj个n个小时d日,第页如果个人一个后代μj个w个小时d日,第页如果个人起源属于真的基因型w个

对另一个进行了类似的推导后面的隐藏变量的概率TMG公司^k个t吨j个,TFG公司^k个t吨j个n个,通用电气公司^k个t吨j个n个,YGE公司^k个t吨j个n个第页.

然后,可以使用后面的分离类型S公司^k个t吨j个。轮廓被归因于使用多态和信息性位置的分离类别。一个被推断为X或Z半合子的多态性位置总是有信息的。只有当异配子亲本是杂合的并且具有与同配子亲本不同的基因型时,被推断为常染色体或X/Y的位置才被认为是有信息的(否则无法区分X/Y和常染色体分离)。这个后面的contig的分离类型是contig中信息位置的平均值(假设独立),根据基因分型错误的后验概率(如果一个位置有较高的基因分型误差)将位置赋予权重后面的在对连续分离类型的最终决策中,它将被赋予较小权重的概率):
S公司^k个j个=t吨S公司^k个t吨j个,n个TMG公司^k个t吨j个TFG公司^k个t吨j个n个(第页1通用电气公司^k个t吨j个n个)(第页1YGE公司^k个t吨j个n个第页)j个t吨S公司^k个t吨j个,n个TMG公司^k个t吨j个TFG公司^k个t吨j个n个(第页1通用电气公司^k个t吨j个n个)(第页1YGE公司^k个t吨j个n个第页).
重叠群属于性别连锁(X/Y或X-半合子)分离型,如果其后面的X/Y加X半合子的概率高于可调阈值(默认为0.8后面的概率大于0.5)。类似地,如果contig是常染色体分离的后面的如果contig具有至少一个无误的常染色体SNP,则成为常染色体的概率高于所选阈值。这里使用的阈值0.8是使用测试仪集选择的(见下文),值0.8提供了最佳的特异性。如果用户可以访问其物种中的测试仪集,他们可以相应地选择阈值,否则我们建议默认使用0.8。

对于每个SNP,真正的亲本基因型被推断为具有最高的基因型TMG公司^k个t吨j个TFG公司^k个t吨j个n个概率。使用该方法预测的X和Y(或Z和W)等位基因检索表达水平并写入输出。上述模型适用于X/Y和Z/W系统。SEX-DETector模型的另一个版本是为U/V系统编写的,可以在补充文本S2,补充材料在线。

性染色体存在的贝叶斯信息标准检验

该方法的最大似然框架允许使用模型选择策略来评估数据集中是否存在性连锁基因。一个模型M(M)可以使用贝叶斯信息准则(BIC)将这三种可能的分离类型与仅具有常染色体分离类型的模型进行比较,定义如下
B类C类(M(M))=2日志L(左)(θM(M))+θM(M)日志n个
在哪里?B类C类(M(M))是模型的BIC值M(M),L(左)(θM(M))是模型的可能性,θM(M)是模型的自由参数数量n个是样本大小。选择BIC值较低的模型。也可以通过比较两个BIC值来测试X/Y与Z/W系统。如果带有性染色体的模型最符合数据,但没有推断出性连锁基因,则意味着数据集中没有性染色体。这可能是因为额外的Y基因分型错误参数2小时e(电子)t吨这是针对性染色体模型的,与基因分型误差参数相比,该模型可以更好地解释数据中的映射和基因分型错误ϵ独自一人。请注意,如果X/Y(或Z/W)系统最适合数据,但仅推断出X半合子(或Z半合子)基因,则该系统可以是X0(或Z0)或X/Y,具有完全退化的Y染色体且没有Y表达(或Z/W具有完全退化W染色体)。

数据分析

工厂M材料和S排序

RNA-seq数据来自于叉枝蝇子草雌雄异株植物,具有性染色体,来自白玉草无性染色体的雌雄同体植物。我们使用了之前研究中使用的以下RNAseq文库:Leuk144-3,来自野生种群的雄性;10代自交系雌性U10_37(Muyle等人,2012年); 及其后代(C1_01、C1_3、C1_04、C1_05、C1_26、C1_27、C1_29、C1_34)。对于红松鼠,父亲来自野生种群(Guard_1),母亲来自另一野生种群(See_02),并且有后代个体(V1_1、V1_2、V1_4、V1_5、V1_8、V1_9)。个体生长在温度可控的温室中。采用QiagenRNeasy微型植物提取试剂盒,在去除花萼后,分别从发育阶段B1–B2的四个花蕾中提取总RNA两次。另外用QiagenDNase处理样品。用Aligent生物分析仪(RIN大于9)评估RNA质量,用Invitrogen Qubit评估数量。在琼脂糖凝胶上检查内含子跨越PCR产物,以排除基因组DNA污染的可能性。然后,将同一个体的两个提取液合并。对个体进行标记,然后汇总进行测序。样品由德国康斯坦茨GATC按照Illumina paired-en协议在Illuminia HiSeq2000上测序(片段长度150–250bp,从两端测序100 bp)。为生成了标准化的454库宽叶红豆杉使用四个不同发育阶段的芽提取物。本研究中使用的RNA-seq数据可通过欧洲核苷酸档案馆登录号PRJEB14171获得(Zemp等人,n.d.)。

装配

适配器、低质量和相同读数被移除。然后使用Trinity组装转录组(Haas等人,2013年)关于前面描述的10个人以及来自(Muyle等人,2012年)以及使用454到illumina-transformed-reads将标准化的454序列转换为illumina(因为Trinity不能将454读作为输入)。然后,使用/trinity-plugins/rsem-1.2.0/rsem-prepare-reference折叠亚型。使用核糖拾取器去除PolyA尾部和核糖体RNA。ORF是用Trinity’s transcripts_to_best_scoring_ORFs.pl预测的(这一步骤是兼性的,SEX DEector可以对编码或非编码序列起作用)。为了增加在同一contig中组装X和Y序列的概率,使用CAP3进一步组装ORF(CAP3-p 70,2007年10月15日版本,黄和马丹1999)Trinity组件内部(在Trinity中,组件可以将同一基因或副基因的替代转录物的连续体分组)。CAP3被证明有助于补充Illumina读取汇编程序,以获得更好的从头开始非模式生物转录组的组装(Cahais等人,2012年).

绘图、基因分型和分离推断

使用BWA(版本0.6.2,BWA-aln-n 5和BWA样本)将来自10个杂交个体的Illumina读数映射到组合上;李和杜宾2009). 然后使用SAMTOOLS(0.1.18版;Li等人,2009年). 使用IndelRealigner(GATK)对获得的比对进行局部重新对准(McKenna等人,2010年;DePristo等人,2011年)并使用Reads2snp进行分析(2.0版,-fis 0-模型M2-输出基因型最佳-多水平acc-最小平均值3-par false)(Tsagkogeorga等人,2012年)为了在每个基因座上对个体进行基因分型,同时考虑到等位基因表达的偏差,而不清除同源SNP,因为X/Y SNP往往会被paraclean(删除同源位置的程序)过滤掉(Gayral等人,2013年). 在使用EM算法估计参数后,使用SEX-DETector推断连续分离类型。筛选出后验分离类型概率高于0.8。所有这些步骤都是在Galaxy工作流中实现的(请参阅中的管道图2).

SEX-DETector管道:从所需数据到输出。通过模拟确定个体到序列的建议后代数量。模型的参数用红色表示:分离类型π、亲本真基因型频率α和β、基因分型误差ϵ和Y基因分型错误p。此处表示X/Y系统,但流水线与Z/W系统等效。对于U/V系统,只建议每种性别的两个人和一位家长,并且可以在一条Illumina Hi-seq 2000车道上进行测序。该管道在Galaxy中实施,以遵循Trinity的步骤。请注意,可以选择不同的汇编程序和映射程序,只有基因型Reads2snp才需要运行SEX-DETector。
F类免疫球蛋白. 2.—

SEX-DETector管道:从所需数据到输出。通过模拟确定个体到序列的建议后代数量。模型参数用红色表示:分离类型π,父母的真实基因型频率αβ,基因分型错误ϵ和Y基因分型错误此处表示X/Y系统,但管道与Z/W系统等效。对于U/V系统,建议每个性别只有两个个体和一个父母,并且可以在单个Illumina Hi-seq 2000泳道上进行测序。在三一学院之后的步骤中,该管道在银河系实施。请注意,可以选择不同的汇编程序和映射程序,只有基因型Reads2snp才需要运行SEX-DETector。

测试仪设置、灵敏度和特异性

在各种测试中,我们使用了209个先前已知分离类型的基因:129个实验已知常染色体基因,31个实验已知性连锁基因(X/Y或X半合子)和49个来自BAC序列的X连锁CDS(补充表S2,补充材料在线)。这209个基因的序列被爆破(爆破-e 1E-5)(Altschul等人,1990年)上的从头开始组装以找到每个基因对应的ORF。对同一性百分比超过90%且校准长度超过100 bp的爆破进行过滤,并进行手动检查。如果单个基因的多个RNA-seq重叠群与该基因的不同区域匹配,则它们被接受。如果多个contig匹配同一基因的同一区域,则只保留具有最佳识别率的contig。如果该基因中至少有一个匹配的基因是性别连锁的,则该基因被认为是性别连锁。然后使用SEX-DETector推断的基因状态计算特异性和敏感性值。同样的方法被用于计算之前三项研究的敏感性和特异性值宽叶红豆杉RNA-seq连接分离模式(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011;Muyle等人,2012年).
敏感=TP(转移定价)TP(转移定价)+FN公司
敏感性(或真阳性率)衡量检测真阳性TP(该方法推断出的与性别相关的基因)的能力。假阴性FN是该方法遗漏的性连锁基因。
特异性=TN公司TN公司+FP公司
特异性(或真阴性率)衡量避免假阳性FP(非性别连锁但通过该方法推断出的基因)的能力。真阴性TN是通过该方法检测到的非外链基因。
False(错误)发现费率=FP公司FP公司+TP(转移定价)

假发现率测量假阳性FP在所有推断的性连锁基因中的比例。

仿真

使用模拟基因型来测试各种参数对SEX-DETector敏感性和特异性的影响。首先使用程序ms为双亲(或UV系统中的单亲)模拟序列,以生成合并树(哈德逊2002; 看见补充图S1,补充材料在线,然后程序seq-gen使用ms树和分子进化参数生成序列(版本1.3.2x,seq-gen-mHKY-l contig_length-f 0.26 0.21 0.23 0.3-t 2-s theta)(Rambaut和Grassly 1997年). 产生了不同类型的序列:常染色体(ms 4 1-T)或X/Y(ms 4 1-T-I 2 3 1-n 2 0.25-n 1 0.75-ej XY_dvergence_time 2 1-eN XY_dvergence_time 1)或X-半合子(参数与X/Y相同,但未绘制Y序列)或U/V(ms 2 1-T-I 2 1 1-n 2 0.5-n 1 0.5-ej UV_dvergence 2 1-eN UV_dvergence 1)。然后,使用ms和seq-gen生成序列时确定的分离模式,对每种性别的给定数量的子代随机进行等位基因分离(参见补充表S1,补充材料在线隔离表)。θ=4N个e(电子)μ按估计值设置为0.0275宽叶红豆杉由(邱等人,2010).μ已设置为107,这意味着4N个e(电子)等于~70000。从观察到的连续长度分布中随机分配连续长度宽叶S.latifolia前面介绍的程序集。用于seq-gen的平衡频率是从SEX-DETector对观察到的宽叶红豆杉数据。根据PAML推断,转换到颠倒的比率设置为2(杨2007)上的宽叶红豆杉数据(Käfer等人,2013年). 基因分型错误率(ϵ)设为0.01,Y基因分型错误率(2小时e(电子)t吨)根据SEX-DETector在观察到的宽叶红豆杉数据。对五种类型的数据集进行了模拟,每组参数重复十次,每组数据模拟10000个连续数据集:

  • X的影响Y散度:五个不同的X–Y发散时间,单位为4N个e(电子)两代人都接受了测试宽叶红豆杉X–Y发散时间(4.5 My)或10倍或100倍以上或更小。X半合子contigs在性连锁contigs中的比例根据X–Y发散时间设置:分别为45000年、450000年、4.5My、45My和450My发散时间的0.002、0.02、0.2、0.6和1。以及Y基因分型错误的比例(因为已知Y表达随着X–Y散度的增加而减少):分别为0、0.01、0.13、0.2和1。模拟每种性别的四个后代。性连锁contigs的比例设定为10%。

  • 性连锁接触数的影响:测试了五种不同比例的性连锁重叠群(X/Y对或X半合子):30%(10000个中有3000个性连锁重叠群)、5%、1%、0.1%和0.01%。对每个性别的四个后代进行模拟,并将X–Y分歧设置为4.5My。

  • θ效应:三种不同θ=4N个e(电子)μ(多态性)检测:0.000275、0.00275和0.0275。模拟了每种性别的五个后代,X–Y发散设置为4.5My,X–Y发散时间单位为4N个e(电子)世代因θ值而异。性连锁contigs的比例设定为10%。

  • Z/W和X/Y系统中个体数量的影响:对每种性别的9个不同数量的后代个体进行X/Y系统测试:每种性别2、3、4、5、6、7、8、12或16个个体。性染色体大小设置为10%,X–Y/Z–W差异设置为4.5My。

  • U/V系统中人数的影响:对每种性别的8个不同数量的后代个体进行U/V系统测试:每种性别的1、2、3、4、5、6、7或8个个体。性染色体大小设置为10%,U–V差异设置为4.5My。

对于每个模拟数据集,使用SEX-DETector推断分离类型,并与真实分离类型进行比较,以计算敏感性和特异性值。

实施和可用性

SEX-DETector代码是用perl编写的,还开发了Galaxy工作流(请参阅用户指南和源代码,网址为http://lbbe.univ-lyon1.fr/-SEX-DETector-.html,上次访问时间为2016年7月30日)。

结果

SEX-DETector管道

SEX-DETector将一个集合的不同连续体的杂交(每种性别的父母和后代)的基因型作为输入文件。这些数据通常可以从RNA-seq中获得。输出是对每个SNP和数据连续性的推断分离类型(常染色体、X/Y或X半合子,参见图1例如)以及等位基因X和Y(或Z和W或U和V)表达水平。SEX-DETector管道如图所示图2并已作为Galaxy工作流实现。模拟结果表明,在X/Y或Z/W系统中,双亲加上每种性别的五个后代(共12个个体)的测序足以获得良好的结果(见下文)。RNA-seq的使用降低了成本,特别是对于基因组较大的物种。可以很容易地修改管道以处理DNA-seq数据。为了获得足够的覆盖率,对于RNA-seq(即Hiseq 2000上12个人的两条Illumina通道),建议每个人测序2000万到2500万个读数。还建议使用从复杂组织中提取的RNA,其中会表达许多基因,特别是决定性别的基因(例如植物中的花蕾)。父母应该从两个不同的群体中取样,以增加SNP的数量,从而提高该方法的功效。RNA-seq读取可以使用Trinity组合成转录本(Haas等人,2013年),尽管可以选择不同的汇编程序。汇编后的一个重要步骤是进一步汇编成绩单,例如使用CAP3(Huang和Madan 1999年),以将X和Y等位基因共组装在单个X/Y重叠群中,并避免X/Y重叠群被误认为是X半合子。将读取结果映射到程序集(使用任何映射器)后,可以对所有个体进行基因分型。Reads2snp的使用(Tsagkogeorga等人,2012年)强烈建议使用,因为它是为非模型生物的RNA-seq数据设计的,并且允许等位基因表达偏差,这是处理性染色体和表达不良的Y等位基因时的一个关键参数(2013年Bachtrog). SEX-DETector将Reads2snp_2.0输出作为输入。

SEX-DETector使用概率模型将contigs聚类为分离类型。SEX-DETector模型的参数是使用EM算法从数据中估计的(有关详细信息,请参阅“材料和方法”一节)。参数π对于分离型频率,可以处理不同的性染色体大小。参数αβ,亲本基因型频率,适应亲本的杂合性水平以及物种的基本组成。基因分型错误发生的概率ϵ解释了观察到的基因型和真实基因型之间可能存在的差异(由于测序、绘图或基因分型错误)。一个特定的Y基因分型错误参数适合Y等位基因因退化和低表达而导致的高基因分型错误率。

使用静音l阿替福利亚数据集

SEX-DETector管道(图2)在工厂中通过RNA-seq测序的交叉数据集上运行叉枝蝇子草这种雌雄异株的物种对我们的方法/管道进行基准测试很有意思,因为它的性染色体是众所周知的:它们相对较新(~5岁)(Rautenberg等人,2010年)但年龄足够大,明显是异形的(X是400 Mb,Y是550 Mb)(Matsunaga等人,1994年). X–Y同义差异范围为5%至25%(Bergero等人,2007年),宽叶红豆杉因此代表了一个中间年龄体系。此外,在该物种中还可获得209个已确定分离类型的基因的测试集(补充表S2,补充材料在线)。这里使用的数据集由一个杂交组合(双亲和每种性别的四个后代)组成。这些个体的RNA-seq数据是分别标记的,读取数据是使用Trinity和CAP3进行组合的,最终的组合包括46178个ORF(表1). RNA-seq读取被映射到这个组件上(参见补充表S3,补充材料在线获取文库大小和图谱统计数据),并使用Reads2snp对每个个体进行基因分型。对基因分型数据进行性别检测,以推断常染色体和性连锁基因(表1).图3显示了测试仪集合中的示例。对于某些基因,所有SNP都清楚地显示出相同的正确分离类型(图3A类–C),而在一些基因中,我们推断出混合分离模式,这归因于最近的平行组合或其他组装/映射问题(图3D) ●●●●。这些混合病例可以由用户筛选,尽管它们可能发生在真正的性连锁基因中,就像在图3D。

已知拉丁叶链球菌基因的SEX-DETector管道结果。每个信息性SNP的分离类型后验概率都显示出来(参见“材料和方法”部分),颜色代码参见图中的图例,基因分型错误的推断数量(参见“物质和方法”一节)显示在条形图中。(A) SlE72已知为常染色体,其加权常染色体平均概率(见“材料和方法”部分)为0.99。(B) 已知SlCypX为X/Y,其加权性连锁平均概率为0.96。(C) WUS1为X半合子,其加权性连锁平均概率为0.99。(D) BAC284N5-CDS13_SlX6a为已知的性连锁,其加权性连锁平均概率为0.82。
F类免疫球蛋白. 3.—

SEX-DETector管道已知结果宽叶红豆杉基因。隔离类型后面的每个信息性SNP的概率都会显示出来(参见“材料和方法”部分),颜色代码参见图中的图例,基因分型错误的推断数量(参见“物质和方法”章节)会显示在条形图中。(A类)SlE72为常染色体,其加权常染色体平均概率(见“材料和方法”部分)为0.99。(B类)已知SlCypX为X/Y,其加权性连锁平均概率为0.96。(C类)WUS1为X半合子,其加权性连锁平均概率为0.99。(D类)BAC284N5-CDS13_SlX6a为已知的性连锁,其加权性连锁平均概率为0.82。

表1

SEX-DETector管道在宽叶红豆杉数据集。

ORF类型数字
最终装配中的ORF46,178
有足够覆盖范围的ORF有待研究43,901
具有足够信息量SNP以计算分离概率的ORF17,189
后分离概率大于0.8的ORF15, 164
常染色体分离型ORF13,807 (91%)
分配给X/Y隔离类型的ORF1,025 (7%)
分配给X半合子分离类型的ORF332 (2%)
ORF类型数字
最终装配中的ORF46,178
有足够覆盖范围的ORF有待研究43,901
具有足够信息SNPs以计算分离概率的ORF17,189
后分离概率大于0.8的ORF15,164
分配给常染色体分离类型的ORF13,807 (91%)
分配给X/Y隔离类型的ORF1,025 (7%)
分配给X半合子分离类型的ORF332 (2%)
表1

SEX-DETector管道在宽叶红豆杉数据集。

ORF类型数字
最终装配中的ORF46,178
有足够覆盖范围的ORF有待研究43,901
具有足够信息量SNP以计算分离概率的ORF17,189
后分离概率大于0.8的ORF15,164
分配给常染色体分离类型的ORF13,807 (91%)
分配给X/Y隔离类型的ORF1,025 (7%)
分配给X-半合子分离型的ORF332 (2%)
ORF类型数字
最终装配中的ORF46,178
有足够覆盖范围的ORF有待研究43,901
具有足够信息量SNP以计算分离概率的ORF17,189
后分离概率大于0.8的ORF15,164
分配给常染色体分离类型的ORF13,807 (91%)
分配给X/Y隔离类型的ORF1,025 (7%)
分配给X半合子分离类型的ORF332 (2%)

我们使用测试仪集来测量我们的流水线的性能,即评估其敏感性(检测真实性连锁基因的能力)和特异性(不将常染色体基因指定为性连锁的能力,请参阅“材料和方法”部分)。在这里使用的RNA-seq数据(即花蕾)中,约有83%的已知性连锁基因被检测到,表明具有较高的敏感性。我们获得了该数据集99%的特异性,因为一个基因OxRZn被sex-DETector错误地指定为性连锁基因。然而,根据缺乏男性特异性等位基因,该基因早期被评估为常染色体(Marais等人,2011年)SEX-DETector将其归为一个与性别相关的类别,因为在该基因中检测到的四个SNP中,所有推测都是X半合子,并且都没有基因分型错误。因此,OxRZn很可能是一个真正的阳性基因,需要对该基因进行更多研究。

使用S.l公司阿替福利亚数据集

我们将我们的流水线的性能与之前使用RNA-seq数据推断性别连锁的工作中使用的性能进行了比较宽叶红豆杉(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011;Muyle等人,2012年). 这些管道在许多方面不同,数据本身也可能不同。在之前的工作中,有时在测序之前将同性后代个体汇集在一起(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011). 我们再次使用209测试仪宽叶红豆杉具有已知分离类型的基因,我们对每个数据集进行分析,以找到相应的重叠群及其推断的分离类型(详细信息请参见补充表S2,补充材料在线)。由于不同的管道需要不同类型的数据(集合子代与单独标记子代)和不同的读取覆盖率,我们计算了所有已知基因(表达与否)的敏感性。我们的管道在敏感性方面优于其他管道,而特异性则相当(参见图4补充表S4,补充材料在线查看详细信息)。这表明SEX-DETector可以发现更多与性别相关的接触,而不会增加假阳性率。

SEX-DETector与其他方法的比较:显示了敏感性和特异性值(见“材料和方法”部分)及其95%置信区间。使用209个已知的宽叶S.latifolia基因获得数值(见补充表S2,在线补充材料)。
F类免疫球蛋白. 4.—

SEX-DETector与其他方法的比较:显示了敏感性和特异性值(见“材料和方法”部分)及其95%置信区间。使用209个已知值获得值宽叶红豆杉基因(参见补充表S2,补充材料在线)。

如进一步分析所示,这是由于之前的工作中过于保守的筛选造成的。为了排除假阳性,在之前的研究中保留了至少具有五个性连锁SNP的基因。通过排除具有常染色体SNP的contigs进行更多筛选(Bergero和Charlesworth 2011;Hough等人,2014年). 如所示图5,只保留至少五个与性别相关的SNP的contigs,就消除了近一半被sex-DETector推断为与性别有关的Contig,其中许多人的后面的概率。进一步排除常染色体SNPs患者(仅保留与性别相关的SNPs)可去除74%的contigs(图5B) ●●●●。相比之下,SEX-DETector在筛选后面的概率高于0.8(表1),因为大多数基因具有非常高的后面的分离型概率,表示数据中的强信号,并说明使用基于模型的方法的好处。

方法的性能。将无基因分型错误的SNP数量与宽叶链球菌数据集的每个常染色体(A)和性连锁(B)contigs的后分离型概率绘制成图。显示了这两个变量的分布,直方图上每个类别的平均值用红点表示。经验性方法中常用的筛选后保留的性连锁基因显示为绿色(至少五个性连锁SNP,没有常染色体SNP)。另一方面,SEX DEector过滤0.8以上的后验概率(图上的水平线)和至少一个与性别相关的SNP,从而可以推断出更多的重叠群与性别相关,而与其他经验方法相比不会增加假阳性率(图4)。
F类免疫球蛋白. 5.—

方法的性能。无基因分型错误的SNP数量与后面的每个常染色体的分离型概率(A类)和性有关(B类)连续的宽叶红豆杉数据集。显示了这两个变量的分布,直方图上每个类别的平均值用红点表示。在经验方法中常用的过滤器后保留的性连锁基因显示为绿色(至少有五个性连锁SNPs,没有常染色体SNPs)。另一方面,SEX-DETector为后面的概率高于0.8(图上的水平线),并且至少有一个性别连锁SNP,因此可以推断出更多的连续序列与性别连锁,而与其他经验方法相比,不会增加假阳性率(图4).

模拟结果表明,SEX-DETector只需少量的实验工作即可在不同的性染色体系统上工作

我们通过生成具有常染色体或性连锁历史的融合树来模拟杂交(亲本和后代)的基因型(补充图S1,补充材料并使用这些树和分子进化参数生成亲本序列。通过从亲本中随机分离等位基因获得子代基因型,并添加基因分型错误层(见“材料和方法”一节)。每个数据集模拟了大约10000个contigs。SEX-DETector在每个数据集上运行(请参阅补充表S5,补充材料在线获取有关推论的详细信息)。

为了了解使用sex-DETector对每种性别的后代进行测序以实现最佳敏感性和特异性权衡,我们在模拟中改变了后代个体的数量。对于X/Y或Z/W系统,当对每种性别的五个后代个体进行测序时,获得了最佳结果(图6A) ;对更多后代个体进行测序并没有进一步改善结果。这表明测序12个个体(每种性别的双亲和五个后代个体)可能足以在X/Y或Z/W系统上实现sex-DETector的最佳性能。对于U/V系统,每种性别的两个后代个体似乎足以获得最佳的sex-DETector性能(图6B) 这表明对五个个体(孢子体亲本和每种性别的两个后代)进行测序对于U/V系统来说可能就足够了。因此,我们的模拟表明,SEX-DETector需要适度的实验努力才能可靠地识别表达的性连锁基因。

使用模拟来测量测序后代个体数量的影响。ROC曲线(真阳性率表示为假阳性率的函数)显示了在模拟数据中测序的子代数量对敏感性(TPR,真阳性率)和特异性(1-FPR,假阳性率)的影响。对contigs的完美分类将导致一个点,其TPR等于1,FPR等于零(图的左上角)。(A) X/Y或Z/W性别确定系统(当使用每个性别的五个以上后代时,所有点在左上角重叠)。(B) U/V系统(当使用每种性别的两个以上后代时,所有点在左上角重叠)。
F类免疫球蛋白. 6.—

使用模拟来测量测序后代个体数量的影响。ROC曲线(真阳性率表示为假阳性率的函数)显示了在模拟数据中测序的子代数量对敏感性(TPR,真阳性率)和特异性(1-FPR,假阳性率)的影响。对contigs的完美分类将导致一个点,其TPR等于1,FPR等于零(图的左上角)。(A类)X/Y或Z/W性别决定系统(当使用每种性别的五个以上后代时,所有点在左上角重叠)。(B类)U/V系统(当使用每种性别的两个以上后代时,所有点在左上角重叠)。

为了评估SEX-DETector对不同类型性染色体(老年与年轻、同态与异形)和物种(高度多态与弱多态)的适用性,我们使用了相同的模拟程序,并测试了一次一个参数对SEX-DETector敏感性和特异性的影响。在我们的模拟中,物种内的多态性程度对我们方法的性能没有影响(补充图S2A,补充材料在线)。至于非重组区域的大小(同态或异态性染色体)的影响,使用基因组中不同百分比的性连锁基因进行测试,对sex-DETector的性能没有影响(补充图S2B,补充材料在线)。只有在10000例contig中有一例存在性连锁contig时,才能达到检测到性连锁contig的极限。最后,模拟表明,我们的方法对X–Y发散具有鲁棒性,因为年轻和老年性染色体被均匀检测(补充图S2C,补充材料在线)。

SEX-DETector利用模型选择识别未知性染色体

性别决定系统在两性分离的物种中是未知的,也就是说,不知道它们是否有性染色体,如果有,系统是什么(Z/W或X/Y)。SEX-DETector基于相似性的框架允许我们通过使用贝叶斯信息标准(BIC,见“材料和方法”一节)比较模型与数据的拟合度来测试这些假设。在性别决定未知的物种中,可以比较带有和不带有性染色体的模型,如果检测到性染色体,则可以比较带有X/Y或Z/W系统的模型。该模型选择策略在经验和模拟数据上进行了测试。

宽叶红豆杉数据集中,SEX-DETector推断出的最佳模型是一个具有预期性染色体的模型,具有1357个性连锁的contigs(代表9%的后验概率高于0.8)。红松鼠在数据集(一个没有性染色体的物种)中,没有推断出性连锁连锁,因此最适合数据的模型是一个没有预期性染色体的模型(见“材料和方法”一节)。

为了知道从哪个比例的性连锁基因中可以检测到性染色体,我们将模拟数据中的模型与10000个模拟contigs中不同数量的性连锁contigs进行了比较(表2补充表S6,补充材料在线)。当没有模拟性连锁连体时,正如预期的那样,最好的模型是没有性染色体的模型。当模拟一个与性别有关的连环体时也是如此。在这种情况下,由于数据集中缺少信息,SEX-DETector无法检测到它。当模拟10个或更多的性连锁连体时,最好的模型是预期带有性染色体的模型。因此,10000个性别连锁基因中的10个为sex-DETector提供了足够的信息(即,1000个基因中可以检测到一个性别连锁的基因)。

表2

在年的经验数据集上使用SEX DEector进行模型比较叉枝蝇子草(具有性染色体)和红松鼠(没有性染色体)和模拟的X/Y数据集,在10000个模拟contigs中具有不同数量的性连锁contigs。最佳模型被选为BIC值最低的模型(见“材料和方法”一节和补充表S6,补充材料在线获取详细信息)

最佳模型最佳模型中的性连锁基因数
经验数据集叉枝蝇子草(X/Y系统)X/Y1357
白玉草(无性染色体)Z/W(Z/W)0
具有不同数量性连锁基因的10000个基因的模拟数据集(XY系统)0个性连锁基因无性染色体0
1个性连锁基因无性染色体0
10个性连锁基因X/Y16–57
100个性连锁基因X/Y156–181
500个性连锁基因X/Y592–624
3000个性连锁基因X/Y3159–3200
最佳模型最佳模型中的性连锁基因数
经验数据集叉枝蝇子草(X/Y系统)X/Y1357
白玉草(无性染色体)纵横比0
具有不同数量性连锁基因的10000个基因的模拟数据集(XY系统)0个性连锁基因无性染色体0
1个性连锁基因无性染色体0
10个性连锁基因X/Y16–57
100个性连锁基因X/Y156–181
500个性连锁基因X/Y592–624
3000个性连锁基因X/Y3159–3200
表2

使用SEX-DETector对叉枝蝇子草(带有性染色体)和红松鼠(没有性染色体)和模拟的X/Y数据集,在10000个模拟contigs中具有不同数量的性连锁contigs。最佳模型被选为BIC值最低的模型(见“材料和方法”一节和补充表S6,补充材料在线获取详细信息)

最佳模型最佳模型中的性连锁基因数
经验数据集叉枝蝇子草(X/Y系统)X/Y1357
白玉草(无性染色体)Z/W(Z/W)0
具有不同数量性连锁基因的10000个基因的模拟数据集(XY系统)0个性连锁基因无性染色体0
1个性连锁基因无性染色体0
10个性连锁基因X/Y16–57
100个性连锁基因X/Y156–181
500个性连锁基因X/Y592–624
3000个性连锁基因X/Y3159–3200
最佳模型最佳模型中的性连锁基因数
经验数据集叉枝蝇子草(X/Y系统)X/Y1357
白玉草(无性染色体)Z/W(Z/W)0
具有不同数量性连锁基因的10000个基因的模拟数据集(XY系统)0个性连锁基因无性染色体0
1个性连锁基因无性染色体0
10个性连锁基因X/Y16–57
100个性连锁基因X/Y156–181
500个性连锁基因X/Y592–624
3000个性连锁基因X/Y3159–3200

一旦推断出性染色体的存在,就可以测试系统是X/Y还是Z/W。X/Y和Z/W系统之间的模型比较基于经验数据和模拟数据:宽叶S.latifolia正如预期的那样,是X/Y系统(表2补充表S6,补充材料在线)。

讨论

总之,SEX-DETector实施了一个概率模型,用于计算后面的全同胞家系数据中每个RNA-seq连接的常染色体、X/Y和X半合子(仅X连锁拷贝)的概率。该方法适用于任何性染色体类型(XY、ZW和UV)。SEX-DETector使用从专门为RNA-seq数据设计的基因型仪获得的基因型(Tsagkogeorga等人,2012年;Gayral等人2013). 该基因型考虑到了不等等位基因的表达,这一点尤其重要,因为Y(或W)拷贝的表达往往低于X(或Z)拷贝(参见2013年Bachtrog). SEX-DETector模型也解释了基因分型错误。包含从组装到性链接推断的步骤的管道(图2)在Galaxy中实现,以便于使用。该管道已根据一个家族的RNA-seq数据成功测试叉枝蝇子草雌雄异株植物,具有相对较新但异型的性染色体。此前,该物种的基因被实验确定为常染色体或性连锁,这使得评估该方法的性能成为可能。使用sex-DETector管道可以识别样本组织中约83%的已知性连锁基因。使用敏感性和特异性值比较SEX-DETector与其他基于RNA-seq的方法宽叶红豆杉数据集(Bergero和Charlesworth 2011;奇巴利纳和菲拉托夫2011;Muyle等人,2012年). SEX-DETector显示出更高的敏感性(0.63,而0.25-0.43),而特异性仍接近1。SEX-DETector管道采用了一种基于统计的方法,可以检测到比以前更多的基因,同时保持了推论的高度可靠性。SEX-DETector管道也基于来自白玉草(一种没有性染色体的植物),并且没有产生预期的性连锁基因。我们通过模拟进一步测试了SEX-DETector方法,这表明该方法在不同的性染色体系统(老的或年轻的,同态或异态的)上表现良好。模拟还表明,很少有个体需要测序以获得最佳结果(ZW或XY系统不到12个个体,UV系统不到5个个体)。考虑到RNA-seq的成本,特别是在基因组较大的物种中,这使得该策略非常容易实现。SEX-DETector的似然框架使得使用模型比较策略评估数据中性染色体的存在和类型成为可能。这一程序在经验和模拟数据上被证明是有效的,前提是数据中超过万分之一的基因与性别相关。

当然,使用RNA-seq数据的缺点是,只有表达的基因才能通过SEX-DEector管道进行鉴定。这可以通过使用DNA-seq数据或将多个组织组合用于RNA-seq的数据来克服。此外,因为在RNA-seq数据中,Y特异基因无法与常染色体男性特异基因区分,所以SEX-DETector无法推断Y基因,除非它们与X对应物结合。这一要求使得该方法不太适用于旧的性染色体系统,在这种系统中,给定基因的X和Y拷贝可能过于分散而无法组合。然而,如果Y拷贝不存在或没有与X一起组装,X拷贝仍然可以自己识别(图1c). 为了尝试和识别丢失的Y连续体,可以将X半合子基因爆破到男性特异的连续体上,这可能代表发散的Y拷贝。这是对332个推断的X半合子基因进行的宽叶红豆杉数据集,其中只有五个与男性特异性contig显著匹配。这表明,由于Y的差异太大,很少有真正的X/Y基因对被错误地推断为X半合子宽叶S.latifolia,X–Y同义差异范围为5%至25%(Bergero等人,2007年). 这与人类性染色体上最后停止重组的区域相当:人类第3、4和5层的X–Y同义词平均差异分别为30%、10%和5%(Skaletsky等人,2003年). 因此,SEX-DETector将在具有年轻或中等年龄性染色体的物种中表现最佳,但也将在旧系统的最新层中发挥作用。在线SEX-DETector用户手册(第3-4页)中提供了推理困难的完整案例列表(例如,存在假常染色体基因、X染色体失活和印迹)以及可能的解决方案。用户手册中还提供了SEX-DETector可用于检测与表型相关的显性基因座而非性染色体的病例列表。

其他基于女性和男性DNA-seq数据比较来识别性染色体序列的方法只能检测X和Y相异的区域,这些区域既不能合并也不能相互映射(维科索和巴赫特罗格2011;Vicoso、Emerson等人,2013年;Vicoso,Kaiser等人,2013年;卡瓦略和克拉克2013;Akagi等人,2014年;Cortez等人,2014年). 因此,这些方法最适合旧的性染色体系统。其他方法适用于年轻的系统,但依赖于基因组测序(Al-Dous等人,2011年;Picq等人,2014年;Hou等人,2015年). 对于非模型生物,尤其是基因组较大的生物,获取参考基因组可能很困难。在这种情况下,RNA-seq数据要便宜得多。因此,SEX-DETector是一种很有前途的方法,可以发现非模式生物中的性染色体,特别是那些具有年轻性染色体的生物。这些类型的性染色体可能存在于数千个尚未研究的动植物独立分类群中(参见“引言”部分)(Ming等人,2011年;Bachtrog等人,2014年;雷纳2014),在所有真核生物中可能更多。

致谢

我们感谢Alex Widmer访问RNA-seq数据集和对原稿的评论,感谢Nicolas Galtier和Sylvain Glémin(ISEM-Montpellier)对Reads2snp的有用讨论,感谢Vincent Miele(LBBE)对SEX-DETector剖析和代码性能的建议,感谢Khalid Belkhir(ISEM-蒙彼利埃)为SEX-DETector(BWA,Reads2snp)和Philippe Veber(LBBE)上游使用的分析提供和调整Galaxy包装器,以帮助Galaxy。我们感谢编辑和三位匿名推荐人的宝贵意见。这项工作得到了GABM国家复兴开发署(Agence Nationale de la Recherche)的拨款(拨款编号:ANR-11-BSV7-013、ANR-11-BS V7-024;ANR-14-CE19-0021)和Alex Widmer的SNF项目(SNF 31003A_141260)的支持。

引用的文献

艾哈迈德
S公司
,等。
2014
.
褐藻性别决定的单倍体系统水云属服务提供商
.
当前生物量。
24
:
1945
1957
.

赤城
T型
亨利
感应电动机
科迈
L。
2014
.
植物遗传学。一种Y染色体编码的小RNA在柿子中作为性别决定因素
.
科学(纽约)
346
:
646
650
.

阿尔特舒尔
旧金山
吉什
W公司
米勒
W公司
迈尔斯
电子战
利普曼
DJ(DJ)。
1990
.
基本本地对齐搜索工具
.
分子生物学杂志。
215
:
403
410
.

巴赫特罗格
D。
2013
.
Y染色体进化:Y染色体退化过程的新见解
.
Nat Rev基因。
14
:
113
124
.

巴赫特罗格
D类
,等。
2011
.
所有的性染色体都是平等的吗?
遗传学趋势。
27
:
350
357
.

巴赫特罗格
D类
,等。
2014
.
性别决定:为什么有这么多方式?
《公共科学图书馆·生物》。
12
:
电子1001899
.

贝洛特
数据仓库
,等。
2014
.
哺乳动物Y染色体保留广泛表达的剂量敏感调节因子
.
自然
508
:
494
499
.

贝杰罗
查尔斯沃思
D。
2011
.
1000万年前植物性染色体系统中Y转录组的保存
.
当前生物量。
21
:
1470
1474
.

贝杰罗
福雷斯特
A类
卡莫
E类
查尔斯沃斯
D。
2007
.
雌雄异株植物X染色体上的进化层叉枝蝇子草:来自新的性连锁基因的证据
.
遗传学
175
:
1945
1954
.

卡埃斯
V(V)
,等。
2012
.
下一代测序数据中非模型动物的无参考转录组组装
.
摩尔生态资源
12
:
834
845
.

卡瓦略
AB公司
克拉克
阿拉伯联合酋长国。
2013
.
人类Y染色体序列的高效鉴定果蝇属基因组
.
基因组研究。
23
:
1894
1907
.

查尔斯沃思
B类
斯涅戈夫斯基
P(P)
斯蒂芬
西。
1994
.
真核生物重复DNA的进化动力学
.
自然
371
:
215
220
.

奇巴利纳
中压
菲拉托夫
陆军部。
2011
.
单倍体纯化选择延缓植物Y染色体退化
.
当前生物量。
21
:
1475
1479
.

科尔特斯
D类
,等。
2014
.
哺乳动物Y染色体的起源和功能进化
.
自然
508
:
488
493
.

德普里斯托
妈妈
,等。
2011
.
利用下一代DNA测序数据进行变异发现和基因分型的框架
.
自然遗传学。
43
:
491
498
.

Al-Dous铝合金
EK公司
,等。
2011
.
椰枣的从头测序和比较基因组学(凤指)
.
Nat生物技术
29
:
521
527
.

费里斯
P(P)
,等。
2010
.
扩大的性别决定基因座的进化沃尔沃
.
科学(纽约)
328
:
351
354
.

高特
英国标准
赖特
里佐
C类
德沃夏克
J型
安德森
斯里兰卡。
2007
.
重组:植物基因组进化中一个未被重视的因素
.
Nat Rev基因。
8
:
77
84
.

戈蒂埃
M。
2014
.
利用基因分型数据为染色体类型指定标记并推断个体性别:基于贝叶斯模型的分类器
.
摩尔生态资源
14
:
1141
1159
.

盖拉尔
P(P)
,等。
2013
.
来自下一代转录组数据的无参考群体基因组学和脊椎动物间的差距
.
公共科学图书馆-遗传学。
9
:
e1003457。

哈斯
BJ公司
,等。
2013
.
使用Trinity平台从RNA-seq从头转录序列重建参考生成和分析
.
Nat协议
8
:
1494
1512
.

霍尔
AB公司
,等。
2016
最近一次疟疾蚊子辐射中Y染色体的彻底重塑。美国国家科学院院刊113:E2114–E2123。

霍斯金斯
无线电高度表
,等。
2015
.
的Release 6参考序列黑腹果蝇基因组
.
基因组研究。
25
:
445
458
.

J型
,等。
2015
.
不同常染色体进化为性染色体的姐妹属柳属植物杨属
.
科学代表
5
:
9076
.

霍夫
J型
霍利斯特
JD公司
W公司
巴雷特
SCH公司
赖特
硅。
2014
.
开花植物老Y染色体和年轻Y染色体的遗传退化哈氏酸模
.
美国国家科学院院刊。
111
:
7713
7718
.

X(X)
马丹
答:。
1999
.
CAP3:一个DNA序列组装程序
.
基因组研究。
9
:
868
877
.

哈德逊
对。
2002
.
在Wright-Fisher中性遗传变异模型下生成样本
.
生物信息学(英国牛津)
18
:
337
338
.

休斯
JF公司
罗森
美国。
2012
.
人类和灵长类y染色体的基因组学和遗传学
.
《基因组学与人类遗传学年鉴》。
13
:
83
108
.

卡夫
J型
,等。
2013
.
雌雄异株和非雌雄异体的分子进化模式沉默。
进化生物学杂志。
26
:
335
346
.

近藤
M(M)
,等。
2006
.
性别决定区域和性染色体相邻区域的基因组组织麦加卡牌手表
.
基因组研究。
16
:
815
826
.

H(H)
杜宾
R。
2009
.
使用Burrows-Wheeler变换快速准确地进行短读对齐
.
生物信息学(英国牛津)
25
:
1754
1760
.

H(H)
,等。
2009
.
序列比对/地图格式和SAMtools
.
生物信息学(英国牛津)
25
:
2078
2079
.

曼克
JE公司
阿维斯
JC公司。
2009
.
硬骨鱼类的进化多样性和性别决定的转换
.
性发育。
:
60
67
.

马莱(Marais)
GAB公司
,等。
2011
.
该属雌雄染色体进化的多核基因系统发育分析安静
.
公共科学图书馆一号
6
:
1915年2月
.

松永
S公司
Hizume公司
M(M)
河曲
S公司
Kuroiwa村
T。
1994
.
细胞分析女娄菜:基因组大小、染色体大小和荧光就地杂交
.
细胞学
59
:
135
141
.

麦肯纳
A类
,等。
2010
.
基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架
.
基因组研究。
20
:
1297
1303
.

米哈洛沃娃
M(M)
库巴特
Z轴
霍布扎
维斯科特
B类
凯尼诺夫斯基
E.公司。
2015
.
使用RNA-Seq数据检测性连锁基因的全自动管道
.
BMC生物信息学
16
:
78

本达曼
A类
雷纳
不锈钢。
2011
.
陆地植物的性染色体
.
植物生物年收益。
62
:
485
514
.

缪尔
A类
剪切(Shearn)
马莱(Marais)
G.公司。
2016
植物性染色体的进化和剂量补偿。基因组生物进化。

穆伊尔
A类
,等。
2012
.
X染色体剂量补偿的快速从头进化叉枝蝇子草,一种具有年轻性染色体的植物
.
《公共科学图书馆·生物》。
10
:
e1001308号
.

皮克
S公司
,等。
2014
.
一个小的XY染色体区域解释了野生雌雄异株的性别决定葡萄属驯化葡萄中两性畸形的逆转
.
BMC植物生物学。
14
:
229
.

S公司
贝杰罗
福雷斯特
A类
凯撒
VB(虚拟语言)
查尔斯沃思
D。
2010
.
核苷酸多样性叉枝蝇子草常染色体和性连锁基因
.
Proc Biol Sci R Soc公司
277
:
3283
3290
.

兰伯特
A类
格拉斯利
北卡罗来纳州。
1997
.
Seq-Gen:DNA序列沿系统发育树演化的蒙特卡罗模拟应用
.
计算应用程序Biosci
13
:
235
238
.

劳滕贝格
A类
海瑟薇
L(左)
奥克塞尔曼
B类
普伦蒂斯
HC公司。
2010
.
地理和系统发育模式Silene公司从叶绿体和细胞核DNA序列推断的黑色素层(石竹科)
.
分子系统进化。
57
:
978
991
.

雷纳
不锈钢。
2014
.
被子植物性系统的相对和绝对频率:雌雄同体、单雌同体、雌同体和更新的在线数据库
.
Am J机器人
101
:
1588
1596
.

斯卡列茨基
H(H)
,等。
2003
.
人类Y染色体的男性特异区域是离散序列类的镶嵌
.
自然
423
:
825
837
.

股票
M(M)
,等人。
2013
.
X-Y重组率低,而非转换率低,是古北绿蟾蜍几种二倍体物种性染色体同态的原因(绿蟾蜍子组)
.
进化生物学杂志。
26
:
674
682
.

托马斯基维茨
M(M)
,等。
2016
.
哺乳动物Y染色体测序的时间和成本效益策略:在大猩猩Y染色体从头组装中的应用
.
基因组研究。
26
:
530
540
.

查哥哥尔加
G公司
卡埃斯
V(V)
加尔捷
N。
2012
.
快速进化者的群体基因组学:被囊动物的高度多样性、功能限制和分子适应肠蝉
.
基因组生物进化。
4
:
740
749
.

维科索
B类
巴赫特罗格
D。
2011
.
缺乏全球剂量补偿曼氏血吸虫,一种雌性异食性寄生虫
.
基因组生物进化。
:
230
235
.

维科索
B类
艾默生
JJ公司
Zektser公司
Y(Y)
马哈扬
S公司
巴赫特罗格
D。
2013
.
蛇的比较性染色体基因组学:分化、进化层次和缺乏全局剂量补偿
.
《公共科学图书馆·生物》。
11
:
e1001643号
.

维科索
B类
凯撒
VB(虚拟语言)
巴赫特罗格
D。
2013
.
emus同态性染色体性别偏向基因的表达及其对性染色体进化的意义
.
美国国家科学院院刊。
110
:
6453
6458
.

J型
,等。
2012
.
番木瓜X和Yh染色体测序揭示了早期性染色体进化的分子基础
.
美国国家科学院院刊。
109
:
13710
13715
.

SC.公司。
2012
.
雄性和雌性在介导动物雌雄同体和两性间进化转换中的作用
.
进化
66
:
3670
3686
.

大和
KT公司
,等。
2007
.
苔类Y染色体的基因组织揭示了单倍体系统中不同的性染色体进化
.
美国国家科学院院刊。
104
:
6472
6477
.

Z.公司。
2007
.
PAML 4:最大似然系统发育分析
.
分子生物学进化。
24
:
1586
1591
.

Zemp公司
N个
,等。女性的调节变化推动了性别偏见基因表达的进化。

巴赫特罗格
D。
2012
.
性别特异性适应推动性染色体早期进化果蝇属
.
科学(纽约)
337
:
341
345
.

作者注释

这些作者为这项工作做出了同等贡献。

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系日记.permissions@oup.com

补充数据