1.简介
与一个或多个基因表达相关的遗传变异(如单核苷酸多态性(SNP))称为基因表达数量性状位点(eQTL)。全基因组eQTL研究是了解遗传变异功能作用的有力工具。例如,eQTL分析可以帮助解释全基因组关联研究(GWAS)的结果[1].
eQTL有两种类型,顺式-eQTL和反式-eQTL[2,三]它们的区别在于它们诱导的表达变化模式。为了准确定义这些eQTL类型,我们首先定义了术语“等位基因”。考虑一个二倍体基因组,每个染色体有两个同源副本:母体副本和父体副本。因此,每个遗传位点(例如SNP或基因)在细胞内都有两个拷贝,这两个拷贝被称为该位点的两个等位基因。对于受顺式-eQTL,每个等位基因的表达受到相应同源染色体的遗传含量的调节,从而导致基因表达的等位基因不平衡。相反,对于受反式-eQTL,这两个等位基因的表达被修改到相同的程度。
以下概念顺式-和反式-eQTL对我们的方法开发至关重要,因此我们通过两个示例进一步说明了它们。考虑一个顺式-eQTL,这是一个SNPA类和T型等位基因。这个A类等位基因抑制转录因子的结合,从而上调附近基因的表达。相比之下T型等位基因不影响转录因子结合。如果我们用A类或T型等位基因(基于该顺-eQTL和感兴趣的邻近基因之间的已知相位),该顺-eQTL导致A等位基因的表达低于T等位基因。反式eQTL的一个例子是影响转录因子活性的SNP,转录因子反过来调节基因的表达,它对两个等位基因的基因表达具有相同的影响。
Cis公司-由于顺式-eQTL通常位于它们影响的基因附近。变速箱-另一方面,eQTL可以定位在基因组中与其调控的基因相关的任何位置[2]. 重要的是要强调顺式-eQTL和反式-eQTL并不是基于它们与目标基因的接近程度,因为局部eQTLs可以诱导顺式-或反式-表达模式发生变化。
传统的eQTL映射方法隐含地假设eQTL-对样本中的所有细胞都有相同的影响。对于具有相对均匀细胞群的样本,这是一个合理的假设。然而,肿瘤样本总是同时含有肿瘤细胞和浸润的正常细胞(如免疫细胞),这两种类型的细胞之间的eQTL效应可能不同。为了定量地捕捉肿瘤细胞群中不均匀性的概念,我们考虑其肿瘤纯度,定义为肿瘤样本中肿瘤细胞的比例。以往对肿瘤样本的eQTL研究往往忽略肿瘤纯度信息,直接采用假设肿瘤样本由均质细胞组成的eQTL定位方法[4,5,6,7,8]. 当肿瘤和正常eQTL不一致时,我们的结果表明,忽略肿瘤纯度可能会导致识别肿瘤特异性eQTLs时出现严重的I型错误().
从仿真研究中检查I类错误(A)和功率(B),仿真的详细信息见第2节在这里,我们将真正的发现定义为肿瘤特异性eQTL。在面板(A)中,肿瘤特异性eQTLs效应为1(对应于无eQTL效应),而正常特异性eQTL效应从1.0增加到3.0。在面板(B)中,正常特异性eQTL效应为1,肿瘤特异性eQTL效应从1到1.8不等。LR、TReC和TReCASE方法忽略了肿瘤纯度信息,而其他三种方法解释了肿瘤纯度。这些方法的细节将在方法部分.
在本文中,我们重点研究了利用种系遗传变异进行eQTL定位。建议的方法可以扩展到使用体细胞变异研究eQTL定位,但这种扩展必须解决体细胞突变的肿瘤内异质性的挑战。据我们所知,只有一项先前的工作考虑了类似的问题,即给定细胞类型比例估计值的细胞类型特异性eQTL定位[9]. 具体而言,Westra等人[9]使用线性模型确定中性粒细胞特异性eQTL:y=β0
+β1G+β2
P+β三普通合伙人其中y是基因表达,G公司是基因型,并且P(P)是中性粒细胞比例的估计值或代理值。通过检验假设,确定了中性粒细胞和其他细胞类型之间eQTL效应不同的位置β三= 0. 这种方法不能直接估计或评估细胞类型特异性eQTL效应。我们在分析中表明,该方法的一种变体显式建模肿瘤特异性eQTL效应,其功率低于我们提出的方法。将所提出的方法应用于癌症基因组图谱(TCGA)提供的547名乳腺癌女性的遗传和基因表达数据。我们检查了每个假设模型之间关于eQTL鉴定的一致性和不一致性,并讨论了通过我们的方法鉴定的一些有趣的eQTLs。
2.方法
我们的模型是TReCASE方法的扩展,该方法使用RNA-seq数据进行eQTL定位[10]. TReCASE方法沿着两个维度(总读取计数(TReC)和等位基因特异表达(ASE))对RNA-seq数据进行建模,并同时使用这两种类型的数据进行eQTL定位[三,10]. 感兴趣基因的TReC是映射到该基因的RNA-seq读数的总数。在TReCASE框架下,跨样本的TReC由负二项分布建模。一个基因的ASE是通过与一个单倍型的基因型相匹配而不是与该基因的另一个单倍型相匹配的等位基因特异性读数来量化的。因此,如果RNA-seq阅读与两个单倍型中杂合的至少一个SNP重叠,则它是等位基因特异性的。根据TReCASE框架中的β-二项式分布,一个等位基因的等位基因特异性阅读次数与总等位基因特定性阅读次数相同。
TReCASE方法联合分析TReC和ASE数据顺式-eQTL,因为这两种类型的数据提供了关于顺式-eQTL s.相反,对于反式-eQTL:eQTL-对于TReC,eQTL-eQTL效应为非零,而对于ASE,eQTL效应为零,因此只有TReC数据用于绘制跨QTL。TReCASE模型隐含地假设eQTL-效应在样本中的所有细胞中都是相同的,这对于肿瘤样本可能是不正确的。在本文中,我们通过将肿瘤纯度和分离肿瘤特异性和正常特异性eQTL效应纳入我们的似然模型,扩展了用于肿瘤eQTLs研究的TReCASE模型。我们将这个新模型称为pTReCASE。
2.1. 数据
我们假设来自肿瘤样本的阶段性生殖系基因型数据和RNA-seq数据可用于n个独立主体。由于生殖系基因型数据已经分阶段进行,我们对受试者的两个单倍型中的每一个都有基因型。我们还假设每个肿瘤样本都有肿瘤纯度的估计值。例如,可以使用体拷贝数畸变数据估计肿瘤纯度[11].
由于pTReCASE被设计为分别分析每个基因SNP对,在下面的讨论中,我们考虑了感兴趣的特定基因和该基因的单个潜在eQTL的模型。为了清楚和简单起见,我们抑制了与基因和eQTL相关的下标,并注意到给定的结构适用于任何基因-SNP对。让G公司(我)是潜在eQTL的受试者i的基因型。G(i)可以取{AA,AB,BB}中的值,其中A和B表示潜在eQTL的两个等位基因。让ρ我,d日我、和x个我= (x个我1, …,x个知识产权)T型是肿瘤纯度估计值、读取深度测量值和p协变量向量我-第个样本。我们设置了d日我作为所有基因中TReCs的75百分位我-第个样本,这是一种比所有基因的TReCs总和更可靠的测量读取深度的方法。
2.2. 纯度校正总读取计数(pTReC)模型
总读取计数Y(Y)我定义为映射到给定基因的RNA-seq读取数。我们假设Y(Y)我遵循负二项分布且过度分散ϕ和特定主题的意思μ我,其可能性由以下公式给出:
具有E(Y我)=μ我和.总结所有n个受试者,pTReC模型的对数似然为:
在不纯肿瘤样本中,pTReC捕获了潜在eQTL对Y(Y)我通过其规范μ我(方程式5). 为了阐明μ的结构我,我们必须首先定量地定义肿瘤细胞和正常细胞的这些遗传效应。让μiA公司和μ国际银行是等位基因A和B的平均表达我-th主语,并使用上标(T)和(N)分别表示肿瘤细胞和正常细胞的测量值。的值,,、和允许在不同对象之间变化,但我们假设这些数量的比率是在不同对象间保持不变的总体水平参数。这可以通过以下事实来证明,即受试者的特定因素,例如我-受试者、年龄、性别等对两个等位基因的等位基因特异性表达具有相同的影响,因此当我们检查它们的比率时,它们会相互抵消。象征性地:
因此,γ代表了所有受试者常见的肿瘤细胞中的人群水平eQTL效应η是正常细胞的对应物。其余参数,κ,是一个讨厌的参数,用于模拟肿瘤和正常组织之间的基线基因表达差异。什么时候?γ=1,由于等位基因A和B的平均表达相同,肿瘤内不存在eQTL效应。什么时候?γ<1(或γ>1),相对于A等位基因,B等位基因表达不足(或过表达)。的含义η,正常组织中的eQTL效应也可以类似地解释。
现在让我们ξ我
= μ国际银行/μ国际机场假设等位基因的平均表达是其在肿瘤细胞和正常细胞中表达的加权总和,我们得到:
哪里c(c)我= (ρ我κ) / (1−ρ我+ρ我κ). 第三个等式是分子和分母除以因此,肿瘤样本中的总体遗传效应是肿瘤细胞和正常细胞中遗传效应的混合。
接下来,我们考虑建模μ我不同基因型之间。首先,如果我-第个受试者在候选eQTL处具有AA基因型,
我们建模使用日志读取深度的线性函数第页协变量:。对基因型为AB和BB的受试者应用类似推导,我们得到:
注意,在上述方程式中,遗传效应η和γ通过以下方式影响基因表达ξ我、和ξ我用于模拟μ我跨三个基因型组:AA公司,AB公司、和BB公司这些方程还表明,在负二项回归中,我们不能将观察到的基因型视为额外的协变量,因为它与对数相关(μ我)不是线性的。
让β= (β0,βd日,β1, …,β第页)T型.我们估计了所有参数,包括,β,ϕ,κ, η和γ,通过最大化中的似然函数方程式(1),使用块坐标上升算法。鉴于涉及的条款κ, η、和γ在里面方程式(5)作为补偿,问题变成了带有回归系数的标准负二项回归β和过频散参数ϕ因此,湿陷β和ϕ作为参数和κ, η、和γ作为另一个区块。在块坐标上升过程中,我们通过最大化似然来估计一块参数,同时将另一块的参数保持在固定值。然后迭代估计每个参数块,直到参数估计收敛。具体来说,给定β和ϕ, κ, η、和γ采用准牛顿法(LBFGS)进行估算。然后,给定κ, η、和γ,β和ϕ通过负二项回归估计。
2.3. 纯度校正的等位基因特异性表达(pASE)模型
我们首先简要介绍了ASE的测量方法,并请读者参考Sun和Hu(2013)[三]了解更多详细信息。对于每个受试者,我们假设有两个任意标记的单倍型,即单倍型1和单倍型2的分阶段基因型数据。我们提取与基因体内至少一个杂合SNP重叠的所有RNA-seq读码,并将每个读码分配给与其核苷酸序列匹配的单倍型。由于每个受试者的单倍型1和2被任意标记,我们通过重新标记这些单倍型与候选eQTL的基因型来确保受试者之间的可比性。对于候选eQTL杂合的受试者,单倍型A包含候选eQTL的A等位基因,而单倍型B包含B等位基因。对于候选eQTL纯合的受试者,单倍型A和B可以任意定义,而不影响似然函数或统计推断。
让R(右)国际机场和R(右)iB公司是分配给单倍型的等位基因特异RNA-seq读取数A类和B类分别是。让R(右)我=R(右)国际机场+R(右)国际银行是等位基因特异性RNA-seq读取的总数。在人类群体中,通常约5-10%的RNA-seq读取与至少一个杂合SNP重叠,因此是等位基因特异性读取。换句话说,R(右)我约为Y(Y)我.我们建模R(右)国际银行鉴于R(右)我使用具有成功概率的贝塔二项分布π我和过分散ψ,其可能性由以下公式给出:
结合所有个人,我们可以将ASE模型的对数似然表示为:
遵循以下定义ξ我对于中的pTReC模型方程式(3),我们为ASE数据定义了一个类似的量化:ξi、 酶=μ国际银行/μ国际机场= (1 −c(c)我)ηASE公司+c(c)我γ
ASE公司,其中c(c)我= (ρ我κ) / (1−ρ我+ρ我κ). 然后
我们添加下标ASE公司在符号中ξ我, δ、和γ用于pASE模型,以便区分顺式-表演和反式-代理eQTL。对于顺式-eQTL、,ξi、 ASE公司定义见方程式(3)。对于反式-然而,eQTL,ξi、 ASE公司=1,因为A和B等位基因的表达受到相同程度的影响。上述建模策略的结果是,ASE对于κ, ηASE公司,或γASE公司当eQTL为反式-表演。此外,对于顺式-eQTL,潜在eQTL-纯合子的受试者不参与eQTL参数的估计κ, ηASE公司,或γASE公司然而,这些受试者对过分散参数具有信息性ψ.
对于pTReC,pASE中的模型拟合也通过使用两个参数块的块坐标上升算法来实现:一个块由一个参数组成ψ,另一块由κ组成,ηASE公司和γASE公司。我们迭代估计这两个块的参数,直到收敛。通过LBFGS完成每个块的更新。
2.4. pTReCASE:统一pTReC和pASE模型
限制为顺式-eQTL、pTReC和pASE模型共享κ, η、和γ允许统一为单一似然模型的参数:
其中θ=(κ, η, γ,βT型,ϕ, ηASE公司,γASE公司,ψ)T型,其中包括pTReC或pASE模型中的所有参数。回想一下β= (β0,βd日,β1, …,β第页)T型.
请注意,上述可能性相关Y(Y)我和R(右)我,分别为RNA-seq读取总数和等位基因特异性RNA-seq-读取数。如果read与至少一个杂合SNP重叠,则为等位基因特异性。因此给出Y(Y)我,分布R(右)我是RNA-seq读取长度(读取长度越长,与杂合SNP重叠的可能性越大)和基因内杂合SNPs数量的函数。可以合理地假设这两个因素都独立于eQTL效应。因此,我们可以删除P(右)我
|Y(Y)我
)从似然函数出发。所有人的逻辑一致性n个然后由以下公式给出受试者:
模型拟合通过使用三个块通过块坐标上升实现:块1包括κ, η和γ; 区块2包括ϕ,βd日和βj个对于j=0.1,…,p; 区块3包括ψ独自一人。单个更新由以下步骤定义。首先,给定块2和3的参数,使用LBFGS更新块1的参数。然后,给定块1和块3的参数,通过负二项回归更新块2的参数。最后,给定其他参数,使用LBFGS更新块3的参数。重复这些周期性更新,直到收敛。
2.5. 假设检验
在提议的模型下第2.2节通过2.4,有三个令人感兴趣的关键问题。我们应该使用pTReC或pTReCASE模型来评估eQTL吗?正常组织中是否存在eQTL?肿瘤组织中是否存在eQTL?
解决第一个问题需要考虑生物机制驱动顺式-和反式-eQTL。对于顺式-eQTL、pTReC和pASE组件共享eQTL-效应大小的相同参数,因此联合建模TReC与ASE(即pTReCASE)可以提高功率。对于反式eQTL,受影响基因的两个等位基因的表达发生了相同程度的改变,因此ASE在检测eQTL-或估计eQTL-eQTL效应大小时没有提供信息。因此,仅TReC数据应用于反式-eQTL。我们开发了“Cis-Trans”评分测试,以评估使用TReC和ASE数据估计的eQTL效应是否相同。
回想一下η和γ对于TReC数据,分别表示肿瘤和正常组织中的eQTL效应;和ηASE公司和γASE公司表示ASE数据的这些eQTL效应。让ηASE公司=η + αη和γASE公司=γ + αγ哪里αη和αγ分别反映了ASE和TReC eQTL对正常组织和肿瘤组织的影响之间的差异。模型的TReC和ASE分量中等效eQTL效应的零假设使用上述符号定义,如下所示αη=αγ= 0. 请参阅补充材料第A.4节获取此“Cis-Trans”分数测试的详细描述和推导。测试统计量及其渐近分布如下:
其中θ=(κ, η, γ,βT型,ϕ, αη,αγ,ψ)T型是θ=的重新参数化(κ, η, γ,βT型,ϕ, ηASE公司,γASE公司,ψ)T型,并替换ηASE公司和γASE公司具有αη和αγ分别是。是零假设下参数的MLE,其中αη=αγ= 0.我是TReCASE似然相对于参数的梯度,以及是Fisher信息矩阵。
在Cis-Trans得分测试后,我们模型的参数降为θ=(κ, η, γ,βT型,ϕ,)T型对于TReC模型或θ=(κ, η, γ,βT型,ϕ, ψ)T型用于TReCASE模型。这里我们使用一个统一的符号θT型为了简单起见。正常组织中存在eQTL(即。,η≠1)或肿瘤组织(即。,γ≠1)可以使用似然比检验(LRT)进行评估。这些测试统计数据及其渐近分布的形式如下:
哪里代表备选方案下的估算表示备选方案下的估计值。为了检测正常或肿瘤组织中是否存在eQTL,是通过在零假设下拟合模型而获得的η=1或γ分别=1。
为了识别单个基因-SNP对的eQTL,我们提出了以下程序。
进行“Cis-Trans”评分测试,以确定pTReC或pTReCASE模型的使用。
根据“Cis-Trans”测试的规定γ=1和η=1以确定eQTL效应的存在。
上述算法旨在确保pTReC和pASE模型中的不一致效应不会限制检测能力反式-eQTL公司。对于反式-eQTL,由pASE建模的eQTL-效应应为1,而由pTReC建模的eQTL效应应为非统一(≠1)。因此,使用pTReCASE的联合估计将稀释效应强度,从而导致功率损失。在测试eQTL效应之前应用Cis-Trans得分测试不会对eQTL-测试产生偏见,因为Cis-Trans-得分测试评估eQTL-效应在pTReC和pASE模型之间是否一致,而不管eQTL--效应的大小。
4.讨论
由于肿瘤样本受到浸润正常细胞的污染,肿瘤组织中eQTL的鉴定面临着一些挑战。首先,我们需要分别估计肿瘤细胞和正常细胞中的eQTL效应。第二,虽然总基因表达已被广泛用于转录组研究,但重要的是利用等位基因特异表达提供的额外信息,这些信息可以通过RNA-seq数据有效推导。我们开发了一个统计模型和软件包pTReCASE来解决这些问题。通过仿真和实际数据分析验证了pTReCASE的理想性能。相比之下,忽视肿瘤纯度的eQTL定位的天真方法可能会导致很大一部分假阳性。
pTReCASE使用的统计模型包含两个假设:(1)肿瘤样本中的表达可以分解为两个成分:肿瘤细胞或正常细胞的表达;eQTLs效应是加性的,而不是显性或隐性的。事实上,肿瘤细胞不是均质的,它们可以分为不同的亚克隆,即所谓的肿瘤内异质性。然而,假设(1)允许pTReCASE识别肿瘤细胞中的平均eQTL效应。进一步完善亚克隆特异性eQTL效应是非常具有挑战性的,如果不可行的话,因为亚克隆很少在癌症患者中共享。关于假设(2),pTReCASE使用的加性结构是顺式-现行法规。如果存在显性和隐性关系,则不太可能由相互作用的调控导致,因此不应在模型中纳入ASE信息。pTReC模型可以修改以捕捉显性和隐性关系。
在当前建立的pTReC(ASE)框架内,还有三种其他的进一步开发和研究途径。第一个是提高我们软件包的计算效率。使用当前的实现,全基因组局部eQTL定位大约需要数千个CPU小时。使用中等大小的计算集群可以很容易地做到这一点,但对于单个计算机来说在计算上是不可行的。高计算成本也阻止了我们使用排列来评估每个基因的eQTL结果的重要性。因此,我们建议根据SNP总数或基于基因型数据的相关结构的独立SNP数,通过Bonferroni校正进行多次测试校正[20]或Benjamini-Hochberg FDR控制程序[21].
我们假设连接候选eQTL和感兴趣基因的单倍型是已知的。实际上,这种单倍型是用统计方法插补/分阶段的。在感兴趣基因附近的短遗传距离内,相位通常是准确的。然而,如果我们想从基因进一步考虑潜在的eQTL,就有可能出现阶段性错误。改进假定模型的第二条途径是通过遵循Hu等人[22].
在本文中,我们将生殖系遗传变异作为潜在的eQTL。然而,SCNA、DNA甲基化或体细胞点突变(单核苷酸变体或indels)等体细胞突变/改变也可能影响基因表达。在所有这些因素中,SCNA可能对基因表达变异的影响最大。我们已经讨论了忽略SCNA的潜在后果第3.2.3节.最近的一篇论文[17]研究表明,肿瘤样本中基因表达和DNA甲基化之间的关联通常是由于肿瘤纯度的混淆,并且已经提出了一种新的方法来纠正这种混淆。在这种校正之后,对于大多数基因来说,DNA甲基化和基因表达之间的关联性并不强。此外,给定拷贝数,DNA甲基化通常与基因表达条件无关。因此,我们预计DNA甲基化对基因表达的影响相对较小。我们还举例说明了种系SNP与基因表达之间的关联在调节SCNA或DNA甲基化前后相似(补充图S10–第11节).
体细胞点突变的关联研究值得开发新的方法,因为大多数体细胞点变异在癌症患者群体中是罕见的,甚至是私人的,因此简单的逐个突变或基因对基因关联分析可能具有有限的功效[23,24,25]. 例如,在一项针对14种癌症类型的泛癌研究中,Fredriksson等人[23]只有少数体细胞点突变被鉴定为eQTL。另一项研究使用了一个更复杂的模型来借用跨基因的信息,该研究确定体细胞突变是12种癌症类型65个基因中的局部eQTL[24]. 研究体细胞突变相关性的另一个挑战是肿瘤内异质性。即使是估计肿瘤内异质性也是一项非常具有挑战性的任务,每个受试者只能采集一个肿瘤样本[26,27].
需要使用多种遗传因素,包括种系SNP、SCNA、体细胞DNA甲基化变异,甚至体细胞点突变,系统地研究肿瘤样本中基因表达的遗传基础,同时考虑肿瘤内异质性。这些探索保证了一系列未来的研究,例如,研究体细胞突变调用或肿瘤内异质性推断的不确定性,并评估此类估计不确定性如何影响关联分析。
参与者信息
道格拉斯·R·威尔逊,道格·威尔逊(Doug R.Wilson)是北卡罗莱纳州北卡罗莱纳大学教堂山生物统计学系的研究生,邮编:27599。
约瑟夫·易卜拉欣,约瑟夫·易卜拉欣(Joseph G.Ibrahim)是北卡罗来纳州北卡罗来那大学教堂山生物统计学系生物统计学校友特聘教授,邮编27599。
孙伟,孙伟是弗雷德·哈钦森癌症研究中心生物统计学项目的副成员。