Mapping Tumor-Specific Expression QTLs in Impure Tumor Samples

Douglas R. Wilson; Joseph G. Ibrahim; Wei Sun

doi:10.1080/01621459.2019.1609968

美国统计协会。作者手稿；PMC 2020年8月6日提供。

以最终编辑形式发布为：

2020年美国统计协会杂志；115(529): 79–89.

2019年6月4日在线发布。数字对象标识：10.1080/01621459.2019.1609968

预防性维修识别码：PMC7410098型

美国国立卫生研究院：NIHMS1028292号

PMID：32773912

在不纯正肿瘤样本中定位肿瘤特异性表达QTL

道格拉斯·威尔逊,约瑟夫·易卜拉欣、和孙伟（音译）

作者信息版权和许可证信息 PMC免责声明

关联数据

补充资料: 啜饮。
NIHMS1028292-补充-sup.zip（36米）
GUID:131CF79D-F842-475F-B665-878BCCD19AA2

摘要

基因表达数量性状位点（eQTL）的研究是阐明遗传变异功能作用的有效途径。利用来自微阵列或RNA-seq技术的基因表达数据，已经开发了eQTL定位的计算方法。这些方法在肿瘤组织中应用eQTL定位存在问题，因为肿瘤组织由肿瘤和浸润性正常细胞（例如免疫细胞）组成，并且eQTL-效应可能因肿瘤和浸润的正常细胞而异。为了应对这一挑战，我们开发了一种利用肿瘤样本RNA-seq数据进行eQTL定位的新方法。我们的方法使用总表达和等位基因特异性表达（ASE）分别估计了eQTL在肿瘤和浸润正常细胞中的作用。我们证明了我们的方法控制了I型错误率，并且比其他一些替代方法具有更高的能力。我们应用我们的方法研究了来自癌症基因组图谱的RNA-seq数据，并说明了肿瘤和正常细胞中eQTL效应的相似性和差异性。

关键词：eQTL、肿瘤纯度、RNA-Seq、等位基因特异性表达

1.简介

与一个或多个基因表达相关的遗传变异（如单核苷酸多态性（SNP））称为基因表达数量性状位点（eQTL）。全基因组eQTL研究是了解遗传变异功能作用的有力工具。例如，eQTL分析可以帮助解释全基因组关联研究（GWAS）的结果[1].

eQTL有两种类型，顺式-eQTL和反式-eQTL[2,三]它们的区别在于它们诱导的表达变化模式。为了准确定义这些eQTL类型，我们首先定义了术语“等位基因”。考虑一个二倍体基因组，每个染色体有两个同源副本：母体副本和父体副本。因此，每个遗传位点（例如SNP或基因）在细胞内都有两个拷贝，这两个拷贝被称为该位点的两个等位基因。对于受顺式-eQTL，每个等位基因的表达受到相应同源染色体的遗传含量的调节，从而导致基因表达的等位基因不平衡。相反，对于受反式-eQTL，这两个等位基因的表达被修改到相同的程度。

以下概念顺式-和反式-eQTL对我们的方法开发至关重要，因此我们通过两个示例进一步说明了它们。考虑一个顺式-eQTL，这是一个SNPA类和T型等位基因。这个A类等位基因抑制转录因子的结合，从而上调附近基因的表达。相比之下T型等位基因不影响转录因子结合。如果我们用A类或T型等位基因（基于该顺-eQTL和感兴趣的邻近基因之间的已知相位），该顺-eQTL导致A等位基因的表达低于T等位基因。反式eQTL的一个例子是影响转录因子活性的SNP，转录因子反过来调节基因的表达，它对两个等位基因的基因表达具有相同的影响。

Cis公司-由于顺式-eQTL通常位于它们影响的基因附近。变速箱-另一方面，eQTL可以定位在基因组中与其调控的基因相关的任何位置[2]. 重要的是要强调顺式-eQTL和反式-eQTL并不是基于它们与目标基因的接近程度，因为局部eQTLs可以诱导顺式-或反式-表达模式发生变化。

传统的eQTL映射方法隐含地假设eQTL-对样本中的所有细胞都有相同的影响。对于具有相对均匀细胞群的样本，这是一个合理的假设。然而，肿瘤样本总是同时含有肿瘤细胞和浸润的正常细胞（如免疫细胞），这两种类型的细胞之间的eQTL效应可能不同。为了定量地捕捉肿瘤细胞群中不均匀性的概念，我们考虑其肿瘤纯度，定义为肿瘤样本中肿瘤细胞的比例。以往对肿瘤样本的eQTL研究往往忽略肿瘤纯度信息，直接采用假设肿瘤样本由均质细胞组成的eQTL定位方法[4,5,6,7,8]. 当肿瘤和正常eQTL不一致时，我们的结果表明，忽略肿瘤纯度可能会导致识别肿瘤特异性eQTLs时出现严重的I型错误(图1).

保存图片、插图等的外部文件。对象名为nihms-1028292-f0001.jpg

在单独的窗口中打开

图1

从仿真研究中检查I类错误（A）和功率（B），仿真的详细信息见第2节在这里，我们将真正的发现定义为肿瘤特异性eQTL。在面板（A）中，肿瘤特异性eQTLs效应为1（对应于无eQTL效应），而正常特异性eQTL效应从1.0增加到3.0。在面板（B）中，正常特异性eQTL效应为1，肿瘤特异性eQTL效应从1到1.8不等。LR、TReC和TReCASE方法忽略了肿瘤纯度信息，而其他三种方法解释了肿瘤纯度。这些方法的细节将在方法部分.

在本文中，我们重点研究了利用种系遗传变异进行eQTL定位。建议的方法可以扩展到使用体细胞变异研究eQTL定位，但这种扩展必须解决体细胞突变的肿瘤内异质性的挑战。据我们所知，只有一项先前的工作考虑了类似的问题，即给定细胞类型比例估计值的细胞类型特异性eQTL定位[9]. 具体而言，Westra等人[9]使用线性模型确定中性粒细胞特异性eQTL：y=β₀ +β₁G+β₂ P+β_三普通合伙人其中y是基因表达，G公司是基因型，并且P（P）是中性粒细胞比例的估计值或代理值。通过检验假设，确定了中性粒细胞和其他细胞类型之间eQTL效应不同的位置β_三= 0. 这种方法不能直接估计或评估细胞类型特异性eQTL效应。我们在分析中表明，该方法的一种变体显式建模肿瘤特异性eQTL效应，其功率低于我们提出的方法。将所提出的方法应用于癌症基因组图谱（TCGA）提供的547名乳腺癌女性的遗传和基因表达数据。我们检查了每个假设模型之间关于eQTL鉴定的一致性和不一致性，并讨论了通过我们的方法鉴定的一些有趣的eQTLs。

2.方法

我们的模型是TReCASE方法的扩展，该方法使用RNA-seq数据进行eQTL定位[10]. TReCASE方法沿着两个维度（总读取计数（TReC）和等位基因特异表达（ASE））对RNA-seq数据进行建模，并同时使用这两种类型的数据进行eQTL定位[三,10]. 感兴趣基因的TReC是映射到该基因的RNA-seq读数的总数。在TReCASE框架下，跨样本的TReC由负二项分布建模。一个基因的ASE是通过与一个单倍型的基因型相匹配而不是与该基因的另一个单倍型相匹配的等位基因特异性读数来量化的。因此，如果RNA-seq阅读与两个单倍型中杂合的至少一个SNP重叠，则它是等位基因特异性的。根据TReCASE框架中的β-二项式分布，一个等位基因的等位基因特异性阅读次数与总等位基因特定性阅读次数相同。

TReCASE方法联合分析TReC和ASE数据顺式-eQTL，因为这两种类型的数据提供了关于顺式-eQTL s.相反，对于反式-eQTL：eQTL-对于TReC，eQTL-eQTL效应为非零，而对于ASE，eQTL效应为零，因此只有TReC数据用于绘制跨QTL。TReCASE模型隐含地假设eQTL－效应在样本中的所有细胞中都是相同的，这对于肿瘤样本可能是不正确的。在本文中，我们通过将肿瘤纯度和分离肿瘤特异性和正常特异性eQTL效应纳入我们的似然模型，扩展了用于肿瘤eQTLs研究的TReCASE模型。我们将这个新模型称为pTReCASE。

2.1. 数据

我们假设来自肿瘤样本的阶段性生殖系基因型数据和RNA-seq数据可用于n个独立主体。由于生殖系基因型数据已经分阶段进行，我们对受试者的两个单倍型中的每一个都有基因型。我们还假设每个肿瘤样本都有肿瘤纯度的估计值。例如，可以使用体拷贝数畸变数据估计肿瘤纯度[11].

由于pTReCASE被设计为分别分析每个基因SNP对，在下面的讨论中，我们考虑了感兴趣的特定基因和该基因的单个潜在eQTL的模型。为了清楚和简单起见，我们抑制了与基因和eQTL相关的下标，并注意到给定的结构适用于任何基因-SNP对。让G公司(我)是潜在eQTL的受试者i的基因型。G（i）可以取{AA，AB，BB}中的值，其中A和B表示潜在eQTL的两个等位基因。让ρ_我,d日_我、和x个_我= (x个_我1, …,x个_知识产权)^T型是肿瘤纯度估计值、读取深度测量值和p协变量向量我-第个样本。我们设置了d日_我作为所有基因中TReCs的75百分位我-第个样本，这是一种比所有基因的TReCs总和更可靠的测量读取深度的方法。

2.2. 纯度校正总读取计数（pTReC）模型

总读取计数Y（Y）_我定义为映射到给定基因的RNA-seq读取数。我们假设Y（Y）_我遵循负二项分布且过度分散ϕ和特定主题的意思μ_我，其可能性由以下公式给出：

（f） ({Y（Y）}_{我}; μ_{我}, ϕ) = \frac{Γ ({Y（Y）}_{我} + 1 / ϕ)}{{Y（Y）}_{我}! Γ (1 / ϕ)} {(\frac{1}{1 + ϕ μ_{我}})}^{1 / ϕ} {(\frac{ϕ μ_{我}}{1 + ϕ μ_{我}})}^{{Y（Y）}_{我}}

具有E（Y_我)=μ_我和 $V（V）一第页 ({Y（Y）}_{我}) = μ_{我} + ϕ μ_{我}^{2}$ .总结所有n个受试者，pTReC模型的对数似然为：

我_{T型 R（右） e（电子） C类} = \sum_{我 = 1}^{n个} 日志 [（f） ({Y（Y）}_{我}; μ_{我}, ϕ)] .

(1)

在不纯肿瘤样本中，pTReC捕获了潜在eQTL对Y（Y）_我通过其规范μ_我(方程式5). 为了阐明μ的结构_我，我们必须首先定量地定义肿瘤细胞和正常细胞的这些遗传效应。让μ_iA公司和μ_国际银行是等位基因A和B的平均表达我-th主语，并使用上标^（T）和^（N）分别表示肿瘤细胞和正常细胞的测量值。的值 $μ_{我 A类}^{(T型)}$ , $μ_{我 A类}^{(N个)}$ , $μ_{我 B类}^{(T型)}$ 、和 $μ_{我 B类}^{(N个)}$ 允许在不同对象之间变化，但我们假设这些数量的比率是在不同对象间保持不变的总体水平参数。这可以通过以下事实来证明，即受试者的特定因素，例如我-受试者、年龄、性别等对两个等位基因的等位基因特异性表达具有相同的影响，因此当我们检查它们的比率时，它们会相互抵消。象征性地：

对于所有人 我, μ_{我 B类}^{(N个)} / μ_{我 A类}^{(N个)} = η, μ_{我 B类}^{(T型)} / μ_{我 A类}^{(T型)} = γ, 和 μ_{我 A类}^{(T型)} / μ_{我 A类}^{(N个)} = κ .

(2)

因此，γ代表了所有受试者常见的肿瘤细胞中的人群水平eQTL效应η是正常细胞的对应物。其余参数，κ，是一个讨厌的参数，用于模拟肿瘤和正常组织之间的基线基因表达差异。什么时候？γ=1，由于等位基因A和B的平均表达相同，肿瘤内不存在eQTL效应。什么时候？γ<1（或γ>1），相对于A等位基因，B等位基因表达不足（或过表达）。的含义η，正常组织中的eQTL效应也可以类似地解释。

现在让我们ξ_我 = μ_国际银行/μ_国际机场假设等位基因的平均表达是其在肿瘤细胞和正常细胞中表达的加权总和，我们得到：

ξ_{我} = \frac{μ_{我 B类}}{μ_{我 A类}} = \frac{(1 - ρ_{我}) μ_{我 B类}^{(N个)} + ρ_{我} μ_{我 B类}^{(T型)}}{(1 - ρ_{我}) μ_{我 A类}^{(N个)} + ρ_{我} μ_{我 A类}^{(T型)}} = \frac{(1 - ρ_{我}) η + ρ_{我} κ γ}{(1 - ρ_{我}) + ρ_{我} κ} = (1 - {c（c）}_{我}) η + {c（c）}_{我} γ,

(3)

哪里c（c）_我= (ρ_我κ) / (1−ρ_我+ρ_我κ). 第三个等式是分子和分母除以 $μ_{我 A类}^{(N个)}$ 因此，肿瘤样本中的总体遗传效应是肿瘤细胞和正常细胞中遗传效应的混合。

接下来，我们考虑建模μ_我不同基因型之间。首先，如果我-第个受试者在候选eQTL处具有AA基因型，

μ_{我} = μ_{我 A类} + μ_{我 A类} = 2 μ_{我 A类}^{(N个)} [1 - ρ_{我} + ρ_{我} κ] .

(4)

我们建模 $日志 (2 μ_{我 A类}^{(N个)})$ 使用日志读取深度的线性函数第页协变量： $β_{0} + β_{d日} 日志 ({d日}_{我}) + \sum_{j个 = 1}^{第页} β_{j个} {x个}_{我 j个}$ 。对基因型为AB和BB的受试者应用类似推导，我们得到：

日志 (μ_{我}) = {\begin{array}{l} β_{0} + β_{d日} 日志 ({d日}_{我}) + \sum_{j个 = 1}^{第页} β_{j个} {x个}_{我 j个} + 日志 (1 - ρ_{我} + ρ_{我} κ) & 如果 G公司 (我) = A类 A类, \\ β_{0} + β_{d日} 日志 ({d日}_{我}) + \sum_{j个 = 1}^{第页} β_{j个} {x个}_{我 j个} + 日志 (1 - ρ_{我} + ρ_{我} κ) + 日志 (\frac{1 + ξ_{我}}{2}) & 如果 G公司 (我) = A类 B类, \\ β_{0} + β_{d日} 日志 ({d日}_{我}) + \sum_{j个 = 1}^{第页} β_{j个} {x个}_{我 j个} + 日志 (1 - ρ_{我} + ρ_{我} κ) + 日志 (ξ_{我}) & 如果 G公司 (我) = B类 B类 . \end{array}

(5)

注意，在上述方程式中，遗传效应η和γ通过以下方式影响基因表达ξ_我、和ξ_我用于模拟μ_我跨三个基因型组：AA公司,AB公司、和BB公司这些方程还表明，在负二项回归中，我们不能将观察到的基因型视为额外的协变量，因为它与对数相关(μ_我)不是线性的。

让β= (β₀,β_d日,β₁, …,β_第页)^T型.我们估计了所有参数，包括，β,ϕ,κ, η和γ，通过最大化中的似然函数方程式（1），使用块坐标上升算法。鉴于涉及的条款κ, η、和γ在里面方程式（5）作为补偿，问题变成了带有回归系数的标准负二项回归β和过频散参数ϕ因此，湿陷β和ϕ作为参数和κ, η、和γ作为另一个区块。在块坐标上升过程中，我们通过最大化似然来估计一块参数，同时将另一块的参数保持在固定值。然后迭代估计每个参数块，直到参数估计收敛。具体来说，给定β和ϕ, κ, η、和γ采用准牛顿法（LBFGS）进行估算。然后，给定κ, η、和γ,β和ϕ通过负二项回归估计。

2.3. 纯度校正的等位基因特异性表达（pASE）模型

我们首先简要介绍了ASE的测量方法，并请读者参考Sun和Hu（2013）[三]了解更多详细信息。对于每个受试者，我们假设有两个任意标记的单倍型，即单倍型1和单倍型2的分阶段基因型数据。我们提取与基因体内至少一个杂合SNP重叠的所有RNA-seq读码，并将每个读码分配给与其核苷酸序列匹配的单倍型。由于每个受试者的单倍型1和2被任意标记，我们通过重新标记这些单倍型与候选eQTL的基因型来确保受试者之间的可比性。对于候选eQTL杂合的受试者，单倍型A包含候选eQTL的A等位基因，而单倍型B包含B等位基因。对于候选eQTL纯合的受试者，单倍型A和B可以任意定义，而不影响似然函数或统计推断。

让R（右）_国际机场和R（右）_iB公司是分配给单倍型的等位基因特异RNA-seq读取数A类和B类分别是。让R（右）_我=R（右）_国际机场+R（右）_国际银行是等位基因特异性RNA-seq读取的总数。在人类群体中，通常约5-10%的RNA-seq读取与至少一个杂合SNP重叠，因此是等位基因特异性读取。换句话说，R（右）_我约为Y（Y）_我.我们建模R（右）_国际银行鉴于R（右）_我使用具有成功概率的贝塔二项分布π_我和过分散ψ，其可能性由以下公式给出：

克 ({R（右）}_{我 B类}; {R（右）}_{我}, π_{我}, ψ) = \frac{{R（右）}_{我}!}{{R（右）}_{我 A类}! {R（右）}_{我 B类}!} \frac{Γ (ψ^{- 1}) Γ (ψ^{- 1} π_{我} + {R（右）}_{我 B类}) Γ (ψ^{- 1} (1 - π_{我}) + {R（右）}_{我 A类})}{Γ (ψ^{- 1} π_{我}) Γ (ψ^{- 1} (1 - π_{我})) Γ (ψ^{- 1} + {R（右）}_{我})} .

结合所有个人，我们可以将ASE模型的对数似然表示为：

我_{A类 秒 E类} = \sum_{我 = 1}^{n个} 日志 [克 ({R（右）}_{我 B类}; {R（右）}_{我}, π_{我}, ψ)] .

遵循以下定义ξ_我对于中的pTReC模型方程式（3），我们为ASE数据定义了一个类似的量化：ξ_{i、酶}=μ_国际银行/μ_国际机场= (1 −c（c）_我)η_ASE公司+c（c）_我γ _ASE公司，其中c（c）_我= (ρ_我κ) / (1−ρ_我+ρ_我κ). 然后

π_{我} = {\begin{array}{l} μ_{我 B类} / (μ_{我 A类} + μ_{我 B类}) = ξ_{我, A类 秒 E类} / (ξ_{我, A类 秒 E类} + 1), & 如果 G公司 (我) = A类 B类 \\ 0.5, & 否则。 \end{array}

我们添加下标_ASE公司在符号中ξ_我, δ、和γ用于pASE模型，以便区分顺式-表演和反式-代理eQTL。对于顺式-eQTL、，ξ_{i、 ASE公司}定义见方程式（3）。对于反式-然而，eQTL，ξ_{i、 ASE公司}=1，因为A和B等位基因的表达受到相同程度的影响。上述建模策略的结果是，ASE对于κ, η_ASE公司，或γ_ASE公司当eQTL为反式-表演。此外，对于顺式-eQTL，潜在eQTL-纯合子的受试者不参与eQTL参数的估计κ, η_ASE公司，或γ_ASE公司然而，这些受试者对过分散参数具有信息性ψ.

对于pTReC，pASE中的模型拟合也通过使用两个参数块的块坐标上升算法来实现：一个块由一个参数组成ψ，另一块由κ组成，η_ASE公司和γ_ASE公司。我们迭代估计这两个块的参数，直到收敛。通过LBFGS完成每个块的更新。

2.4. pTReCASE：统一pTReC和pASE模型

限制为顺式-eQTL、pTReC和pASE模型共享κ, η、和γ允许统一为单一似然模型的参数：

P（P） ({Y（Y）}_{我}, {R（右）}_{我}, {R（右）}_{我 B类} | Θ) = P（P） ({Y（Y）}_{我} | Θ) P（P） ({R（右）}_{我} | {Y（Y）}_{我}, Θ) P（P） ({R（右）}_{我 B类} | {Y（Y）}_{我}, {R（右）}_{我}, Θ) = （f） ({Y（Y）}_{我} | Θ) P（P） ({R（右）}_{我} | {Y（Y）}_{我}) 克 ({R（右）}_{我 B类} | {R（右）}_{我}, Θ),

其中θ=(κ, η, γ,β^T型,ϕ, η_ASE公司,γ_ASE公司,ψ)^T型，其中包括pTReC或pASE模型中的所有参数。回想一下β= (β₀,β_d日,β₁, …,β_第页)^T型.

请注意，上述可能性相关Y（Y）_我和R（右）_我，分别为RNA-seq读取总数和等位基因特异性RNA-seq-读取数。如果read与至少一个杂合SNP重叠，则为等位基因特异性。因此给出Y（Y）_我，分布R（右）_我是RNA-seq读取长度（读取长度越长，与杂合SNP重叠的可能性越大）和基因内杂合SNPs数量的函数。可以合理地假设这两个因素都独立于eQTL效应。因此，我们可以删除P（右）_我 |Y（Y）_我 )从似然函数出发。所有人的逻辑一致性n个然后由以下公式给出受试者：

我 (Θ) = \sum_{我 = 1}^{n个} 日志 [（f） ({Y（Y）}_{我} | Θ)] + 日志 [克 ({R（右）}_{我 B类} | {R（右）}_{我}, Θ)] = 我_{T型 R（右） e（电子） C类} + 我_{A类 秒 E类} .

模型拟合通过使用三个块通过块坐标上升实现：块1包括κ, η和γ; 区块2包括ϕ,β_d日和β_j个对于j=0.1，…，p; 区块3包括ψ独自一人。单个更新由以下步骤定义。首先，给定块2和3的参数，使用LBFGS更新块1的参数。然后，给定块1和块3的参数，通过负二项回归更新块2的参数。最后，给定其他参数，使用LBFGS更新块3的参数。重复这些周期性更新，直到收敛。

2.5. 假设检验

在提议的模型下第2.2节通过2.4，有三个令人感兴趣的关键问题。我们应该使用pTReC或pTReCASE模型来评估eQTL吗？正常组织中是否存在eQTL？肿瘤组织中是否存在eQTL？

解决第一个问题需要考虑生物机制驱动顺式-和反式-eQTL。对于顺式-eQTL、pTReC和pASE组件共享eQTL-效应大小的相同参数，因此联合建模TReC与ASE（即pTReCASE）可以提高功率。对于反式eQTL，受影响基因的两个等位基因的表达发生了相同程度的改变，因此ASE在检测eQTL-或估计eQTL-eQTL效应大小时没有提供信息。因此，仅TReC数据应用于反式-eQTL。我们开发了“Cis-Trans”评分测试，以评估使用TReC和ASE数据估计的eQTL效应是否相同。

回想一下η和γ对于TReC数据，分别表示肿瘤和正常组织中的eQTL效应；和η_ASE公司和γ_ASE公司表示ASE数据的这些eQTL效应。让η_ASE公司=η + α_η和γ_ASE公司=γ + α_γ哪里α_η和α_γ分别反映了ASE和TReC eQTL对正常组织和肿瘤组织的影响之间的差异。模型的TReC和ASE分量中等效eQTL效应的零假设使用上述符号定义，如下所示α_η=α_γ= 0. 请参阅补充材料第A.4节获取此“Cis-Trans”分数测试的详细描述和推导。测试统计量及其渐近分布如下：

秒 C类 = \dot{我} {({\hat{Θ}}_{α 0})}^{T型} 我 {({\hat{Θ}}_{α 0})}^{- 1} \dot{我} ({\hat{Θ}}_{α 0}) ~ χ_{(2)}^{2},

其中θ=(κ, η, γ,β^T型,ϕ, α_η,α_γ,ψ)^T型是θ=的重新参数化(κ, η, γ,β^T型,ϕ, η_ASE公司,γ_ASE公司,ψ)^T型，并替换η_ASE公司和γ_ASE公司具有α_η和α_γ分别是。 ${\hat{Θ}}_{α 0}$ 是零假设下参数的MLE，其中α_η=α_γ= 0.^我是TReCASE似然相对于参数的梯度，以及 $我 ({\hat{Θ}}_{α 0})$ 是Fisher信息矩阵。

在Cis-Trans得分测试后，我们模型的参数降为θ=(κ, η, γ,β^T型,ϕ,)^T型对于TReC模型或θ=(κ, η, γ,β^T型,ϕ, ψ)^T型用于TReCASE模型。这里我们使用一个统一的符号θ_T型为了简单起见。正常组织中存在eQTL（即。，η≠1）或肿瘤组织（即。，γ≠1）可以使用似然比检验（LRT）进行评估。这些测试统计数据及其渐近分布的形式如下：

Λ = - 2 [我 ({\hat{Θ}}_{T型 0}) - 我 ({\hat{Θ}}_{T型})] ~ χ_{(1)}^{2},

哪里 ${\hat{Θ}}_{T型 0}$ 代表备选方案下的估算 ${\hat{Θ}}_{T型}$ 表示备选方案下的估计值。为了检测正常或肿瘤组织中是否存在eQTL， ${\hat{Θ}}_{T型 0}$ 是通过在零假设下拟合模型而获得的η=1或γ分别=1。

为了识别单个基因-SNP对的eQTL，我们提出了以下程序。

进行“Cis-Trans”评分测试，以确定pTReC或pTReCASE模型的使用。
根据“Cis-Trans”测试的规定γ=1和η=1以确定eQTL效应的存在。

上述算法旨在确保pTReC和pASE模型中的不一致效应不会限制检测能力反式-eQTL公司。对于反式-eQTL，由pASE建模的eQTL-效应应为1，而由pTReC建模的eQTL效应应为非统一（≠1）。因此，使用pTReCASE的联合估计将稀释效应强度，从而导致功率损失。在测试eQTL效应之前应用Cis-Trans得分测试不会对eQTL-测试产生偏见，因为Cis-Trans-得分测试评估eQTL－效应在pTReC和pASE模型之间是否一致，而不管eQTL--效应的大小。

3.结果

3.1. 模拟研究

我们进行了一项模拟研究，以比较pTReCASE和其他几种方法的统计功率和I型错误率。对正常细胞和肿瘤细胞的一系列eQTL效应大小进行了模拟。为了检测肿瘤特异性eQTL，我们通过设置γ变化时=1η，并通过设置评估功率η变化γ时=1。对于每对η和γ，我们模拟了500名受试者的400个重复的基因表达和基因型数据。假设次要等位基因频率为0.2，模拟基因型。根据pTReCASE模型，使用以下算法模拟读取计数：

对500名受试者中的每一人从（0.5,1）的均匀分布中随机生成肿瘤纯度。
通过负二项模型模拟TReC：
- AA基因型和肿瘤纯度为0%的受试者的平均读数为100。
- κ=1.5和ϕ= 0.2
假设5%的模拟TReC读数是等位基因特异性读数，四舍五入到最接近的整数。根据建立的β-二项式模型，使用过度分散的ψ= 0.2.

然后，我们将每种考虑的eQTL映射方法应用于模拟数据。I型误差是根据当没有肿瘤eQTL时错误识别肿瘤eQTL的模拟比例估计的。通过恢复模拟肿瘤eQTL的模拟比例估计功率。

我们考虑的相互竞争的eQTL模型包括不校正肿瘤纯度的TReC/TReCASE方法和校正肿瘤纯度（pTReC）的TReC模型。此外，我们还考虑了一种忽略肿瘤纯度的简单线性回归方法，标记为LR（线性回归），以及对Westra等人采用的方法的修改[9]用pLR（纯度校正线性回归）表示。为了拟合线性模型，我们首先对跨n个样本，然后使用转换后的TReC作为线性回归的响应变量。具体来说，我们首先用TReC值在n个样本，然后用相应的正常分位数替换秩。例如，秩r被替换为第页/ (n个+1）-第个正常分位数。出租 $\bar{Y（Y）}$ 作为转换后的TReC数据，线性模型如下所示 $E类 (\bar{Y（Y）}) = β_{0} + β_{1} G公司$ ，其中G公司是候选eQTL的基因型。

为了使用pLR测试基因型和肿瘤纯度的相互作用，我们拟合了一个线性模型 $E类 (\bar{Y（Y）}) = β_{0} + β_{1} G公司 + β_{2} ρ + β_{三} G公司 ρ$ 哪里ρ表示肿瘤纯度估计。Westra等人采用的交互测试[9]（即。，β_三=0）不能评估肿瘤eQTL的强度。相反，它测试肿瘤组织和正常组织之间的eQTL效应是否不同。在pLR下，我们通过测试来评估肿瘤eQTL的影响β₁+β_三自起=0β₁+β_三是候选eQTL肿瘤纯度为1的遗传效应。

控制肿瘤纯度的所有三种方法（pTReCASE、pTReC、pLR）都将I型误差控制在所需水平(图1A). 相反，随着正常组织中eQTL强度的增加，不考虑肿瘤纯度的方法的I型误差会迅速增加(图1A). 就威力而言，不考虑肿瘤纯度的方法威力更大(图1B)当然，如此高的功率没有意义，因为它们无法控制I型错误。这些忽略肿瘤纯度的天真方法具有更高的功效，因为大多数基因表达都是由肿瘤细胞贡献的（50-100%的细胞是肿瘤细胞，肿瘤细胞的表达平均是正常细胞的1.5倍）。如果我们模拟肿瘤纯度在0到100%之间是均匀的，并将肿瘤和正常细胞的基因表达设置为相似，那么计算肿瘤纯度的方法具有更高的功效。在那些控制类型I错误（即pLR、pTReC和pTReCASE）的方法中，pTReCASE的威力最大，因为它结合了TReC与ASE的数据。

3.2. 癌症基因组图谱（TCGA）数据

3.2.1. 数据和模型拟合

我们应用pTReCASE模型分析了癌症基因组图谱（TCGA）项目550名乳腺癌患者的基因表达和种系SNP基因型数据。所有数据均从TCGA数据门户下载(https://tcga-data.nci.nih.gov/docs/publications/tcga/)现已被NCI Genomic Data Commons取代(https://portal.gdccancer.gov网站/). 我们从728名肿瘤样本中的RNA-seq数据患者开始。为了评估等位基因特异性基因表达，我们下载了bam文件格式的原始RNA-seq数据。对于基因型数据，我们下载了Affymetrix CEL文件。我们限制了对728例患者中550例的分析，这些患者有可用的基因型数据，通过了基因型和RNA-seq数据的质量控制，并且是白人女性（参见补充材料B节详细信息）。男性被排除在外，因为男性乳腺癌罕见，可能有不同的病因。对白种人样本的限制是没有必要的，但它有助于消除可能的混淆因素[12].

对于其余550名患者，基因型插补和单倍型定相由MACH进行[13]使用来自1000基因组项目的参考单倍型。从使用Affymetrix 6.0阵列进行约800000个SNP基因分型开始，我们估算了约3600万个SNP的基因型。对于每个样本，我们使用所有杂合基因型的SNP来估计等位基因特异性表达（参见补充材料B节详细信息）。为了进行eQTL定位，我们将分析限制在变异等位基因频率（VAF）≥0.02（插补后为6825065 SNPs）的SNPs上，因为在较低VAF值下检测e QTL的能力有限。使用ABSOLUTE评估肿瘤纯度[11]这导致排除了另外三个缺乏有效纯度估计值的受试者。在随后的pTReCASE和线性回归模型中，估计的单倍型和肿瘤纯度被视为真值。

使用矩阵eQTL拟合eQTL分析的线性模型和修订的Westra方法（即纯度校正线性回归或pLR）[14]以及分别在正常分位数转换的RNA-Seq计数数据上定制R代码。TReC、TReCASE、pTReC和pTReCASE模型都适合使用我们自己的R包。使用pTReCASE对单个基因-SNP的中位分析时间为2.71秒（IQR=2.93秒）。用于eQTL定位的协变量包括RNA-seq实验的读取深度(补充图S5)、RNA样本板、年龄和前两个主要成分来自550名白人样本的基因型数据。由于我们的方法旨在识别顺-eQTL和大多数顺式-eQTL是靶基因的局部位点，我们将分析限制在所感兴趣基因100Kb范围内的SNP。

3.2.2. eQTL标识

图2A–B类说明了由pTReCASE模型识别的肿瘤特异性eQTL。效应大小的估计（B类等位基因与A类等位基因）对于正常和肿瘤特异性eQTL为0.96(η)和3.51(γ)分别是。肿瘤细胞中基因表达与正常细胞相比的倍数变化（对于基因型AA）为0.19（κ）(图2D).

保存图片、插图等的外部文件。对象名为nihms-1028292-f0002.jpg

在单独的窗口中打开

图2

（A）通过pTReCASE对基因型和肿瘤纯度进行共变量校正总表达评估。为了清晰起见，抑制了异常值。当类别的样本量太小时，使用点图而不是箱线图。（B）检查与所示病例相对应的等位基因特异性表达（A）。（C）根据基因型和肿瘤纯度绘制通过pTReC估计的协方差校正总表达。（D）表中提供了所显示评估的基因、SNP和估计参数。第页_{计算机断层扫描}参考Cis-Trans分数测试的值。

换句话说，肿瘤细胞中的基因表达低于正常细胞，eQTL效应仅存在于肿瘤细胞中。这些数值估计很好地证明了图2A–B类随着肿瘤纯度的增加，用TReC测量的基因表达降低(图2A)，eQTL的强度增加。TReC和ASE均显示出一致的信号，表明B等位基因有较高的表达，顺反式检验p值为0.95。

图2C说明了由pTReC模型识别的肿瘤特异性eQTL。在这个例子中，由于重要的顺反式检验，ASE模型的基因表达没有用于eQTL定位。与正常细胞相比，肿瘤细胞中的基因表达更高B类等位基因的表达低于A类肿瘤细胞中有等位基因，但正常细胞中没有。注意，我们仍然可以在肿瘤纯度最低的类别中看到一些eQTL信号。这是因为TCGA样本被选择具有相对较高的肿瘤纯度，从而创建了一个分类模式，其中即使是最低的肿瘤纯度类别也有不可忽略的肿瘤细胞数量。

我们使用另一个示例演示Cis-Trans分数测试的实用性(图3). 仅考虑TReC数据，当肿瘤纯度较高时，B等位基因的表达略高于A等位基因(图3A).

保存图片、插图等的外部文件。对象名为nihms-1028292-f0003.jpg

在单独的窗口中打开

图3

演示Cis-Trans分数测试的实用性。（A）共变量校正总表达与基因型和肿瘤纯度有关。（B）基因型和肿瘤纯度的等位基因特异性表达。（C）包含A和B的相关建模信息的表_{计算机断层扫描}提供了Cis-Trans评分测试的p值。

相反，仅考虑ASE数据B类在所有肿瘤纯度水平上，等位基因的表达都远低于A。TReC和ASE数据之间的这种不一致导致了高度显著的Cis-Trans p值(图3C). 在这种情况下，只有TReC数据是可信的，并用于估计eQTL效应。ASE在实际数据中往往更具噪音，因为绘图偏差、不正确的基因型数据和/或其他生物和技术因素可能导致观察到的ASE失衡，而不是eQTL效应。未能考虑顺反式试验可能导致接受虚假eQTL结果。

接下来，我们使用pTReCASE、TReCASE和pLR方法在不同的p值截止点系统地比较了所有eQTL结果。比较结果的一种方法是检查所有eQTL发现的重叠（即所有基因-SNP对）(补充表S3). 然而，由于LD，一个基因的表达可能与多个SNP相关，这些SNP彼此非常接近，通常代表多余的eQTL信号。因此，我们将重点放在基因水平上总结的eQTL结果上。换句话说，对于给定的p值截止值，我们计算了至少有一个eQTL的基因数量，其p值低于截止值(补充表S4,图4).

保存图片、插图等的外部文件。对象名为nihms-1028292-f0004.jpg

在单独的窗口中打开

图4

使用三种方法：pLR、TReC（ASE）和pTReC。TReC（ASE）中ASE周围的括号表示，如果Cis-Trans检验不拒绝零假设，即eQTL效应在TReC和ASE数据之间是一致的，则我们使用ASE信息。

在p值阈值上，pLR模型识别的eQTL比TReCASE或pTReCASE少得多。在pLR模型鉴定的eQTL中，70-90%也由pTReCASE鉴定。pLR模型还遗漏了至少70%由pTReCASE识别的eQTL。pLR模型功率相对较低至少有两个可能的原因。首先，pLR不使用ASE信息。其次，pLR假设正常分位数转化的基因表达是肿瘤纯度的线性函数，这可能不是一个很好的近似值。

与pTReCASE相比，TReCASE模型识别了更多基因中的eQTL。对于那些TReCASE识别出重要eQTL而pTReCASE不识别的基因，TReCASE模型的重要发现很可能是由正常细胞中的eQTL。TReCASE捕获了pTReCASE发现的约三分之二的eQTL结果。TReCASE缺失的三分之一可能是肿瘤特异性eQTL或eQTLs，在正常细胞中的作用比肿瘤细胞弱得多。

TReCASE和pTReCASE捕获的eQTL可能影响肿瘤和正常细胞中的基因表达。正如预期的那样，这种eQTL往往比仅通过一种方法鉴定的eQTL具有更小的p值(补充图S6). 我们将通过TReCASE和/或pTReCASE鉴定的eQTL分为三组：通过两种方法鉴定的和通过这两种方法之一鉴定的，并检查三组之间是否存在系统性差异。我们检测了这三组eQTL SNP在一定距离内的定位概率是否相等d日任何乳腺癌GWAS（全基因组关联研究）点击。我们使用了469次GWAS点击（p值<5×10⁻⁷)来自最近的乳腺癌GWAS，其中122977例为欧洲血统，105974例为对照，14068例为东亚血统，13104例为对照[15]. 通过改变eQTL SNP和GWAS点击的距离（从100kb到10Mb），当d日约为4Mb(补充图S7). 对于这两种方法确定的345个eQTL SNP，我们预计156个在任何GWAS点击量的4Mb范围内，并观察到185个（χ2检验p值0.002）。这不是一个很强的富集，但它确实表明肿瘤细胞和正常细胞共享的那些eQTL更可能与GWAS命中相关。此外，我们还检测了eGenes（带有eQTL的基因）和癌症基因普查定义的719个癌症相关基因的交叉点(https://cancer.sanger.ac.uk/census网站,补充表S7–S9). 有趣的是，我们观察到，通过pTReCASE而不是通过TReCASE，在那些eQTL的eGene中，癌症相关基因略微富集：观察到7个基因，而预期3个基因（p值0.03）。这些结果表明，这些eQTL存在于肿瘤中，而非正常细胞中，可能与肿瘤进展有关。尽管需要更多的数据/分析来证实这一点，例如，通过泛癌研究或使用更长的癌症相关基因列表。

我们还将我们的结果与早期研究报告的乳腺癌样本的eQTL进行了比较[7]. Li等人（2013）[7]使用了较小的样本量(n个=219与。n个=547），并通过微阵列而非RNA-seq测量基因表达。他们限制了对通过Affymetrix 6.0阵列进行基因分型的约800000个SNPs的分析，并搜索每个基因约1Mb的eQTL。相比之下，我们考虑了超过600万个SNP，通过VAF≥0.02进行插补和过滤，并搜索每个基因约100kb的eQTL。尽管存在这些差异，但我们发现TReCASE或pTReCASE模型发现的eQTL与Li等人（2013）报告的结果存在显著重叠[7] (补充表S5–S6系列).

总的来说，TReCASE和pTReCASE都鉴定了大量eGenes（即至少具有一个重要eQTL的基因）。例如，在5e-6的p值截止点，TReCASE和pTReCASE在18000个测试基因中分别鉴定出3000和1200个eGenes。与最近的一些研究相比，这些eGenes的数量实际上并不多。例如，在基因型组织表达（GTEx）项目中，样本量约为300，约40%的测试基因被鉴定为eGenes(图1CGTEx出版物[16]). 我们研究的相对低功率可能是因为肿瘤样本的异质性水平高于GTEx项目使用的正常组织样本。

3.2.3. 评估拷贝数影响

在肿瘤样本中，体细胞拷贝数改变（SCNA）是普遍存在的，它们通常与基因表达变异密切相关[17]. 目前，pTReC和pTReCASE方法没有考虑SCNA的影响。为了提高eQTL定位的能力，有必要在未来扩展SCNA的解释。然而，由于基因表达谱在解释SCNA之前和之后具有高度相似性，因此我们不期望显著提高功率(补充图S8). 此外，在eQTL分析中忽略SCNA不会导致许多假阳性eQTLs，因为如以下段落所示，已识别eQTLs的基因型与SCNA没有相关性或相关性很弱。

从肿瘤和配对正常样本的Affymetrix 6.0阵列数据开始，我们运行ASCAT管道来调用每个肿瘤样本的拷贝数、肿瘤纯度和倍性（拷贝数的全基因组平均值）(https://github.com/Crick-CancerGenomics/ascat/blob/master/ascat/R/ascat.R) [18]. 与以往研究结果一致[19]，许多肿瘤样本具有全基因组重复（即倍性约为4）。全基因组复制不应影响基因表达，因为基因表达是以相对数量来衡量的：映射到基因的RNA-seq读取数与每个样本的RNA-sq读取总数之比。换句话说，如果所有基因的表达因全基因组重复而加倍，则RNA-seq的基因表达测量值保持不变。因此，我们通过D类_ij公司 =C_ij公司 −牛_我，其中C类_ij公司是基因的总拷贝数j个在样品中我、和N个_我是的倍性我-第个样本。

由于准确估计拷贝数的准确性有限，为了提高关联分析的稳健性，我们简单地将拷贝数变化量化为删除、拷贝数中性和放大。具体来说，我们通过一个变量量化了拷贝数的变化G公司_ij公司，等于−1、0或1，如果D类_ij公司 <−0.5，|D_ij公司 |≤0.5，或D类_ij公司>分别为0.5。我们的结果对截止值选择0.5不敏感。直觉上很容易解释这个界限。例如，如果倍性为2。那么，这个截止值意味着，如果估计拷贝数大于2.5或小于1.5，我们称之为拷贝数增益/损失。在30%或更多的样本中，几乎所有基因都受到SCNA事件的影响(补充图S9A). 正如预期的那样，拷贝数测量之间有很强的正相关性G公司_ij公司和所有基因的基因表达(补充图S9B).

最后，对于1245个基因中的每一个，通过pTReCASE在5×10⁻⁶在水平上，我们选择每个基因最显著的eQTL SNP，并评估其与相应基因拷贝数的相关性。当这些相关性都为0时，这些相关性在1245个基因中的分布与预期的零分布非常匹配(图5). 因此，eQTL基因型和拷贝数变化之间几乎没有相关性，因此pTReC和pTReCASE的结果不太可能因SCNA而出现假阳性。

保存图片、插图等的外部文件。对象名为nihms-1028292-f0005.jpg

在单独的窗口中打开

图5

基因表达之间相关性的分布（通过Y（Y）_ij公司/d日_我)和拷贝数（以G公司_ij公司).Y（Y）_ij公司表示映射到j个-th基因在我-第个样本，d日_我是的读取深度测量值我-第个样本。红线表示相关性为0时的预期空分布：正常 $(0, 1 / \sqrt{550})$ .

对于特定基因和SNP，如果需要校正SCNA，可以在eQTL定位之前使用线性回归方法从总表达中去除SCNA效应。然而，这种方法可能会在总表达和等位基因特异表达之间产生差异，在这种情况下，我们的方法将只使用总表达数据。

4.讨论

由于肿瘤样本受到浸润正常细胞的污染，肿瘤组织中eQTL的鉴定面临着一些挑战。首先，我们需要分别估计肿瘤细胞和正常细胞中的eQTL效应。第二，虽然总基因表达已被广泛用于转录组研究，但重要的是利用等位基因特异表达提供的额外信息，这些信息可以通过RNA-seq数据有效推导。我们开发了一个统计模型和软件包pTReCASE来解决这些问题。通过仿真和实际数据分析验证了pTReCASE的理想性能。相比之下，忽视肿瘤纯度的eQTL定位的天真方法可能会导致很大一部分假阳性。

pTReCASE使用的统计模型包含两个假设：（1）肿瘤样本中的表达可以分解为两个成分：肿瘤细胞或正常细胞的表达；eQTLs效应是加性的，而不是显性或隐性的。事实上，肿瘤细胞不是均质的，它们可以分为不同的亚克隆，即所谓的肿瘤内异质性。然而，假设（1）允许pTReCASE识别肿瘤细胞中的平均eQTL效应。进一步完善亚克隆特异性eQTL效应是非常具有挑战性的，如果不可行的话，因为亚克隆很少在癌症患者中共享。关于假设（2），pTReCASE使用的加性结构是顺式-现行法规。如果存在显性和隐性关系，则不太可能由相互作用的调控导致，因此不应在模型中纳入ASE信息。pTReC模型可以修改以捕捉显性和隐性关系。

在当前建立的pTReC（ASE）框架内，还有三种其他的进一步开发和研究途径。第一个是提高我们软件包的计算效率。使用当前的实现，全基因组局部eQTL定位大约需要数千个CPU小时。使用中等大小的计算集群可以很容易地做到这一点，但对于单个计算机来说在计算上是不可行的。高计算成本也阻止了我们使用排列来评估每个基因的eQTL结果的重要性。因此，我们建议根据SNP总数或基于基因型数据的相关结构的独立SNP数，通过Bonferroni校正进行多次测试校正[20]或Benjamini-Hochberg FDR控制程序[21].

我们假设连接候选eQTL和感兴趣基因的单倍型是已知的。实际上，这种单倍型是用统计方法插补/分阶段的。在感兴趣基因附近的短遗传距离内，相位通常是准确的。然而，如果我们想从基因进一步考虑潜在的eQTL，就有可能出现阶段性错误。改进假定模型的第二条途径是通过遵循Hu等人[22].

在本文中，我们将生殖系遗传变异作为潜在的eQTL。然而，SCNA、DNA甲基化或体细胞点突变（单核苷酸变体或indels）等体细胞突变/改变也可能影响基因表达。在所有这些因素中，SCNA可能对基因表达变异的影响最大。我们已经讨论了忽略SCNA的潜在后果第3.2.3节.最近的一篇论文[17]研究表明，肿瘤样本中基因表达和DNA甲基化之间的关联通常是由于肿瘤纯度的混淆，并且已经提出了一种新的方法来纠正这种混淆。在这种校正之后，对于大多数基因来说，DNA甲基化和基因表达之间的关联性并不强。此外，给定拷贝数，DNA甲基化通常与基因表达条件无关。因此，我们预计DNA甲基化对基因表达的影响相对较小。我们还举例说明了图2种系SNP与基因表达之间的关联在调节SCNA或DNA甲基化前后相似(补充图S10–第11节).

体细胞点突变的关联研究值得开发新的方法，因为大多数体细胞点变异在癌症患者群体中是罕见的，甚至是私人的，因此简单的逐个突变或基因对基因关联分析可能具有有限的功效[23,24,25]. 例如，在一项针对14种癌症类型的泛癌研究中，Fredriksson等人[23]只有少数体细胞点突变被鉴定为eQTL。另一项研究使用了一个更复杂的模型来借用跨基因的信息，该研究确定体细胞突变是12种癌症类型65个基因中的局部eQTL[24]. 研究体细胞突变相关性的另一个挑战是肿瘤内异质性。即使是估计肿瘤内异质性也是一项非常具有挑战性的任务，每个受试者只能采集一个肿瘤样本[26,27].

需要使用多种遗传因素，包括种系SNP、SCNA、体细胞DNA甲基化变异，甚至体细胞点突变，系统地研究肿瘤样本中基因表达的遗传基础，同时考虑肿瘤内异质性。这些探索保证了一系列未来的研究，例如，研究体细胞突变调用或肿瘤内异质性推断的不确定性，并评估此类估计不确定性如何影响关联分析。

补充材料

啜饮

单击此处查看。^{（36M，拉链）}

致谢

这项工作得到了NIH拨款R01 GM105785、R01 GM07335和癌症基因组学培训拨款的部分支持。作者感谢副主编和两位审稿人的建设性意见和建议。

脚注

⁴补充材料

补充“在不纯正肿瘤样本中定位肿瘤特异性eQTL”：补充文件，包含RNA-seq和基因型阵列处理信息，pTReC和pTReCASE模型优化的数学细节，以及Cis-Trans评分测试的推导。（PDF格式）pTReCASE（打印案例）：开放源码R包pTReCASE包含执行模拟研究和TCGA数据检查中所示pTReCASE分析的代码。（GNU压缩tar文件）。此R包也将在GitHub上发布：https://github.com/Sun-lab/.

参与者信息

道格拉斯·R·威尔逊，道格·威尔逊（Doug R.Wilson）是北卡罗莱纳州北卡罗莱纳大学教堂山生物统计学系的研究生，邮编：27599。

约瑟夫·易卜拉欣，约瑟夫·易卜拉欣（Joseph G.Ibrahim）是北卡罗来纳州北卡罗来那大学教堂山生物统计学系生物统计学校友特聘教授，邮编27599。

孙伟，孙伟是弗雷德·哈钦森癌症研究中心生物统计学项目的副成员。

工具书类

[1]Cookson W、Liang L、Abecasis G、Moffatt M和Lathrop M，“利用全局基因表达绘制复杂疾病特征图,”遗传学自然评论，卷。10，没有。三第184-194页，2009年。[PMC免费文章][公共医学][谷歌学者]

[2]Rockman M和Kruglyak L，“全球基因表达遗传学,”遗传学自然评论，卷。7，没有。11第862-872页，2006年。[公共医学][谷歌学者]

[3]孙伟和胡毅，”利用RNA-seq数据进行eQTL定位,”生物科学统计，卷。5，没有。1第198-219页，2013年。[PMC免费文章][公共医学][谷歌学者]

[4]Loo LWM、Cheng I、Tiirikainen M、Lum-Jones A、Seifried A、Dunkle LM、Church JM、Gryfe R、Weisenberger DJ、Haile RW等，”结肠癌和邻近正常组织中已建立结直肠癌风险变异的顺式表达qtl分析,”公共科学图书馆，卷。7，没有。2, 2012.[PMC免费文章][公共医学][谷歌学者]

[5]Grisanzio C、Werner L、Takeda D、Awoyemi BC、Pomerantz MM、Yamada H、Sooriakumaran P、Robinson BD、Leung R、Schinzel AC等，”遗传和功能分析表明nudt11、hnf1b和slc22a3基因与前列腺癌发病机制有关,”美国国家科学院院刊，卷。109，没有。28第11252–11257页，2012年。[PMC免费文章][公共医学][谷歌学者]

[6]Chen Q-R、Hu Y、Yan C、Buetow K和Meerzaman D，“系统遗传学分析确定与胶质母细胞瘤患者生存相关的顺-eQTL靶基因,”公共科学图书馆，卷。9，没有。8, 2014.[PMC免费文章][公共医学][谷歌学者]

[7]Li Q、Seo J-H、Stranger B、McKenna A、Pe'Er I、LaFramboise T、Brown M、Tyekucheva S和Freedman ML，“基于eQTL的综合分析揭示了五种肿瘤类型的候选因果基因和位点,”单元格，体积。152，没有。三第633–641页，2013年。[PMC免费文章][公共医学][谷歌学者]

[8]Li Q、Stram A、Chen C、Kar S、Gayther S、Pharoah P、Haiman C、Stranger B、Kraft P、Freedman ML等，”基于表达qtl的分析揭示了五种肿瘤类型的候选因果基因和位点,”人类分子遗传学，卷。23第5294–5302页，62014.[PMC免费文章][公共医学][谷歌学者]

[9]Westra H-J、Arends D、Esko T、Peters MJ、Schurmann C、Schramm K、Kettunen J、Yaghootkar H、Fairfax BP、Andiappan AK等人，”无需分选细胞的细胞特异性eQTL分析,”遗传学，卷。11,52015[PMC免费文章][公共医学][谷歌学者]

[10]太阳W，“利用RNA-seq数据进行eQTL定位的统计框架,”生物计量学，卷。68，第1-11页，122011[PMC免费文章][公共医学][谷歌学者]

[11]Carter SL、Cibulskis K、Helman E、McKenna A、Shen H、Zack T、Laird PW、Onofrio RC、Winckler W、Weir BA等，”人类癌症中体细胞DNA变化的绝对定量,”自然生物技术，卷。30，没有。5，第413–4212012页。[PMC免费文章][公共医学][谷歌学者]

[12]Baquet CR、Mishra SI、Commiskey P、Ellison GL和DeShields M，”黑人和白人乳腺癌流行病学：发病率、死亡率、存活率和组织学差异,”美国国家医学会杂志，卷。100，没有。52008年，第480-489页。[PMC免费文章][公共医学][谷歌学者]

[13]Li Y、Willer CJ、Ding J、Scheet P和Abecasis GR，“MaCH：使用序列和基因型数据估计单倍型和未观察到的基因型, ”遗传流行病学，卷。34，没有。82010年，第816-834页。[PMC免费文章][公共医学][谷歌学者]

[14]沙巴林AA，“矩阵eQTL：通过大型矩阵运算进行超快速eQTLs分析,”生物信息学，卷。28，没有。10第1353-1358页，2012年。[PMC免费文章][公共医学][谷歌学者]

[15]Michailidou K、Lindström S、Dennis J、Beesley J、Hui S、Kar S、Lemaçon A、Soucy P、Glubb D、Rostamianfar A等，”关联分析确定65个新的乳腺癌风险位点,”自然，卷。551，没有。7678第92页，2017年。[PMC免费文章][公共医学][谷歌学者]

[16]联合体G等，“人类组织中基因表达的遗传效应,”自然，体积。550，没有。7675第204页，2017年。[PMC免费文章][公共医学][谷歌学者]

[17]Sun W、Bunn P、Jin C、Little P、Zhabotynsky V、Perou CM、Hayes DN、Chen M和Lin D-Y，”肿瘤标本中拷贝数畸变、DNA甲基化与基因表达的相关性,”核酸研究，卷。46，没有。6，第3009–30182018页。[PMC免费文章][公共医学][谷歌学者]

[18]Van Loo P、Nordgard SH、Lingjrde OC、Russnes HG、Rye IH、Sun W、Weigman VJ、Marynen P、Zetterberg A、Naume B等肿瘤等位基因特异性拷贝数分析,”美国国家科学院院刊，卷。107，没有。39第16910–16915页，2010年。[PMC免费文章][公共医学][谷歌学者]

[19]Zack TI、Schumacher SE、Carter SL、Cherniack AD、Saksena G、Tabak B、Lawrence MS、Zhang C-Z、Wala J、Mermel CH等体拷贝数改变的泛癌模式,”自然遗传学，卷。45，没有。10第1134页，2013年。[PMC免费文章][公共医学][谷歌学者]

[20]高X、贝克尔LC、贝克尔DM、斯塔默JD和马萨诸塞州，”在全基因组关联研究中避免高bonferroni惩罚,”遗传流行病学,12010[PMC免费文章][公共医学][谷歌学者]

[21]Benjamini Y和Hochberg Y，”控制错误发现率：一种实用而有效的多重测试方法,”英国皇家统计学会杂志B系列方法，第卷。57，没有。1第289-300页，1995年。[谷歌学者]

[22]胡永杰、孙伟、曾俊英和佩罗·CM，“正确使用等位基因特异表达提高了RNA-seq数据顺-eQTL定位的统计能力,”美国统计协会杂志，卷。110第962-974页，三2015[PMC免费文章][公共医学][谷歌学者]

[23]新泽西州弗雷德里克森、纽约州L、尼尔森州JA和拉尔森州E，”14种肿瘤类型非编码体细胞突变和基因表达变化的系统分析,”自然遗传学，卷。46，没有。12第1258–1263页，2014年。[公共医学][谷歌学者]

[24]Ding J、McConechy MK、Horlings HM、Ha G、Chan FC、Funnell T、Mullaly SC、Reimand J、Bashashati A、Bader GD等，“影响12种肿瘤基因表达的体细胞突变的系统分析,”自然通信，卷。6, 2015.[PMC免费文章][公共医学][谷歌学者]

[25]Liu Y、He Q和Sun W，“利用体细胞突变进行关联分析,”公共科学图书馆遗传学，卷。14，没有。11第1007746页，2018年。[PMC免费文章][公共医学][谷歌学者]

[26]Loo PV、Nordgard SH、Lingjaerde OC、Russnes HG、Rye IH、Sun W、Weigman VJ、Marynen P、Zetterberg A、Naume B等人，”肿瘤等位基因特异性拷贝数分析,”美国国家科学院院刊，卷。107，没有。39第16910–16915页，2010年。[PMC免费文章][公共医学][谷歌学者]

[27]Shen R和Seshan VE，“FACETS：高通量DNA测序的等位基因特异性拷贝数和克隆异质性分析工具,”核酸研究，体积。44，没有。16第e131–e131页，2016年。[PMC免费文章][公共医学][谷歌学者]