J应用统计。2020; 47(11): 2066–2080.
利用亲子-后代三联体对零峰值的连续表型进行候选基因关联分析
,一 ,b条 ,b条 ,c(c)和b条
托马斯·科尼布
c(c)德国哥廷根乔治·阿古斯特大学哥廷根分校
一德国柏林洪堡大学
b条德国哥廷根大学医学中心
c(c)格奥尔格·奥古斯特哥廷根大学,德国哥廷根
版权©2019 Informa UK Limited,作为Taylor&Francis Group交易 - 补充资料
补充材料
GUID:B3F1317D-B784-4280-BE26-D1C03E9333C8
摘要
在本文中,我们提出了一类广义加性模型,用于检测遗传标记与包含零峰的非正态分布表型之间的关联。由此产生的统计检验是带有交配类型指标的定量传递不平衡检验的推广,该检验最初是为正态分布的数量性状和亲代后代数据设计的。作为一个动机性的例子,我们考虑冠状动脉钙化(CAC),它可以通过电子束断层扫描准确识别。在调查地区,个人将持续测量钙的含量,否则他们将不含钙。因此,得到的分布是尖峰为零的混合离散连续分布。我们在筛选人群中进行了受CAC测量值激励的父母-子女模拟,以研究拟议的遗传关联测试的统计特性。此外,我们将该方法应用于遗传分析研讨会16的数据,这些数据基于Framingham心脏研究的真实基因型和家族数据,并测试选定的遗传标记与模拟冠状动脉钙化的相关性。
关键词:冠状动脉钙化,位置、规模和形状的广义加性模型,遗传标记,似然比检验,传递不平衡检验
1.简介
遗传关联分析的目的是识别与疾病的发病状态或数量性状相关的遗传标记。在遗传学中,性状可以是生物体的任何定性或定量(可测量)特征,在本文中将与表型一词同义。一个标记可能是因为它在功能上与表型有关,因为它与功能标记处于连锁不平衡(LD),或者由于虚假的关联。例如,表型和遗传祖先之间的混淆,即所谓的人口分层,可能导致虚假关联。在全基因组关联研究中,由于数千个额外标记的可用性,有可能校正种群分层。另一种方法是对候选基因进行研究。这里,标记是预先选择的,因为它们可能与表型有关,例如基于动物模型。在这种候选基因研究中,可以通过适当的基于家庭的关联测试(FBAT)来防止人群分层。
一种广泛用于家庭研究的方法是传递不平衡检验(TDT)[24]. 对于TDT,受影响的后代和他或她的父母进行基因分型(父母-春天三人组),对于双列标记,测试是否存在特定标记等位基因A类与其他等位基因相比,从杂合父母传给受影响后代的频率更高一.统计检验,McNemar的匹配检验表中,测试在防止人口分层的同时是否存在关联。
对于数量性状,存在许多数量TDT/FBAT版本[1,2,7,14,16,20,21,23,27]有关审查,请参阅[6]. 在这里,我们将重点介绍使用交配型指标进行的定量传递不平衡测试() [8].在测试遗传主效应方面比竞争对手更有效,在测试正态分布性状的基因-环境或基因-基因相互作用方面效率更高[8].是基于回归的程序n个父母后代三胞胎。后代表型()是由一个固定效应模型建模的,该模型考虑了后代的基因型和后代协变量值,并对六种可能的父母交配类型进行调整.亲本交配类型是亲本的基因型-基因型组合.交配类型调整解释了人口分层。
除了正态分布性状或易于转换为正态分布的性状(例如通过对数转换的血液浓度)外,TDT版本还针对正态分布特性的极端尾部进行了开发[2]以及疾病发病年龄等生存特征[15]. 本文重点讨论概率质量为零且值大于零的连续分布的非阴性连续表型,例如通过电子束计算机断层扫描测量冠状动脉钙化(CAC)[22]. 这种断层扫描可以准确测量所研究动脉区域的CAC。确实是在那个地方测量的,对应于一个真正的零,而不是代表一个缺失的观测值。请注意,测量的CAC只是一个人所有动脉中未测量的潜在全身CAC的替代物,尽管测量值为然而,我们只考虑测量的表型。
一个人是否发育成熟如果是这样,CAC的发展程度可能取决于相同或不同的协变量,如年龄、性别、遗传和环境变量。个人将被称为CAC的流行病例。总的来说,我们观察到第页人口中的而人口的其余部分1−第页将有一个(可能是右倾的)具有积极支持的连续性状分布。
在本文中,我们对双亲交配类型的定量TDT进行了扩展,使其具有固定效应通过将其与位置、规模和形状的广义加性模型(GAMLSS)相结合[19,25]. 洛扎诺[17]在偏态分布的背景下,将这些模型用于TDT。GAMLSS类放宽了通常的指数族假设,从而可以假设更复杂的表型分布。特别是,GAMLSS允许分析员放宽正常分布表型的标准假设而是假设具有混合离散连续分布,点质量为零,连续部分具有正支撑。作为特定示例,我们将考虑具有逆高斯或伽马连续分量的混合离散连续分布,从而得到零调整逆高斯(ZAIG)和零调整伽马(ZAGA)分布。重点不在于模型,而在于相应的遗传效应测试,我们称之为ZAIG-和ZAGA-分别用于逆高斯和γ分布连续表型成分。我们将比较小说的表现与的变体和其他s由模拟场景中的离散表型观察产生。这些情景对应于影响CAC得分为零的概率的基因型第页和表型分布的连续部分(估计功率),或混合分布表型的无部分(估计1型误差)。我们还考虑了两个基因型分布不均的亚群的人群分层作为连续部分的混杂因素,即CAC的严重程度受人群的影响,而不是CAC为零的概率或CAC的流行率。
2.材料和方法
2.1. 遗传标记关联性测试
2.1.1. 使用零调整GAMLSS建模零脉冲
观察到CAC分数的分布呈右倾,在零处有一个尖峰,因此密度是一个混合离散连续分布,点质量为零(无CAC),连续部分具有正支撑,反映了非零CAC分数。GAMLSS类别中的两个合适的候选者用于模型观测,哪里表示CAC得分,是一组编码基因型和是额外的协变量,是具有密度的零调整逆高斯分布(ZAIG)
以及零调整伽马(ZAGA)分布与密度
对于这两种分布,参数反映CAC得分为零的概率,而对应于条件期望、和是条件分布的尺度参数注意,没有条件的总体期望是.我们对基因型的影响特别感兴趣关于条件期望还请注意,上述模型规范意味着遗传或临床协变量对也会改变混合分布连续部分的方差(和进一步的矩),因为是一个比例参数,但方差取决于两者和对于这两种分布。我们在本文中假设是一个常量。
两个零调节分布的参数()现在可以与回归预测相关,、和确定为协变量的线性组合(包括遗传信息和交配类型信息),通过
确保限制,和为了估算下文讨论的所有模型,我们使用了R包形状的广义可加模型这是一种基于极大似然的方法,用于估计回归模型,其中单变量响应的所有分布参数可能依赖于协变量。Newton-Raphson/Fisher-scoring型算法用于最大化可能性,参见[25]了解详细信息。
2.1.2. 遗传流行病学模型
原件假设后代性状正态分布在线性回归框架内进行分析[8]
这是一个对总体预期值有固定影响的线性回归模型
后代性状值取决于后代的基因型,对后代协变量进行调整以及六种可能的父母交配类型.假设残差呈正态分布具有恒定方差.
正如引言中已经提到的,配对类型指示器是一个具有六个水平的因子,用于指示子代中父系和母系基因型的特定组合我换句话说,估计有六次截获,每种父母交配类型一次。这背后的理由是种族亚群可能因截距而不同,但不因遗传效应强度而不同.困惑当被检测的单核苷酸多态性(SNP)标记的特征截距和次要等位基因频率(MAF)都不同时,就会出现亚群差异。那么,来自同一亚群的后代比例将在后代基因型组之间发生变化。因此,对后代基因型进行直接回归会产生混淆估计。相反,估计共同的遗传效应在亲本交配型地层中的后代。虽然子种群对父母交配类型的贡献比例不同,但这种影响现在被吸收到父母交配型截获中从而消除了对遗传效应的混淆。有效地,仅在至少有一个杂合父母的后代中估计(交配类型:,,). 然而,也包括其他交配类型(因此使用整个样本),通过减少总剩余方差来增加测试的威力 [8]. 这一点与众不同来自其他方法。子代基因型编码取决于遗传方式。使用对于普通纯合子AA公司,杂合子美国、和对于小等位基因纯合子aa公司,,0.5,1分别代表隐性、加性和显性遗传模式。在本文中,我们假设了一种加性继承模式。
对CAC分数应用标准线性回归,如方程所示(4),忽略其非正态分布。因此,我们建议零调节变体ZAIG-和ZAGA-作为具有预测器规范的替代方案
用于零调整分布的参数。反应与遗传标记无关联的无效假设克使用似然比检验统计量进行测试
哪里和是零假设下的最大对数似然(无关联)和备选方案或分别是。因此,这是一个具有两个自由度的似然比测试().
数据通常被二分或分类,所以我们也考虑了两种高度简化的零调整替代方案-.银行标识代码-考虑标准logistic回归,即是否存在钙化;我们利用了这个家庭商业智能在中形状的广义可加模型用于估算的包。CAT公司-根据33%和66%分位数,基于一个零类别和三个进一步有序的类别,然后通过函数估计有序响应的累积logistic模型波尔在R.BIN中-和CAT-是一个自由度的遗传参数测试,类似于经典的.
除显著性检验外,具有有限样本量校正的Akaike信息准则(AICc)[12]描述特定模型与手头数据的匹配程度。此标准可用于比较经典模型的基础模型使用零调整版本,还允许我们决定包含哪些协变量。然而,请注意,由于AIC的比较需要使用相同的响应变量,因此不可能与从离散响应中获得的测试进行比较。此外,请注意,我们在AIC的计算中包含了所有常数,以便我们可以直接比较和调零根据这个标准。
2.2. 实证评估
我们研究了1型错误和检测单个遗传标记在5%水平上对CAC表型的影响的能力、ZAIG-、ZAGA-,银行标识代码-和CAT-对于ZAIG-和ZAGA-,我们使用500次重复采样来确定测试结果。对于其他测试,我们没有使用重采样,因为这与通常的执行方式相对应。我们还使用AICc来比较模型。
2.2.1. 模拟研究
我们用给定的数字生成了横断面研究的副本n个每个亚群的父母-父母三人组j个 = 单个双列SNP的1、2和亲代及后代基因型这造成了种群混合,从而可能导致遗传混杂,这是应用TDT方法的主要原因。我们假设一半的样本是分别从两个不同的遗传亚群中的一个随机招募的,而没有在亚群之间进行交叉交配。SNP在亚群中的MAF为0.10j个 = 亚群中为1或0.30j个 = 2,在每个亚群中处于Hardy-Weinberg平衡(HWE),并通过孟德尔分离从父母传给后代。因此,本研究中65%的后代是普通纯合子(),30%杂合子()和5%的小等位基因纯合子(). 子代的CAC评分性状数据被模拟为ZAIG分布,并取决于子代基因型对于种族混杂的CAC>0在连续部分:
为了获得一个现实的场景,我们的数据生成过程是基于CAC分数在35246名30至90岁的代表性人群样本中的分布,这些样本于1990年接受了CAC分数筛查。我们以50岁的个体为研究对象,其参数为性别平均值,因此无需对模拟CAC评分中的年龄和性别进行调整,并根据CAC评分的相应观察分布选择了ZAIG截距参数(50岁男性和女性的平均参数:,,; 参见,例如[11]). 对于功率估计,我们指定了合理的遗传效应强度和,而对于1类错误估计,我们设置和这些数据在0时有一个巨大的峰值:所有后代中有83%的CAC低于0(,). 当风险SNP发生时,78%的后代CAC为零(,)存在。
种族混杂的影响被设定为对于亚群1和用于亚群2。种族混淆只影响条件期望的拦截非零CAC分数和总体平均值注意,对于ZAIG数据生成方程(6)(和ZAIG-模型估计方程(三))遗传效应对预测因子是加性的(每个等位基因),但对条件平均值是乘性的非零CAC分数和零杆机会分别是。模拟风险SNP降低并增加每个次要等位基因。两种遗传效应共同增加了总体平均值分析人员.
50岁女性或男性的现实CAC得分大幅飙升至零。为了让一个场景也有一个中度峰值为零,我们使用了以下参数和同上,但和然后,33%的后代在(,). 当风险SNP发生时,25%的后代CAC为零(,)存在。
对于ZAIG-这渐近等价于遗传和非遗传协变量存在且正确调整的协变量依赖性的情况。相反,在相加效应是在总体平均值上估计的,而真实的模拟效应(见(6))本质上是乘法的。当包括临床变量在内的其他协变量不存在时,后者的失配仅限于遗传估计。因此,由于这个规模问题在包括遗传效应在内的任何协变量建模中存在不匹配。当然也错误地假设了这些ZAIG分布数据具有恒定方差的正态残差。模拟ZAIG时,ZAGA-模拟研究中未考虑。
最后,我们注意到,CAC评分值在不同研究之间差异很大,因为测量次数、切片厚度、像素等的程序在不同研究中差异很大[22]. 因此,我们模拟中的比例与下一节中描述的不同。
2.2.2. GAW16 Framingham数据中的CAC得分
GAW16 Framingham数据(登录号phs000128v1.p1,从基因型和表型数据库(dbGaP),http://www.ncbi.nlm.nih.gov/gap)提供具有实际测量基因型的扩展家系。因此,任何种群结构都是这些基因型数据所固有的。我们根据这些数据开展的工作符合《赫尔辛基宣言》(1964年),并得到了当地机构审查委员会以及随后的dbGaP的批准。数据提供者模拟了CAC得分(有200个重复数据)[13]基于高斯变量的潜在混合分布,将负值设置为零,并应用分段线性年龄调整。潜在变量的期望值基本上是由(a)总胆固醇和高密度脂蛋白(HDL)的混合物创建的,这两种混合物都是高斯混合分布,包括主基因和多基因,(b)五个SNP产生的三个效应,其中只有rs17714718产生,显示出可测量的加性主效应。SNP rs213952显示过度显性,因为杂合子在穗部富集,两个相互作用或上位SNP对(每个SNP与)以及(c)由正态分布建模的其他多基因。
Framingham研究是一项纵向队列研究,模拟了一次基线检查和随后的随访检查的CAC分数。然而,本文中应用的分析方法侧重于基线时CAC分布的方面,因此是横断的。
我们从Framingham家系中提取了323个独立的父母-子女三人组,他们的基线CAC得分和后代的协变量值。后代为42%的男性,73%的非吸烟者,52%的CAC得分为零。后代年龄范围为19至56岁,平均29岁,标准差为8岁。后代的胆固醇水平从112到268个单位不等,平均值为194个单位,标准偏差为26个单位。表显示按相关过量SNP rs213952基因型分层的基线CAC得分。请注意,GAW16 Framingham数据中CAC分数为零的百分比(52%)介于我们上述模拟研究的大量峰值和中度峰值场景之间。除了CAC数据生成过程中包含的五个SNP外,我们还提取了14个其他SNP,这些SNP是为一个关于身体-肌肉-index的研究问题临时选择的[18]代表CAC的遗传空假设。请注意,我们没有针对多个测试进行调整,因为我们只是想在这个应用程序中演示单变体测试的性能。所有考虑的SNP都是独立的,即不在LD中。
表1。
GAW16 Framinham数据中的CAC得分(数据重复16)。富含rs213952杂合子(n个 = HWE基于MAF预计54,n个 = 观察到71处)。
| | | 按rs213952基因型分层 |
---|
| 总计 | 0 | 1 | 2 |
---|
CAC公司 | | % () | | %() | | %() | | %() |
---|
| 168 | 52% | 93 | 29% | 71 | 22% | 4 | 1% |
| 155 | 48% () | 117 | 36% () | 29 | 9% () | 9 | 3% () |
总之,GAW16 Framingham CAC得分数据遵循混合离散连续分布,峰值为零。遗传效应促成了几个潜在的数据生成变量[13]. 根据这些数据,模型ZAIG-在假设的数据分布以及遗传效应建模的规模方面有点不匹配。ZAIG公司-假设平均值具有乘法效应,而真正的效果本质上是相加的(在这个应用中,这与我们的模拟相反)。在ZAIG估计量的乘法尺度上,加性效应可能显得微不足道。此外,ZAIG-是一个异方差模型,假设非零CAC分数的方差取决于遗传和非遗传协变量,因为.显然,由于假设残差为正态分布且具有同方差性,因此不能正确地拟合分布特性。然而,在此应用中,线性由于遗传效应的规模是可加性的,模型可以更好地捕捉相关数据特征。然而通过假设残差正态分布,仍然是不匹配的。
3.结果
3.1. ZAIG分布式CAC评分数据的仿真研究
我们首先比较了以下模型和ZAIG-.不匹配模型的平均AICc比零杆模型ZAIG大三倍-(例如用于n个 = 500对于和对于ZAIG-). 因此,从建模角度来看,ZAIG-模型更符合数据,显然是首选模型。
图显示ZAIG分布式CAC得分数据的估计功率(顶行)和1类错误(底行),该数据在零处出现大量峰值(左栏)或在零处有中度峰值(右栏)。保持了type-1错误,或者甚至有点保守。ZAIG公司-在使用置换测试时,可以很好地保持类型1错误,而在没有置换测试的情况下,它存在类型1错误问题(未显示)。对于零样本和小样本的中度峰值,ZAIG-有点反保守。垃圾箱-和CAT-维护类型1错误有更多问题。
ZAIG分布式CAC数据的仿真研究。显示了ZAIG数据标称5%水平下的功率(顶行,超过1000次数据复制的平均值)和1类错误(底行,超过10000次数据复制),模型在0处出现大量峰值(左栏)或在0处发生中度峰值(右栏)、ZAIG-,银行标识代码-和CAT-注意功率(顶部)和1类误差之间的y轴不同(底部:5%值(小线)的估计不确定性是周围95%置信区间(虚线))。
在动力方面,ZAIG-表现出色(以及离散化版本BIN-和CAT-)对于中度和重度峰值。这与AICc证明的更好的模型拟合一致。中等扣球的力量通常比大扣球好。大规模峰值生成模型表明ZAIG的功率增益更大-与其他s、 在这个模型中几乎无法区分。对于中等峰值,二进制编码的估计功率优于CAT中的四类编码-这又比然而,这需要慎重考虑,并将1类错误结果考虑在内。
3.2. 在GAW16 Framingham数据中,CAC得分为零
分析模型、ZAIG-和ZAGA-根据协变量年龄、性别、胆固醇和吸烟状况的主要影响进行调整,并将考虑的SNP纳入模型。我们在数据复制16中显示了SNP rs213952的几个结果。这种SNP具有超显性效应,因此不适合加性遗传模型。表中给出了该SNP/复制的有关CAC的分布属性.
图显示残差的分位数-分位数图和(随机)分位数残差[5]对于ZAIG-和ZAGA-对于SNP rs213952(重复16)。如预期ZAGA的零调整伽马显示出明显的模型不匹配-显示了最佳拟合。这由相同设置的AICc支持,其中4010用于ZAIG为2274-ZAGA和2104-.
三种模型的分位数残差、ZAIG-、ZAGA-GAW16 Framingham数据中过量SNP rs213952(数据复制16)。
所有五项的结果所有SNP上的s显示在表中请注意,具有GAW16模拟效果的五个SNP位于表的上部。根据数据描述,SNP rs17714718与rs6743961相互作用,是唯一一个具有附加遗传主效应的SNP[13]. 因此,由于相互作用,这里也给出了一些模型不匹配。所有结果都涉及在5%水平上单独测试每个SNP,并估计第页-在可用的200个重复数据中,值≤5%。对于真正的1类错误,200次重复的估计不确定性(即95%置信区间)在2%到8%之间。
表2。
百分比在GAW16 Framingham数据的CAC上进行单个SNP关联测试(平均超过200个数据重复)。GAW16 Framingham CAC得分数据具有截断高斯分布,峰值为零。前五个SNP与CAC相关,但只有前两个SNP具有可检测的主要影响。其他14个SNP代表遗传无效假设。模型、ZAIG-,银行标识代码-和CAT-对年龄、胆固醇、性别和吸烟状况的主要影响进行了调整。
| | | | 百分比 |
---|
SNP标记 | MAF公司 | 效果 | | ZAIG公司- | ZAGA公司- | 银行标识代码- | CAT公司- |
---|
互动 |
17714718卢比 | 50% | 加性主效应 | 25.5 | 9.5 | 10 | 7.5 | 11.5 |
6743961卢比 | 50% | 最小主效应 | 5.5 | 13.5 | 7.5 | 9.5 | 7.5 |
1894638卢比 | 50% | 无主要影响 | 7.5 | 20.5 | 4 | 5 | 4.5 |
1919811卢比 | 50% | 无主要影响 | 2 | 15 | 1.5 | 5 | 5.5 |
213952卢比 | 20% | 主导主效应 | 4.5 | 13.5 | 4 | 3 | 5.5 |
854560卢比 | 39% | 没有影响 | 5 | 15.5 | 1 | 3.5 | 3.5 |
1121980卢比 | 42% | 没有影响 | 2 | 9.5 | 2 | 3 | 3 |
1800588卢比 | 20% | 没有影响 | 1.5 | 15 | 2.5 | 3.5 | 3 |
2229616卢比 | 1% | 没有影响 | 1 | 8.5 | 6 | 4.5 | 3 |
2230806卢比 | 29% | 没有影响 | 6 | 14 | 8.5 | 7.5 | 10.5 |
3211938卢比 | 0% | 没有影响 | 0 | 0 | 0 | 0 | 0 |
rs4149056型 | 15% | 没有影响 | 4 | 9.5 | 4 | 2.5 | 3 |
rs6602024型 | 12% | 没有影响 | 3.5 | 7 | 4.5 | 3.5 | 2.5 |
6971091卢比 | 21% | 没有影响 | 4.5 | 8 | 4.5 | 3 | 4.5 |
9930506卢比 | 42% | 没有影响 | 1.5 | 13 | 2.5 | 3 | 2.5 |
10489535卢比 | 4% | 没有影响 | 8 | 3.5 | 10 | 3.5 | 7 |
11927551卢比 | 31% | 没有影响 | 6 | 11 | 3 | 4 | 3.5 |
12565497卢比 | 30% | 没有影响 | 3.5 | 9.5 | 3 | 2.5 | 7.5 |
17482753卢比 | 9% | 没有影响 | 5 | 15.5 | 5 | 2 | 4 |
我们考虑了所有无作用的SNP、两个无主要作用的SNPs和过度作用的SNP17,并计算了这17个SNPs中有多少超出2%–8%范围:4/17ZAIG,2017年16月-ZAGA,2017年5月-,1/17用于BIN-和2/17 CAT-1类错误得到了合理的维护、ZAGA-和CAT-.ZAIG公司-不保留类型1错误。如果我们模拟种群混杂并将其与零脉冲部分内的交配类型进行分析,那么我们将在逻辑回归中引入交配类型的某些级别的稀疏性。这导致回归估计中的向上偏差,从而导致1类错误的膨胀[9]. 银行标识代码-太保守了。关于权力,可以考虑苏格兰民族党rs17714718。功率最高25.5%。这一估计功率是这些数据的预期数量级。然而,此数据集中的总功率非常小,对于ZAGA-和CAT-在null下观察到的上限。
4.讨论
我们的工作证明了生物统计学家和遗传流行病学家之间跨学科工作的必要性,以便在遗传关联研究中超越连续表型的正态分布,并在该领域使用GAMLSS等方法[三,29]. 这种遗传关联研究的目标之一是使用这种变体进行遗传测试。例如,齐格勒[28]概述了对常见病和罕见病的基因检测的经济评估,发现在所有存在此类评估的疾病中,冠脉综合征(CAC是其标志)排名第五。这种经济评估的一个先决条件是变体在测试和疾病建模中的有用性。
一般来说,GAMLSS提供了一个灵活的框架,用于将潜在非常复杂的表型分布的所有参数与协变量效应联系起来。在本文中,我们利用这种灵活性来处理包括零峰值在内的非正态分布数量性状。关于响应分布的连续正部分,我们选择了逆高斯分布和伽马分布,以便不仅提高模型拟合度,而且提高结果测试的能力。当然,也可以考虑其他候选分布,例如对数正态分布。
关于模拟,混合物分布模型ZAIG-明显表现优异关于数据拟合(如AICc值所示)。ZAIG公司-也有比线性更高的功率确定反应与连续以及零脉冲预测器中的加性遗传标记的关联。我们模拟了,从而对非零CAC响应产生积极影响). 我们还模拟了因此,分布两部分的加性遗传效应协同增加了总体平均值。这对然而,ZAIG-也可以在分布的两个部分处理相反的效果。
我们模拟了人口混合二分组不仅为了简单,而且为了最大限度地增加可能出现的1类错误[26]. 用于与线性由于阳性反应和人群成员之间的联系,我们假设存在混淆,而零反应的流行率并不是模拟的人群依赖性。ZAIG只对阳性反应进行混淆-使用置换测试时保持类型1错误。我们还模拟了零脉冲部分的混淆,从而假设人群中的患病率不同。然而,当零脉冲、单独或阳性反应中存在混杂时,则ZAIG-即使在使用置换测试时,也不会保留类型1错误。虽然可以评估人群之间患病率的差异,并且我们关注的是直接在gamlss包中实现零脉冲的混合离散-连续模型,但重要的是要注意到这一局限性。为了克服这一警告,我们将在未来对零脉冲部分进行改造。
与ZAIG相比-,越简单在似然比检验中使用更少的一个自由度,估计对整个样本的单个总体影响,并假设同方差。另一个重要的区别是估计影响的规模。估计(和测试)总体平均值的加性效应,而ZAIG-估计(并测试)混合分布参数的乘法效应。这两种模型之间的规模不匹配可能有利于.
在应用于GAW16数据时,零调整伽马比零调整逆高斯更适合数据。对于ZAGA-,类型1错误是可以接受的,但功率低于原始数据由高斯分布和零峰值的混合确定。ZAIG公司-无法处理这种情况,并且证明所有被调查的空SNP都存在1类错误膨胀。这种膨胀不可能是由于GAW16扩展谱系中不同三联体之间的联系,因为我们只选择了独立的三联体。我们认识到,TDT泛化是在分析测序数据和基于区域的TDT扩展的背景下发展起来的,在不同的谱系结构中,通过[10]. 我们的文章只考虑单一变体测试。一般来说,TDT在队列研究中的作用不如其对应物。因此,它们通常用于候选或复制上下文中。从这个意义上讲,我们避免了对多个SNP的多重测试进行任何调整,这当然需要在实际研究中进行。我们也没有研究一组或连锁不平衡区域中的几个SNP。我们同意[10]在实际应用之前,需要对标记集的任何扩展进行研究。
关于概率质量为零且正值为连续分布的各种类型的非负变量,有大量文献,其应用范围广泛。我们不打算对该文献进行回顾,只想强调几点。跨栏模型具有零值分布和非零观测值的截断分布,非零观测的概率质量不为零。相反,充气模型允许两部分都为零。我们确实认为,这种差异与计数数据非常相关,但与连续部分中的零值概率为零的分布无关。当然,一些具有检测极限的数据可能会显示审查,我们将不再进一步讨论。
例如,在遗传流行病学的背景下,已经考虑了零膨胀计数结果[9]通过零膨胀泊松(ZIP)分布或零膨胀负二项分布。在他们的模拟中,古德曼等。[9]包括观察到的协变量和与结果相关的未观察协变量,这可能与我们的人群混淆相一致。如果观察到的协变量和遗传效应之间的相关性很高,那么1类错误可能会被夸大[9,图6]。在我们的环境中,由于孟德尔分离,交配类型和基因型确实高度相关,因此当种群混杂也存在于零部分时,这可能是1型错误膨胀的潜在来源。同样,布乌等。[4]证明了纵向数据的跨栏模型的性能随着协变量相关性的提高而趋于下降。然而,如前所述,我们认为可以假设CAC的流行率与我们在模拟中所做的非常相似,这是合理的。
致谢
Nadja Klein开发了模拟和分析代码。然而,与SHARe的所有数据访问/交互仅由哥廷根大学医学中心遗传流行病学研究所的授权成员进行。研究人员感谢弗雷明翰心脏研究参与者,他们对这项研究的坚定承诺使这项研究成为可能。这项研究部分使用了美国国立卫生研究院国家心肺与血液研究所和波士顿大学医学院弗雷明翰心脏研究的数据和资源。这些数据部分来自参与SNP健康协会资源(SHARe)项目的弗雷明翰心脏研究研究员的资源开发结果。这项工作得到了国家心脏、肺和血液研究所弗雷明翰心脏研究(合同编号N01-HC-25195)及其与Affymetrix,Inc签订的基因分型服务合同(合同编号:N02-HL-6-4278)的部分支持。
资金筹措表
Heike Bickeböller得到了Deutsche Forschungsgemeinschaft(Klinische Forschergruppe(KFO)241:TP5,BI 576/5-1拨款)和德国联邦教育和研究部联邦教育与研究部(BMBF)(德国国家基因组研究网NGFN拨款01GS0837)的支持。Nadja Klein和Thomas Kneib的工作得到了德国研究基金会(DFG)通过研究项目KN 922/4-1/2的支持,与Heike Bickeböller的工作一起,还通过“统计中的尺度问题”研究培训小组1644进行了支持。
工具书类
1Abecasis G.、Cordon L.和Cookson W。,核心家系数量性状相关性的一般检验,Am.J.Hum.遗传学。
66(2000),第279-292页。数字对象标识代码:10.1086/302698[PMC免费文章][公共医学] [交叉参考][谷歌学者] 2Allison D.B。,数量性状的传递不平衡检验,Am.J.Hum.遗传学。
60(1997),第676–690页。[PMC免费文章][公共医学][谷歌学者] 三。Bickeböller H.、Haux R.和Winter A。,关于加强与gmds的联系,方法。Inf.Med.公司。
52(2013),第1-2页。doi:10.1055/s-0038-1627053[公共医学] [交叉参考][谷歌学者] 4Buu A.、Li R.、Tan X.和Zucker R.A。,纵向零膨胀计数数据的统计模型及其在药物滥用领域的应用,统计医学。
31(2012年),第4074–4086页。doi:10.1002/sim.5510[PMC免费文章][公共医学] [交叉参考][谷歌学者] 5Dunn P.K.和Smyth G.K。,随机分位数残差,J.计算。图表。斯达。
5(1996),第236-245页。[谷歌学者] 6Ewens W.J.、Li M.和Spielman R.S。,数量性状与遗传标记连锁不平衡的家族检测综述,公共科学图书馆-遗传学。
4(2008),第e1000180页。doi:10.1371/journal.pgen.1000180[PMC免费文章][公共医学] [交叉参考][谷歌学者] 7Fulker D.、Cherny S.、Sham P.和Hewitt J。,数量性状的连锁和关联同胞对分析,Am.J.Hum.遗传学。
64(1999),第259-267页。doi:10.1086/302193[PMC免费文章][公共医学] [交叉参考][谷歌学者] 8高德曼W.J。,利用亲子-后代三联体对数量性状进行候选基因关联分析,遗传学。流行病。
25(2003),第327–338页。doi:10.1002/gepi.10262[公共医学] [交叉参考][谷歌学者] 9Goodman M.O.、Chibnik L.和Cai T。,零膨胀计数结果的方差分量遗传关联检验,遗传学。流行病。
43(2019年),第82-101页。doi:10.1002/gepi.22162[PMC免费文章][公共医学] [交叉参考][谷歌学者] 10Hecker J.、Laird N.和Lange C。,基于家庭的关联分析中常用TDT推广方法的比较,遗传学。流行病。
43(2019年),第300-317页。doi:10.1002/gepi.22181[PMC免费文章][公共医学] [交叉参考][谷歌学者] 11Hoff J.A.、Chomka E.V.、Krainik A.J.、Daviglus M.、Rich S.和Kondos G.T。,35246例成人冠状动脉钙化的电子束断层扫描年龄和性别分布,美国心脏病杂志。
87(2001),第1335–1339页。doi:10.1016/S0002-9149(01)01548-X[公共医学] [交叉参考][谷歌学者] 12Hurvich C.M.和Tsai C.-L。,小样本中的回归和时间序列模型选择,生物特征
76(1989),第297–307页。doi:10.1093/biomet/76.2.297[交叉参考][谷歌学者] 13.Kraja A.T.、Culverhouse R.、Daw E.W.、Wu J.、Van Brunt A.、Province M.A.和Borecki I.B。,遗传分析研讨会16问题3:根据弗雷明翰心脏研究中的实际全基因组单核苷酸多态性模拟可遗传的纵向心血管表型,BMC程序。
15(2009),第S4页。doi:10.1186/1753-6561-3-S7-S4[PMC免费文章][公共医学] [交叉参考][谷歌学者] 14Lange C.、DeMeo D.和Laird N。,基于家庭的一般关联测试的功效和设计考虑:数量特征,Am.J.Hum.遗传学。
71(2002),第1330–1341页。doi:10.1086/344696[PMC免费文章][公共医学] [交叉参考][谷歌学者] 15李海、范杰。,发病年龄可变的复杂疾病相关性的一般检验,遗传学。流行病。
19(2000),第43-49页。doi:10.1002/1098-2272(2000)19:1+<::AID-GEPI7>3.0.CO;2-J型[公共医学] [交叉参考][谷歌学者] 16Liu Y.、Tritchler D.和Bull S.B。,离散性状和连续性状传递不平衡检验分析的统一框架,遗传学。流行病。
22(2002),第26-40页。doi:10.1002/表1041[公共医学] [交叉参考][谷歌学者] 17洛扎诺J.P。,广义定量传递不平衡检验分析遗传主效应和上位性乔治·奥古斯特大学戈廷根分校博士论文,库维利埃,2010年。ISBN-10:9783869555829。
18Malzahn D.、Balavarca Y.、Lozano J.P.和Bickeböller H。,在大队列中测量纵向数量性状的候选基因相互作用试验,BMC程序。
三(2009),第S80页。doi:10.1186/1753-6561-3-S7-S80[PMC免费文章][公共医学] [交叉参考][谷歌学者] 19Mayr A.、Fenske N.、Hofner B.、Kneib T.和Schmid M。,高维数据位置、规模和形状的广义加性模型:基于boosting的灵活方法,J.R.统计社会服务。C申请。统计师。
61(2012),第403-427页。文件编号:10.1111/j.1467-9876.2011.01033.x[交叉参考][谷歌学者] 20Monks S.A.和Kaplan N.L。,从基于家庭的定量追踪位点关联测试中消除抽样限制,Am.J.Hum.遗传学。
66(2000),第576-592页。doi:10.1086/302745[PMC免费文章][公共医学] [交叉参考][谷歌学者] 21拉宾诺维茨D。,数量性状基因座的传递不平衡检验,哼,来了。
47(1997),第342-350页。数字对象标识代码:10.1159/000154433[公共医学] [交叉参考][谷歌学者] 22Redberg R.F.和Shaw L.J。,电子束计算机断层扫描对冠心病筛查的意义,上一页。心脏病。
5(2002),第71-78页。doi:10.1111/j.1520-037X.2002.0576.x[公共医学] [交叉参考][谷歌学者] 23Schaid D.J.和Rowland C.M。,数量性状传递不平衡检验:父母失踪津贴,遗传学。流行病。
17(1999),第S307–S312页。doi:10.1002/gepi.1370170752[公共医学] [交叉参考][谷歌学者] 24Spielman R.S.、McGinnis R.E.和Ewens W.J。,连锁失衡的传递试验:胰岛素基因区域与胰岛素依赖型糖尿病(IDDM),Am.J.Hum.遗传学。
52(1993),第506-516页。[PMC免费文章][公共医学][谷歌学者] 25Stasinopoulos D.M.和Rigby R.A。,位置、规模和形状的广义加性模型(含讨论),J.R.统计社会服务。C申请。统计师。
54(2005),第507-554页。doi:10.1111/j.1467-9876.2005.00510.x[交叉参考][谷歌学者] 26Wacholder S.、Rothman N.和Caporaso N。,常见遗传变异和癌症流行病学研究中的人群分层:偏差的量化,J.国家。癌症。仪器。
92(2000),第1151-1158页。doi:10.1093/jnci/92.14.1151[公共医学] [交叉参考][谷歌学者] 27Yang Q.、Rabinowitz D.、Isasi C.和Shea S。,在估计候选基因对数量性状的影响时,调整因群体混合引起的混淆,哼,来了。
50(1999),第227-233页。doi:10.1159/000022920[公共医学] [交叉参考][谷歌学者] 28齐格勒A.、鲁道夫·罗斯菲尔德W.和冯西安R。,孤独症谱系障碍的基因检测缺乏成本效益证据——一项系统综述,方法。Inf.Med.公司。
56(2017),第268-273页。doi:10.3414/ME16-01-0082[公共医学] [交叉参考][谷歌学者] 29齐格勒A.、威尔逊A.F.和加格农F。,信息学和遗传流行病学,方法。Inf.Med.公司。
53(2014),第1-2页。doi:10.1055/s-0038-1627065[公共医学] [交叉参考][谷歌学者]