跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
统计应用基因分子生物学。作者手稿;PMC 2006年3月20日提供。
以最终编辑形式发布为:
2005年6月6日在线发布。 数字对象标识:10.2202/1544-6115.1133
预防性维修识别码:项目经理1403827
美国国立卫生研究院:NIHMS3139
PMID:16646832

扩展SIMLA包生成具有复杂遗传模式的家系:环境协变量、基因和基因-环境相互作用*

摘要

我们之前发布了一个软件包SIMLA(SIMulation of Linkage and Association),可用于在用户特定结构的三代家系中生成疾病表型和标记基因型数据。据我们所知,SIMLA是唯一一个公开可用的程序,可以模拟普通家系中标记和疾病位点之间的连锁(重组)和连锁不平衡(LD)的可变水平。虽然以前的SIMLA版本在选择与复杂人类疾病的连锁和关联图谱相关的许多参数方面提供了灵活性,但它不允许在给定的谱系中分离多个疾病基因座,也不包含可能与疾病易感性基因相互作用的环境协变量。

在这里,我们提出了一种模拟算法的扩展,其特点是具有更为通用的外显率函数,允许模拟家系中最多两个基因和最多两个环境协变量的联合作用,以及它们之间所有可能的乘法交互作用。这使得该程序对于比较应用于复杂人类表型的不同连锁和关联分析方法的性能更加有用。SIMLA可以帮助研究人员规划和设计各种联系和关联研究,并通过将实际数据分析结果与用户控制的数据生成机制下获得的结果进行比较,帮助解释实际数据分析的结果。

SIMLA软件包的免费下载位于http://wwwchg.duhs.duke.edu/software.

关键词:遗传学、统计学、软件、联系、关联

介绍

目前已有许多用于复杂人类疾病关联分析的软件包。在现有软件的新版本或全新的分析包中继续实施方法学改进,在线软件列表的频繁更新证明了这一点(例如。,http://linkage.rockefeller.edu). 然而,只有少数普遍可用的程序可以基于用户指定的生成模型模拟谱系数据,并允许研究人员在将几种竞争性链接或关联分析方法应用于真实数据集之前评估和比较其性能。这些软件包包括SLINK(Ott 1989年;Weeks等人,1990年),SIMLINK(Boehnke 1986年;1989年普洛格曼和博恩克)和SIMULATE用于链接应用程序,以及POWERFBAT(Laird等人,2000年)用于基于家族的关联模拟。此外,一些统计遗传分析软件包,如MERLIN(Abecasis等人,2002年)和太阳能(Almasy和Blangero 1998年),提供基于模拟的经验p值。然而,在大多数情况下,零假设和替代假设仅限于回答非常具体的问题。我们创建仿真包SIMLA(链接和关联的仿真)的目标(Bass等人,2004年)旨在开发一个模拟软件包,用于回答那些开发遗传分析统计方法的人感兴趣的各种问题。SIMLA对于研究复杂疾病的研究人员来说也是一个有价值的工具,他们可能希望在将竞争性链接或关联分析方法应用于实际数据集之前评估其性能。

我们之前开发并发布了SIMLA的早期版本(2.3),该版本有助于开发和评估几种新颖的分析方法以及相应的链接和关联分析软件包(Martin等人,2000年;Martin等人,2003年;Hauser和Boehnke 1998;Hauser等人,2004年;Boyles AL等人,2005年). 先前的SIMLA版本在不同用户特定的确定标准(例如,受累先证者、受累同胞对、不一致同胞对等)下,对具有二元(受累/未受累)疾病表型的三代家系进行了模拟。它能够模拟多达10个具有用户特定遗传模式、外显率值和等位基因频率的非连锁双等位基因疾病基因,但其中只有一个可以在单个家系中分离。可以产生多达350个标记,每个标记最多有7个等位基因,并且根据用户指定的基因座之间重组频率图,这些标记可以连接到任何单个疾病基因座。通过指定与特定疾病位点相关的家庭比例来模拟具有遗传异质性的数据集。随机基因型错误和选择具有可用基因型的个体进行分析也是可能的。该计划的一个独特特点是,通过为带有或不带有疾病等位基因的染色体指定条件标记等位基因或单倍型频率,能够在标记单倍型和疾病位点之间产生不同程度的连锁不平衡(LD)。

先前SIMLA版本的局限性包括无法模拟每个家系多个疾病基因的分离,以及无法解释环境因素对复杂疾病表型风险的贡献。因此,无法模拟基因-基因(G×G)和基因-环境(G×E)的相互作用。在这里,我们介绍了SIMLA包(3.0版)的扩展,它包含了这些重要功能,因此能够在更复杂的模型下生成系谱数据,这可能会更好地接近人类疾病表型的真实情况。我们实施这些扩展的特殊动机是对年龄相关性黄斑变性(AMD)进行基因研究,AMD是一种复杂的、相对常见的眼科疾病,有大量证据表明基因和环境对疾病风险均有贡献(Gorin等人,1999年). 先前对我们的数据进行的基因组筛查分析表明,已知的AMD危险因素,如体重指数、收缩压和吸烟年限,可能定义了遗传上更为同质的家族的亚群,并增加了与某些基因组区域相关的证据(Schmidt等人2004). 候选基因分析表明,染色体19q13上载脂蛋白E(APOE)基因座的基因型所带来的疾病风险可能因个人吸烟史而异(Scott等人,2004年). 为了在我们的实际数据集中更好地解释这些有趣的发现,当数据在受控模拟机制下生成时,评估遗传分析方法的性能非常重要,该机制使用的模型反映了这种疾病和其他疾病的固有复杂性。

方法

使用SIMLA对系谱数据进行仿真是根据用户特定的控制文件进行的,这是程序唯一需要的输入。与SIMLA版本(2.3)相比,使用基于文本的用户界面简化了此控制文件的设置,该界面提供默认参数值并执行各种合理性检查,详见用户手册。软件、用户手册和示例控制文件可从以下网址下载:http://wwwchg.duhs.duke.edu/software。代码是在Microsoft Visual C++6.0和GNU C++3.0.2上编译的。它在大多数基于Unix和Windows的操作系统上运行。SIMLA已在Windows 2000、Windows XP和Solaris 8上进行了测试。由于SIMLA在Windows和Solaris上使用相同的编程代码进行编译,因此只需稍作修改即可在Mac OSX和Linux上成功编译和运行。为了适应其他操作系统,我们将向感兴趣的用户提供源代码。需要进行注册,以便日后通知计划升级,联系信息不得用于任何其他目的。

以下部分描述了SIMLA控制文件中指定的几个参数,重点介绍了新实现的外显函数。疾病风险可能同时受到多达两个(连锁或非连锁)疾病位点、一个二进制和/或连续的环境协变量以及这些风险因素之间的相互作用的影响。

染色体和位点结构

对于每个家系成员,在Hardy-Weinberg平衡下,最多可以产生三条染色体,每条染色体具有多达1000个标记位点。带有标记间距离的染色体特异性遗传图谱在Morgan(M)中指定,并根据Haldane或Kosambi映射函数转换为重组部分。这些染色体上可能分布着多达两个双等位基因疾病位点,第三条染色体提供了分析与任何疾病位点完全无关的标记的选择。我们使用术语正常等位基因或““描述非易感等位基因和”D类描述疾病易感性等位基因。每个疾病位点的易感性等位基因,D类1对于疾病位点G1D类2对于疾病位点G2可能与特定的单标记等位基因或多个标记等位的单倍型处于连锁不平衡(LD)。LD是通过带有或不带有D类1D类2等位基因。

谱系结构

每个谱系都有相同的一般结构,由三代家庭成员组成:两个祖父母,具有两个假定交配的亲代兄弟姐妹关系,产生先证者兄弟姐妹关系和一个表亲兄弟姐妹关系。总的最大谱系大小是通过同胞大小指定的,其范围可能从2到5,并适用于三个同胞中的每一个。图1显示了一个同胞大小等于3的谱系。SIMLA 3.0生成的所有家谱都符合此一般结构(图1). 通过将通过运行SIMLA获得的输出文件与不同的参数文件连接起来,可以引入族结构的可变性。例如,为了只生成核心家庭,用户可以指定删除非机器人世代中的个人。每一个产生的谱系正好有四个创始人,即两个祖父母和两个结婚的配偶,因此每个基因座上可能有八个不同的创始人等位基因。为了计算方便,每个个体的等位基因存储为编号的创始等位基因,这些等位基因通过查找表转换为观察到的等位蛋白,同时考虑到用户特定的等位酶(或单倍型)频率、孟德尔遗传规则和重组频率。如果基因型错误率为1≥P(P)(错误)输入>0时,真实的等位基因很可能会被误读P(P)(错误)并用概率为零的随机等位基因取代P(P)(1/n个)用于n-等位基因标记。

保存图片、插图等的外部文件。对象名称为nihms3139f1.jpg

SIMLA计划创建的标准血统。所有生成的家谱都具有相同的结构和大小,这取决于三个同胞的用户特定的同胞大小(此处为3)。

减数分裂模拟

SIMLA最初为每个家系的四个创始人生成八条创始人染色体。染色体以孟德尔的方式从父母传给孩子。根据控制文件中指定的映射距离随机发生交叉。减数分裂分为两个阶段。在第1阶段,将传递给后代的亲本染色体被确定,最多两个疾病位点通过系谱分离。在第二阶段,从疾病位点到标记图末端,考虑所有标记。在第1阶段之后,该系谱具有确定其所有成员的疾病状态所需的所有数据。该算法的动机是大多数家系都不符合确定标准,特别是在模拟罕见疾病时。这些谱系在达到第二阶段之前将被拒绝,因为在第二阶段,大部分计算工作都要花费。当两个疾病位点位于同一条染色体上,并且有几个标记将它们分开时,就会出现一个有趣的问题。在这种情况下,它们之间的所有重组事件都记录在第一阶段,从G开始1一路走到G2轨迹。只有当系谱符合确定标准时,这些重组事件才会转化为传递给下一代的实际等位基因。仿真算法如所示图2.

保存图片、插图等的外部文件。对象名为nihms3139f2.jpg

描述先证者和系谱生成的流程图。E1:二元环境协变量1,E2:连续环境协变量2,G1:双等位基因疾病基因1,G2:双等位基因疾病的基因2。

环境协变量的模拟

SIMLA最多可以生成两个环境协变量,一个二进制,用E表示1,和一个连续的,用E表示2为了解释环境风险因素的家族相关性,每个协变量可以在一个同胞或整个家系内正相关。虽然根据定义,二元协变量只能取0或1的值,但连续协变量的分布更复杂,可以认为是“双截”正态分布。由于外显函数是根据协变量值单位增加的相对风险(RR)参数指定的(见下文),因此需要将连续协变量缩放到区间[0,1],以便与二元协变量直接比较。对于某些协变量,值为0可能具有特定的含义。例如,如果E2表示变量“吸烟年限”,这是AMD的已知风险因素,值0对应于非吸烟者(即无接触)。用户可以选择将该值分配给固定比例的个人,这可能基于研究中疾病的可用真实数据集。E分布的左尾部2因此被截断,以便为特定用户比例的个人分配尽可能低的E2值为0。分布的右尾被截断为99%的概率质量,并模拟E2超过此上限的值被指定为可能的最大值1。在两次截断和缩放到区间[0,1]之后,E的实际分布2值的采样类似于图3如果假设25%的人口未暴露(E2= 0).

保存图片、插图等的外部文件。对象名为nihms3139f3.jpg

“双截”标准正态分布,从中抽取E2协变量值,假设普通人群中25%的个体未暴露(E2=0)。

外显函数由中显示的17个用户定义参数指定表1外显率值根据前瞻性逻辑回归模型计算,其中受影响的logit(log-odds)定义为相关协变量的线性函数(方程式1):

表1

用户特定外显函数的参数向量(有关详细信息,请参阅文本)。

参数名称描述
1P(D1)G1位点疾病等位基因D1的等位基因频率
2W(G1)疾病位点G1的遗传方式代码
P(D2)G2位点疾病等位基因D2的等位基因频率
4W(G2)疾病位点G2的遗传方式代码
5P(P)(E类1 = 1)暴露于二元协变量E1的频率
6P(P)(E类2 = 0)连续协变量E2的非风险频率
7右后(D1/D1)G1期纯合子疾病基因型的相对风险
8右后(D2/D2)G2纯合疾病基因型的相对风险
9右后(E1)二元协变量E1单位增加的相对风险
10右后(E2)连续协变量E2单位增加的相对风险
11右后(G1、E1)G1×E1相互作用的相对风险
12右后(G1,E2)G1×E2相互作用的相对风险
13右后(G2、E1)G2×E1相互作用的相对风险
14右后(G2、E2)G2×E2相互作用的相对风险
15RR(G1,G2)G1×G2相互作用的相对风险
16右后(E1、E2)E1×E2相互作用的相对风险
17k个普通人群的疾病流行率
自然对数(P(P)((f)(f)e(电子)c(c)e(电子)|x个)1-P(P)((f)(f)e(电子)c(c)e(电子)|x个))=β0+=110βx个
(1)

方程式(1)等于

P(P)((f)(f)e(电子)c(c)e(电子)|x个)=经验(β0+=110βx个)1+经验(β0+=110βx个)

β模型参数对应于自然对数(ln(x个))由于各协变量值增加一个单位,疾病的预期相对风险(RR)x个(请参见表1表2详细信息)。17个参数包括两个疾病位点的等位基因频率(G1和G2),E的曝光频率1,E的未暴露个体比例2G效应的RR参数1和G2在没有接触E的情况下1和E2(“主要遗传效应”),E效应的RR参数1和E2在G处“正常”(非易感)基因型携带者中1和G2(“主要环境影响”),以及乘法尺度上6种可能交互作用影响的RR参数,在逻辑回归模型中编码为产品项(表2).

表2

外显函数协变量的定义(方程式1). E1:二元环境协变量1,E2:连续环境协变量2,G1:双等位基因疾病基因1,G2:双等位基因疾病的基因2。

logistic回归模型中的变量定义
x个1基因型d1/d1在疾病基因座G1处为0;基因型D1/D1在G1位点的W(G1);基因型D1/D1在G1位点为1
x个2如上所述,针对疾病位点G2
x个环境协变量E类1 ∈ {0,1}
x个4环境协变量E类2 ∈ [0,1]
x个5=x个1x个,G1×E1相互作用
x个6=x个1x个4,G1×E2相互作用
x个7=x个2x个,G2×E1相互作用
x个8=x个2x个4,G2×E2相互作用
x个9=x个1x个2,G1×G2相互作用
x个10=x个x个4,E1×E2相互作用

模型中易感和非易感基因型的编码由用户特定的遗传模式(显性、隐性、乘法(即对数加性)或中间)决定,如下所述。一旦指定了所有暴露频率和RR参数,则疾病的期望人群流行率,用k个,用于计算截距β0logistic回归模型的对数,即在没有任何接触的情况下基线疾病风险的对数。迭代算法计算β的唯一值0。我们的实现使用了牛顿方法的轻微修改。一次β0则外显函数完全指定。

继承方式

继承模式可以通过权重因子指定,∈[0,1],即分配给杂合基因型日期.根据定义;右后() 1. =右后(尽职调查)和b条=右后(日期),使用b条≥1且ln(b条)*在(). 然后,=0表示隐性模型(b条= 1),=1表示主导模型(=b条)和=0.5指定乘法模型(b条2=). 如果需要,可以通过选择指定各种中间“加性”模型=自然对数(+1)-2(12,1)该中间编码对应于更一般的遗传模型组,其中杂合基因型1的风险在两个纯合基因型之间(b条=+12)逻辑回归模型中使用的每个选项的协变量编码如所示表2用户负责提供对应于所需的继承模型。

先证者协变量值的生成

先证者的协变量值必须以先证者已知受到影响这一事实为条件生成。自E起2是一个连续的协变量,必须实现一个拒绝算法,以允许E的无限多个可能值中的任何一个2将协变量分配给先证者(高德曼1995). 然而,为了使模拟算法在计算上更高效,我们选择对E进行采样2从上述假定的“双截”正态分布导出的有限个离散类别的值。具体来说,有两类对应于E左右尾部的截断概率质量2分配。剩余的概率质量平均分布在28个类别中,共有30个不同的E间隔2值。每个间隔的中点用作可分配给先证者的实际值。因此,我们在两个疾病基因座G的每一个基因型上都有3个可能的值1和G2,二进制E的2个可能值1协变量,以及“分类连续”E的30个可能值2协变量。假设G的人口独立性1,G2,E1和E2,这导致协变量组合的3×3×2×30=540个可能值。X表示对应于10个模型协变量的随机变量表2,并让x个表示它们可能采用的特定值(f)(X)是我们的外显函数c(c)=(f)(x个)第页=P(P)(x个)对于= 1,…,540. 疾病流行率为k个==1540c(c)第页具有=1540第页=1.对于任何固定1≤j个≤540,则先证者的特定协变量组合的概率由贝叶斯公式导出:

P(P){(X1,,X10)=(x个1,,x个10)|(f)(f)e(电子)c(c)e(电子)}=P(P)((f)(f)e(电子)c(c)e(电子)|(X1,,X10)=(x个1,,x个10))×P(P)((X1,,X10)=(x个1,,x个10))P(P)((f)(f)e(电子)c(c)e(电子))=c(c)j个第页j个k个
(2)

全部540部分金额S公司n个==1n个c(c)第页,n个{1,,540},使用S公司n个+1S公司n个在查找表中列出。然后是一个随机数第页∈ [0,k个]生成,并且其在查找表中的索引被确定为有效地生成先证者的已实现协变量组合。先证者的疾病基因型确定后,根据等位基因查找表将相应的创始等位基因分配给该基因型。

为亲属生成协变量值

该计划有三个选项,用于将环境协变量分配给非机器人谱系成员。如前所述,先证者的协变量值是在该个体受到影响的情况下确定的。第一种选择假设族内协变量的独立性。在第二个选项中,四位创始人的协变量值是随机分配的,但同胞中的协变量实现是相关的。用户为一个家系中的三个同胞中的每一个分配一个正相关系数,程序相应地确定相关的标准正态值。为了获得正定的相关矩阵,需要一个正相关系数。第三种选择是为整个谱系选择相同的正相关系数,包括已婚配偶。

为了在父母和堂兄弟姐妹中生成相关值,我们使用以下事实Xnx(纳克斯)1=亚利桑那州+ μnx(纳克斯)1是的向量n个将标准正态变量与平均值μ相关,其中A类nxn网络是所需的相关矩阵,Znx(纳克斯)1是随机生成的独立标准正态变量向量,μ是均值向量。在我们的计算中,我们选择μ=0,因为所有值都被归一化为在区间[0,1]内。n个变量是预先确定的,就像先证者是所涉及的个人之一一样。在这种情况下,让A类n个x个n个=(A类11A类12A类21A类22)其中子矩阵A类11大小为(n个1)x个(n个1),它确定所有其他子矩阵的维数。特别是,我们注意到A类22=nn个是非零标量。新协方差矩阵定义为B类=A类11-A类22-1A类12A类21新的平均向量定义为μ˜=μ(n个-1)x个1+(Xn个-μn个)A类12A类22-1然后,假设向量中的一个元素已经确定,则相关标准正态变量的向量生成为X˜(n个-1)x个1=B类(n个-1)x个(n个-1)Z(n个-1)x个1+μ˜(n个-1)x个1.

连杆不平衡(LD)的模拟

如前所述,SIMLA的一个独特特征是能够通过指定携带单倍型的染色体的条件概率,在疾病等位基因和一个或多个标记等位基因之间实现LDD类(易感性)或(正常)等位基因。一个特定的单倍型可以与每个D类疾病位点G的等位基因1或G2这些单倍型可能由多达六个不一定相邻的标记位点组成,每个标记位点最多有五个等位基因。给定一个已经分配的D类疾病位点的等位基因,根据条件单倍型概率随机生成所有个体创始染色体的标记单倍型(等位基因集)。其余标记根据特定的等位基因频率独立分配。一旦指定了创始人单倍型,它们就会根据孟德尔遗传规则从系谱中删除,并可能通过重组而被打破,这与用户特定的标记间距离一致。条件单倍型频率与LD标准测量之间关系的例子,如Lewontin的D’(Lewontin 1988年),可在原始SIMLA出版物中找到(Bass等人,2004年). 可以通过选择与疾病位点在LD中的标记子集来模拟LD的区块,而其他标记与疾病位点处于连锁平衡。

实施

程序输入

SIMLA程序所需的唯一输入是一个指定各种仿真参数的控制文件。它们包括重复数、每个重复的家族数、同胞规模、确定标准、染色体数、疾病和标记位点数、每个位点的等位基因数、标记图谱和等位基因频率、环境协变量的可选家族相关性、可选条件单倍型频率、,和可选的基因型错误率。疾病等位基因和环境暴露频率、权重参数编码每个疾病位点的遗传模式、人群流行率k个根据方程式(1)。提供了一个基于文本的用户界面,用于帮助创建控制文件,包括默认参数值和各种合理性检查。参数在文件中的显示顺序无关紧要,因为程序通过搜索关键字而不是特定行号来查找所有必需的输入值。用户可以选择使用提供的两个随机数生成器中的一个。如果控制文件中给定的种子值为零,则随机数生成器基于实数(双精度数)而不是整数。在这种情况下,随机数生成的种子是从当前时间和进程ID号派生出来的,使用同一控制文件的两次连续运行将由于随机变化而产生不同的输出文件。第二个选项是在控制文件中提供非零整数种子。在这种情况下,使用基于整数的随机数生成器,使用相同的控制文件连续运行两次将产生相同的输出文件。软件包下载中包含创建SIMLA控制文件的详细文档以及示例文件http://wwwchg.duhs.duke.edu/software.

程序输出

SIMLA创建后生成的LINKAGE-format系谱(*.ped)和标记(*.dat)文件,以及MEGA2格式的地图文件(Mukhopadhyay等人,2005年). 其他标志可用于创建SIBLINK格式的系谱文件(Hauser和Boehnke 1998)和OSA协变量文件,其中包含一个或两个环境协变量的家庭平均值(Hauser等人,2004年). SIMLA也可以打印MERLIN格式(Abecasis等人,2002年)输入文件(*.dat、*.ped、*.map、*.freq)用于整个血统或仅用于先证者的核心家庭。

SIMLA 3.0版提供了打印有关模拟血统的多个统计信息的选项,这对于错误检查和在使用特定软件包分析模拟数据之前评估数据特征非常有用。例如,结婚的表亲父母(个人6岁图1)是唯一与先证者没有遗传关系的人,因此代表从普通人群中随机抽样的个体,除非环境协变量在整个系谱中是相关的。将所有这些近亲亲本跨重复产生的基因型和环境暴露数据与控制文件中指定的目标参数进行比较,以验证数据模拟的正确性。在线用户手册中描述了获取所生成谱系的各种汇总统计信息的详细选项,该手册位于http://wwwchg.duhs.duke.edu/software.

程序性能

表3a和3b3亿总结在Unix工作站上运行SIMLA的性能统计信息,同时表3c包含带有MS Windows操作系统的PC的性能数据。对于固定的兄弟姐妹规模(2)、家庭数量(1000)和确定标准(受影响的兄弟姐妹对),标志物数量、疾病等位基因频率和人群疾病流行率是项目运行时间的主要决定因素。尽管处理器更快,但Windows下的I/O操作对程序性能有重大影响(未显示在表3c). Sun工作站在打印大量系谱文件方面非常优越。轮廓分析结果表明,如果两个疾病位点位于同一染色体上,并且至少有一半的标记将其分开,那么在确定这两个疾病基因座是否位于同一条染色体上之前,减数分裂需要花费大约一半的处理时间。这代表了计算效率方面的最坏情况。

表3a

带有1.28 Ghz处理器的Solaris 8工作站上的SIMLA性能,两个疾病位点位于不同的染色体上。常数:同胞大小2,确定标准:受影响的同胞对,1000个家族的1个重复,每个标记7个等位基因,标记平均分布在三条染色体上,没有环境协变量的影响,所有打印都关闭。表项的运行时间以秒为单位。

不同染色体上的P(D1)=0.15,P(D2)=0.05 G1和G2不同染色体上的P(D1)=0.015,P(D2)=0.005 G1和G2
标记数量标记数量
患病率990900990900
0.125.659.62.15.859
0.016.412.890.77.414.198.4
0.00147.977.2396.361.299.8517.1

表3b

带有1.28 Ghz处理器的Solaris 8工作站上的SIMLA性能,同一染色体上有两个疾病位点。常数:同胞大小2,确定标准:受影响的同胞对,1000个家族的1个重复,每个标记7个等位基因,标记平均分布在三条染色体上,没有环境协变量的影响,所有打印都关闭。表项的运行时间以秒为单位。

同一染色体上的P(D1)=0.15,P(D2)=0.05 G1和G2P(D1)=0.015,P(D2)=0.005同一染色体上的G1和G2
标记总数(G1和G2之间的标记数)标记物总数(G1和G2之间的标记物数量)
患病率9 (1)90 (10)900 (100)9 (1)90 (10)900 (100)
0.11.95.7602.2660.6
0.016.914131.77.916.1143
0.00152.397.655063.9115715.1

表3c

SIMLA在带有奔腾4 2.8 Ghz处理器的PC上的性能,在不同的染色体上有两个疾病位点。常数:同胞大小2,确定标准:受影响的同胞对,1000个家族的1个重复,每个标记7个等位基因,标记平均分布在三条染色体上,没有环境协变量的影响,所有打印都关闭。表项的运行时间以秒为单位。

P(D1)=0.15,P(D2)=0.05不同染色体上的G1和G2不同染色体上的P(D1)=0.015,P(D2)=0.005 G1和G2
标记数量标记数量
患病率990900990900
0.12.75.4342.15.632.9
0.016.311.257.78.112.161.8
0.0014763.2260.961.380.5356.8

对算法进行了优化,以便在检查系谱是否满足确定标准之前,在系谱上花费最少的计算工作量。用户特定的疾病流行率对表现有影响,因为疾病流行率的下降使一个家系不太可能满足有两个受影响兄弟姐妹的确定标准。同胞规模的增加具有相反的效果。在更多兄弟姐妹中发现另一个受影响兄弟姐妹的可能性增加,抵消了必须管理更大血统的增加负担。疾病位点的位置是影响绩效的另一个因素。如果这两个疾病位点位于不同的染色体上(表3a和3c)3立方厘米)该算法在作出确定决策之前只需考虑两个位点的遗传。如果两个疾病基因座都位于同一染色体上,则基因座之间的更多标记将增加计算工作量,因为在作出任何确定决定之前,必须考虑两个基因座之间可能发生的重组事件(表3b).

讨论

我们的新版本(3.0)SIMLA允许每个家系有一个以上的疾病基因,对两个具有或不具有家族相关性的环境协变量的贡献进行建模,并结合基因-基因和基因-环境相互作用,从而大大增加了模拟表型的复杂性。实现这些扩展的关键是使用逻辑回归模型作为外显函数。Logistic回归是遗传流行病学家的标准建模工具,他们熟悉根据相对风险参数指定效应大小。通过这种扩展,新版本的SIMLA对于评估各种系谱分析方法的性能更加有用,尤其是结合环境协变量或一次搜索多个疾病基因的连锁和关联方法。SIMLA可用于估计通过各种研究设计确定的实际数据集的功率和样本量需求,其共同目标是检测、定位和表征复杂人类特征的基因。同样重要的是,当将相同的分析方法应用于真实数据和模拟数据时,SIMLA可以通过检查不同的假设生成模型和观察到的结果之间的关系来帮助研究人员解释人类疾病的真实研究结果。

SIMLA的计划扩展包括模拟数量性状和年龄起始性状、模拟X连锁疾病和标记位点、亲本效应和母体基因型介导的效应,以及对疾病进展的遗传效应(修饰基因)除了目前实施的对疾病风险(易感基因)的影响之外。

脚注

*我们感谢以下资助机构对本研究的支持:国立卫生研究院(NEI R03 EY015216-01 to SS,NIMH R01 MH59528 to ERH,NIA R01 AG20135 to ERM,NHLBI R01 HL073389 to ERH)和神经科学教育与研究基金会(支持ERH)。

工具书类

  • Abecasis GR、Cherny SS、Cookson WO、Cardon LR、Merlin——使用稀疏基因流树快速分析密集遗传图。自然遗传学。2002;30:97–101.[公共医学][谷歌学者]
  • Almasy L,Blangero J.普通家系的多点定量图连锁分析。美国人类遗传学杂志。1998;62:1198–1211. [PMC免费文章][公共医学][谷歌学者]
  • Bass MP、Martin ER和Hauser ER(2004)遗传连锁和关联分析的系谱生成。Pac-Symp生物计算:93–103[公共医学]
  • Boehnke M.估算拟议连锁研究的功效:一种实用的计算机模拟方法。美国人类遗传学杂志。1986;39:513–527. [PMC免费文章][公共医学][谷歌学者]
  • Boyles AL、Scott W.K.、Martin ER、Schmidt S、Li YJ、Ashley-Koch A、Bass MP、Pericak-Vance MA、Speer MC、Hauser ER。当父母基因型缺失时,连锁不平衡会导致多点连锁分析中的I型错误率升高。Hum Hered(新闻稿)[PMC免费文章][公共医学]
  • 高德曼WJ。一种模拟具有可变发病年龄、遗传和环境影响的家族性疾病数据的方法。统计与计算。1995;5:237–243. [谷歌学者]
  • Gorin MB、Breitner JCS、De Jong PTVM、Hageman GS、Klaver CCW、Kuehn MH、Seddon JM。年龄相关性黄斑变性的遗传学。分子视觉。1999;5:29.[公共医学][谷歌学者]
  • Hauser ER、Watanabe RM、Duren WL、Bass MP、Langefeld C、Boehnke M.复杂性状遗传连锁图谱中的有序子集分析。基因流行病学。2004;27:53–63.[公共医学][谷歌学者]
  • Hauser ER,Boehnke M.使用受影响的同胞对进行复杂遗传性状的遗传连锁分析。生物计量学。1998;54:1238–1246.[公共医学][谷歌学者]
  • Laird NM,Horvath S,Xu X.实施基于家庭的关联测试的统一方法。基因流行病学19补遗。2000;1:S36–S42。[公共医学][谷歌学者]
  • Lewontin钢筋混凝土。配子不平衡的度量。遗传学。1988;120:849–852. [PMC免费文章][公共医学][谷歌学者]
  • Martin ER、Bass MP、Gilbert JR、Pericak-Vance MA、Hauser ER。普通家谱的基于基因型的关联测试:基因型-PDT。基因流行病学。2003;25:203–213.[公共医学][谷歌学者]
  • Martin ER,Monks SA,Warren LL,Kaplan NL。普通家谱中连锁和关联的测试:家谱不平衡测试。美国人类遗传学杂志。2000;67:146–154。 [PMC免费文章][公共医学][谷歌学者]
  • Mukhopadhyay N、Almasy L、Schroeder M、Mulvihill WP、Weeks DE.Mega2:促进遗传连锁和关联分析的数据处理。生物信息学。2005;21:2556–2557.[公共医学][谷歌学者]
  • Ott J.人体连锁分析中的计算机模拟方法。美国国家科学院院刊。1989年;86:4175–4178. [PMC免费文章][公共医学][谷歌学者]
  • Ploughman LM,Boehnke M.评估针对复杂遗传性状的拟议连锁研究的功效。美国人类遗传学杂志。1989年;44:543–551. [PMC免费文章][公共医学][谷歌学者]
  • Schmidt S、Scott WK、Postel EA、Agarwal A、Hauser ER、De La Paz MA、Gilbert JR、Weeks De、Gorin MB、Haines JL、Pericak-Vance MA。有序子集连锁分析支持染色体16p12上年龄相关性黄斑变性的易感位点。BMC基因。2004;5:18。 [PMC免费文章][公共医学][谷歌学者]
  • Scott WK、Schmidt S、Fan Y-T、Postel EA、Agarwal A、Gass JDM、Gilbert JR、Haines JL、Pericak-Vance MA。吸烟与APOE基因型在年龄相关性黄斑变性中的相互作用。投资眼科视觉科学。2004;45:2302. [谷歌学者]
  • Weeks DE,Ott J,Lathrop GM.SLINK:连杆分析的通用模拟程序。Am J Hum基因。1990;47:A204。 [谷歌学者]