跳到主要内容

designGG:遗传基因组学实验优化设计的R包和网络工具

摘要

背景

在一种或多种环境条件下对基因不同的个体进行高维生物分子剖析是探索复杂生物系统功能的一种越来越流行的策略。以成本效益和有效的方式对这种遗传基因组学实验进行优化设计并非易事。

结果

本文介绍了designGG,一个用于设计最佳遗传基因组学实验的R包。designGG的web实现可在http://gbic.biol.rug.nl/designGG所有软件,包括源代码和文档,都是免费的。

结论

DesignGG允许用户智能地选择和分配个人到实验单位和条件,如药物治疗。用户可以通过对特别感兴趣的基因组区域(例如先前检测到的表型数量性状基因座)赋予更多权重,以全基因组或局部模式最大限度地检测遗传、环境和相互作用影响。这将有助于实现对感兴趣因素影响的高功率和更准确的估计,从而产生更可靠的数据生物学解释。DesignGG适用于实验杂交的连锁分析,例如重组自交系,以及自然群体的关联分析。

背景

遗传基因组学[1]结合经典遗传学、生物分子分析和生物信息学,已成为研究复杂生物系统的流行策略[25]. 通过使用转录组学、蛋白质组学、代谢组学和相关新兴技术测量不同基因个体的分子变异,遗传基因组学有可能确定自然和诱导遗传变异的功能后果。最近,遗传基因组学被推广,通过结合环境和遗传扰动来全面了解分子网络的动力学[6,7]. 这种大规模的“组学”研究有助于更好地理解为什么同一物种的个体对药物、病原体和其他环境因素的反应不同。

然而,大多数分子分析实验都非常昂贵,因此,大多数遗传学基因组研究都在统计可行性的边缘进行。因此,实验设计需要仔细考虑,以从有限的资源(如微阵列和实验动物)获得最大功率[8,9]. 但是,即使在标准情况下,这也需要复杂的统计概念应用,以便从人群中智能地选择基因不同的个体,并将其分配到不同的条件和实验单位。长期以来,这一主题一直激励着经典统计研究[10]. 最近,在那里开发的概念已被用于后基因组学研究的高维数据集[8,1113],并提出了有用的简化设计策略[11,14]. 然而,要将这些统计思想转移到更复杂的遗传基因组学背景下[9,15,16]仍然需要相当多的统计专业知识。

在这里,我们提供了一个在线网络工具,使生物学家在很少/没有统计培训的情况下可以轻松地进行这些选择和分配。该计划将找到最佳的实验设计,以产生对最相关生物参数的最准确估计,考虑到要变化的实验因素的数量、种群的基因型信息、使用的分析技术以及可以分析的个体数量的限制。高级用户可以下载底层方法作为R包,以使程序适应更具针对性的设计。在不失通用性的情况下,我们将说明使用微阵列的方法,而它们同样适用于其他分析技术,例如质谱。此外,我们将只讨论单独或成对分析样本的分子技术(例如,单色微阵列),但将R脚本扩展到更高级的多路复用技术将是直截了当的[17].

实施

设计GG的目的是找到遗传差异样本在不同条件和实验单元(阵列)中的最佳分配,有助于精确估计有趣的参数,例如主要遗传效应和基因型与药物治疗之间的相互作用效应。具有一个环境因素的简单情况可以表示为y=μ+G×E+ε,其中y是测量向量,ε是误差项,G×E表示基因型与环境的主要影响和交互作用。在矩阵表示法中,具有一个或多个基因型因子(数量性状位点;QTL)和一个或更多环境因子的模型可以写成:Y(Y)=+E类,其中X(X)是按参数和β是基因型和环境因素的影响。的最小二乘估计β为b=(X(X)T型X(X))-1X(X)T型Y(Y)var(b)=σ2(X(X)T型X(X))-1最佳实验设计的定义是,使b的方差的双和最小,首先对所有参数求和,然后对所有基因型标记求和。我们使用优化算法(模拟退火[18])搜索所有可能分配的实验设计空间,以生成最佳设计矩阵X(X)在优化过程中,该算法利用来自个体的可用标记信息来优化个体到微阵列和条件的分配。

当然,在优化过程中,实验者可以对更感兴趣的参数赋予更多权重,然后以更高的精度对其进行估计。特别是,有关感兴趣因素的预期影响大小的先验知识可以作为算法的权重参数,权重与相应因素的预期效果大小成反比。此外,通过指定区域参数,还可以指定特定实验中主要感兴趣的基因组区域。例如,如果已知相关表型映射到某些基因组区域,则可以在优化算法中为这些区域中的标记赋予全部权重,而其他标记的参数可以赋予较小甚至零权重。因此,可以提高作图分辨率,并增加在焦点区域寻找QTL的能力。

DesignGG是一个完全用R语言编写的包[19]. designGG库的每个功能都可以作为独立的R工具使用,并且可以根据R文档的标准格式获得详细的帮助。

结果

Web工具

用户可以使用web界面应用此方法(图1)我们使用MOLGENIS生成的[20,21]:

图1
图1

designGG网络界面截图.

  1. 1

    选择平台。为单色或双色基因表达微阵列选择单通道或双通道选项(双通道选项也用于任何其他技术分析样本对)。

  2. 2

    上传包含基因型数据矩阵(个体×标记)的标签分隔值(TXT)文件。每个细胞都包含一个基因型标签(例如,a或B表示亲本等位基因,H表示杂合位点;NA表示缺失数据)。

  3. 三。

    设置参数。指定环境因素的数量、它们的级别数以及这些级别的可能值。指定幻灯片(化验)总数或在每个条件下分配的样本数。

  4. 4

    如果只对一个或几个基因组区域或特定因素感兴趣,请使用高级选项。通过关注某些区域(例如,第一条染色体上的前20个标记),可以优化实验设计。有关感兴趣因素的预期效果大小的先验知识也可以作为算法的权重参数。

  5. 5

    点击按钮启动优化算法优化实验设计(图1).

  6. 6

    获取结果。优化完成后,最佳实验设计将在线显示(以表格格式),并可作为文本文件下载。

R包

这里我们用一个例子来说明如何应用designGG R包:假设我们正在研究遗传因素(Q)、温度(F)的影响1),药物治疗(F2)以及它们在基因表达上的相互作用。本实验有100个微阵列载玻片可用,我们计划针对每个环境研究两个不同的水平,即16°C和24°C(F)1(温度),F为5μM和10μM2(药物治疗)。然后,R包也可以以命令行形式使用,如下所示:

  1. 1

    准备输入文件,指定每个标记位置的每个个体的基因型。该文件应格式化为制表符分隔值(TXT),如表所示1.

表1基因型数据示例表。杂合位点用H表示。
  1. 2

    通过启动R应用程序并键入以下命令来加载designGG包:

>库(designGG)

指定输入参数(步骤3-5对应于使用web工具的步骤2-4。步骤3-5中以下命令的顺序无关紧要)。

  1. 三。

    选择实验平台。在本例中,我们使用双色微阵列,因此:

>bTwoColorArray<-T#(如果配对);F否则

  1. 4

    加载标记数据并指定以下必需参数(环境因素的数量、每个因素的级别数、每个级别的值以及可用幻灯片的数量):

>data(基因型)#designGG包附带的示例数据

#以下命令可用于读取TXT数据

#基因型<-read.table(“基因型.txt”)

>n影响因素<-2

>n级别<-c(2,2)

>级别<-列表(c(16,24),c(5,10))

>n滑移<-100;n偶<-NULL

指定的替代方法n滑块是指定n对,分配给每个条件的菌株数量。例如,

>n对<-25;n幻灯片<-NULL;

  1. 5

    除了步骤4中指定的必需参数外,还有一些可供选择的参数用于定制的实验设计:例如,我们可能对1之间的基因组区域特别感兴趣标准标记和20第个标记,即先前研究中已知表型QTL所在的位置。然后,他们可以指定优化算法只应考虑标记1到20处的基因型:

>区域<-seq(1,20,by=1)

此外,如果我们希望所有相互作用效应的估计值是主要效应(基因型、温度和药物治疗)估计值的两倍,那么我们指定估计值的权重:

>重量<-c(0.5,0.5,0.5,1,1,1)

这里,权重向量中元素的顺序是这样的:首先列出主要影响,从基因型开始,然后按照用于n级水平然后是单向互动,以相同的顺序,最后是所有三个因素之间的双向互动。

  1. 6

    以下命令指定存储生成的优化设计表的目录以及输出文件(设计表)的名称:

>目录<-“C:\myproject\design”

>文件名<-“myDesign”

上述参数的详细解释也可以在表中找到2.

表2 designGG参数的描述和可能值
  1. 7

    运行designGG以获得最佳设计:

>myOutput<-designGG(基因型、nSlides、nTple、nInvFactors、nLevels、Level、region=region、weight=weight、nIterations=10)

需要注意的是,模拟退火方法的迭代次数(fn迭代次数)出于测试目的,此处设置为10。默认值(n迭代=3000),但这将导致更长的计算时间。

  1. 8

    可以在目录中找到输出,也可以通过以下方式检索:

>最优阵列设计<-myOutput$arrayDesign

>最佳条件设计<-myOutput$conditionDesign

表中显示了阵列应变分配和不同条件的输出表示例4分别为。

表3菌株分配到阵列的示例表。
表4实验条件下的菌株分配示例表。
  1. 9

    此外,用户可以使用以下方法检查算法迭代时记录的优化得分曲线:

>plotAllScores(myOutput$plot.obj)

默认设置的详细信息,例如方法(SA:模拟退火)或nSearch(等于2),可以在designGG手册或联机帮助中找到。示例基因型数据和输出表也与软件包一起提供。R包可以在附加文件中找到1最新版本的软件可以下载在http://gbic.biol.rug.nl/designGG.

预期结果

两个表总结了最佳设计:表对设计仅用于双通道实验,并描述了样本如何在一个分析中配对,例如双色微阵列芯片(表). 表环境设计列出了如何将样本分配给环境/实验因素(表4).

结论

DesignGG是一个免费的R包和网络工具,它为对系统遗传学感兴趣的研究人员提供了一个新的工具。基于designGG提供的仔细的实验设计,最大限度地利用了有限的资源,如阵列和样本,可以实现更准确的参数估计。

可用性和要求

项目名称:designGG R包和web工具

项目主页:http://gbic.biol.rug.nl/designGG

编程语言:R

要求:R统计软件可在网址:http://www.r-project.org/对于单机版。

工具书类

  1. Jansen RC,Nap JP:遗传学基因组学:分离的附加值。趋势Genet2001, 17(7):388–391. 10.1016/S0168-9525(01)02310-1

    第条 中国科学院 公共医学 谷歌学者 

  2. Bystrykh L、Weersing E、Dontje B、Sutton S、Pletcher MT、Wiltshire T、Su AI、Vellenga E、Wang J、Manly KF、,.:使用“遗传基因组学”揭示影响造血干细胞功能的调控途径。自然基因2005, 37(3):225–232. 1038/ng1497年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  3. Schadt EE、Lamb J、Yang X、Zhu J、Edwards S、Guhathakurta D、Sieberts SK、Monks S、Reitman M、Zhang C、,:一种综合基因组学方法,用于推断基因表达与疾病之间的因果关系。自然基因2005, 37(7):710–717. 10.1038/ng1589

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  4. Chen Y、Zhu J、Lum PY、Yang X、Pinto S、MacNeil DJ、Zhang C、Lamb J、Edwards S、Sieberts SK、,.:DNA的变异阐明了导致疾病的分子网络。自然2008, 452(7186):429–435. 10.1038/性质06757

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Brem RB,Kruglyak L:酵母5700个基因表达性状的遗传复杂性。《美国科学院院刊》2005, 102(5):1572–1577. 10.1073/pnas.0408709102

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  6. Li Y,Breitling R,Jansen RC:广义遗传基因组学:从环境扰动中获取附加值。趋势Genet2008, 24(10):518–524. 10.1016/j.tig.2008.08.001

    第条 公共医学 谷歌学者 

  7. Li Y、Alvarez OA、Gutteling EW、Tijsterman M、Fu J、Riksen JA、Hazendong E、Prins P、Plasterk RH、Jansen RC、,.:通过基因基因组学绘制秀丽线虫基因表达可塑性的决定因素。公共科学图书馆-基因2006年,2(12):e222。10.1371/日志.pgen.0020222

    第条 公共医学中心 公共医学 谷歌学者 

  8. Churchill GA:cDNA微阵列实验设计基础。自然基因2002年,32(补充):490-495。1038/ng1031年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  9. Fu J,Jansen RC:基因表达遗传研究的优化设计和分析。遗传学2006, 172(3):1993–1999. 10.1534/基因105.047001

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. 费希尔RA:实验设计。第4版。爱丁堡:奥利弗和博伊德;1947

    谷歌学者 

  11. Kerr MK,Churchill GA:基因表达微阵列的实验设计。生物统计学2001, 2(2):183–201. 10.1093/生物统计/2.2.183

    第条 公共医学 谷歌学者 

  12. 杨玉华,速度T:cDNA微阵列实验的设计问题。Nat Rev基因2002, 3(8):579–588.

    中国科学院 公共医学 谷歌学者 

  13. Fournier MV、Carvalho PC、Magee DD、Carvalho MGC、Appasani K:基因表达分析的实验设计。生物阵列从基础到诊断.人文出版社;2007:29.

    谷歌学者 

  14. Wit E,Nobile A,khanin R:双通道微阵列研究的近优设计。应用统计学2005, 54(5):817–830.

    谷歌学者 

  15. Lam AC,Fu J,Jansen RC,Haley CS,de Koning DJ:用双色微阵列优化设计远交组合中基因表达的遗传研究。遗传学2008, 180(3):1691–1698. 10.1534/遗传学.108.090308

    第条 公共医学中心 公共医学 谷歌学者 

  16. Rosa GJ、de Leon N、Rosa AJ:基因基因组学研究微阵列实验设计策略综述。基因组学杂志2006, 28(1):15–23. 10.1152/生理遗传学.00106.2006

    第条 中国科学院 公共医学 谷歌学者 

  17. Woo Y,Krueger W,Kaur A,Churchill G:三色和四色基因表达微阵列的实验设计。生物信息学2005年,21(补充1):i459–467。10.1093/生物信息/bti1031

    第条 中国科学院 公共医学 谷歌学者 

  18. Wit E,Nobile A,Khanin R:近最优双通道微阵列设计的模拟退火。应用程序统计信息2005, (54):817–830.

    谷歌学者 

  19. 统计计算R项目[网址:http://www.r-project.org/]

  20. Swertz MA、De Brock EO、Van Hijum SA、De Jong A、Buist G、Baerends RJ、Kok J、Kuipers OP、Jansen RC:分子遗传学信息系统(MOLGENIS):开发本地实验基因组学数据库的替代方案。生物信息学2004, 20(13):2075–2083. 10.1093/生物信息学/bth206

    第条 中国科学院 公共医学 谷歌学者 

  21. Swertz MA、Jansen RC:超越标准化:系统生物学的动态软件基础设施。Nat Rev基因2007, 8(3):235–243. 10.1038/编号2048

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

这项工作得到了荷兰科学研究组织NWO-86504001的支持。我们感谢Danny Arends在实现web工具方面提供的帮助。

作者信息

作者和附属机构

作者

通讯作者

与的通信杨丽.

其他信息

作者的贡献

YL开发的设计GG。RCJ和RB负责该项目。MAS、GV和JF帮助实现了网络工具。所有作者都写了手稿,阅读并批准了最终版本。

电子辅助材料

12859_2009_2918_MOESM1_ESM.zip(电子邮件)

附加文件1:designGG:遗传基因组学实验优化设计的R包DesignGG旨在寻找遗传基因组学实验的最佳设计,最大限度地提高检测遗传、环境和相互作用影响的能力和分辨率。这将有助于实现对感兴趣因素影响的高功率和更准确的估计,从而产生更可靠的数据生物学解释。(邮政编码128 KB)

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Li,Y.,Swertz,文学硕士,Vera,G。等。designGG:用于遗传基因组学实验优化设计的R包和网络工具。BMC生物信息学 10, 188 (2009). https://doi.org/10.1186/1471-2105-10-188

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-10-188

关键词