RAINBOWR:可靠关联引用用R优化权重

滨崎康介(hamazaki@ut-biomet.org)

岩田浩(Hiroyoshi Iwata)

2022-01-31

注意!!!!

该文件适用于降雨已在PLOS上发布计算生物学(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1007663).如果你用这个降雨请在你的论文中引用降雨如下:
的稳定版本降雨包现在是可在CRAN(综合R档案网络).
请检查RAINBOWR中的更改以及来自的版本更新新闻.md.

在此存储库中R(右)包裹降雨可用。这里,我们将介绍如何安装和使用降雨.


是什么降雨

降雨(通过优化实现可靠的关联引用带有R)的重量是一个用于执行以下几种类型的全球水资源系统如下所示。

降雨还提供了一些函数来求解线性混合效应模型。

通过利用这些功能,你可以估计基因组遗传力和基因组预测(普通合伙人).

最后,降雨提供了其他有用的功能。

安装

的稳定版本降雨现在可以在CRAN(起重机)(综合R存档网络)。的最新版本降雨也可在KosukeHamazaki/彩虹中的存储库github,因此,请在R控制台中运行以下代码。

####RAINBOWR的稳定版本####
安装.包(“降雨”)


####RAINBOWR的最新版本####
###如果您尚未安装。。。
安装.包(“开发工具”)

###从GitHub安装RAINBOWR
开发工具::安装github(“KosukeHamazaki/彩虹”)

如果安装过程中出现错误,请检查以下软件包已正确安装。(我们删除了对的依赖项rgl公司包!)

降雨,因为部分代码是用卢比(C++在里面R(右)),请检查是否你可以使用C++在里面R(右)。对于窗户用户,您应该安装R工具.

如果您对安装有任何疑问,请通过以下方式与我们联系:电子邮件().

用法

首先,导入降雨打包和装载示例数据集。这些示例数据集包括标记基因型(用{-1,0,1},1536 SNP芯片(Zhao等人,2010;PLoS One 5(5):e10780)),带有物理位置和表型数据的地图(Zhao等人,2011;《自然通讯》2:467)。这两个数据集都可以从下载水稻多样性主页(http://www.ricediversity.org/data/). 此外,数据集包括0.1.30版本的单倍型块列表。此列表根据PLINK 1.9(Taliun等人,2014;BMC生物信息学,15).

###导入RAINBOWR
要求(降雨)
#>加载所需包:RAINBOWR

###加载示例数据集
数据(“大米_赵_塔尔”)
大米_geno_score<-大米_赵_塔尔$基因评分
大米_geno_map<-大米_赵_塔尔$基因图谱
大米_苯酚<-大米_赵_塔尔$苯酚
水稻_haplo_block<-大米_赵_塔尔$单倍阻滞

###查看每个数据集
请参阅(水稻基因核心)
#>L1 L2 L3 L4 L5 L6级
#>类<integer><integer><integer><integer><integer><integer>
#>id1000223 1 1-1-1-1-1
#>id1000556-1-1 1 1-1 1
#>id1000673-1 1-1 1-1
#>id1000830-1 1 1 1 11 1
#>id1000955-1 1 1 1 1-1 1
#>id1001073-1-1-1 1-1
#>[1]“class:data.frame”
#>[1]“尺寸:1311 x 395”
请参阅(水稻基因图)
#>标记chr pos
#>类<因子><整数><整数>
#>电话:1000223电话:1000233 1 420422
#>电话:1000556电话:10005506 1 655693
#>电话:1000673电话:10001673 1 740153
#>邮编:1000830邮编:1000830 1 913806
#>id1000955 id1000955 1 1041748
#>编号:1001073编号:100107 3 1 1172387
#>[1]“class:data.frame”
#>[1]“尺寸:1311 x 3”
请参阅(大米_苯酚)
#>Flowering.time.at.阿肯色州Flowering_time.at.Faridpur
#>类<数字><整数>
#>电话:75.083333333 64
#>L3 89.5 66级
#>L4 94.5 67岁
#>L5 87.5 70岁
#>L6 89.08333333 73电话
#>L7 105<不适用>
#>Flowering.time.at.阿伯丁FT.ratio.of。阿肯色州。阿伯丁
#>类<整数><数字>
#>L1 81 0.926954733号
#>L3 83 1.078313253号
#>L4 93 1.016129032号
#>L5 108 0.810185185号
#>L6 101 0.882013201号
#>L7 158 0.664556962号
#>FT.比例。法里德普尔。阿伯丁·库姆习惯
#>类<数字><数字>
#>L1 0.790123457 4号
#>L3 0.795180723 7.5号
#>L4 0.720430108 6
#>L5 0.648148148 3.5
#>L6 0.722772277 6号
#>L7<NA>3
#>[1]“class:data.frame”
#>[1]“尺寸:413 x 36”
请参阅(水稻_haplo_block)
#>块标记器
#>类<字符><字符>
#>1个单倍闭锁_1 id1005261
#>2单倍体_1 id1005263
#>3单倍体_2 id1009557
#>4单倍体_2 id1009616
#>5单倍体_3 id1020154
#>6单倍体_3 id1020166
#>[1]“class:data.frame”
#>[1]“尺寸:74 x 2”

您可以通过以下方式检查原始数据格式请参阅功能。然后,选择一个特征(这里,Flowering.time.at.阿肯色州)例如。

###例如,选择一个特征
列车名称<- “阿肯色州开花时间”
<-Rice_peno[,trait.name,删除= 错误的]

对于GWAS,首先可以通过MAF.切割功能。

###删除MAF<=0.05的SNP
x个.0 <- t吨(水稻基因核心)
MAF.cut.res公司<- MAF.切割(x.0(x)=x个.0,地图.0=Rice_geno_map)
x个<-MAF.cut.res公司$x个
地图<-MAF.cut.res公司$地图

接下来,我们使用计算GRM功能。

###估算基因组关系矩阵(GRM)
K.一个<- 计算GRM(基因材料=x)

接下来,我们将这些数据修改为GWAS格式降雨通过修改数据功能。

###修改数据
修改.data.res<- 修改数据(phen.马特=是的,geno.mat公司=x、,地图=地图,
                               返回。泽塔= 真的,返回。GWAS.格式= 真的)
#>modify.data中出现警告(pheno.mat=y,geno.mat=x,map=map,return.ZETA=
#>TRUE,:以下品系具有表型,但没有基因型:L14、L31、L33、,
#>L68、L86、L97、L98、L102、L111、L136、L173、L175、L185、L193、L212、L223、L226、,
#>L305、L358、L361、L648、L30、L36、L104、L229、L295、L319、L90、L253、L246
现象。全球水资源系统<-修改.data.res$现象。全球水资源系统
基因。全球水资源系统<-修改.data.res$基因。全球水资源系统
ZETA公司<-修改.data.res$ZETA公司

###查看RAINBOWR的每个数据
请参阅(见GWAS)
#>Sample_names Flowering.time.at.阿肯色州
#>类<字符><数字>
#>L1 L1 75.08333号
#>L3 L3 89.50000
#>L4 L4 94.5万
#>L5 L5 87.5万
#>2016年6月6日89.08333
#>L7 L7 105.00000
#>[1]“class:data.frame”
#>[1]英寸尺寸:383 x 2英寸
请参阅(基因GWAS)
#>标记色度位置L1 L3 L4
#>类<factor><integer><integer><integer><integer><integer>
#>1 id1000223 1 420422 1-1-1
#>2 id1000556 1 655693-1 1 1 1
#>3 id 1000673 1 740153-1-1 1 1
#>4电话:1000830 1 913806-1 1 1
#>5 id1000955 1 1041748-1 1 1 1
#>6 id1001073 1 1172387-1-1 1 1
#>[1]“class:data.frame”
#>[1]“尺寸:1264 x 386”
字符串(ζ)
#>1的列表
#>$A:列表,共2个
#>   ..$ Z: 编号[1:383,1:383]1 0 0 0 0 00 0 0。。。
#>   .. ..- attr(*,“dimnames”)=2的列表
#>   .. .. ..$ : chr[1:383]“L1”“L3”“L4”“L5”。。。
#>   .. .. ..$ : chr[1:383]“L1”“L3”“L4”“L5”。。。
#>   ..$ K: 编号[1:383,1:383]1.0112-0.45-0.417-0.0454-0.4051。。。
#>   .. ..- attr(*,“dimnames”)=2的列表
#>   .. .. ..$ : chr[1:383]“L1”“L3”“L4”“L5”。。。
#>   .. .. ..$ : chr[1:383]“L1”“L3”“L4”“L5”。。。

ZETA公司是基因组关系矩阵(GRM)列表其设计矩阵。

最后,我们可以执行全球水资源系统使用这些数据。首先,我们通过以下方式执行单一SNP GWASRGWAS正常功能为跟随。

###执行单一SNP GWAS
法线.res<- RGWAS.正常(苯酚=现象。全球野生动植物保护协会,基因=基因。全球野生动植物保护协会,
                           绘图.qq= 错误的,绘图。曼哈顿= 错误的,
                           泽塔=ZETA、,不含PC= 4,第三页= 真的,
                           跳过检查= 真的,计数= 错误的)
#>[1]“特性的GWAS:开花时间。在阿肯色州”
#>[1]“方差分量估计。测试标记。”
#>时差2.881387秒
请参阅(法线.res$D)###第4列包含标记的-log10(p)值
#>标记chrom pos Flowering.time.at.阿肯色州
#>类<因子><整数><整数><数字>
#>1 id1000223 1 420422 0.4947885
#>2电话:1000556 1 655693 0.3805267
#>3电话:1000673 1 740153 0.3443146
#>4电话:1000830 1 913806 0.1364734
#>5电话:1000955 1 1041748 1.0212223
#>6 id1001073 1 1172387 0.5772126
#>[1]“class:data.frame”
#>[1]“尺寸:1264 x 4”

接下来,我们通过以下方式执行SNP-set GWASRGWAS.多功能功能。

###执行SNP集GWAS(将11个SNP视为一个SNP集,前300个SNP)
SNP_set.res<- RGWAS.多功能(苯酚=现象。全球野生动植物保护协会,热那亚=基因。全球水资源系统[1:300, ],ZETA公司=ZETA、,
                              绘图.qq= 错误的,绘图。曼哈顿= 错误的,计数= 错误的,
                              不含PC= 4,测试方法= “LR”,内核方法= “线性”,
                              基因集= 无效的,跳过检查= 真的,
                              测试效果= “添加剂”,窗口大小一半= 5,窗口.幻灯片= 11)
#>[1]“特性的GWAS:开花时间。在阿肯色州”
#>时差3.196992秒

请参阅(SNP_set.res$D)###第4列包含标记的-log10(p)值
#>标记chrom pos Flowering.time.at.阿肯色州
#>类<因子><整数><整数><数字>
#>1 id1000223 1 420422 0
#>12编号1002158 1 2723270 0
#>23电话:1004109 1 5067948 0
#>34编号1005263 1 6972700 0
#>45编号1007975 1 11107052 0
#>56 id1009557 1 14413616 0
#>[1]“class:data.frame”
#>[1]“尺寸:28 x 4”

您可以通过设置使用滑动窗口执行SNP设置GWASwindow.slide=1.您可以使用滑动执行SNP-set GWAS通过设置窗口window.slide=1。你也可以通过分配以下数据集为基因集参数。(您可以检查示例也通过参见(Rice_mbipo_block)(位于右)

例如)

基因(或单倍型阻滞) 标记
单倍闭锁_1 id1005261
单倍体1 id1005263
单倍体2 id1009557
单倍体2 id1009616
单倍体3 编号1020154
###执行基于单倍型-块的GWAS(通过使用PLINK估计的单倍型块,前400个SNP)
单倍阻塞.res<- RGWAS.多功能(苯酚=现象。全球野生动植物保护协会,基因=基因。全球水资源系统[1:400, ],ZETA公司=ZETA、,
                              绘图.qq= 错误的,绘图。曼哈顿= 错误的,计数= 错误的,
                              不含PC= 4,测试方法= “LR”(左后),内核方法= “线性”,
                              基因集=大米_haplo_block,滑雪检查= 真的,
                              测试效果= “添加剂”)
#>[1]“特性的GWAS:开花时间。在阿肯色州”
#>[1]“正在生成基因集地图。请稍候。”
#>时间差1.799074秒

请参阅(单倍体_block.res$D)###第4列包含标记的-log10(p)值
#>阿肯色州Flowering.time.at的标志
#>类<字符><整数><数字><数字>
#>1个单倍体_1 1 6971965 0.0000000
#>2单倍体_2 1 14423002 0.3010615
#>3单倍体_3 1 32961726 0.3931964
#>4单倍体_41 33508558 0.0000000
#>5单倍体_5 2 8000411 0.0000000
#>6单倍体_6 3 36321431 0.0000000
#>[1]“class:data.frame”
#>[1]“尺寸:7 x 4”

此数据集没有有效块,因为标记和块对于此数据集太小。然而,当全基因组测序数据可用,使用的影响SNP-set/基因set/单倍型-block方法变得更大,我们建议您使用这些方法。请参阅滨崎和岩田(2020年,PLOS Comp Biol),了解这些方法的更多细节。

帮助

如果在表演之前有人帮你全球水资源系统具有降雨,请通过以下方式查看每个函数的帮助?函数_名称.

工具书类

Kennedy,B.W.,Quinton,M.和van Arendonk,J.A.(1992)《估算》单基因对数量性状的影响。动画科学杂志。70(7):2000-2012.

Storey,J.D.和Tibshirani,R.(2003)全基因组研究。国家科学院院刊。100(16): 9440-9445.

Yu,J.et al.(2006)关联的统一混合模型方法说明多层次关联性的映射。自然遗传学。38(2): 203-208.

Kang,H.M.等人(2008)《中国人口结构的有效控制》生物关联图模型。遗传学。178(3): 1709-1723.

Kang,H.M.等人(2010)方差分量模型全基因组关联研究中的样本结构。自然遗传学。42(4):348-354.

Zhang,Z.等人(2010)适用于全基因组关联研究。自然遗传学。42(4): 355-360.

Endelman,J.B.(2011)《岭回归和基因组的其他核心》使用R Package rrBLUP进行选择。《植物基因组杂志》4(3):250。

Endelman,J.B.和Jannink,J.L.(2012)实现关系矩阵。G3基因,基因组,基因。2(11):1405-1413.

Su,G.等人(2012)估计加性和非加性遗传利用全基因组密度单体方差和遗传优势预测核苷酸多态性标记。公共科学图书馆一号。7(9): 1-7.

Zhou,X.和Stephens,M.(2012)全基因组高效混合模型关联研究分析。自然遗传学。44(7): 821-824.

Listgarten,J.等人(2013):一个强大而有效的集合测试处理混淆的遗传标记。生物信息学。29(12):1526-1533.

Lippert,C.等人(2014)更大的功率和计算效率用于遗传变异集的基于核的关联测试。生物信息学。30(22): 3206-3214.

Jiang,Y.和Reif,J.C.(2015)基因组上位性建模选择。遗传学。201(2): 759-768.

Hamazaki,K.和Iwata,H.(2020)RAINBOW:基于单倍型使用一种新的SNP-set方法进行全基因组关联研究。多环芳烃计算生物学,16(2):e1007663。