目录

这是GENIE3的R实施文件。

GENIE3方法描述如下:

Huynh Thu V.A.、Irrthum A.、Wehenkel L.和Geurts P.(2010)使用基于树的方法从表达数据推断调节网络。公共科学图书馆,5(9):e12776。

表达式数据格式

稳态表达式数据格式

这个GENIE3()函数以基因表达矩阵作为输入参数exprMatr公司矩阵的每一行必须对应一个基因,每一列必须对应一份样本。基因名称必须在行名称(exprMatr)。可以在中指定样本名称列名(exprMatr),但这不是强制性的。例如,以下命令行生成虚假表达式矩阵(仅用于本教程):

exprMatr<-矩阵(样本(1:10,100,替换=真),nrow=20)行名称(exprMatr)<-paste(“基因”,1:20,sep=“”)colnames(exprMatr)<-paste(“示例”,1:5,sep=“”)头部(exprMatr)
##样品1样品2样品3样品4样品5##基因1 2 5 1 10 7##基因8 8 4 3 4##基因3 7 1 8 7 3##基因4 7 3 3 1 3##基因5 10 2 6 10 4##基因6 8 3 7 6 5

该矩阵包含来自5个样本的20个基因的表达数据。表达式数据不需要以任何特定的方式进行规范化(但是否规范化/过滤/日志转换都会影响结果!)。

如何运行GENIE3

使用默认参数运行GENIE3

以下命令对表达式数据运行GENIE3exprMatr公司使用默认参数:

库(GENIE3)set.seed(123)#用于结果的再现性重量材料<-GENIE3(exprMatr)
dim(重量垫)
## [1] 20 20
重量垫[1:5,1:5]
##基因1基因2基因3基因4基因5##基因1 0.00000000 0.06730813 0.028541318 0.063413221 0.02840563##基因2 0.04682954 0.00000000.006939940 0.054863918 0.01731399##基因3 0.02872232 0.03560571 0.000000000 0.005376876 0.09977545##基因4 0.04148807 0.04313984 0.003564747 0.000000000 0.02516903##基因5 0.02107191 0.02939945 0.130708812 0.018893254 0.00000000

该算法输出一个包含假定监管链接权重的矩阵,较高的权重对应于更可能的监管链接。重量材料[i,j]是从\(i)-th基因到\(j)-th基因。

将候选调节器限制为基因子集

默认情况下exprMatr公司被用作候选监管机构。然而,候选调控因子的列表可能仅限于基因子集。当你知道哪些基因是转录因子时,这会很有用。

#用作候选调节器的基因调节器<-c(2、4、7)#或者:调节器<-c(“Gene2”、“Gene4”、“Genere7”)weightMat<-GENIE3(exprMatr,regulators=调节器)

这里,只有基因2,第4代第7代(分别对应于中的第2、4和7行exprMatr公司)被用作候选监管机构。在结果中重量垫,来自非候选调控因子基因的链接的权重等于0。

要为每个基因请求不同的调节因子并返回列表:

regulatorsList<-list(“Gene1”=行名(exprMatr)[1:10],“Gene2”=行名称(exprMatr)[10:20],“Gene20”=行名称(exprMatr)[15:20])设定种子(123)权重列表<-GENIE3(exprMatr,nCores=1,targets=名称(regulatorsList),regulators=regulators.List,returnMatrix=FALSE)

更改基于树的方法及其设置

GENIE3基于回归树。这些树可以使用随机森林方法学习1Breiman L.(2001)《随机森林》。机器学习, 45(1):5-32.或Extra-Trees方法2Geurts P.、Ernst D.和Wehenkel L.(2006)《极度随机树》。机器学习, 36(1):3-42.。可以使用树方法参数(tree.method=“RF”对于Random Forests,这是默认选项,或tree.method=“ET”对于额外树)。

每个基于树的方法都有两个参数:K(K)参赛者.K(K)是在每个树节点上随机选择的候选调节器的数量,用于最佳分割确定。\(p\)是候选监管机构的数量。K(K)必须是:

  • “平方码”,它设置\(K=\sqrt{p}\)。这是默认值。
  • “全部”,它设置\(K=p\).
  • 或介于之间的任何整数\(1\)\(p\).

参数参赛者指定每个集合生长的树数。它可以设置为任何严格的正整数(默认值为1000)。

示例如下所示:

#使用额外树(ET)方法#在树的每个节点随机选择7个候选调节器#每组5棵树weightMat<-GENIE3(exprMatr,treeMethod=“ET”,K=7,nTrees=50)

并行GENIE3

为了减少计算时间,GENIE3可以在多个内核上运行。参数ncores公司指定要使用的核心数。例如:

set.seed(123)#用于结果的再现性weightMat<-GENIE3(exprMatr,nCores=4,verbose=TRUE)

请注意见种子允许在不同的运行中获得相同的结果,但只能在n孔==1n孔径>1例如,运行设定种子(123)n孔=1和另一个种子相同但n孔径>1可能会提供不同的结果。

获取更多信息

?第3代