表演叶层分流地层富集分析

叶层分流地层几项研究进行了富集分析,以关联器官或代谢途径进化与器官或途径的起源特定基因(Sestak和Domazet-Loso,2015)。

具体来说,叶层分流地层可以进行富集分析类似于基因本体论凯格富集分析研究进化年龄或一组选定基因与整个基因的序列差异基因组/转录组。具体情况下,年龄类别显著在选定的基因集、假设或特定物种进化起源之间的潜在相关性可以暗示器官或代谢途径。

在这个小插曲中,我们将使用Sestak和Domazet-Loso,2015年,演示如何进行浓缩分析使用我的TAI.

富集分析使用绘图扩展()

这个绘图扩展()函数在中实现我的TAI计算并可视化丰富的(代表人数过多或不足)叶绿藻门分流地层在过程/组织的输入集内特定基因。具体来说,此函数采用叶层分流地层输入中存储的所有基因的分布表达式集作为背景设置叶层分流地层特定基因集的分布并对每一项进行Fisher精确测试叶层分流地层量化统计显著性过度或低估叶绿藻门分流地层在所选择的基因集合内。换句话说,频率分布叶绿藻门分流地层在完整的样本中与频率分布系统发育层分流地层在一组选定的基因中通过log-odds(或赔率)显示低分辨率,其中零的log-odd表示两个频率分布相等(参见Sestak和Domazet-Loso,2015年)。

示例数据集检索

在使用之前绘图扩展()函数,我们需要下载Sestak和Domazet-Loso,2015年的示例数据集。

下载植物地层图属于D。雷里奥:

#下载Danio rerio的植物地层图
#来自Sestak和Domazet-Loso,2015
下载.file(网址= "http://mbe.oxfordjournals.org/content/suppl/2014/11/17/msu319.DC1/表S3-2.xlsx",
目标文件= “MBE_2015a_Drerio_PhyloMap.xlsx” )
               

阅读*.xlsx文件文件存储植物地层图属于斑马鱼并将其格式化用于与一起使用我的TAI:

#安装readxl包
安装.包(“readxl”)

#加载包readxl
图书馆(读取xl)

#读取excel文件
DrerioPhyloMap。MBEa公司 <- 读取excel(“MBE_2015a_Drerio_PhyloMap.xlsx”,张= 1,跳过= 4)

#与myTAI一起使用的植物地层图格式
Drerio.Phylo地图 <- DrerioPhyloMap。MBEa公司[,1:2]

#看看最终的格式
(Drerio.Phylo地图)
Phylostrata ZFIN_ID公司1 1 ZDB-GENE-000208-132 1 ZDB-GENE-000208-173 1 ZDB-GENE-000208-184 1 ZDB-GENE-000208-235 1 ZDB-GENE-000209-3号6 1 ZDB-基因-000209-4

现在,Drerio.Phylo地图存储植物地层图属于斑马鱼所使用的作为背景集,使用绘图扩展().

富集分析

现在绘图扩展()函数可视化结束-代表性不足叶绿藻门大脑特异性基因与存储在植物地层图属于斑马鱼.

#阅读Sestak和Domazet-Loso 2015年的表达数据(器官特异性基因)
Drerio.Organ特定表达式 <- 读取excel(“MBE_2015a_Drerio_PhyloMap.xlsx”,张= 2,跳过= )

#只选择大脑特定基因
德雷里奥。基因 <- 独特的(na.省略(Drerio.Organ特定表达式[,“大脑”]))

#可视化注释为脑特异性的基因的丰富层次
情节丰富(Drerio.PhyloMap公司,
测试集= 德雷里奥。布莱恩。基因,
测量= “log-foldchange”,
仅使用.map= 真的,
图例名称= “PS”)

在这里,第一个参数要么是一个标准表达式集对象(如果use.only.map=错误:default)或植物地层图散度图(英寸案例use.only.map=真; 看见引言详细信息)。第二个论点测试集指定还存储在相应的表达式集地层图/分流图用于浓缩应量化和可视化。

可视化过量或不足基因的几率或对数测试集以下程序是执行:

  • \(N_{ij}\)表示j组和PS衍生的基因\(i),使用\(i)=1, .. , n\)以及在哪里\(j=1)表示背景集和\(j)=2\)表示测试集

  • \(N_{i.}\)表示总数PS中的基因数量\(i)

  • \(N_{.j}\)表示总数组内基因数\(j)

  • \(N_{..}\)是总数所有组中的基因\(j)所有PS\(i)

  • \(f{ij}\)=\(N_{ij}\)/\(N_{..}\)\(g{ij}\)=\(f{ij}\)/\(f{.j}\)表示相对频率在组之间

  • \(f{i.}\)表示介于组和\(f{ij}\)

结果是折叠更改值(赔率;measure=“foldchange”)表示为\(C_2=g_{i2}/f_{i.}\)它是可视化的高于和低于零或日志折叠更改价值(log-odds;measure=“log-foldchange”),其中\(日志2\)(C)=\(log_2\)(\(g{i2}\)) -\(日志2\)(\(f{i.}\))它是对称可视化的零度以上和零度以下绘图扩展()类似地,\(C_1=g_{i1}/f_{i.}\)但不是由该函数可视化。

在内部,绘图扩展()执行Fisher's精确测试每个叶层分流地层分别量化重要性对应词的过度或不足表达叶绿藻门分流地层测试集与整体相比表达式集.绘图扩展()可视化显著富集(过量或不足)叶绿藻门分流地层具有星号“*”。

符号:

  • '*'=P值\(\leq\)0.05
  • “**”=P值\(\leq\)0.005
  • “***”=P值\(\leq\)0.0005

用户会注意到,在执行绘图扩展()函数、p值和富集矩阵(存储\(C_1\)\(C_2\))将返回。

情节丰富(Drerio.Phylo地图,
测试集= 德雷里奥。布莱恩。基因,
测量= “log-foldchange”,
仅使用.map= 真的,
图例名称= “PS”)
价值$pPS1 PS2 PS3 PS4 PS5 PS68.283490e-01 8.362880e-05 6.778981e-02 1.373816e-02 7.946309e-13 6.017041e-01PS7 PS8 PS9 PS10 PS11 PS122.185021e-03 2.281194e-03 8.943147e-01 5.699612e-01 4.717058e-02 9.367759e-01PS13 PS143.929949e-03 1.593834e-05$enrichment.max矩阵BG_设置测试_设置PS1-0.001132832 0.007668216PS2 0.023733936-0.172380714PS3-0.040879607 0.250587496PS4-0.048920465 0.294399729PS5-0.114888949 0.603817643PS6 0.008678915-0.060350168PS7-0.062948352 0.367240944PS8 0.115630474至1.206210187PS9-0.007353969 0.048964218磅PS10-0.031971192 0.200141519PS11 0.039742253-0.303363314PS12-0.002418079 0.016311853PS13 0.101449988-0.984621732号PS14 0.098211044-0.938724783

如果用户只对Fisher检验的p值感兴趣和浓缩矩阵,而不显示条形图,它们可以指定plot.bars=错误参数仅检索数值结果。

#指定plot.bars=FALSE以仅检索数字结果
浓缩结果 <- 情节丰富(Drerio.Phylo地图,
测试集= 德雷里奥。布莱恩。基因,
测量= “log-foldchange”,
仅使用.map= 真的,
图例名称= “PS”,
绘图条= 错误的)

#获取p-值,量化各层的富集程度
浓缩结果$p.值
PS1 PS2 PS3 PS4 PS5 PS68.283490e-01 8.362880e-05 6.778981e-02 1.373816e-02 7.946309e-13 6.017041e-01PS7 PS8 PS9 PS10 PS11 PS122.185021e-03 2.281194e-03 8.943147e-01 5.699612e-01 4.717058e-02 9.367759e-01PS13 PS143.929949e-03 1.593834e-05
#存储C_1和C_2的存取富集矩阵
浓缩结果$丰富矩阵
BG_设置测试_设置PS1-0.001132832 0.007668216PS2 0.023733936-0.172380714PS3-0.040879607 0.250587496PS4-0.048920465 0.294399729磅PS5-0.114888949 0.603817643PS6 0.008678915-0.060350168PS7-0.062948352 0.367240944PS8 0.115630474至1.206210187PS9-0.007353969 0.048964218PS10-0.031971192 2014年10月15日PS11 0.039742253-0.303363314PS12-0.002418079 0.016311853PS13 0.101449988-0.984621732号PS14 0.098211044-0.938724783

定义背景集

内部进行的费希尔试验绘图扩展()假设输入中存储的所有基因表达式集植物地层图/散度图已使用定义构建测试统计的背景集。然而,由于在大多数情况下测试集是的子集输入表达式集植物地层图/散度图也可以指定完成.bg参数删除所有测试集执行费希尔测试和可视化。

以下两个示例允许用户在以下情况下比较结果保留所有基因作为背景集与删除选项比较测试集背景集中的基因。

#complete.bg=TRUE(默认)->在背景集中保留test.set基因
绘图富集(Drerio.Phylo地图,
测试集= 德雷里奥。布莱恩。基因,
测量= “log-foldchange”,
完成.bg= 真的,
使用.only.map= 真的,
图例名称= “PS”)
#complete.bg=FALSE->从背景集中删除test.set基因
情节丰富(Drerio.Phylo地图,
测试集= 德雷里奥。布莱恩。基因,
测量= “log-foldchange”,
完成.bg= 错误的,
仅使用.map= 真的,
图例名称= “PS”)

用户会注意到,尽管一些p值发生了变化结果并没有改变。然而,在边界线案例中,结果可能影响是否有叶绿藻门分流地层表示为显著富集或不是。因此,在保留或移除时,请始终注意解释这个测试集因为这两个选项是有效的,有优点和缺点,并且依赖于有效的解释。

富集结果解释

对于斑马鱼大脑基因的例子你可以看到PS4,PS5和PS7在大脑集合中显著过度表达特定基因。

情节丰富(Drerio.Phylo地图,
测试集= 德雷里奥。布莱恩。基因,
测量= “折叠更改”,
完成.bg= 真的,
仅使用.map= 真的,
图例名称= “PS”)

我们再次检索斑马鱼特定分类法用PS1-14表示分类法()功能(请参见引言分类学详细信息)。

#检索雷里奥石斛的分类
分类学(有机体= “丹尼尔·雷里奥”)
id名称等级1个等级为131567的细胞生物2真核生物超王国27593 Opisthokonta no rank 33154号4后生动物王国332085第6072级真后生动物6 Bilateria无等级332137 Deuterostomia no rank 33511型8脊索动物门77119颅亚门8959310无级脊椎动物774211 Gnathostomata no等级777612 Teleostomi编号11757013 Euteleostomi编号11757114 Actinopterygii超类789815放线菌纲18662316新翼类41665亚类17真骨下3244318头舌骨骨,无等级148934119无秩Clupocephala 18662520 Otomorpha编号18663421 Ostariophysi无等级3251922耳垂无等级18662623鲤鱼亚目18662724鲤形目795225鲤亚纲超科3072726鲤科795327达尼奥属795428种斑马鱼7955

Sestak和Domazet-Loso,2015年将这28个分类节点分解为14个分类节点(请参见图2在Sestak和Domazet-Loso,2015),并将其标记为phylostrata 1 to phylosstrata14,其中PS1表示细胞生物和PS14代表斑马鱼特定基因。基于Sestak和Domazet-Loso的门层分类,2015,PS4代表Holozoa(=后生动物+盟友),PS5代表后生动物,PS7表示比拉特菌属.

现在,大脑特定基因的过度表达结果返回通过绘图扩展()提供证据,大脑特定基因可能确实起源于神经系统的出现后生动物-真后生动物过渡系统导致脊椎动物大脑具有逐步适应能力的解释历史上,它现存的大部分组织都已经存在于Sestak和Domazet-Loso认为脊索动物的祖先,2015年。

此示例应说明如何绘图扩展()功能可以用来追踪组织的进化起源或通过研究特定基因的年龄富集度来处理这些基因。

如果用户有表达式集存储植物地层图属于斑马鱼以及一个表达式集,它们还可以使用PlotGeneSet()函数在中实现我的TAI将表达式可视化大脑特异性基因的水平富集于后生动物特定门层。

例子:

#可视化此图的最佳参数设置:
#png(“DrerioBrainSpecificGeneExpression.png”,700400)
绘图基因集(表达式集= DrerioPhylon表达集,
基因集= 德雷里奥。布莱恩。基因,
绘图图例= 错误的,
类型= “l”,
lty公司= 1,
随钻测井= 4,
xlab公司= “Ontogeny”,
伊拉布= “表达式级别”)

#开发关闭()

在这里DrerioPhylo表达式集表示假设表达式集属于斑马鱼发展。

此外选择基因集()函数允许用户以获得表达式集选定基因子集(基因集)用于后续分析。

#选择脑特异性基因的表达集子集
大脑。PhyloExpressionSet(物理表达式集) <- 选择基因集(表达式集= DrerioPhylo表达式集,
基因集= 德雷里奥。基因 )
        
(大脑。PhyloExpressionSet(物理表达式集))

调整多重比较的P值

如果大量的叶层或分流层包含在输入中表达式集,返回的p值绘图扩展()应调整为倍数比较。为此目的绘图扩展()包括论点p.调整方法。这里,中实现的所有方法?p.调整可以指定:

#调整p值以与Benjamini&Hochberg(1995)进行多次比较
情节丰富(Drerio.Phylo地图,
测试集= 德雷里奥。基因,
测量= “log-foldchange”,
完成.bg= 错误的,
仅使用.map= 真的,
图例名称= “PS”,
p.调整方法= “伯克希尔哈撒韦”)

请参考这些评论(生物统计学手册,盖尔曼等人,2008年、和幻灯片)决定是否对自己的p值进行调整数据集。

工具书类

Sestak MS和Domazet-Loso T。中的植物地层剖面斑马鱼发现脊椎动物大脑脊索动物起源.分子生物学。进化。(2015) 32 (2): 299-312.