丹尼尔·朱庇特;萨拉·阿胡托·鲁,杰西卡;文森特·范布伦 TreeHugger:基因本体术语丰富的新测试。 (英语) Zbl 1243.62133号 信息J.计算。 22,第2期,210-221(2010). 摘要:基因本体(GO)项目提供了生物学研究人员使用的结构化生物学术语词汇表,作为标准化生物实体引用的工具。基因可以用GO术语注释,以指示其在细胞中的作用或定位。GO已与高通量实验方法(如微阵列)结合使用。在这种情况下,我们的兴趣是确定高通量实验鉴定的基因集是否富含GO术语:某些术语在鉴定的基因集中注释的基因是否比人们预期的更多?丰富的术语被视为对已确定的一组基因的细胞功能的潜在总结,并可能为研究提供新方向的线索。目前用于确定一组基因是否富含GO的方法存在一些众所周知的缺点。许多方法在确定丰富性时没有考虑本体的层次结构。我们通过引入一种新的统计测试(TreeHugger)来解决这一缺陷,该测试基于一种针对GO项的新的per-gene评分方案。给定一组基因和这些基因的特定子集,我们的方法确定子集中GO术语的丰富程度,同时考虑到本体的结构,并将较低的权重赋予那些本身不直接注释给定基因的术语。对模拟数据和实际数据的测试表明,我们的方法是一种保守的富集测试。对一个生物示例进行TreeHugger测试表明,它还减少了标准浓缩测试提供的间接注释的高分导致的冗余。 引用于2文件 MSC公司: 62页第10页 统计学在生物学和医学科学中的应用;元分析 92D10型 遗传学和表观遗传学 92C40型 生物化学、分子生物学 关键词:数据分析;可能性;基因组学;微阵列 软件:GO工具箱;KEGG公司;GFINDer公司;GOstat公司;CLENCH公司;基因编码;法蒂戈;GOTM公司;答对 了 PDF格式BibTeX公司 XML格式引用 \textit{D.Jupiter}等人,《信息与计算》。22,第2号,第210--221条(2010;Zbl 1243.62133) 全文: 内政部