×

与生物注释元数据关联的多项测试。 (英语) Zbl 1168.62100号

诺兰,黛博拉(编辑)等人,《概率与统计:纪念大卫·A·弗里德曼的论文》。俄亥俄州比奇伍德:IMS,数理统计研究所(ISBN 978-0-940600-74-4/pbk)。数理统计研究所收藏2,153-218(2008)。
摘要:我们提出了一个通用而正式的统计框架,用于对基因组已知固定特征和该基因组在感兴趣人群中可变特征分布的未知参数之间的关联进行多重测试。已知的基因注释谱与基因组的固定特征相对应,可能涉及基因本体(GO)注释、通路成员、特定转录因子、核苷酸序列或蛋白质序列的调节。例如,与基因组的可变特征相对应的未知基因参数剖面可能是回归系数,该回归系数将可能被审查的生物学和临床结果与全基因组转录水平、DNA拷贝数和其他协变量相关。
当前基因组研究中非常感兴趣的一个通用问题是检测生物注释元数据和全基因组表达度量之间的关联。这个生物学问题可以解释为对基因注释图谱和基因参数图谱之间关联测度的多种假设的检验。统计推断问题的一般和严格公式允许我们应用由S.Dudoit公司M.J.范德拉恩【基因组学应用的多重测试程序。纽约:Springer(2008;Zbl 1261.62014年)]以及相关文章,以控制一大类I类错误率,定义为I类错误数和拒绝假设的任意函数的广义尾部概率和期望值。体积op.cit的基于重采样的单步和逐步多重测试程序考虑了测试统计的联合分布,并在涉及一般数据生成分布(变量之间具有任意依赖结构)、零假设、,和测试统计。
使用以下急性淋巴细胞白血病(ALL)微阵列数据集说明了提出的统计和计算方法S.Chiaretti公司等【Blood 103,2771–2778(2004)】,目的是将GO注释与BCR/ABL融合的B细胞ALL和细胞遗传学正常的NEG B细胞ALL之间的差异基因表达联系起来。已识别的GO术语列表对GO注释和差异基因表达之间关联参数的选择的敏感性表明,根据合适的基因注释谱、基因参数谱和关联度量来翻译生物学问题的重要性。
特别是,结果揭示了差异表达指标的二进制基因参数谱的局限性,这些差异表达指标仍然是GO注释和微阵列数据联合分析的标准。基于这种二元基因参数图谱的程序往往是保守的,并且对于差异表达基因集的估计器缺乏稳健性。
我们提出的统计框架具有基因注释和基因参数剖面的一般定义,允许考虑更广泛的推理问题,这些问题超越了GO注释和微阵列数据分析。
有关整个系列,请参见[Zbl 1159.60006号].

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62号03 生存分析和审查数据中的测试
92D10型 遗传学和表观遗传学
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用