克里斯·麦肯南;丹·尼古拉 解释高维生物数据中具有不同程度可估计性的未观察协变量。 (英语) Zbl 1435.62396号 生物特征 106,第4期,823-840(2019). 摘要:高通量生物数据中的一个重要现象是存在未观察到的协变量,这些协变量可能会对测量的响应产生重大影响。当这些协变量也与感兴趣的协变量相关时,忽略或不正确地估计它们可能导致对多元线性模型中相应的感兴趣系数的不准确估计和虚假推断。我们首先证明,现有的解释这些未观察到的协变量的方法往往会夸大给定利息系数为零的零假设的I类错误。然后,我们为校正通货膨胀的利息系数提供了替代估计量,并证明了我们的估计量与观测到每个协变量时获得的普通最小二乘估计量是渐近等价的。最后,我们使用先前公布的DNA甲基化数据表明,与现有方法相比,我们的方法可以更准确地估计哮喘对DNA甲基化水平的直接影响,后者可能无法恢复并解释潜在的细胞类型异质性。 引用于4文件 理学硕士: 62页第10页 统计学在生物学和医学中的应用;元分析 92D20型 蛋白质序列,DNA序列 62兰特 大数据和数据科学的统计方面 62H25个 因子分析和主成分;对应分析 关键词:批处理效应;细胞类型异质性;混淆;高维因子分析;未观察到的协变量;不需要的变化 PDF格式BibTeX公司 XML格式引用 \textit{C.McKennan}和\textit{D.Nicolae},《生物统计学》106,第4期,第823--840页(2019年;Zbl 1435.62396) 全文: 内政部 arXiv公司 链接