经济数据中探索性网络中介分析的新框架
- 蔡庆坡1,6,
- 傅英浩2,三,6,
- 程柳1,6,
- 王子和2,
- 顺饶2,
- 杰西卡·阿尔瓦雷斯4,
- 云白三,
- 健康5和
- 天威于2
- 1美国佐治亚州亚特兰大市埃默里大学生物统计学和生物信息学系,邮编:30322;
- 2香港中文大学数据科学学院深圳大数据研究所,深圳,中国广东省518172;
- 三香港中文大学医学院,深圳,广东518172;
- 4美国佐治亚州亚特兰大市埃默里大学医学系,邮编:30322;
- 5美国密歇根州安阿伯市密歇根大学生物统计系,邮编:48109
-
↵6这些作者为这项工作做出了同等贡献。
通讯作者:建康{在}umich.edu,于天卫{at}香港中文大学edu.cn
摘要
Omics方法广泛应用于基础生物学和转化医学研究。收集了越来越多的组学数据解释某些危险因素对临床结果的影响。解释风险因素的机制,这是一个核心问题是如何找到调节其对临床结果影响的基因/蛋白质/代谢物。调解分析是一种通过中介变量研究风险因素与病理结果之间关系的模型框架。然而,高维组学数据比传统数据更具挑战性:(1)从成千上万的基因中,我们能否克服可靠地选择一组中介体的维数灾难?(2) 我们如何确保所选中介的功能一致性?(3) 许多生物机制都包含非线性效应。我们如何在高维中包含非线性效应调解分析?(4) 我们如何同时考虑多种风险因素?为了应对这些挑战,我们建议新的探索性中介分析框架medNet,其重点是通过预测建模寻找中介。我们建议使用统计假设对预测暴露、预测中介和预测网络中介的新定义测试框架以识别预测风险和中介。此外,还提出了两种启发式搜索算法识别网络介质,本质上是基因组尺度生物网络中的子网络,它介导一次或多次曝光。我们将medNet应用于乳腺癌数据集和代谢组学数据集以及食物摄入问卷数据。它为暴露对结果的影响确定了功能一致的网络中介,便于数据解释。
- 收到2023年11月2日。
- 认可的2024年4月11日。