Open Biomedical Network Benchmark:使用生物医学网络对数据集进行基准测试的Python工具包
刘人明,阿琼·克里希南
计算生物学会议第18届机器学习会议记录,PMLR 240:23-592024年。
摘要
在过去的几十年里,网络生物学一直是计算方法的主要推动力,这些方法是为了更好地理解人类基因组中每个基因在其细胞环境中的功能作用而开发的。继应用传统的半监督和监督机器学习(ML)技术之后,网络生物学的下一波进步将来自于利用图神经网络(GNN)。然而,为了测试新的基于GNN的方法,缺乏一个系统和全面的基准资源,该资源涵盖各种生物医学网络和基因分类任务。在这里,我们提出了开放生物医学网络基准(OBNB),这是一个节点分类基准数据集的集合,使用来自15个来源和任务的网络获得,其中包括预测与广泛的功能、特征和疾病相关的基因。附带的Python包obnb包含可重复使用的模块,使研究人员能够从公共数据库或存档版本下载源数据,并建立与流行的GNN框架(如PyG和DGL)兼容的ML就绪数据集。我们的工作为GNN在网络生物学中的新应用奠定了基础。obob还将帮助网络生物学家轻松设置自定义基准数据集,以回答感兴趣的新问题,并与图形ML从业者合作,以增强我们对人类基因组的理解。OBNB根据麻省理工学院许可证发布,可在GitHub上免费获得:https://github.com/krishnanlab/obnb
引用本文
相关材料