跳到内容

亚基尼基团/甲基化

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 
 
 

存储库文件导航

利用注意力深度学习从序列和基因表达预测甲基化

该程序如Levy-Jurgenson等人的论文《利用注意力深度学习从序列和基因表达预测甲基化》所述。使用此程序,您可以:

(1) 使用样本的基因表达数据和CpG的环境序列预测给定样本在给定CpG位点的甲基化水平。

(2) 从零开始或使用本文中描述的一个预训练模型作为起点(模型1、模型2或模型3),训练/测试您自己的模型版本。

入门

以下是对上述每个选项的解释,包括示例。为了进行预测,以及使用我们的一个预训练模型进行训练,您需要将训练好的权重保存在out/ch3_e_blind文件夹中(解压缩后,放置所有“.ckpt”文件直接地在此文件夹下,例如out/ch3_e_blind/model_1.ckpt。。。等)。您可以直接从下载这个链接(请注意,文件大小约为2-4GB)。

前提条件

要求:

Python 3.5.6(应该是3.5)。

熊猫(pip3安装熊猫)

sklearn(pip3安装scikit-lean)

张量流1.4+(pip3安装张量流)

(1) 预测

要预测甲基化水平,请使用predict.py。在内部,您将找到一个指定区域,该区域具有一些设置,允许您指定输入文件(例如基因表达测量文件)。为了方便起见,我们在res文件夹中提供了示例文件(注意-这些文件包含的数据很少,仅用于演示目的)。你应该遵循这些文件的格式。下面是您必须修改的设置示例。这也是predict.py中的默认值。load_model_ID参数对应于您希望用于预测的论文中的哪个模型(有关详细信息,请参阅论文,或者如果您不确定,欢迎与我们联系)请注意,可以使用preprocessor.py和distances.py帮助准备数据。

运行前:

  • 如果在终端中运行,项目假设您正在src文件夹中运行prediction.py(所有路径都相对于src),因此首先从cd到src。
  • 如果使用解释器,您可能需要将src目录标记为Sources Root(在PyCharm上:右键单击src文件夹->将目录标记为->Source Root),或将“src.”添加到本地导入语句中(例如,“import conf”变为“import-src.conf”)。
  • 确保有一个out目录,其中包含名为“ch3_e_blind”的子文件夹,您应该在其中放置模型的权重(解压缩后,放置所有“.ckpt”文件直接地在此文件夹下,例如out/ch3_e_blind/model_1.ckpt。。。等)。您可以直接从下载重量这个链接(请注意,文件大小约为2-4GB)。

例子

...load_model_ID=3filename_sequence=“probeToOneHotAll_sample_mini.csv”filename_expression=“e_sample_mini.csv”filename_dist=“d_sample_mini.csv”...

(2) 训练自己的模型

要从头开始训练,或从预先训练过的模型开始训练,请使用run.py。在里面,您可以找到一个指定区域,其中有一些设置,使您能够指定要使用哪个模型(如果有)作为训练的起点。如果您想从头开始训练,请使用load_model_ID=0。这在run.py中也有进一步解释。您还可以控制是测试还是培训。

请注意,无需提前将数据拆分为train/val/test,这将在首次运行模型时自动随机完成(这在dataset.py中进行控制)。
为了方便起见,我们在res文件夹中提供的示例文件仅用于格式化(为了使它们保持较小,它们不包含太多cpg或示例,所以不要期望它训练得很好)。你应该遵循这些文件的格式。要提供文件名以及其他设置,请使用conf.py。下面是您必须在run.py和conf.py中提供的示例。load_model_ID参数对应于您想将论文中的哪个模型用作预培训(有关详细信息,请参阅论文,或者如果您不确定,欢迎与我们联系)请注意,您可以使用preprocessor.py和distances.py来帮助您准备数据。

运行前:

  • 如果在终端中运行,项目假设您正在src文件夹中运行run.py(所有路径都与src相关),因此首先从cd到src。
  • 如果使用解释器,您可能需要将src目录标记为Sources Root(在PyCharm上:右键单击src文件夹->将目录标记为->Source Root),或将“src.”添加到本地导入语句中(例如,“import conf”变为“import-src.conf”)。
  • 除非您正在运行默认的示例运行(load_model_ID=0),否则需要确保以下目录已就位:
    • 包含子文件夹的输出目录:“ch3_e_blind”、“ch3_clind”,“e_bind”,“plots”,“postTrainingAnalysis”。如果使用预处理模型,其.ckpt文件应放在:ch3_e_blind下(解压缩后,放置所有“.ckpt”文件直接地在此文件夹下,例如out/ch3_e_blind/model_1.ckpt。。。等)。您可以直接从下载重量这个链接(请注意,文件大小约为2-4GB)。
    • 日志目录。

例子

运行.py

...load_model_ID=0#列车从头开始test_time=True#当您准备测试模型时(将使用在开始训练时创建的自动随机测试集)save_models=True#在整个培训过程中,检查点将在验证集改进后自动保存...

conf.py公司

...filename_sequence=“probeToOneHotAll_sample_mini.csv”filename_expression=“e_sample_mini.csv”filename_dist=“d_sample_mini.csv”...validation_portion_subjects=0.1validation_portion_probes=0.1列车分配探针=0.7...

如果您需要帮助或有任何问题,请随时联系我们:levyalona at gmail。。。。

作者

  • 阿隆娜·利维·尤根森
  • 泽维尔·特克利
  • Vessela N.Kristensen公司
  • 佐哈尔·亚基尼

如果您使用此项目,请引用我们的论文:https://link.springer.com/chapter/10.1007/978-3-030-18174-1_13

关于

未提供说明、网站或主题。

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包

语言文字