计算机科学>机器学习
职务: 自蒸馏改进DNA序列推断
摘要: 在各种下游任务中,自我监督预处理(SSP)被认为是一种提高预测准确性的方法。 然而,其对DNA序列的效力仍有一定限制。 这种局限主要源于这样一个事实,即基因组学中大多数现有的SSP方法都侧重于单个序列的屏蔽语言建模,而忽略了跨多个序列编码统计信息的关键方面。 为了克服这一挑战,我们引入了一种创新的深度神经网络模型,该模型将“学生”和“教师”子网络之间的协作学习结合在一起, 学生子网络采用核苷酸的屏蔽学习,并通过指数移动平均方法逐步调整其参数以适应教师子网络。 同时,这两个子网络都参与对比学习,从输入序列的两种增强表示中获得见解。 这种自我静止过程使我们的模型能够有效地吸收来自单个序列的上下文信息和序列群中的分布数据。 我们通过使用人类参考基因组进行初步预训练来验证我们的方法,然后将其应用于20个下游推理任务。 这些实验的实证结果表明,我们的新方法显著提高了大多数任务的推理性能。 我们的代码位于 此https URL .