科米克

所有的手指都不一样:使用共形多实例核在区分设置中处理可变长度序列。大多数用于比较基因组序列的字符串核通常与使用单个序列中特征的(绝对)位置信息有关。当使用这样的字符串内核比较可变长度序列时,这就造成了限制。例如,通过基于3C的实验来分析染色质相互作用的结果是可变长度的基因组序列(限制性片段)。在这里,信号在序列中的精确位置发生可能不像在分析启动子序列的场景中那么重要,启动子序列通常有一个转录起始位点作为参考。现有的位置感知字符串内核对于后一种情况是有用的。在这项工作中,我们提出了一种新的序列比较方法,它比现有的大多数方法具有更大的位置自由度,能够在比较可变长度序列时识别出一组可能分散的特征,并且可以处理上述两种情况。我们的方法CoMIK,不仅识别对分类有用的特征,而且识别它们在可变长度序列中的位置,如最近引入的可视化技术辅助的三个二元分类实验的结果所证明的那样。此外,我们证明我们能够有效地检索和解释多实例核的复杂设置的权重向量。