dna2vec公司

变长k-mers的一致向量表示。长DNA序列的一个普遍的表现是将其分成较短的k-mer组分。不幸的是,将k-mer作为一个热点向量进行直接的矢量编码容易受到维数灾难的影响。更糟糕的是,任何一对热矢量之间的距离是相等的。当应用最新的机器学习算法来解决生物序列分析中的问题时,这一问题尤其突出。本文提出了一种训练变长k-mer分布表示的新方法。我们的方法是基于流行的单词嵌入模型word2vec,它是在一个浅层的两层神经网络上训练的。我们的实验证明dna2vec载体的总和类似于核苷酸串联。我们还证明了dna2vec向量的needeman-Wunsch相似性得分与余弦相似性之间存在相关性。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换


zbMATH中的参考文献(参考 1文章 参考)

显示结果1/1。
按年份排序(引文)

  1. Tillquist,Richard C.;Lladser,Manuel E.:基因组序列的低维表示(2019年)