×

相似性得分函数的统计特性。 (英语) Zbl 1193.92046号

第四次数学和计算机科学座谈会IV.算法,树,组合和概率。论文基于2006年9月18日至22日在法国南希举行的座谈会上的陈述。南希:协会。离散数学与理论计算机科学(DMTCS)。离散数学和理论计算机科学。诉讼,129-140,仅电子版(2006年)。
摘要:在计算生物学中,许多问题,例如模式发现,都涉及到对几个序列(例如核苷酸、蛋白质或基因)的比较。通常,解决此问题的算法使用反映序列之间相似性概念的得分函数。最有效的方法得益于这些分数函数经典行为的理论知识,例如它们的均值、方差,有时它们在给定概率模型中的渐近分布。我们研究了最近由a.Mancheron(2003)引入的分数函数家族,该家族允许比较两个长度相同的单词。这里,相似度考虑了两个序列之间的所有匹配和不匹配,而不仅仅是经典算法(如BLAST或FASTA)中最长的公共子序列。基于生成函数,我们提供了独立概率模型中这些函数的均值和方差的闭合公式。最后,我们证明了该族中的每个函数都渐近地表现为高斯随机变量。
关于整个系列,请参见[Zbl 1189.68002号].

MSC公司:

92立方厘米 系统生物学、网络

软件:

法斯塔
PDF格式BibTeX公司 XML格式引用
全文: 链接