×

比较序列与片段重排。 (英语) Zbl 1205.68524号

Pandya,Paritosh K.(编辑)等人,FST TCS 2003:软件技术和理论计算机科学基础。第23届会议,印度孟买,2003年12月15日至17日。诉讼程序。柏林:施普林格出版社(ISBN 3-540-20680-9/pbk)。莱克特。注释计算。科学。2914, 183-194 (2003).
摘要:计算基因组学涉及基于“相似性”比较序列,以检测进化和功能关系。直到最近,人类基因组序列(以及其他物种的基因组序列)的可用部分还相当短且稀疏。大多数测序工作都集中在基因和其他短单位上;这些序列之间的相似性是基于字符级差异来衡量的。然而,随着全基因组测序技术的出现,人们逐渐达成共识,即长基因组序列之间的相似性度量必须捕获人类基因组中大量大片段的重排。
在本文中,我们抽象了在存在段重排的情况下计算序列相似性的一般问题。这个问题与计算字符串的最小语法或两个字符串之间的块编辑距离密切相关。和其他问题一样,我们的问题是NP难的。这里我们的主要结果是针对这个问题的一个简单的(O(1))因子近似算法。相比之下,相关问题的最著名近似值是偏离最优值的因子(Omega(logn))。我们的算法在线性时间内工作,一次通过。在证明我们的结果时,我们将基于不同片段重排的序列相似性度量相互关联,紧密地联系到常数因子。
有关整个系列,请参见[Zbl 1029.00064号].

MSC公司:

68瓦32 字符串上的算法
92D15型 与进化有关的问题
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部