摘要

动机:基因组重排的理论与实践分析在生物学广泛应用的环境中失败每个基因可能有许多拷贝,但不一定相邻的。然而,在其中一些情况下询问两个基因组G和H中每个基因家族的哪些成员,长度lG和lH是真正的榜样,即哪个最好反映祖先基因在共同体内的原始位置祖先基因组。这需要搜索这两个榜样长度相同的n(=基因家族的数量,包括单重态),具有最小的可能重排距离:这个样本距离.

结果:分支定界算法计算这些距离基于易于计算的传统重排距离,例如有符号反转距离或断点距离,也满足单调性在基因数量上。模拟结果表明,在两个随机基因组中,期望的样本距离/n对数量和大小很敏感基因家族的数量,但单胎数接近1家庭数量增加。当基本重排距离刚好断点的数量,计算示例断点距离(EBD),由调用的总次数度量基本断点距离例程高度依赖于n和基因家族的结构。另一方面,基于样本反向距离(ERD)的样本距离预期计算成本取决于基因的配置家庭,但对n不敏感。

可用性:EBD和ERD代码可从作者处获得或可以在以下位置访问http://www.crm.umontreal.ca/~viart/examplar·dis.html

联系人:sankoff@ere.umontreal.ca

此内容仅以PDF格式提供。