×

有限字母表上的随机建模和从基因组中寻找基因的算法。 (英语) Zbl 1163.92315号

Francis,Bruce A.(编辑)等人,《不确定系统的控制:建模、近似和设计》。基思·格洛弗60岁生日之际举办的研讨会。柏林:施普林格出版社(ISBN 3-540-31754-6/pbk)。控制与信息科学课堂讲稿329,345-369(2006)。
摘要:我们研究了平稳随机过程(MathcalY}_t})的建模问题,假设值在有限集({mathcalM}:={1,dots,M})中。假设只知道过程的有限长度样本路径,而不知道过程的全部统计信息。研究了两类问题,即:预测建模和分类建模。对于预测问题,在另一篇论文中,证明了将给定过程建模为多步马尔可夫过程的著名方法实际上是满足某些非负性约束的唯一解决方案。
本文推导了该多步马尔可夫模型参数的精度和置信界。据作者所知,到目前为止,此类界限尚未公布。对于分类问题,假设两个独立随机过程的两组不同的样本路径是可用的,称为(u_1,dots,u_r)和(v_1,dots,v_s)。这里的目标是开发两个模型,而不是一个模型,分别称为({\mathcal C})和({\mathcal N}{\mathcal C}\),以便字符串(u_i)与模型({\mathcal C{\)相比具有更大的可能性,而字符串(v_j)则相反。然后,新字符串\(w\)被分类到集合\({\mathcal C}\)或\({\mathcal N}{\mathcal C}\)中,因为它与模型\({\mathcal C}\)或模型\({\mathcal N}{\mathcal C}\)的可能性更大。对于分类问题,我们开发了一种新的算法,称为4M(混合内存马尔可夫模型)算法,它是对可变长度马尔可夫模式的改进。然后,我们将4M算法应用于从基因组中寻找基因的问题。将4M算法的性能与流行的Glimmer算法进行了比较。在所研究的大多数测试用例中,4M算法在90%以上的时间里正确地对编码区域和非编码区域进行了分类。此外,4M算法的精度与Glimmer算法的精度相当。同时,4M算法易于进行统计分析。
关于整个系列,请参见[Zbl 1087.93005号].

MSC公司:

92C40型 生物化学、分子生物学
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62平方米 随机过程推断和预测
92天10分 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用