跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2005年11月1日;21(21):4046-53.
doi:10.1093/bioinformatics/bti657。 Epub 2005年9月13日。

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

附属公司

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

乔纳森·德·雷恩等。 生物信息学. .

摘要

动机:短序列模式经常定义生物感兴趣的区域(结合位点、免疫表位、引物等),然而这类信息中的很大一部分仅存在于科学文献中,因此很难通过常规方法(例如关键字查询或手动搜索)进行定位。本文描述了一个使用n元马尔可夫模型(MM)从大型语料库中准确识别和分类序列模式的系统。

结果:正如预期的那样,在测试集上,我们发现,对具有有限字母和/或规则结构的序列进行识别,例如核酸(非歧义)和肽缩写(3个字母),是非常准确的,而对具有更复杂字母的符号(1个字母)肽串的分类则更为困难。MM被用于分析两个非常大的、包含序列的语料库:超过775万篇Medline摘要和《病毒学杂志》的9000篇全文文章。通过将结果与两个现有手动管理数据库(VirOligo和HLA配体数据库)中的《病毒学杂志》条目进行比较,对性能进行基准测试。引物鉴定和分类的性能估计为98+/-2%的准确度/84%的召回率,肽表位的性能估计为67+/-6%的准确度/85%的召回率。我们还发现摘要和全文中报告的序列相关数据量之间存在显著差异。我们的结果表明,序列元素的自动提取和分类是一种有前途的、低成本的序列数据库管理和注释方法。

可利用性:MM例程和数据集可根据要求提供。

PubMed免责声明

类似文章

引用人

出版物类型