Markov model recognition and classification of DNA/protein sequences within large text databases

doi:10.1093/bioinformatics/bti657

.2005年11月1日；21(21):4046-53.

doi:10.1093/bioinformatics/bti657。 Epub 2005年9月13日。

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

乔纳森·德·雷恩¹, 威廉·希尔德布兰德, Sreedevi Chandrasekaran公司, 乌尔里希·梅尔彻

附属公司

附属

¹美国俄克拉荷马大学植物与微生物系史蒂芬森研究与技术中心基因组技术高级中心，地址：101 David L.Boren Blvd.，Rm 2025，Norman，OK 73019，USA。乔纳森·沃伦@OU.edu

PMID： 16159926
内政部： 10.1093/生物信息学/bti657

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

乔纳森·德·雷恩等。生物信息学. 2005.

.2005年11月1日；21(21):4046-53.

doi:10.1093/bioinformatics/bti657。 Epub 2005年9月13日。

作者

乔纳森·德·雷恩¹, 威廉·希尔德布兰德, Sreedevi Chandrasekaran公司, 乌尔里希·梅尔彻

附属

¹美国俄克拉荷马大学植物与微生物系史蒂芬森研究与技术中心基因组技术高级中心，地址：101 David L.Boren Blvd.，Rm 2025，Norman，OK 73019，USA。Jonathan.Wren@OU.edu

PMID： 16159926
内政部： 10.1093/生物信息学/bti657

摘要

动机：短序列模式经常定义生物感兴趣的区域（结合位点、免疫表位、引物等），然而这类信息中的很大一部分仅存在于科学文献中，因此很难通过常规方法（例如关键字查询或手动搜索）进行定位。本文描述了一个使用n元马尔可夫模型（MM）从大型语料库中准确识别和分类序列模式的系统。

结果：正如预期的那样，在测试集上，我们发现，对具有有限字母和/或规则结构的序列进行识别，例如核酸（非歧义）和肽缩写（3个字母），是非常准确的，而对具有更复杂字母的符号（1个字母）肽串的分类则更为困难。MM被用于分析两个非常大的、包含序列的语料库：超过775万篇Medline摘要和《病毒学杂志》的9000篇全文文章。通过将结果与两个现有手动管理数据库（VirOligo和HLA配体数据库）中的《病毒学杂志》条目进行比较，对性能进行基准测试。引物鉴定和分类的性能估计为98+/-2%的准确度/84%的召回率，肽表位的性能估计为67+/-6%的准确度/85%的召回率。我们还发现摘要和全文中报告的序列相关数据量之间存在显著差异。我们的结果表明，序列元素的自动提取和分类是一种有前途的、低成本的序列数据库管理和注释方法。

可利用性：MM例程和数据集可根据要求提供。

PubMed免责声明

类似文章

使用文本索引，根据大型训练集对整个MEDLINE数据库进行排名。
Suomela BP，马萨诸塞州安德拉德。 Suomela BP等人。 BMC生物信息学。2005年3月24日；6:75. doi:10.1186/1471-2105-6-75。 BMC生物信息学。2005 PMID：15790421 免费PMC文章。
使用自动自然语言处理的Wnt路径管理：将统计方法与部分和完全解析相结合，用于知识提取。
Santos C、Eggle D、States DJ。 Santos C等人。生物信息学。2005年4月15日；21(8):1653-8. doi:10.1093/bioinformatics/bti165。Epub 2004年11月25日。生物信息学。2005 PMID：15564295
使用MEDLINE作为消除全文生物医学期刊文章中缩略语和首字母缩写词歧义的知识源。
Yu H、Kim W、Hatzivassillou V、Wilbur WJ。 Yu H等人。 J生物识别信息。2007年4月；40(2):150-9. doi:10.1016/j.jbi.2006.06.001。Epub 2006年6月7日。 J生物识别信息。2007 PMID：16843731
文本挖掘技术在生物医学文本中的应用现状。
Erhardt RA、Schneider R、Blaschke C。 Erhardt RA等人。今日毒品发现。2006年4月；11(7-8):315-25. doi:10.1016/j.drudis.2006.02.011。今日毒品发现。2006 PMID：16580973 审查。
下一代文献分析：将基因组分析集成到文本挖掘中。
谢尔夫·M、艾普·A、沃纳·T。谢尔夫M等人。简要生物信息。2005年9月；6(3):287-97. doi:10.1093/bib/6.3.287。简要生物信息。2005 PMID：16212776 审查。

查看所有类似文章

引用人

使用纳米信息学方法自动识别文献中的相关纳米毒理学实体。
加西亚·雷米萨尔·M、加西亚·阿鲁伊斯·a、佩雷斯·雷伊·D、德拉伊格莱西亚·D、毛霍·V。 García-Remesal M等人。生物医学研究国际2013；2013:410294. doi:10.1155/2013/410294。Epub 2012年12月27日。生物识别研究国际2013。 PMID：23509721 免费PMC文章。
PubMed摘要的潜在语义索引，用于识别来自微阵列衍生基因集的候选转录因子。
Roy S、Heinrich K、Phan V、Berry MW、Homayouni R。 Roy S等人。 BMC生物信息学。2011年10月18日；12补充10（补充10）：S19。doi:10.1186/1471-2105-12-S10-S19。 BMC生物信息学。2011 PMID：22165960 免费PMC文章。
用从生物医学文章中提取的DNA序列注释基因和基因组。
Haeussler M、Gerner M、Bergman CM。 Haeussler M等人。生物信息学。2011年4月1日；27(7):980-6. doi:10.1093/bioinformatics/btr043。Epub 2011年2月16日。生物信息学。2011 PMID：21325301 免费PMC文章。
文本管理辅助的监管注释。
Aerts S、Haeussler M、van Vooren S、Griffith OL、Hulpiau P、Jones SJ、Montgomery SB、Bergman CM；开放监管注释联盟。 Aerts S等人。基因组生物学。2008;9（2）：R31。doi:10.1186/gb-2008-9-2-r31。Epub 2008年2月13日。基因组生物学。2008 PMID：18271954 免费PMC文章。
PepBank——基于序列文本挖掘和公共肽数据源的肽数据库。
Shtatland T、Guettler D、Kossodo M、Pivovarov M、Weissleder R。 Shtatland T等人。 BMC生物信息学。2007年8月1日；8:280. doi:10.1186/1471-2105-8-280。 BMC生物信息学。2007 PMID：17678535 免费PMC文章。

查看所有“被引用”文章

出版物类型

行动
行动
行动

MeSH术语

行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动

赠款和资金

N01 AI 95360/AI/NIAID NIH HHS/美国

LinkOut-更多资源

全文源
- 奥维德科技公司。
- Silverchair信息系统
研究材料
- NCI CPTC抗体鉴定计划

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

附属

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

作者

附属

摘要

类似文章

引用人

出版物类型

MeSH术语

赠款和资金

LinkOut-更多资源

全文源

研究材料