Extracting human protein information from MEDLINE using a full-sentence parser

Róbert Busa-Fekete; András Kocsor

罗贝特·布萨·费科特
安德拉斯·科索尔

摘要

如今，有相当数量的系统可用于处理生物数据。开发有效的系统非常重要，因为它们可以支持生物学家的研究和日常工作。众所周知，生物数据库的大小和数量都很大，因此需要数据处理技术来快速有效地管理MEDLINE等数据库中存储的内容。内容管理的一个可能解决方案是应用自然语言处理方法，以帮助简化此任务。通过我们的方法，我们想了解更多关于使用完整句子解析的人类基因相互作用的信息。给定一个句子，句法分析器为其分配一个句法结构，该结构由一组连接成对单词的标记链接组成。解析器还生成句子的组成表示（显示名词短语、动词短语等）。这里我们通过实验证明，利用每个摘要的句法信息，可以预测基因的生物相互作用。因此，有必要开发一种信息提取（IE）系统，该系统可以仅通过使用这些文本中包含的句法信息来检索有关基因相互作用的信息。我们的IE系统可以借助机器学习（ML）方法（隐马尔可夫模型、人工神经网络、决策树、支持向量机器）。实验和实际使用清楚地表明，我们的系统可以为生物研究人员的研究和实验设计提供有用的直观指导。

下载

下载数据尚不可用。

使用全句解析器从MEDLINE中提取人类蛋白质信息

摘要

下载

同一作者阅读最多的文章