目标和范围
专利、报告、文章等在线可用科学、技术和法律数据的快速增长,使得大规模分析和处理此类数据成为一项关键任务。如今,科学家、专利专家、发明家和其他信息专业人员(例如信息科学家、律师等)每天都通过发表文章、撰写技术报告或专利申请来贡献这些数据。
由于文档的长度、特定领域词汇的使用以及针对不同科学领域带来的复杂性,处理、分析和探索文档是一项具有挑战性的任务。文档是半结构化的,包括非结构化文本部分以及结构化部分,如表、数学公式、图表和特定于域的信息,如化学名称、生物序列等。
此类信息给处理此类文档带来了复杂性;然而,数据是许多应用程序的命脉,数据的保存、分析、丰富和使用是几个领域应用程序的关键。为了从这些文档中的科学技术知识中获益,例如用于决策或专业搜索和分析,迫切需要使用最先进的语义Web技术和人工智能方法来分析、丰富和链接这些数据。
然而,由于它们是异构的,并且是使用特定领域的术语编写的,应用现有的语义技术并不简单。为了应对上述挑战,必须利用语义Web技术、自然语言处理(NLP)技术、深层神经网络(DNN)和大型语言模型(LLM),以便为创建易于访问和机器理解的知识提供高效的解决方案。