计算机科学››2024,第51卷››问题(5): 172-178.数字对象标识:10.11896/jsjkx.230200199
•人工智能• 以前的文章 下一篇文章
徐学杰、王宝辉
收到:
修订过的:
在线:
出版:
关于作者:
摘要:专利分类是专利数据挖掘领域的一项重要任务,它用于为给定的专利分配多个国际专利分类代码。近年来,许多研究都将重点放在挖掘专利文本以预测IPC的一级或二级代码上。在实际场景中,专利通常具有多个IPC代码,这是一个多标签分类任务。除文本外,每个专利都有相应的受让人,受让人的历史专利申请行为可能有一定的商业倾向。这种行为的偏好表示可以有效提高专利分类的精度。然而,以往的方法未能充分利用专利历史数据。提出了一种专利自动分类模型。该模型的主要处理过程如下:首先,使用BERT预训练语言模型初始化专利文本表示,然后使用文本-CNN模型捕获局部特征,并将输出作为最终的专利文本表示;其次,通过双渠道聚合历史专利文本和标签,使用Bi-LSTM学习偏好表示;最后,我们融合文本和受让人的顺序偏好进行预测。在真实数据集上的实验和与不同基线的比较表明,所提出的基于专利文本和历史数据的专利分类算法在精度上有很大提高。
关键词: 深度学习, 多标签专利的自动分类, IPC代码, 专利
CLC编号:
徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J]。计算机科学,2024,51(5):172-178。
0 / / 推荐
添加到引文管理器 尾注|样板客户经理|ProCite公司|BibTeX公司|参考Works
网址: https://www.jsjkx.com/EN/10.11896/jsjkx-230200199
https://www.jsjkx.com/EN/Y2024/V51/I5/172
引用