摘要:专利分类是专利数据挖掘领域一项非常重要的任务,该任务的目标是为给定专利文献分配若干个国际专利分类(国际残奥委会)中国工控机分类体系中部级或大类级分类号的多分类预测。而实际场景中,一篇专利往往有多个分类号,是一种多标签分类任务,且除了专利的文本内容外,每个专利都有对应的专利权组织,专利权组织的历史专利申请行为会有一定的业务倾向,这种申请行为的偏好表示能有效提高专利分类准确度。然而,目前专利分类的相关研究中并没有充分利用到专利的历史数据,针对工控机体系小类的多标签分类问题,提出了一个综合考虑专利内容的专利自动分类模型。首先用BERT(误码率)预训练语言模型初始化专利文本表示,再利用文本-CNN捕捉局部特征获得将其输出作为专利文本的最终表示;其次,通过双-LSTM对历史专利文本及专利标签进行双通道聚合,学习该组织的历史专利申请行为表示;最后,将专利的文本表示与历史专利申请行为表示进行融合后做预测。在真实专利数据集上,将所提模型与基于专利文本挖掘的不同基线进行了对比实验,结果表明基于专利文本和历史数据建模的深度学习分类算法在精确度上有很大的提升。
中图分类号:
徐雪洁, 王宝会.基于文本及历史数据的多标签专利分类算法研究[J] ●●●●。计算机科学, 2024, 51(5): 172-178. https://doi.org/10.11896/jsjkx.230200199
徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J] ●●●●。计算机科学,2024,51(5):172-178。https://doi.org/10.11896/jsjkx.230200199