基于文本及历史数据的多标签专利分类算法研究

doi:10.11896/jsjkx.230200199

日本››2024,第51卷››问题（5）: 172-178.数字对象标识：10.11896/jsjkx.230200199

基于文本及历史数据的多标签专利分类算法研究

徐雪洁, 王宝会

北京航空航天大学软件学院北京 100191

收稿日期:2023-02-26 修回日期:2023-06-26 出版日期:2015年5月24日 发布日期:2024-05-08
通讯作者:王宝会(wangbh@buaa.edu.cn)
作者简介:(x_xuejie@buaa.edu.cn)

基于文本和历史数据的多标签专利分类

徐学杰、王宝辉

北京航空航天大学软件学院，北京100191

收到：2023-02-26 修订过的：2023-06-26 在线：2015年5月24日 出版：2024-05-08
关于作者：徐雪杰，1988年生，研究生。她的主要研究兴趣包括非母语语言处理等。
王宝辉，1973年生，硕士，教授。他的主要研究方向包括大数据、人工智能和网络信息安全。

美国/摘要

摘要：专利分类是专利数据挖掘领域一项非常重要的任务,该任务的目标是为给定专利文献分配若干个国际专利分类（国际残奥委会）中国工控机分类体系中部级或大类级分类号的多分类预测。而实际场景中,一篇专利往往有多个分类号,是一种多标签分类任务,且除了专利的文本内容外,每个专利都有对应的专利权组织,专利权组织的历史专利申请行为会有一定的业务倾向,这种申请行为的偏好表示能有效提高专利分类准确度。然而,目前专利分类的相关研究中并没有充分利用到专利的历史数据,针对工控机体系小类的多标签分类问题,提出了一个综合考虑专利内容的专利自动分类模型。首先用BERT（误码率）预训练语言模型初始化专利文本表示,再利用文本-CNN捕捉局部特征获得将其输出作为专利文本的最终表示;其次,通过双-LSTM对历史专利文本及专利标签进行双通道聚合,学习该组织的历史专利申请行为表示;最后,将专利的文本表示与历史专利申请行为表示进行融合后做预测。在真实专利数据集上,将所提模型与基于专利文本挖掘的不同基线进行了对比实验,结果表明基于专利文本和历史数据建模的深度学习分类算法在精确度上有很大的提升。

关键词: 深度学习, 多标签专利自动分类, 国际残奥委会，专利

摘要：专利分类是专利数据挖掘领域的一项重要任务，它用于为给定的专利分配多个国际专利分类代码。近年来，许多研究都将重点放在挖掘专利文本以预测IPC的一级或二级代码上。在实际场景中，一项专利通常具有多个IPC代码，这是一项多标签分类任务。除文本外，每个专利都有相应的受让人，受让人的历史专利申请行为可能有一定的商业倾向。这种行为的偏好表示可以有效提高专利分类的精度。然而，以往的方法未能充分利用专利历史数据。提出了一种专利自动分类模型。该模型的主要处理过程如下：首先，使用BERT预训练语言模型初始化专利文本表示，然后使用文本-CNN模型捕获局部特征，并将输出作为最终的专利文本表示；其次，通过双渠道聚合历史专利文本和标签，使用Bi-LSTM学习偏好表示；最后，我们融合文本和受让人的顺序偏好进行预测。在真实数据集上的实验以及与不同基线的比较表明，基于专利文本和历史数据的专利分类算法在精度上有很大提高。

关键词： 深度学习，多标签专利的自动分类， IPC代码，专利

中图分类号:

TP312型

徐雪洁, 王宝会.基于文本及历史数据的多标签专利分类算法研究[J] ●●●●。计算机科学, 2024, 51(5): 172-178. https://doi.org/10.11896/jsjkx.230200199

徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J] ●●●●。计算机科学，2024，51（5）：172-178。https://doi.org/10.11896/jsjkx.230200199

参考文献

[1] ABDELGAWAD L，KLUEGL P，GENC E，et al.专利分类优化网络[C]//数据库中的机器学习和知识发现联合欧洲会议。查姆：施普林格，2020:688-703。
[2] 李旭，陈辉，张泽，等。利用引文网络信息进行专利自动分类：纳米技术的实验研究[C]//第七届ACM/IEEE-CS数字图书馆联合会议论文集。2007:419-427。
[3] DERIEUX F，BOBEICA M，POIS D，等.专利分类的语义与统计结合[C]//DBLP.2010。
[4] VERBERNE S，D’HONDT E.CLEF-IP 2011中使用语言分类系统LCS进行的专利分类实验[C]//CLEF.2011。
[5] 鲍X，刘国芳，崔俊华.多实例多标签学习在中国专利自动分类中的应用[J]。图书馆和信息服务，2021,65（8）：107-113。
[6] FALLC J，TRCSVáRI A，BENZINEB K，等.国际专利分类中的自动分类[J]。ACM SIGIR论坛，2003年，37（1）：10-25。
[7] 戴鹏杰，何春兰，尚岳Y R.XG基于图论的医药专利多标签文本分类[J]。内江师范大学学报，2021,36（10）：55-60。
[8] HAGHIGHIAN ROUDSARI A，AFSHAR J，LEE W，et al.专利网：使用基于深度学习的语言理解对专利文献进行多标签分类[J]。科学计量学，2022127（1）：207-231。
[9] JUNG G，SHIN J，LEE S.预处理和词嵌入对极端多标签专利分类任务的影响[J]。应用情报，2023,53（4）：4047-4062。
[10] GOMEZ J C，MOENS M F.《现代世界专利自动分级分类调查》[M]//《专业搜索》。查姆：施普林格，2014:215-249。
[11] 田C，赵永杰.基于相似性的专利与产业类别映射模型：以《国际专利分类》和《国民经济贸易分类》为例[J]。图书情报服务，2016,60（20）：123。
[12] ELMAN J L.及时发现结构[J]。认知科学，1990,14（2）：179-211。
[13] HOCHREITER S，SCHMIDHUBER J.长短期记忆[J]。神经计算，1997,9（8）：1735-1780。
[14] CHO K，VAN MERRIËNBOER B，GULCEHRE C，等.基于RNN编解码器的统计机器翻译短语表示学习[J].arXiv:1406.10782014。
[15] GRAVES A.递归神经网络生成序列[J].arXiv:1308.08502013。
[16] VASWANI A，SHAZEER N，PARMAR N，et al.注意就是你所需要的一切[C]//第31届神经信息处理系统国际会议论文集2017.12:6000-6010。
[17] MIKOLOV T，CHEN K，CORRADO G，等.向量空间中单词表示的有效估计[J].arXiv:1301.37812013。
[18] 彭宁顿J，SOCHER R，MANNING C D.Glove:单词表征的全局向量[C]//2014年自然语言过程实证方法会议论文集（EMNLP）.2014:1532-1543。
[19] DEVLIN J，CHANG M W，LEE K，等.伯特：语言理解深度双向变换器的预训练[J].arXiv:1810.048052018。
[20] 伍尔夫·T，迪布特·L，桑·V，等.拥抱脸的变数：最先进的自然语言处理[J].arXiv:1910.037712019。
[21]刘毅，OTT M，GOYAL N，等.罗伯塔：一种稳健的优化伯特预训练方法[J].arXiv:1907.116922019。
[22]GRAWE M F，MARTINS C A，BONFANTE A G.使用单词嵌入的自动专利分类[C]//2017第16届IEEE机器学习与应用国际会议（ICMLA）。IEEE，2017:408-411。
[23]李S，胡J，崔Y，等.深度专利：基于卷积神经网络和词嵌入的专利分类[J]。科学计量学，2018117（2）：721-744。
[24]SHALABY M，STUTZKI J，SCHUBERT M等。基于固定层次向量的专利分类的lstm方法[C]//2018 SIAM国际数据挖掘会议记录。工业与应用数学学会，2018:495-503。
[25]黄伟，陈娥，刘强，等.层次多标签文本分类：基于注意的递归网络方法[C]//第28届ACM国际信息与知识管理学术会议论文集.2019:1051-1060。
[26]姚L，毛C，罗勇.文本分类的图卷积网络[C]//AAAI人工智能会议论文集.2019,33（1）：7370-7377。
[27]唐鹏，蒋M，夏伯恩，等.基于非局部注意图卷积网络的多标签专利分类[C]//AAAI人工智能会议论文集.2020,34（5）：9024-9031。
[28]ROUDSARI A H，AFSHAR J，LEE C C，et al.使用注意力软件深度学习模型的多标签专利分类[C]//2020 IEEE大数据和智能计算国际会议（BigComp）。IEEE，2020:558-559。
[29]GOMEZ J C.自动化专利分类中数据属性的影响分析[J]。科学计量学，2019121（3）：1239-1268。
[30]LYU L，HAN T.基于深度学习的中国专利文献自动分类比较研究[C]//2019 ACM/IEEE数字图书馆联合会议（JCDL）。IEEE，2019:345-346。
[31]方磊，张磊，吴华，等.专利2Vec：基于专利图的多视图表示学习在专利分类中的应用[J]。万维网，2021,24（5）：1791-1812。
[32]沈J，邱伟，孟毅，等.TaxoClass:仅使用类名的分层多标签文本分类[C]//计算语言学协会北美分会2021年会议论文集：人类语言技术.2021:4239-4249。
[33]赵海伊，曹杰，陈秋凯，等。分层多标签文本分类方法。中国计算机系统杂志.2022,43（4）：673-683。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于文本及历史数据的多标签专利分类算法研究

基于文本和历史数据的多标签专利分类

PDF（PC）

美国/摘要

引用本文

文

参考文献

相关文章0

韵律学

本文评价

推荐阅读0