基于文本及历史数据的多标签专利分类算法研究

doi:10.11896/jsjkx.230200199

摘要

摘要：专利分类是专利数据挖掘领域的一项重要任务，它用于为给定的专利分配多个国际专利分类代码。近年来，许多研究都将重点放在挖掘专利文本以预测IPC的一级或二级代码上。在实际场景中，专利通常具有多个IPC代码，这是一个多标签分类任务。除文本外，每个专利都有相应的受让人，受让人的历史专利申请行为可能有一定的商业倾向。这种行为的偏好表示可以有效提高专利分类的精度。然而，以往的方法未能充分利用专利历史数据。提出了一种专利自动分类模型。该模型的主要处理过程如下：首先，使用BERT预训练语言模型初始化专利文本表示，然后使用文本-CNN模型捕获局部特征，并将输出作为最终的专利文本表示；其次，通过双渠道聚合历史专利文本和标签，使用Bi-LSTM学习偏好表示；最后，我们融合文本和受让人的顺序偏好进行预测。在真实数据集上的实验和与不同基线的比较表明，所提出的基于专利文本和历史数据的专利分类算法在精度上有很大提高。

关键词： 深度学习，多标签专利的自动分类， IPC代码，专利

CLC编号：

TP312型

徐学杰、王宝辉。基于文本和历史数据的多标签专利分类[J]。计算机科学，2024，51（5）：172-178。

工具书类

[1] ABDELGAWAD L，KLUEGL P，GENC E，et al.专利分类优化网络[C]//数据库中的机器学习和知识发现联合欧洲会议。查姆：施普林格，2020:688-703。
[2] 李旭，陈辉，张泽，等。利用引文网络信息进行专利自动分类：纳米技术的实验研究[C]//第七届ACM/IEEE-CS数字图书馆联合会议论文集。2007:419-427。
[3] DERIEUX F，BOBEICA M，POIS D，等.专利分类的语义与统计结合[C]//DBLP.2010。
[4] VERBERNE S，D’HONDT E.CLEF-IP 2011中使用语言分类系统LCS进行的专利分类实验[C]//CLEF.2011。
[5] 鲍X，刘国芳，崔俊华.多实例多标签学习在中国专利自动分类中的应用[J]。图书馆和信息服务，2021,65（8）：107-113。
[6] FALLC J，TRCSVáRI A，BENZINEB K，等.国际专利分类中的自动分类[J]。ACM SIGIR论坛，2003年，37（1）：10-25。
[7] DAI P J，HE C L，SHANYUE Y R.XGBoost-based Classification of Multi-label Texts of Pharmaceutical Patent[J]基于XGBoost-的药物专利多标签文本分类[J]。内江师范大学学报，2021,36（10）：55-60。
[8] HAGHIGHIAN ROUDSARI A，AFSHAR J，LEE W，等.专利网：基于深度学习的语言理解的专利文献多标签分类[J]。科学计量学，2022127（1）：207-231。
[9] JUNG G，SHIN J，LEE S.预处理和词嵌入对极端多标签专利分类任务的影响[J]。应用情报，2023,53（4）：4047-4062。
[10] GOMEZ J C，MOENS M F.《现代世界专利自动分级分类调查》[M]//《专业搜索》。查姆：施普林格，2014:215-249。
[11] 田C，赵永杰.基于相似性的专利与产业类别映射模型：以《国际专利分类》和《国民经济贸易分类》为例[J]。图书情报服务，2016,60（20）：123。
[12] ELMAN J L.及时发现结构[J]。认知科学，1990,14（2）：179-211。
[13] HOCHREITER S，SCHMIDHUBER J.长短期记忆[J]。神经计算，1997,9（8）：1735-1780。
[14] CHO K，VAN MERRIËNBOER B，GULCEHRE C，等.基于RNN编解码器的统计机器翻译短语表示学习[J].arXiv:1406.10782014。
[15] GRAVES A.递归神经网络生成序列[J].arXiv:1308.08502013。
[16] VASWANI A，SHAZEER N，PARMAR N，et al.注意就是你所需要的一切[C]//第31届神经信息处理系统国际会议论文集2017.12:6000-6010。
[17] MIKOLOV T，CHEN K，CORRADO G，等。向量空间中词表示的有效估计[J]。arXiv:1301.37812013。
[18] 彭宁顿J，SOCHER R，MANNING C D.Glove:单词表征的全局向量[C]//2014年自然语言过程实证方法会议论文集（EMNLP）.2014:1532-1543。
[19] DEVLIN J，CHANG M W，LEE K，等.伯特：语言理解深度双向变换器的预训练[J].arXiv:1810.048052018。
[20] 伍尔夫·T，迪布特·L，桑·V，等.拥抱脸的变数：最先进的自然语言处理[J].arXiv:1910.037712019。
[21]刘毅，OTT M，GOYAL N，等.罗伯塔：一种稳健的优化伯特预训练方法[J].arXiv:1907.116922019。
[22]GRAWE M F，MARTINS C A，BONFANTE A G.使用单词嵌入的自动专利分类[C]//2017第16届IEEE机器学习与应用国际会议（ICMLA）。IEEE，2017:408-411。
[23]LI S，HU J，CUI Y，et al.深度专利：卷积神经网络和单词嵌入的专利分类[J]。科学计量学，2018117（2）：721-744。
[24]SHALABY M，STUTZKI J，SCHUBERT M，et al.基于固定层次向量的专利分类lstm方法[C]//2018 SIAM国际数据挖掘会议论文集。工业与应用数学学会，2018:495-503。
[25]黄伟，陈娥，刘强，等.层次多标签文本分类：基于注意的递归网络方法[C]//第28届ACM国际信息与知识管理学术会议论文集.2019:1051-1060。
[26]姚L，毛C，罗勇.文本分类的图卷积网络[C]//AAAI人工智能会议论文集.2019,33（1）：7370-7377。
[27]唐鹏，蒋M，夏伯恩，等.基于非局部注意图卷积网络的多标签专利分类[C]//AAAI人工智能会议论文集.2020,34（5）：9024-9031。
[28]ROUDSARI A H，AFSHAR J，LEE C C，et al.使用注意力软件深度学习模型的多标签专利分类[C]//2020 IEEE大数据和智能计算国际会议（BigComp）。IEEE，2020:558-559。
[29]GOMEZ J C.自动化专利分类中数据属性的影响分析[J]。科学计量学，2019121（3）：1239-1268。
[30]LYU L，HAN T.基于深度学习的中国专利文献自动分类比较研究[C]//2019 ACM/IEEE数字图书馆联合会议（JCDL）。IEEE，2019:345-346。
[31]方磊，张磊，吴华，等.专利2Vec：基于专利图的多视图表示学习在专利分类中的应用[J]。万维网，2021,24（5）：1791-1812。
[32]沈J，邱伟，孟毅，等.TaxoClass:仅使用类名的分层多标签文本分类[C]//计算语言学协会北美分会2021年会议论文集：人类语言技术.2021:4239-4249。
[33]赵海英，曹军，陈庆科，等.层次化多标签文本分类方法。中国计算机系统杂志.2022,43（4）：673-683。

相关文章15

[1]	鲍开南、张俊波、宋丽、李天瑞。ST-WaveMLP：用于交通流预测的时空全球软件网络[J] ●●●●。计算机科学，2024，51（5）：27-34。
[2]	张建良、李阳、朱青山、薛红玲、马俊伟、张丽霞、毕生。基于双域稀疏变压器的变电站设备故障报警算法[J] ●●●●。计算机科学，2024，51（5）：62-69。
[3]	何世阳、王朝辉、龚盛荣、钟山。基于交叉模式信息过滤的可视问答网络[J] ●●●●。计算机科学，2024，51（5）：85-91。
[4]	宋建峰、张文英、韩璐、胡国正、迈克奇光。黑白电影的多级智能色彩恢复算法[J] ●●●●。计算机科学，2024，51（5）：92-99。
[5]	何晓辉、周涛、李潘乐、常静、李佳棉。基于多尺度注意的遥感图像建筑物提取研究[J] ●●●●。计算机科学，2024，51（5）：134-142。
[6]	李自晨、易修文、陈顺、张俊波、李天瑞。基于深度多视图网络的政府事件调度方法[J] ●●●●。计算机科学，2024，51（5）：216-222。
[7]	洪体静、刘登峰、刘毅。基于多尺度全卷积神经网络和GRU的雷达有源干扰识别[J] ●●●●。计算机科学，2024，51（5）：306-312。
[8]	孙静、王晓霞。基于云边缘协同子类提取的卷积神经网络模型压缩方法[J] ●●●●。计算机科学，2024，51（5）：313-320。
[9]	陈润欢、戴华、郑贵能、李辉、杨庚。基于差异补偿和短时采样对比损耗的城市电力负荷预测方法[J] ●●●●。计算机科学，2024，51（4）：158-164。
[10]	林斌伟、余志勇、黄芳婉、郭显伟。基于Transformer的街道停车位数据完善与预测[J] ●●●●。计算机科学，2024，51（4）：165-173。
[11]	宋浩、毛冠民、朱舟。基于GAANET的立体匹配算法[J] ●●●●。计算机科学，2024，51（4）：229-235。
[12]	薛金强、吴琴。卷积神经网络和小波变换相结合的渐进多级图像去噪算法多层感知器[J] ●●●●。计算机科学，2024，51（4）：243-253。
[13]	黄坤、孙伟伟。基于缺失数据的交通速度预测算法[J] ●●●●。计算机科学，2024，51（3）：72-80。
[14]	郑成、史景伟、魏素华、程嘉明。基于依赖型剪枝的双特征自适应融合网络用于基于方面的情感分析[J] ●●●●。计算机科学，2024，51（3）：205-213。
[15]	陈金银、李晓、金海波、陈若曦、郑海滨、李虎。CheatKD：基于中毒神经元同化的知识提取后门攻击方法[J] ●●●●。计算机科学，2024，51（3）：351-359。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于文本和历史数据的多标签专利分类

PDF（PC）

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章15

韵律学

评论

推荐0