融合汉字输入法的BERT与BLCG的长文本分类研究

doi:10.3778/j.issn.1002-8331.2212-0357

摘要/摘要

摘要：现有的中文长文本分类模型中，没有考虑汉字读音、笔画等特征信息，因此不能充分表示中文语义；同时，长文本中常常包含大量与目标主题无关的信息，甚至部分文本与其他主题相关，导致模型误判。为此，提出了一种融合汉字输入法的BERT（BERT融合中文输入法，CIMBERT）、带有门控机制的长短期记忆卷积网络（BiLSTM融合CNN和门控机制，BLCG）缔约方伯特模型进行文本的向量表示，在伯特模型的输入向量中，采用了拼音和五笔两种常用的汉字输入法，增强了汉字的语义信息。建立了BLCG公司模型进行文本特征提取，该模型使用双向长短期记忆网络（BiLSTM）进行全局特征提取、卷积神经网络（美国有线电视新闻网）进行局部特征提取，并通过门控机制（浇口机构）动态融合全局特征和局部特征，解决了部分文本与目标主题无关导致模型误判的问题。在THUC新闻数据集与搜狗语料库上对该方法进行了验证，其准确率为97.63%、95.43%，F1-芯为97.68%、95.49%，优于其他文本分类模型。

关键词: 长文本分类, 伯特模型, 卷积神经网络, 长短期记忆网络, 门控机制

摘要：现有的中文长文本分类模型没有考虑语音、形态等中文特征信息，不能充分表示中文语义信息。同时，一些句子中包含许多信息，这些信息要么与目标话题无关，要么与其他话题相关，导致对分类模型的错误判断。为了解决这个问题，提出了一种基于CIMBERT（BERT融合中文输入法）和BLCG（BiLSTM融合带门CNN）的中文长文本分类模型。首先，采用中文输入法，利用BERT模型对文本向量进行表示。对于BERT的输入向量表示，汉字输入方法中广泛使用的拼音和五笔来增强汉字的语义信息。此外，构建BLCG来提取文本的整体特征，方法是利用LSTM（长短期记忆）方法获取全局特征，CNN（卷积神经网络）方法获取局部特征。BLCG的选通机制可以动态地结合全局特征和局部特征，克服由于无法识别文本无关主题而导致的分类模型错误。最后，在THUCNews数据集和搜狗数据集上对所提出的方法进行了测试。实验结果表明，该模型的分类准确率为97.63%、95.43%，F1-核分别为97.68%、95.49%，表明该模型在一定程度上优于其他文本分类模型。

关键词： 长文本分类，来自变压器（BERT）的双向编码器表示，卷积神经网络（CNN），长短期记忆（LSTM），浇口机构

杨文涛, 雷雨琦, 李星月, 郑天成. 融合汉字输入法的伯特与BLCG公司的长文本分类研究[J] ●●●●。计算机工程与应用, 2024, 60(9): 196-202.

杨文涛、雷玉琦、李兴岳、郑天成。基于BERT融合中文输入法和BLCG的中文长文本分类模型[J]。计算机工程与应用，2024，60（9）：196-202。

参考文献

[1] 熊回香, 杨梦婷, 李玉媛. 基于深度学习的信息组织与检索研究综述[J] ●●●●。情报科学, 2020, 38(3): 3-10.
熊海霞，杨敏婷，李毅毅。基于深度学习的信息组织与检索研究综述[J]。信息科学，2020，38（3）：3-10。
[2] 曾凡锋, 李玉珂, 肖珂. 基于卷积神经网络的语句级新闻分类算法[J] ●●●●。计算机工程与设计, 2020，41（4）：978-982。
曾福芳，李永科，肖坤.基于卷积神经网络的句子级细粒度新闻分类[J]。计算机工程与设计，2020，41（4）：978-982。
[3] 刘毅，LAPATA M.学习结构化文本表征[J]。计算语言学协会学报，2018，6（1）：63-75。
[4] 陈泽，周磊，大立X，等.基于KNN的老挝语文本分类方法[J]。《Procedia Computer Science》，2020年，166:523-528。
[5] KOWSARI K，MEIMANDI K J，HEIDARYSAFA M，等.文本分类算法综述[J]。信息，2019，10（4）：150。
[6] 万家山, 吴云志. 基于深度学习的文本分类方法研究综述[J] ●●●●。天津理工大学学报, 2021, 37(2): 41-47.
WAN J S，WU Y Z.基于深度学习的文本分类研究综述[J]。天津工业大学学报，2021，37（2）：41-47。
[7] MIKOLOV T，SUTSKEVER I，CHEN K，et al.单词和短语的分布式表示及其组成[C]//神经信息处理系统的进展，美国内华达州塔霍湖，2013:311-3119。
[8] 彭宁顿J，SOCHER R，MANNING C D.Glove:单词表示的全局向量[C]//2014年自然语言处理经验方法会议论文集，2014:1532-1543。
[9] VASWANI A，SHAZEER N，PARMAR N，et al.注意力就是你所需要的一切[C]//第31届神经信息处理系统国际会议论文集，2017:6000-6010。
[10] DEVLIN J，CHANG M W，LEE K，et al.BERT:语言理解深度双向转换器的预训练[C]//计算语言学协会北美分会2019年会议论文集：人类语言技术，2019:4171-4186。
[11] KIM Y.用于句子分类的卷积神经网络[C]//《2014年自然语言处理实证方法会议论文集》，多哈，2014:1746-1751。
[12] JORDAN M I.并行分布式处理。方法[J]。心理学进展，1997，121:471-495。
[13] 刘世伟，徐丽华，刘凯，等.复发性。用于文本分类的卷积神经网络[C]//第29届AAAI人工智能会议论文集，2015:2267-2273。
[14] 张继瑞，李永X，田杰，等.文本分类的LSTM-CNN混合模型[C]//2018 IEEE第三届先进信息技术、电子与自动化控制会议论文集，2018:1675-1680。
[15] SHE X Y，ZHANG D.基于CNN-LSTM混合模型的文本分类[C]//2018年第11届计算智能与设计国际研讨会论文集，2018:10144。
[16] LI C B，ZHAN G H，LI Z H.基于改进的BiLSTM CNN的新闻文本分类[C]//2018年第九届国际医学与教育信息技术大会论文集，2018:890-893。
[17] 孙志杰，李晓英，孙晓芳，等.汉语BERT:利用字形和拼音信息增强汉语预处理[C]//计算语言学协会第59届年会暨第十一届国际自然语言处理联合会议论文集，2021:2065-2075。
[18] 李毅中，钱丽芙，马J.基于BERT-RCNN模型的微博谣言早期检测[J]。信息研究：理论与应用，2021，44（7）：173-177。
[19] 孙毅，王斯，李毅，等.通过知识整合增强表征[J]。arXiv:1904.092232019年。
[20] 刘毅，OTT M，GOYAL N，等.罗伯塔：一种稳健优化的BERT预训练方法[J]。arXiv:1907.116922019年。

融合汉字输入法的伯特与BLCG公司的长文本分类研究

基于BERT融合中文输入法和BLCG的中文长文本分类模型

PDF格式

可视化

摘要/摘要

引用本文

使用本文

参考文献

相关文章15

第二次会议

韵律学

[1]	陶林娟, 华庚兴, 李波.基于位置增强词向量和GRU-CNN（美国有线电视新闻网）的方面级情感分析模型研究[J] ●●●●。计算机工程与应用, 2024, 60(9): 212-218.
[2]	刘世鹏, 宁德军, 马崛.针对光伏发电功率预测的LST转换器等[J] ●●●●。计算机工程与应用, 2024, 60(9): 317-325.
[3]	廉露, 田启川, 谭润, 张晓行.基于神经网络的图像风格迁移研究进展[J] ●●●●。计算机工程与应用, 2024, 60(9): 30-47.
[4]	许智宏, 张天润, 王利琴, 董永峰.融合图谱重构的时序知识图谱推理[J] ●●●●。计算机工程与应用, 2024, 60(9): 181-187.
[5]	邓希泉, 陈刚.卷曲：基于卷积胶囊网络的医学图像分割模型[J] ●●●●。计算机工程与应用, 2024, 60(8): 258-266.
[6]	王永贵, 王芯茹.融合自注意力和图卷积的多视图群组推荐[J] ●●●●。计算机工程与应用, 2024, 60(8): 287-295.
[7]	孙石磊, 李明, 刘静, 马金刚, 陈天真.深度学习在糖尿病视网膜病变分类领域的研究进展[J] ●●●●。计算机工程与应用, 2024, 60(8): 16-30.
[8]	谢威宇, 张强.中国人[J] ●●●●。计算机工程与应用, 2024, 60(8): 46-55.
[9]	宋世林, 张学军.脑电信号多特征融合与卷积神经网络算法研究[J] ●●●●。计算机工程与应用, 2024, 60(8): 148-155.
[10]	姜良, 张程, 魏德健, 曹慧, 杜昱峥.深度学习在骨质疏松辅助诊断中的应用[J] ●●●●。计算机工程与应用, 2024, 60(7): 26-40.
[11]	杨有, 姚露.结合对比学习的图像指导增强视觉问答模型[J] ●●●●。计算机工程与应用, 2024, 60(7): 157-166.
[12]	王磊, 杨军, 张驰宇, 代在燕.结合混合注意力的双判别生成对抗网络[J] ●●●●。计算机工程与应用, 2024, 60(7): 212-221.
[13]	袁婧, 潘甦, 谢浩, 徐文鹏.融合投资者情绪的S_AM_BiLSTM股价预测模型[J] ●●●●。计算机工程与应用, 2024, 60(7): 274-281.
[14]	刘歆宁.融合多特征及协同注意力的医学命名实体识别[J] ●●●●。计算机工程与应用, 2024, 60(6): 188-198.
[15]	奉鑫鑫, 高曙.基于多特征增强的手部姿态估计方法[J] ●●●●。计算机工程与应用, 2024, 60(6): 207-213.