计算机工程与应用››2024,第60卷››问题(9): 196-202.内政部:10.3778/j.issn.1002-8331.2212-0357

模式识别与人工智能 • 上一篇   下一篇

融合汉字输入法的伯特BLCG公司的长文本分类研究

杨文涛,雷雨琦,李星月,郑天成  

  1. 1华中科技大学 集成电路学院,武汉 430074
    2湖北大学知行学院 人文学院,武汉 430011
  • 日本:2024-05-01 发布日期:2024-04-29

基于BERT融合中文输入法和BLCG的中文长文本分类模型

杨文涛、雷宇奇、李兴岳、郑天成  

  1. 1.华中科技大学集成电路学院,武汉430074
    2.湖北大学芝兴学院人文系,中国武汉430011
  • 在线:2024-05-01 出版:2024-04-29

摘要:现有的中文长文本分类模型中,没有考虑汉字读音、笔画等特征信息,因此不能充分表示中文语义;同时,长文本中常常包含大量与目标主题无关的信息,甚至部分文本与其他主题相关,导致模型误判。为此,提出了一种融合汉字输入法的BERT(BERT融合中文输入法,CIMBERT)、带有门控机制的长短期记忆卷积网络(BiLSTM融合CNN和门控机制,BLCG)缔约方伯特模型进行文本的向量表示,在伯特模型的输入向量中,采用了拼音和五笔两种常用的汉字输入法,增强了汉字的语义信息。建立了BLCG公司模型进行文本特征提取,该模型使用双向长短期记忆网络(BiLSTM)进行全局特征提取、卷积神经网络(美国有线电视新闻网)进行局部特征提取,并通过门控机制(浇口机构)动态融合全局特征和局部特征,解决了部分文本与目标主题无关导致模型误判的问题。在THUC新闻数据集与搜狗语料库上对该方法进行了验证,其准确率为97.63%、95.43%,F1-芯97.68%、95.49%,优于其他文本分类模型。

关键词: 长文本分类, 伯特模型, 卷积神经网络, 长短期记忆网络, 门控机制

摘要:现有的中文长文本分类模型没有考虑语音、形态等中文特征信息,不能充分表示中文语义信息。同时,一些句子中包含许多信息,这些信息要么与目标话题无关,要么与其他话题相关,导致对分类模型的错误判断。为了解决这个问题,提出了一种基于CIMBERT(BERT融合中文输入法)和BLCG(BiLSTM融合带门CNN)的中文长文本分类模型。首先,采用中文输入法,利用BERT模型对文本向量进行表示。对于BERT的输入向量表示,汉字输入方法中广泛使用的拼音和五笔来增强汉字的语义信息。此外,构建BLCG来提取文本的整体特征,方法是利用LSTM(长短期记忆)方法获取全局特征,CNN(卷积神经网络)方法获取局部特征。BLCG的选通机制可以动态地结合全局特征和局部特征,克服由于无法识别文本无关主题而导致的分类模型错误。最后,在THUCNews数据集和搜狗数据集上对所提出的方法进行了测试。实验结果表明,该模型的分类准确率为97.63%、95.43%,F1-核分别为97.68%、95.49%,表明该模型在一定程度上优于其他文本分类模型。

关键词: 长文本分类, 来自变压器(BERT)的双向编码器表示, 卷积神经网络(CNN), 长短期记忆(LSTM), 浇口机构