混合特征及多头注意力的中文短文本分类

doi:10.3778/j.issn.1002-8331.2302-0396

摘要/摘要

摘要：传统的短文本分类研究方法存在两方面不足，一是不能全面地表示文本的语义信息，二是无法充分地提取和融合文本全局和局部信息。基于此，提出一种混合特征及多头注意力（HF-MHA）的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示，以得到更全面的文本特征向量表示；采用多头注意力机制捕捉文本序列中的依赖关系，以提高文本的语义理解；通过卷积神经网络分别提取两种向量表示的特征，并将其融合为一个特征向量，以整合文本的全局和局部信息；通过输出层得到分类结果。在三个公开数据集上的实验表明，HF-MHA公司能够有效地提升中文短文本分类的性能。

关键词: 中文短文本分类, 注意力机制, ，字符级向量

摘要：传统的短文本分类方法有两个缺点：不能充分表示文本的语义信息，不能有效地提取和整合文本的全局和局部信息。在此基础上，提出了一种混合特征和多头部注意的中文短文本分类方法（HF-MHA）。该方法使用预训练模型计算中文短文本的字符级和单词级向量表示，以获得更全面的文本特征向量表示。然后采用多头部注意机制捕获文本序列中的依赖关系，以提高对文本的语义理解。它使用卷积神经网络分别提取两种矢量表示的特征，并将其集成到一个特征向量中，以集成文本的全局和局部信息。最后，通过输出层得到分类结果。在三个公共数据集上的实验表明，HF-MHA可以有效地提高中文短文本分类的性能。

关键词： 中文短文本分类，注意机制，字级矢量，字符级向量

江结林, 朱永伟, 许小龙, 崔燕, 赵英男. 混合特征及多头注意力的中文短文本分类[J] ●●●●。计算机工程与应用, 2024, 60(9): 237-243.

姜杰林、朱永伟、徐小龙、崔燕、赵英南。具有混合特征和多头部注意的中文短文本分类[J]。计算机工程与应用，2024，60（9）：237-243。

参考文献

[1] 李博涵, 向宇轩, 封顶, 等. 融合知识感知与双重注意力的短文本分类模型[J] ●●●●。，2022, 33(10): 3565-3581.
李伯赫，向永X，冯德，等.知识感知与双重注意相结合的短文本分类模型[J]。软件杂志，2022，33（10）：3565-3581。
[2] 淦亚婷, 安建业, 徐雪. 基于深度学习的短文本分类方法研究综述[J] ●●●●。计算机工程与应用, 2023, 59(4): 43-53.
甘义堂，安建英，徐霞.基于深度学习的短文本分类方法综述[J]。计算机工程与应用，2023,59（4）：43-53。
[3] 郑诚, 陈杰, 董春阳. 结合图卷积的深层神经网络用于文本分类[J] ●●●●。计算机工程与应用, 2022, 58(7): 206-212.
郑C，陈J，董春英.结合图卷积的深度神经网络文本分类[J]。计算机工程与应用，2022，58（7）：206-212。
[4] CONNEAU A，SCHWENK H，BARRAULT L，等.文本分类的超深卷积网络[J]。arXiv:1606.017812016年。
[5] TAI K S，SOCHER R，MANNING C D.改进的树结构长短期记忆网络的语义表示[J]。arXiv:153.000752015年。
[6] 曾德，刘凯，赖斯，等.基于卷积深度神经网络的关系分类[C]//COLING 2014，第25届国际计算语言学会议论文集：技术论文，2014:2335-2344。
[7] BOLLEGALA D，ATANASOV V，MAEHARA T，et al.ClassiNet—预测短文本分类缺失特征[J]。ACM数据知识发现汇刊（TKDD），2018，12（5）：1-29。
[8] LEE J，CHO K，HOFMANN T.无显式分段的全特征级神经机器翻译[J]。计算语言学协会学报，2017年，5:365-378。
[9] LAI Y，FENG Y，YU X，et al.基于匹配的中文问答格CNNs[C]//AAAI人工智能会议论文集，2019:6634-6641。
[10] 肖琳, 陈博理, 黄鑫, 等. 基于标签语义注意力的多标签文本分类[J] ●●●●。，2020, 31(4): 1079-1089.
肖乐，陈伯乐，黄霞，等.基于标签语义信息的多标签文本分类方法[J]。软件杂志，2020，31（4）：1079-1089。
[11] 陶华，童斯，赵华，等.基于神经根感知的中文文本分类模型[C]//AAAI人工智能会议论文集，2019:5125-5132。
[12] 郝敏，徐斌，梁建英，等.基于多关注卷积神经网络的中文短文本分类[J]。ACM亚洲和低资源语言信息处理汇刊（TALLIP），2020，19（5）：1-13。
[13] YU C T，SALTON G.精确加权——一种有效的自动标引方法[J]。美国医学会杂志（JACM），1976，23（1）：76-88。
[14] BIJALWAN V，KUMAR V，KUMARI P，等.基于KNN的文本和文档挖掘机器学习方法[J]。国际数据库理论与应用杂志，2014，7（1）：61-70。
[15] GOUDJIL M，KOUDIL M，BEDDA M等。一种使用SVM进行文本分类的新型主动学习方法[J]。国际自动化与计算杂志，2018，15（3）：290-298。
[16] KIM Y.句子分类的卷积神经网络[C]//2014年自然语言处理经验方法会议论文集，卡塔尔多哈，2014:1746-1751。
[17] 刘杰，常文成，吴勇，等.极端多标签文本分类的深度学习[C]//第40届国际ACM SIGIR信息检索研究与开发会议论文集，2017:115-124。
[18] JOHNSON R，ZHANG T.用于文本分类的深金字塔卷积神经网络[C]//计算语言学协会第55届年会论文集，2017:562-570。
[19] 沈涛，周涛，龙光，等.Disan：RNN/CNN自由语言理解的方向性自我关注网络[C]//美国人工智能学会人工智能会议论文集，2018:5446-5455。
[20] JANG B，KIM M，HARERIMANA G，等.提高文本分类准确性的Bi-LSTM模型：结合Word2vec CNN和注意机制[J]。应用科学，2020，10（17）：5841。
[21]ZHANG Y，ZHENG J，JIANG Y，et al.一种基于协调CNN‐LSTM的文本情感分类建模方法-
注意力模型[J]。中国电子学报，2019，28（1）：120-126。
[22]刘智，黄赫，鲁C，等.关注文本分类的多频道CNN[J]。arXiv:2006.161742020年。
[23]MIKOLOV T，CHEN K，CORRADO G，等.向量空间中单词表示的有效估计[J]。arXiv:1301.37812013年。
[24]MIKOLOV T，SUTSKEVER I，CHEN K，et al.单词和短语的分布式表示及其组合[C]//神经信息处理系统的进展，2013:311-3119。
[25]DEVLIN J，CHANG M W，LEE K，等.伯特：深层双向变压器语言理解预训练[J]。arXiv:1810.048052018年。
[26]ZHANG Z，HAN X，LIU Z，et al.ERNIE:使用信息实体增强语言表示[J]。阿西夫：1905年。
07129, 2019.
[27]孙毅，王S，李毅，等.Ernie 2.0:语言理解的持续预训练框架[C]//美国人工智能学会人工智能会议论文集，2020：8968-8975。
[28]VASWANI A，SHAZEER N，PARMAR N，et al.注意力是你所需要的一切[C]//神经信息处理系统进展，2017:5998-6008。
[29]李宇，张宇，赵Z，等。CSL：中国大型科学文献数据集[J]。arXiv:2209.050342022年。
[30]刘平，邱X，黄霞.基于多任务学习的递归神经网络文本分类[J]。arXiv:1605.051012016年。
[31]LAI S，XU L，LIU K，等.基于递归卷积神经网络的文本分类[C]//第二十届AAAI人工智能会议，2015:2267-2273。
[32]孙毅，王S，冯S，等.厄尼3.0：语言理解和生成的大规模知识强化预训练[J]。arXiv:2107.021372021年。