计算机科学››2024,第51卷››问题(5): 250-257.数字对象标识:1896年10月10日/jsjkx.231100134
•人工智能• 以前的文章 下一篇文章
陈浩阳、张磊
收到:
修订过的:
在线:
出版:
关于作者:
支持单位:
摘要:文本层次分类在社会评论主题分类和搜索词分类等场景中有着重要的应用。这些场景中的数据通常具有短文本特征,这反映在信息的稀疏性和敏感性上。它对模型特征表示和分类性能提出了巨大挑战。层次标签空间的复杂性和关联性进一步加剧了这些困难。鉴于此,提出了一种融合语义解释和DeBERTa模型的方法,该方法的核心思想是:引入特定上下文中单个单词或短语的语义解释,以补充和优化模型获取的内容信息;结合DeBERTa模型的去纠缠注意力和增强掩码解码器,更好地掌握位置信息,提高特征提取能力。该方法首先对训练文本进行语法消歧和词汇注释,然后构建GlossDeBERTa模型,以高精度进行语义消歧,以获得语义解释序列。然后使用SimCSE框架将解释序列矢量化,以更好地表征解释序列中的句子信息。最后,训练文本通过DeBERTa模型神经网络得到原始文本的特征向量表示,然后将其与解释序列中的相应特征向量相加,并传递给多类分类器。实验选择了短文本层次分类数据集TREC中非常短的文本部分,并对数据进行扩展,得到平均长度为12个单词的数据集。多组对比实验表明,本文提出的融合语义解释的DeBERTa模型具有最好的性能,验证集和测试集上的准确性、F1-micro和F1-macro值远远优于其他算法模型,它能很好地处理极短文本的层次分类任务。
关键词: 非常短的文本, 分级分类, 语义解释, 德伯塔, 光泽DeBERTA, SimCSE公司
CLC编号:
陈浩阳、张磊。结合语义解释和DeBERTa的极短文本层次分类[J]。计算机科学,2024,51(5):250-257。
0 / / 推荐
添加到引文管理器 尾注|样板客户经理|ProCite公司|BibTeX公司|参考Works
网址: https://www.jsjkx.com/EN/10.11896/jsjkx-231100134
https://www.jsjkx.com/EN/Y2024/V51/I5/250
引用