杂志的下一篇文章
两个紧凸集之间Hausdorff距离的计算
下一篇特刊文章
使用生成AI生成程序代码
期刊上的上一篇文章
流形浏览器:使用深度卷积自动编码器的卫星图像标记和聚类工具
特刊上一篇文章
自动驾驶的端到端方法:一种使用计算机视觉算法创建数据集的监督学习方法
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
四、
列宽:
5个
背景:
第条

基于非英语数据集的图机器学习和集成学习方法增强文本分类和文本情感分析

通过
法特梅·戈洛米
1
扎赫德·拉赫马蒂
1
阿里雷扎·莫菲迪
1,2
穆斯塔法·阿巴斯扎德
1,*
1
伊朗德黑兰阿米尔卡比尔理工大学(德黑兰理工学院)数学与计算机科学系15916-39675
2
伊朗德黑兰基础科学研究所数学学院(15916-39675)
*
信件应寄给的作者。
算法 202316(10) ,470;https://doi.org/10.3390/a16100470
收到的提交文件:2023年8月3日/修订日期:2023年9月26日/接受日期:2023年9月29日/发布日期:2023年10月4日

摘要

:
近年来,机器学习方法,特别是图学习方法在自然语言处理领域,特别是文本分类任务中取得了巨大的成果。然而,许多此类模型在不同语言的数据集上表现出有限的通用性。在本研究中,我们研究并阐述了非英语数据集(如波斯语Digikala数据集)上的图机器学习方法,其中包括用户对文本分类任务的意见。更具体地说,我们研究了(Pars)BERT与各种图形神经网络(GNN)架构(如GCN、GAT和GIN)的不同组合,以及使用集成学习方法来处理某些著名非英语数据集上的文本分类任务。我们的分析和结果表明,应用GNN模型可以更好地捕获文本数据之间的拓扑信息,从而帮助在文本分类任务中取得好成绩。此外,我们的实验表明,使用特定于语言的预处理模型(如ParsBERT,而不是BERT)的模型如何捕获更好的数据信息,从而获得更好的准确性。

1.简介

在过去的十年中,数字文档和复杂文本数据的数量急剧增长。文本分类在许多自然语言处理(NLP)应用中都是一项经典的重要任务,例如情感分析、主题标记和问答。情感分析在商业和销售领域尤其重要,因为它使组织能够获得有价值的见解并做出明智的决策。在信息爆炸的时代,手动处理和分类大量文本数据既耗时又具有挑战性。此外,人工文本分类的准确性很容易受到疲劳和领域知识不足等人为因素的影响。人们希望使用更可靠的机器学习技术来自动化分类方法。此外,这有助于提高信息检索的效率,并通过有效定位所需信息来减轻信息过载的负担[1]. 请参阅中有关文本分类的部分作品及其众多实际应用程序[245].
另一方面,图提供了一种重要的数据表示形式,用于各种现实问题。有效的图形分析使用户能够更深入地了解数据中的底层信息,并可应用于各种有用的应用程序,如节点分类、社区检测、链接预测等。图形表示是解决图形分析任务的一种高效方法。它将图形数据压缩到低维空间中,同时试图最大限度地保留图形的结构信息和特征。
图形神经网络(GNN)代表了当今广泛的机器学习领域中的核心概念和工具,因为它们能够利用图形和神经网络的力量来操作数据并执行机器学习任务,例如文本分类。在这项工作中,我们的总体目标是探索GNN文本分类的一些研究路线,特别是为文本分类任务提供集成学习思想、GNN结构、语言模型和图形分割技术相结合的方法。
现在,我们简要介绍我们的方法、结果、建议的方法和实验。在本文中,我们将对不同语言模型的各种组合、集成学习方法和几种图形神经网络结构(GNN)进行仔细研究。特别是,我们采用了一种集成方法,将图形神经网络(如GCN、GAT、GIN)与预训练模型(如BERT)相结合[6]和帕斯伯特[7]),以及非英语数据集,特别是波斯语数据集的文本分类的图分割方法。该过程包括首先以图形的形式组织数据,然后使用多语言BERT或ParsBERT生成初始节点特征。然后,我们利用图神经网络算法(如GCN)进行学习和预测。
根据获得的结果,在平衡和非平衡数据的两种情况下,ParsBERT的性能都优于BERT,例如,在平衡数据中的两类数据集的情况下,当使用BERT时,我们的准确率达到81%,当使用ParsBERT时,我们达到87%。此外,使用BERT或ParsBERT,在平衡和非平衡数据场景中,当使用GCN等图形神经网络时,模型的性能会提高。例如,使用BERT和GCN,我们获得了91%的准确率,这表明了使用图形神经网络的重要性。此外,通过使用集成学习方法,在不平衡数据和两类数据集的情况下,模型的准确性提高到93%。

2.相关工程

本节简要回顾了文本分类任务领域的一些早期工作,以及一些通过图神经网络及其各种类型进行文本分类的工作。一般来说,文本分类任务可以分为三大类:第一类,传统文本分类方法;第二,深度学习方法;第三,图形神经网络。在下面的段落中,我们对每一个进行了总结。
首先,文本分类可以追溯到20世纪60年代初,由领域专家进行。它需要关于如何将文本数据分类为预定义类别的专门知识。从20世纪80年代末到90年代初,机器学习方法一直很流行。在此期间,自动文本分类的主流方法是知识工程,它依赖于为文本分类手动定义的逻辑规则,并最终成为主流方法。这些方法主要侧重于特征工程和用于分类的算法。特征工程中一种常用的技术是bagof-words[8]方法,其中数据中的每个单词都被分配了一个向量表示。这些向量用作机器学习算法(如逻辑回归)的输入。
文本分类的深度学习方法作为深度学习应用的重要领域之一,在各种NLP问题中得到了令人难以置信的普及。该框架主要关注递归神经网络(RNN)的应用[9101112],长短期记忆(LSTM)网络[1314]以及用于文本分析和分类的转换器架构。RNN能够保存内部状态或内存,以保留以前输入的信息。这一功能使他们能够理解和发现长序列单词之间的关系。话虽如此,RNN有某些弱点(例如长期依赖性较弱)。LSTM被提出作为解决这些弱点的解决方案,通常用于情感分析、语言翻译和许多其他自然语言处理任务,因为它能够处理文本的序列数据并捕获其中的长期依赖关系。与RNN和LSTM相反,LSTM是一种更新、更强的体系结构,即transformers,使用了一种注意机制,该机制允许数据元素之间的双向和非本地关系。变形金刚带来了对单词和序列元素之间的长期依赖进行建模的强大功能。
用于文本分类的图形神经网络是我们在本简介中介绍的第三种也是最重要的方法,并且将是我们在本文其余部分中的主要关注点。事实上,神经网络理论的一个主要进步是利用能够捕获图形结构数据的神经网络。用于文本分类的最重要的图神经网络之一是图卷积网络(GCN)[15]. GCN概括了卷积神经网络(CNN)的概念[16]图形化;它对图中每个节点的邻居执行本地聚合操作。另一种算法是GraphSAGE[17],它使用节点采样和聚合来创建表示。这在涉及大型图生成的问题中是非常有益的。图形注意网络(GAT)[18]算法确实使用了注意机制,这意味着在消息传递过程中,它学习如何对每个节点的邻居应用不同的权重,这意味着它为每个邻居分配不同的重要性。这有助于GAT捕获图形中的复杂关系和依赖关系,从而提高各种基于图形的任务的性能。
图同构网络(GIN)[19]基于Weisfeiler–Lehman(WL)图同构测试,这是一种广泛使用的算法,用于根据图的结构属性区分图。WL测试迭代地聚合和散列节点标签,以确定图是否同构。通过将GNN连接到WL测试,同构网络旨在区分各种图形结构。这个理论框架提供了对GNN变体的局限性和优势的见解,并提供了对它们在图形表示学习中的作用的更深入理解。
图卷积网络(GCN)在一些论文中被用于文本分类,例如在Liang等人的研究中[20]这是最早讨论使用GCN进行文本分类的文章之一。于晓等人[21],基于[20],介绍了一种略有不同的图结构,并测试了各种文本分类基准。Yuxiao等人对图中节点嵌入的作用和用于文本分类的GCN学习技术进行了综合分析。作者还将文档-文档边缘引入到他们的图形构建中,这在以前的研究中还没有被探讨过。值得注意的是,在[2021]从根本上来说。初始输入字/文档节点特征表示为一个热向量或BERT嵌入。众所周知的BERT技术是一种预训练模型,这意味着它已经在一个大型文本数据集上进行了训练,这使得模型能够在用于特定任务之前学习一般的语言特征和模式。
于晓等人[22]提出了一种结合大规模预训练和转导学习的文本分类模型BertGCN。该模型利用图结构和BERT表示将文档表示为图中的节点。他们论文中的实验结果显示了BertGCN技术对各种文本分类数据集的影响。
在这项工作中,我们的总体目标是利用GNN对文本分类的上述调查路线。然而,我们的工作与早期工作的区别主要来自于我们将集成学习的思想、不同的GNN结构、ParsBERT和BERT框架以及用于文本分类任务的图划分的聚类GCN等算法相结合的特殊方式。同时,我们尝试利用这些思想来增强非英语数据集的文本分类能力。

3.方法

本节还介绍了我们的主要贡献,其目的是研究和演示在文本分类问题(尤其是非英语数据集)的背景下,将机器学习和图论的四种基本思想和技术结合起来并加以应用的各种方法为了加强预测任务。这些基本思想如下:1–集成方法,2–预训练语言模型,3–GNN体系结构,4–图划分。我们主要用波斯语、阿拉伯语和英语来介绍我们的方法,尽管我们将看到,我们的方法和方法将有能力超越这些特定语言。我们在下面的小节中介绍了我们的方法。我们的一个重要目标是提出一些合适的方法组合,用于使用图形神经网络对波斯语(以及其他几种语言)数据中的用户评论进行情感分类。为此,首先通过将文本数据集转换为图形表示来使用一些图形结构。然后,利用图神经网络技术,进行预测和分类任务。我们的代码于2023年8月2日可用:https://github.com/AIuniversejourney/EnhanceTextClassification网站在我们代码的某些部分,例如我们用于ParsBERT和GNN组合的代码中,我们使用了论文的代码[2122]但对它们的不同部分进行了重大修改。

3.1. 预处理

在构建图之前,文本数据集的预处理阶段包括几个步骤。还值得一提的是,对于非英语数据集,预处理阶段可能不同于与该特定语言相关的某些技术方面。我们在这里解释了我们的方法,尽管在早期的工作中,如[21]. 首先,删除停止词。这些是语义重要性很低甚至没有意义的常见单词,删除它们可以提高自然语言处理(NLP)模型的性能和效率。接下来,标点符号(如冒号、分号、引号、括号等)将被删除。这简化了文本并促进了NLP模型的处理。词干应用于将单词转换为基本形式或词根形式,确保文本数据的标准化。最后,进行标记化,包括将文本划分为更小的单位,称为标记,这通常通过将文本拆分为单词来实现。这些预处理步骤为后续的图形构建任务准备文本。正如我们将看到的,这些标记以及文档本身将成为图的节点。

3.2. 图形构造

在文本分类的背景下,存在不同的图形构建方法。一种重要的已知方法是基于单词共现和文档-单词关系为语料库构建图形。该图是一个包含单词节点和文档节点的异构图,允许对全局单词共现进行建模并适应图卷积技术[20]. 在构建图之后,下一步是基于预处理模型,即BERT和ParsBERT,为图中的每个节点创建初始特征向量。
值得注意的是,从预处理阶段获得的所有唯一单词以及所有文档一起构成了图的节点集。边被加权并定义为属于三个组之一。一组由文档中单词出现的单词对之间的边组成。第二组由基于整个语料库中单词共现的单词-单词对之间的边缘组成。第三组由基于两个文档中单词共现的文档-文档对之间的边缘组成。如方程式所示(1),重量 A类 j个 边缘的 ( j个 ) 使用术语反向文档频率(TF-IDF)[8]测量(用于文档–单词边缘)和点式互信息(PMI)测量(用于单词–单词边缘)。PMI度量捕获语料库中单词之间的语义相关性。此外,雅卡相似性用于通过计算两个文档之间的相似性来定义边缘权重[21].
A类 j个 = P(P) M(M) j个 j个 二者都 T型 F类 D类 F类 j个 文件 j个 单词 J型 c(c) d日 j个 j个 二者都 文件 1 = j个
值得注意的是,这些测量值(TF-IDF和PMI)在我们实际考虑和使用规范化对称邻接矩阵而不是原始矩阵的意义上是规范化的A类此方法已在其他早期工作中使用,并已通过实验证明是有用的。
每个文档都被馈送到预先训练的模型多语言BERT或ParsBERT模型,从而产生数字向量表示。对于每个单词,对包含该单词的文档的BERT或ParsBERT表示应用最小池操作。更准确地说,以与参考相同的方式[21]给定一个单词,包含该单词的所有文档的BERT表示的最小池产生该单词的表示。现在,定义了与每个节点关联的特征向量。
我们现在讨论预训练模型BERT和ParsBERT。这些模型在文本处理和自然语言处理(NLP)中得到了广泛的应用。它们提供高质量的嵌入,作为下游任务的功能。BERT向量,也称为BERT嵌入,实际上是表示文本的高维向量。这种嵌入是通过使用在大量文本数据集上训练的预训练BERT模型对句子中的单词进行编码来创建的。编码过程为句子中的每个单词生成一个固定长度的向量,然后可以作为其他自然语言处理模型的输入。同样,ParsBERT模型也是从不同来源的波斯语文本数据中预先训练出来的。
值得注意的是,除了BERT框架之外,还有许多其他流行的框架用于查找文本的表示,如“单词移动器的嵌入”、“Word2vec”等。BERT是一种广泛用于各种自然语言处理任务的语言模型,特别是需要理解上下文的任务,而其他一些框架,如上述单词移动器的嵌入,侧重于单词对齐,对于涉及语义相似性或语义距离的任务很有用。如前所述,在本工作中,我们使用BERT和ParsBERT框架来获得文档/单词的初始表示;然后,正如我们将在下面解释的那样,我们使用GNN结构通过捕获与数据关联的底层图形结构来将这些表示转换为更丰富的表示。
一旦构建了文本图,它将被送入一个两层GCN。每个GCN层根据节点的邻域关系在节点之间进行消息传递;这允许整合来自较大社区的信息。我们更详细地回顾了消息传递步骤。如前所述,由BERT和ParsBERT生成的初始表示向量作为节点的初始特征输入到图卷积神经网络(GCN)。这些节点的信息是通过消息通过图形神经网络的过程来传递的,这样图形中的每个节点都会为其每个邻居计算一条消息。消息实际上是节点、邻居和它们之间的边缘的函数。消息被发送,每个节点使用sum或average等函数聚合其接收的消息。接收消息后,每个节点都会更新其属性,作为其当前属性和聚合消息的函数。GNN消息传递的基本公式定义如下:
小时 u个 ( k个 ) = σ ( W公司 e(电子) (f) ( k个 ) 小时 u个 ( k个 1 ) + W公司 n个 e(电子) 小时 ( k个 ) v(v) ϵ N个 ( u个 ) 小时 v(v) ( k个 1 ) + b条 ( k个 ) )
哪里 W公司 e(电子) (f) ( k个 ) W公司 n个 e(电子) 小时 ( k个 ) ϵ R(右) d日 ( k个 ) * d日 ( k个 1 ) 是可训练的参数矩阵 σ 表示元件线性(例如ReLU)。偏差项b ϵ R(右) d日 ( k个 ) 也是偏差项。每个文本数据节点获得的最终特征向量被视为GCN的输出,并通过SoftMax分类器进行最终预测。通过联合训练BERT和GCN模块,我们利用了预训练模型和图模型的优点。
我们现在讨论GCN背后的思想以及它们如何帮助我们进行文本分类。GCN旨在有效捕获图中节点之间的语义关系和丰富依赖关系,从而更好地理解和表示文本内容。文本分类通常需要考虑与单词或短语相邻的文本信息,以便准确预测。GCN可以从图中的相邻节点收集信息,有效地收集和传播上下文信息。这种能力使GCN能够利用每个节点的本地上下文,并就文本分类问题做出明智的决定。另一方面,文本分类的挑战之一是处理不同长度的输入,例如具有不同字数的句子和短语。GCN可以使用图形结构自然地处理可变长度的输入。通过利用图结构,GCN可以描述单词或句子之间的关系和依赖关系,这为文本分类提供了一种更加健壮和灵活的方法。此外,GCN擅长在图形中建模全局依赖关系。在文本分类中,全局相关性是指包含整个数据集和文本的相关性。通过在图中传播信息,GCN可以捕获这些全局依赖性,从而全面了解文本数据及其分类。根据我们获得的结果,当使用图神经网络,特别是GCN时,对于平衡数据和非平衡数据,大多数模型组合的性能都得到了改善。这种改进可以归功于使用上述图形神经网络的优点,因为它们提高了表示的质量和文本分类模型的鲁棒性。

3.3. 图形分区

我们现在讨论技术组合的另一个组成部分,它在我们的结果中具有概念和技术意义。图形神经网络的一个基本挑战是需要一个大空间来存储图形和为每个节点创建的表示向量。为了解决这个问题,我们的贡献之一是应用Cluster-GCN算法[23],它将图形划分为更小的簇,如下所述。Cluster-GCN算法利用图形聚类结构来解决大规模图形神经网络带来的挑战。为了克服对图形及其节点表示向量的大量内存和存储需求,该算法使用METIS等图形聚类算法将图形划分为较小的子集[24]. METIS的目标是将图划分为大小近似相等的子图,同时最小化它们之间的边连接。该过程涉及图形粗化,其中合并原始图形中的顶点,以创建一个较小但具有代表性的图形,从而实现高效分区。在使用图划分算法生成初始子图之后,该算法通过应用非粗化算法以递归方式细化划分。这个递归过程将分区信息从较小的级别传播到较大的级别,同时保持子图的平衡和大小。通过将图形划分为较小的簇,该模型在计算空间和时间方面的性能得到了改进。决定采用图聚类方法的目的是创建分区,其中每个组内的连接都很强,从而有效地捕获图的聚类和社区结构。这种方法在节点嵌入中特别有益,因为节点及其邻居通常属于同一集群;它可以实现高效的批处理。

3.4. 合奏学习

我们组合技术的另一个组成部分是使用集成学习理论中的思想。装袋和堆叠是神经网络中的重要技术。作为本文的另一个贡献,采用了集成学习类型的技术。事实上,我们的集成学习方法使用GNN和(Pars)BERT的不同组合来在特定语言的文本分类任务中获得良好的结果。接下来,我们将对此进行更详细的解释。
在数据集的预处理阶段之后,我们按照上述方式构造图形。然后,使用Cluster-GCN算法,将输入图划分为四个不相交的诱导子图。然后将每个子图馈送到一个单独的图神经网络。根据我们的经验,在我们的许多尝试中,图卷积网络(GCN)在文本分类处理中表现出了更好的性能。因此,我们强调在我们的组合中使用全球通信网络。除了GCN,我们还利用了图同构网络(GIN)框架以及图注意网络(GAT)作为集成学习的其他两个部分。值得注意的是,这里我们组合中的GIN部分旨在捕获图形的全局结构。使用的算法概述如所示图1在对分离的单个模型进行训练后,我们获得了四个不同的训练GNN模型。在测试阶段,测试样本通过所有这些模型,每个模型都创建自己的分类输出向量。然后,通过取这些输出向量的平均值来组合所有这些模型的结果。通过这个过程,集成方法可以通过合并多个模型的优点来帮助提高预测精度。
作为组合的另一部分,我们在方法中处理波斯语或阿拉伯语数据集时使用ParsBERT框架(而不是BERT),以获得单词和文档作为图节点的初始表示,如前所述。BERT是一种将向量与文本关联的已知语言模型。ParsBERT是BERT的指定版本,对波斯语文本分类进行了微调。BERT和ParsBERT都会在学习任务中创建节点的初始特征向量。我们在不同的实验中都使用了这两种方法,但重点是ParsBERT,稍后我们将提供一份结果报告,并解释强调使用ParsBERT背后的想法。从ParsBERT获得初始表示后,上述不同的GNN方法开始对其进行操作,最后,对结果进行平均,得出最终的分类结果。
通过这个分类过程,我们进行了几次观察。首先,我们观察了GNN模型是如何通过更好地捕获用户及其意见之间的拓扑信息,从而在文本分类任务中获得更好的分数的。其次,我们观察到,在平衡和非平衡数据场景中,ParsBERT的性能都优于BERT。这可以归因于我们的数据是波斯语(甚至类似的非英语语言,如阿拉伯语)。由于ParsBERT是在大量波斯语文本上进行训练的,因此与原始BERT相比,ParsBERT可以更好地学习波斯语文本的文本表示向量。这导致在生成表示的过程开始时,编码能力显著提高,从而在经过GNN的几个层和操作步骤后,最终获得更好的最终表示。最终,这会带来更好的最终性能。该观察结果建议并强调使用特定语言的预训练语言模型(如ParsBERT,而非BERT),以在非英语分类问题的背景下获得更好的初始和最终表示。
在下一节中,我们将详细介绍我们基于组合上述四种主要技术的各种方法进行的不同实验,即集成方法、预训练语言模型、GNN体系结构和图划分。例如,在一个实验中,我们测试了一个模型,该模型结合了集成技术和GCN、GIN、GAT以及BERT三种不同的体系结构。在另一个实验中,我们省略了集成技术,只使用了GCN和ParsBERT的组合。我们将检查几种这样的组合并比较结果。这为不同技术的组合如何影响最终分类结果提供了令人信服的见解。

4.数据集

迪吉卡拉:(https://github.com/AIuniversejourney/EnhanceTextClassification/blob/main/DATASET/digikala_data.csv于2023年8月2日访问)。该数据集包含用户对一个名为Digikala的商店网站上各种产品的波斯语评论,该网站是最大的波斯语在线商店之一。该网站提供了范围广泛(数十万)的产品,包括电子产品、书籍、服装等。用户有机会表达他们对所购买产品的意见。该数据集由100000行和12个不同的列组成,包含各种形式的信息,如用户意见、产品优缺点、喜欢和不喜欢的数量、产品ID等。该数据集的特征如所示表1。此数据集中的每一行都与用户对产品的意见相关。在这里,我们删除了缺少标签的评论,最后,大约63000条评论保留了标签。
阿拉伯-智慧体-AJGT:(https://github.com/komari6/Arabic-twitter-corpus-AJGT网站2023年8月2日)。该数据集是一个阿拉伯语-约旦通用推文(AJGT)数据集,其中包含1800条阿拉伯语推文,分为积极和消极两类。数据集是平衡的;900条推文被分类在正类中,900条推文被分类在负类中。
DeepSentiPers:(https://github.com/JoyeBright/DeepSentiPers网站2023年8月2日)。这是一个波斯的、平衡的数据集,包括用户对数字产品的意见,分为五类。该数据集的详细信息见表2
先生:(http://www.cs.cornell.edu/people/pabo/movie-review-data/2023年8月2日)。该数据集用于二元情感分析,包括用户对不同电影的英语评论。这些评论分为两类:正面评论和负面评论;阳性组有5331个数据,阴性组有53三十一个数据。

5.实验结果

我们进行了一系列不同的实验,探索了四种主要技术的组合:集成方法、预训练语言模型、图形神经网络体系结构和图形划分。我们的目标是研究如何协同组合这些技术以提高分类任务的性能。一组实验涉及创建集成模型,其中我们集成了三种不同的图形神经网络架构(GCN、GIN和GAT),并将BERT用作预处理语言模型。通过这些集成模型,我们旨在展示通过结合这些互补技术实现的潜在改进。除了集成方法外,我们还进行了另一个实验,其中我们专注于一个特定的组合,特别是在没有集成技术的情况下同时使用GCN和ParsBERT。这使我们能够分析这种简化配对的性能,并评估其对分类结果的影响。在整个调查过程中,我们探索了几种这样的组合,并彻底评估了它们各自的结果。最后,通过比较这些不同技术和组合的结果,我们获得了关于各种方法的混合如何影响最终分类结果的宝贵见解。这些发现使我们对如何有效利用每种技术的优势有了更深入的了解,为在实际应用中进行更明智的决策铺平了道路。

5.1. 实验1:在我们的数据集上应用ParsBERT、BERT和GCN

在两种情况下,我们检查了我们提出的模型的性能。第一个场景涉及一个具有两个标签的两类数据集:“推荐”和“不推荐”。第二个场景处理的是一个三类数据集,它有三个标签:“推荐”、“不推荐”和“无数据”。对于这两种情况,我们在两种设置下评估了模型的性能和准确性:一种是不平衡数据,另一种是平衡数据。这些实验的结果显示在表3对于数据库不平衡的每种情况,我们还计算了 F类 1 准确度和召回率。在三类数据集中,51961个数据点被分配用于训练,而5774个数据点则被指定用于测试。提取的单词数为44758,因此节点数为102493。对于两类数据集,43149个数据点被分配用于训练,而4795个数据点则被保留用于测试。提取的单词数为40304,因此节点数为88248。
从中的结果可以看出表3在平衡和非平衡数据场景中,ParsBERT的性能都优于BERT。这里的关键见解是,这种增强可以归因于我们的数据是波斯语的性质。由于ParsBERT是在大量波斯语文本上进行训练的,因此与BERT相比,ParsBERT可以更好地学习波斯语文本的文本表示向量,从而获得更高的准确性。在使用BERT和ParsBERT的两种情况下,以及在平衡和非平衡数据场景中,当使用图形神经网络(如GCN)时,模型的性能都会提高;这是由于利用图神经网络的优点。
关于上述模型的统计数据,我们多次重复上述实验,每次使用不同的模型权重初始化。如中所述表3例如,上表中最强模型即ParsBERT+GCN的结果平均值(精确度)为 91.1 (2级)标准偏差小于 0.06 对于BERT+GCN模型(在2Class上),标准偏差略高(0.08),平均值也略低(约0.5%),这也可能是因为ParsBERT在波斯语中的表示略优于BERT。

5.2. 实验2:通过组合不同GNN结构进行集成学习

如中所示表4在所有使用集成学习技术的情况下,模型的准确性和性能都会提高。根据表3表4,我们强调了以下几点:在Digikala-2Class数据集中,通过使用集成学习技术,在不平衡数据中使用Pars(Bert)+GCN,我们达到了91%的准确率,并且由于集成学习,该准确率提高到了93%。在Digikala-3Class数据集中,我们使用ParsBert+GCN和集成学习技术达到了约64%的准确率,而由于集成学习,该准确率达到了约68%。
值得注意的是,在三类数据集中,分配了50331个数据点用于培训,而指定了12583个数据点进行测试。提取的单词数为7448,因此节点数为70362。对于两类数据集,42446个数据点被分配用于训练,而10612个数据点则被保留用于测试。提取的单词数为4129,因此节点数为57187。
值得回顾的是,在这个实验中,与行关联的训练集的大小 G公司 1 G公司 4 表中的值小于ParsBERT+GCN实验中训练集的大小表3,因为在这些情况下,对上述子图进行了培训。
我们现在简要介绍一下上述集合模型的统计数据。为了更好地理解模型,我们重复了上述实验,并多次运行我们的模型,每次使用不同的模型权重初始化,并获得每次重复实验的精度和其他参数,以查看结果的稳健性。如中所述表4,结果的平均值(精度)为 93.2 标准偏差小于 0.02 在2Class数据集上。值得一提的是,正如集成学习领域所知,集成学习方法和模型具有趋向于具有高鲁棒性的优点。
与使用单个模型相比,集成学习可以显著提高预测精度。该技术通过组合不同的模型,有效地捕获数据的不同方面,旨在减少模型偏差和错误。此外,由于该技术涉及针对不同数据子集训练的多个模型,并使用不同的算法,因此它受数据中异常值或噪声的影响较小,从而能够创建更准确和稳健的预测。值得注意的是,集成学习也有潜在的缺点,例如计算复杂性增加、训练时间延长和需要更多资源。此外,所用方法的有效性取决于每个模型的多样性和质量。然而,集成学习的优点使其成为在各种机器学习场景中提高预测准确性和泛化能力的强大技术。
比较此处提出的集合方法的结果表4结果是表3(最后两行)表明,与仅应用BERT或BERT+GCN相比,该方法具有更好的结果,在[2122](在英语语境中)。值得一提的是,其他框架,如基于依存语法的规则、LSTM和CNN,在诸如[2526]. 然而,据我们所知,在本论文发表之前,还没有其他工作使用集成学习方法与GNN结构相结合的方法对波斯语文本进行情感分析。

5.3. 一些附加实验的简要报告

在这里,我们在与以前相同的线上对多个额外的数据集进行了额外的实验,以更好地理解使用BERT+GCN时英语数据集和非英语数据集的准确性之间的差异。在Arabic-twitter-corpus-AJGT数据集上,我们使用BERT和GCN进行了实验。我们相信,在预处理阶段采取一些进一步的步骤可以提高该数据集的准确性。然而,这超出了本文的范围,我们将对其进行进一步的研究留给未来的工作。我们报告称,通过使用BERT和GCN,我们的列车数据精度达到98%,测试数据精度达到83%。
同样,MR数据集(英语数据集)中的数据实例数量远小于Digikala数据集(波斯语),但与Digikara数据集相比,结果要好得多。事实上,与MR数据集相比,在Digikala-2Class上操作时,BERT+GCN的准确性较差。尽管有更多的数据实例,但Digikala数据集的准确度低于MR数据集的准确性(值得一提的是,在使用ParsBERT对DeepSentiPers数据集进行的有限实验中,与使用BERT时相比,结果有所改善)。英语和波斯语数据集上的这些结果差异现象可以归因于英语数据中BERT的强度,我们使用BERT来获取图中节点的特征。如前所述,BERT模型是在更大的数据集上进行训练的,包括整个英语维基百科和大量英语书籍,而波斯语的BERT模型,例如ParsBERT,可能是在小规模数据集上训练的。这种广泛的预训练使英语BERT能够捕获广泛的语言模式和语义关系,使其成为英语文本处理的强大模型。另一方面,由于语言的差异,英语和波斯语的标记化(将文本划分为单词等较小单位的过程)有所不同。在英语中,单词通常由空格隔开,这使得标记化相对简单。在波斯语中,单词之间没有明确的间距,这使得标记化过程更具挑战性。AJGT和MR的实验总结如下。
如前所述,MR和AJGT数据集都是平衡的,其中正面和负面评论的数量相等。在上述实验中,我们分配了85%的数据点用于训练,其余用于测试。与前面章节中的实验类似,我们多次重复上述实验,每次都使用不同的模型权重初始化。如中所述表5,结果的平均值(精确度)为 86.3 82.8 分别基于MR数据集和AJGT数据集。此外,结果的标准偏差小于 0.1 0.5 分别基于MR数据集和AJGT数据集。我们记得,MR和AJGT数据集都小于Digikala数据集。

6.结论和进一步工作

在本文中,我们研究了在文本分类问题(尤其是非英语数据集)的背景下,结合和应用机器学习和图论中的一些基本思想和技术的各种方法,即集成方法、预训练语言模型、GNN体系结构和图分块为了解决预测任务并提高结果。我们在具体问题上测试了我们的想法,例如波斯语(以及其他一些语言)用户评论的情感分类。
作为未来的工作,人们可以详细阐述方法组合的想法,并考虑更广泛的组合技术。此外,作为另一个方向,我们可以通过合并其他复杂的GNN架构来丰富我们的集成技术。作为另一个方向,我们可以使用更广泛的预训练语言模型,因为在本研究中,我们的重点主要集中在BERT和ParsBERT。还有许多其他有利的候选人可以考虑。
我们现在讨论我们工作中的一些局限性,以及有关它们的一些建议。集成学习方法的一个局限性是训练数据集所需的计算能力相对较大。此外,许多主要的机器学习方法,如转导法,除了它们的许多优点外,还有一个共同的特点,即它们不容易适应新的样本外测试数据。然而,对于这种方法的基本局限性,有一些想法(参见示例[27]). 这里进一步工作的一个想法是考虑这些想法和我们在本文中使用的方法的集成,以便在构建的图结构中添加新节点后使模型更容易适应。

作者贡献

方法论,F.G.、Z.R.、A.M.和M.A。;软件、F.G.、Z.R.和A.M。;验证、Z.R.和A.M。;调查学硕士。;书面原稿,F.G.、Z.R.和A.M。;写作-评论和编辑,Z.R.,A.M.和M.A.所有作者均已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

数据可用性声明

我们的代码可通过以下链接获得:https://github.com/AIuniversejourney/EnhanceTextClassification网站2023年8月2日访问。

致谢

作者Alireza Mofidi感谢基础科学研究所(IPM)的支持。他在本文中的研究部分得到了IPM(No.1400030117)的资助。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 李强。;彭,H。;李,J。;夏,C。;Yang,R。;Sun,L。;余,P.S。;《文本分类综述:从传统到深度学习》。ACM事务处理。智力。系统。Technol公司。 202213, 1–41. [谷歌学者] [交叉参考]
  2. 张,L。;王,S。;Liu,B.情绪分析的深度学习:一项调查。威利公司(Wiley Interdiscip)。版本数据最小知识。数字化信息系统。 20188,e1253。[谷歌学者] [交叉参考]
  3. 阿加瓦尔,C.C。;翟,C。;阿加瓦尔,C.C。;翟,C.文本分类算法综述。挖掘文本数据; 施普林格:德国柏林/海德堡,2012年;第163-222页。[谷歌学者]
  4. 曾,Z。;邓,Y。;李,X。;诺曼,T。;Luo,Y.基于ehr的计算表型的自然语言处理。IEEE/ACM传输。计算。生物信息。 201816, 139–153. [谷歌学者] [交叉参考] [公共医学]
  5. 戴,Y。;刘杰。;任,X。;Xu,Z.基于对抗训练的多源无监督领域适应性情绪分析。《2020年AAAI人工智能会议论文集》,美国纽约州纽约市,2020年2月7日至12日;第7618–7625页。[谷歌学者]
  6. 德夫林,J。;Chang,M.W。;Lee,K。;Toutanova,K.BERT:语言理解深度双向变形金刚的预训练。美国明尼苏达州明尼阿波利斯NAACL-HLT会议记录,2019年6月3日至5日;第4171–4186页。[谷歌学者]
  7. 法拉哈尼,M。;Gharachorloo,M。;法拉哈尼,M。;Manthouri,M.Parsbert:波斯语理解的基于变换器的模型。神经过程。莱特。 202153, 3831–3847. [谷歌学者] [交叉参考]
  8. Salton,G。;Buckley,C.自动文本检索中的术语加权方法。信息处理。管理。 198824, 513–523. [谷歌学者] [交叉参考]
  9. L.R.梅斯克。;洛杉矶Jain。递归神经网络:设计与应用; CRC出版社:美国佛罗里达州博卡拉顿,1999年。[谷歌学者]
  10. 刘,P。;邱,X。;Huang,X.基于多任务学习的文本分类递归神经网络。2016年7月9日至15日,美国纽约州纽约市第二十五届国际人工智能联合会议(IJCAI)会议记录;AAAI出版社:美国DO华盛顿,2016年;第2873-2879页。[谷歌学者]
  11. Luo,Y.临床笔记中分类关系的递归神经网络。J.生物识别。通知。 201772, 85–95. [谷歌学者] [交叉参考]
  12. Lai,S。;徐,L。;刘凯。;Zhao,J.文本分类的递归卷积神经网络。2015年1月25日至30日在美国德克萨斯州奥斯汀举行的第二十届AAAI人工智能会议记录。[谷歌学者]
  13. Hochreiter,S。;Schmidhuber,《长短期记忆》。神经计算。 19979, 1735–1780. [谷歌学者] [交叉参考]
  14. 泰国。;Socher,R。;Manning,C.D.改进了树结构长短期记忆网络的语义表示。2015年7月26日至31日,中国北京,计算语言学协会第53届年会和第7届国际自然语言处理联合会议记录。[谷歌学者]
  15. 张,S。;Tong,H。;徐,J。;Maciejewski,R.图卷积网络:综合评述。计算。Soc.网络。 20196, 11. [谷歌学者] [交叉参考]
  16. Kim,Y.用于句子分类的卷积神经网络。《2014年自然语言处理实证方法会议记录》,卡塔尔多哈,2014年10月25-29日。[谷歌学者]
  17. 汉密尔顿,W。;Ying,Z。;Leskovec,J.大图的归纳表示学习。高级神经信息处理。系统。 201730, 1–11. [谷歌学者]
  18. Velickovic,P。;库库鲁尔,G。;卡萨诺娃,A。;罗梅罗,A。;Lio,P。;本吉奥,Y.Graph Attention Networks。斯达 20181050, 4. [谷歌学者]
  19. Xu,K。;胡,W。;Leskovec,J。;Jegelka,S.图神经网络有多强大?2019年5月6日至9日,美国洛杉矶新奥尔良,《学习代表国际会议论文集》。
  20. 姚,L。;毛,C。;Luo,Y.用于文本分类的图卷积网络。2019年1月27日至28日在美国夏威夷州火奴鲁鲁举行的AAAI人工智能会议记录;第33卷,第7370–7377页。[谷歌学者]
  21. 韩,S.C。;袁,Z。;王凯。;Long,S。;Poon,J.理解用于文本分类的图卷积网络。arXiv公司 2022,arXiv:2203.16060。[谷歌学者]
  22. Lin,Y。;Meng,Y。;太阳,X。;韩,Q。;Kuang,K。;李,J。;Wu,F.BertGCN:结合GNN和BERT的转导文本分类。计算语言学协会研究结果汇编:ACL-IJCNLP 2021,在线,2021年8月1日至6日;第1456-1462页。[谷歌学者]
  23. 蒋,W.-L。;刘,X。;Si,S。;李毅。;Bengio,S。;Hsieh,C.Cluster-GCN:一种用于训练深度和大型图卷积网络的有效算法。2019年8月4日至8日在美国阿拉斯加州安克雷奇举行的第25届ACM SIGKDD知识发现和数据挖掘国际会议记录;第257-266页。[谷歌学者]
  24. Karypis,G。;Kumar,V.划分不规则图的快速高质量多级方案。SIAM J.科学。计算。 199820, 359–392. [谷歌学者] [交叉参考]
  25. Dashtipour,K。;戈盖布,M。;Lia,J。;江克,F。;Kongc,B。;Hussain,A.《波斯情感混合分析框架:基于依赖语法的规则与深层神经网络的集成》。神经计算 2020380, 1–10. [谷歌学者] [交叉参考]
  26. 加西米,R。;Ashrafi Asli公司。;深层波斯情感分析:低资源语言的跨语言培训。《信息科学杂志》。 202248, 449–462. [谷歌学者] [交叉参考]
  27. 戴,Y。;寿,L。;龚,M。;夏,X。;康,Z。;徐,Z。;Jiang,D.文本分类的图形融合网络。知识-基于系统。 2022236, 107659. [谷歌学者] [交叉参考]
图1。在图神经网络中使用群算法。
图1。在图神经网络中使用群算法。
算法16 00470 g001
表1。Digikala数据集。
表1。Digikala数据集。
迪吉卡拉推荐不知道不建议使用总计
标签10−1-
数据的数量36960个10,52816,09863,586
表2。DeepSentiPers数据集。
表2。DeepSentiPers数据集。
DeepSentiPers公司很高兴快乐自然愤怒愤怒总计
标签−2−1012-
数据的数量134221843152697407415
表3。Digikala数据集上拟议模型的准确度(%)(ParsBERT+GCN和BERT+GC N实验的平均值±标准偏差)。
表3。Digikala数据集上拟议模型的准确度(%)(ParsBERT+GCN和BERT+GC N实验的平均值±标准偏差)。
型号迪吉卡拉
2类别3类
余额不平衡余额不平衡
帕斯伯特68精度=87
F类 1 = 72
精度=69
召回=80
57精度=62
F类 1 = 55
精度=52
召回=54
帕斯伯特+GCN70精度=91.1±0.06
F类 1 = 74
精度=71
召回=80
58精度=63.9±0.09
F类 1 = 55
精度=52
召回=59
伯特57精度=81
F类 1 = 68
精度=66
召回=74
54精度=56
F类 1 = 54
精度=51
召回=55
BERT+GCN57精度=90.6±0.08
F类 1 = 71
精度=69
召回=80
55精度=57.2±0.15
F类 1 = 53
精度=51
召回=55
表4。集成学习技术的准确度(%)(最后一行的平均值±标准偏差)。
表4。集成学习技术的准确度(%)(最后一行的平均值±标准偏差)。
模型(图形)迪吉卡拉
2类3类
余额不平衡余额不平衡
GCN(G1)66895464
网关(G2)64814859
GIN(G3)63785155
GCN(G4)64865367
合奏学习69精度=93.2±0.02
F类 1 = 77
精度=78
召回=79
58精度=68.4±0.09
F类 1 = 58
精度=52
召回=60
表5。AJGT和MR实验总结。
表5。AJGT和MR实验总结。
测试数据的准确性列车数据的准确性
AJGT公司82.8 ± 0.598
先生86.3 ± 0.197
免责声明/出版商注释:所有出版物中包含的声明、意见和数据仅为个人作者和贡献者的声明、观点和数据,而非MDPI和/或编辑的声明、看法和数据。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品对人员或财产造成的任何伤害不承担责任。

分享和引用

MDPI和ACS样式

戈洛米,F。;拉赫马蒂,Z。;莫菲迪,A。;阿巴斯扎德,M。在非英语数据集上使用图形机器学习和集成学习方法加强文本分类和文本情感分析。算法 202316, 470.https://doi.org/10.3390/a16100470

AMA风格

Ghoma F、Rahmati Z、Mofidi A、Abbaszadeh M。在非英语数据集上使用图形机器学习和集合学习方法增强文本分类和文本情感分析。算法. 2023; 16(10):470.https://doi.org/10.3390/a16100470

芝加哥/图拉宾风格

戈洛米、法特梅、扎赫德·拉赫马蒂、阿里雷扎·莫菲迪和穆斯塔法·阿巴斯扎德。2023.“关于在非英语数据集上使用图形机器学习和集成学习方法加强文本分类和文本情感分析”算法第16页,第10页:470。https://doi.org/10.3390/a16100470

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。请参阅更多详细信息在这里

文章指标

返回页首顶部