1.简介
人格是指个体在思维模式、情绪、动机和行为特征方面的差异[1]它具有整体性、稳定性、独特性和社会性的基本特征。人格测试结果广泛应用于个性化服务、个性化医学、情绪分析/意见挖掘和临床心理学等领域。人格理论可以分为六个学派:精神分析学派、特质学派、生物学学派、人本主义学派、行为主义学派和认知学派。最常用的人格模型是五大人格模型[2]这是特色学校中最受欢迎的。它从五个方面描述人格:开放性(OPN)、尽责性(CON)、外向性(EXT)、宜人性(AGR)和神经质(NEU)。 传统的人格评估方法通常依赖于访谈或自我报告量表。这种方法需要大量的人力和物力,但反馈的数量和质量有限[三]. 近年来,深度学习在自然语言处理领域取得了重大进展,在文本建模方面变得更加强大。此外,与传统的经验主义方法相比,通过使用大规模训练数据,深度神经网络引起的识别错误大大减少。 互联网的快速发展和社交媒体工具的普及,如脸书、微博和推特,使得研究人员很容易对社交网络分析感兴趣。自动人格识别的发展也注入了巨大的潜力。在计算机时代,人们很容易获得使用终端设备和进行社交网络活动时生成的丰富数据。心理学研究表明,网络数据与人格特征之间存在相关性[4],揭示了用户的个人信息、决策风格和思想倾向。因此,用户文本数据的开放性和可访问性使得人格分类任务的语料库更加丰富,也为人格建模提供了便利。研究人员通常从不同阶段的用户那里收集帖子,并将分散的帖子聚合成用户个性档案,以便进行个性检测。 目前的研究方法使用单一模型对每个帖子进行独立编码,忽略了帖子之间的依赖性,提取的特征不够全面,无法充分挖掘用户数据中的个性信息。另一种替代方法是将分散的帖子组合成任意长度的序列,以顺序或分层编码的方式进行个性检测[5,6]. 然而,人是一个复杂多变的复合体,不同的文本帖子中所包含的信息可能会在不同程度上对不同的人格特征做出贡献。 此外,在深度学习领域,为了提高人格预测的准确性,以前的研究将深度神经网络模型提取的特征与附加的社会网络分析(SNA)特征或语言特征联系起来。此外,现有作品中的人格检测模型通常依赖于增加网络结构的深度来提取社会文本中的语义特征。
本文提出了一种基于自关注机制的层次混合模型,称为HMAttn-ECBiL,由HMA-CNN、HA-BiLSTM和原始单词嵌入模块组成,本文的主要贡献如下:
HMA-CNN:我们通过将文本序列划分为多个区域,在级联计算中学习每个区域的局部特征表示,然后逐步扩展区域,以分层方式建模全局特征关系,从而将多头自关注机制嵌入到CNN体系结构中。
HA-BiLSTM:我们使用单词注意机制生成句子级特征表示。然后,我们将分散的帖子合并为相同长度的多个序列片段,并使用Bi-LSTM和句子级注意机制计算捕获文本序列的时间特征以及不同帖子对人格特征的贡献。
HMA-CNN、HA-BiLSTM和单词嵌入多个模块以并行方式进行特征融合,以弥补单个模型提取特征的局限性,最大限度地利用文本数据的丰富语义信息,确保特征的完整性和多样性,从而提高了人格分类任务的效率和准确性。
本文的其余部分组织如下。在第2节,我们讨论了相关的工作。然后,我们详细阐述了混合模型中的人格分类第3节.英寸第4节给出了对比实验的实验过程和仿真结果。最后,在第5节通过对模型和实验结果的总结,得出了结论,并提出了今后的工作计划。 2.相关工作
近年来,心理学领域的研究发现,个体差异会影响语言使用习惯,包括情感词汇的频率[1,4]. 因此,用户在社交媒体中生成的文本数据隐含着个性信息。设计了两种方法来建立基于语言特征的有效人格预测系统。一种是基于预定义词汇类别的封闭词汇,如语言查询和单词计数(LIWC)、用于语言线索提取的结构化编程(SPLICE)和SNA。另一种是由单词嵌入模型(例如,Glove和Word2vec)实现的开放词汇表方法。该模型可以为语料库中的每个单词提供唯一的单词向量,并且单词向量可以表示语义信息和单词间距,因此更加灵活。 大多数个性预测方法使用传统的机器学习算法从用户的在线活动数据或个人档案信息中学习文本的浅层特征,以完成分类任务。Michael等人[7]利用myPersonality项目的数据集,比较了四种机器学习模型的性能,并探讨了语言特征与人格特征之间的相关性。结果表明,XGBoost分类器的预测准确率最高,达到74.2%。此外,基于社交网络分析特征的个性预测系统达到了最佳性能。 在基于MBTI人格类型指标的自动元程序检测和人格类型预测过程中,Amirhosseini等人[8]使用了一种由自然语言处理工具包和XGBoost开发的新机器学习方法。Han等人[9]提出了一种基于个性词汇的个性识别模型,分析了用户微博语义类别与个性得分之间的关系,并使用机器学习分类器进行识别。 近年来,端到端深度神经网络体系结构在文本建模方面变得更加强大,在基于文本的情感分类、语音识别、机器翻译和观点挖掘等自然语言领域取得了重大进展,产生了更准确的预测结果。
卷积神经网络(CNN)是一种主流结构,它可以使用不同的卷积滤波器在局部窗口中提取n-gram的高级特征。基于意识流散文,Majumder等人[10]使用CNN模型以分层的方式提取语料库中的特征向量,并结合文档级的Mairesse特征作为个性分类器的输入。实验数据表明,这种多级感知器(MLP)比其他分类器具有更高的分类精度。 然而,CNN忽略了语序和上下文信息。研究人员试图通过将输入反馈给递归神经网络(RNN)来建模句子之间的时间依赖性。此外,LSTM[11]提出了一种解决文本序列过长时RNN中梯度消失和梯度爆炸问题的方法。Sun等人[12]引入潜在句子组概念来表示基于紧密连接的句子向量的抽象特征组合,他们将Bi-LSTM与CNN结合起来,利用文本结构识别个性。 基于大五人格模型,Tandera等人[13]使用机器学习算法和深度神经网络构建个性分类模型。此外,LIWC、SPLICE和SNA特征用作不同的输入特征,特征选择和重采样技术用作附加的可选过程。实验表明,深度神经网络结构的分类精度高于机器学习算法。鉴于智能手机感知数据的多模态和异构性,Gao等人提出了一种用于融合多源特征的深度神经网络模型[14]以多任务学习的方式对大五人格进行分类。实验结果表明,该方法的性能指标明显优于浅层机器学习模型。 将深度学习应用于自然语言处理问题的一个重要技术突破是注意力模型的提出[15]. 在NLP领域,注意机制可以使模型根据输入和生成的内容选择需要注意的重要信息[16]或在输入和输出之间生成软对齐,以缓解某些任务中的顺序变化和差异问题[17](例如,机器翻译和文本摘要)以增强文本建模。 Xue等人[5]设计了一个两层递阶深度神经网络模型AttRCNN,并提出了一种基于CNN的初始结构变体。该方法将统计语言特征和层次模型提取的深层语义特征串联在一起,得到最小的平均预测误差。Lynn等人提出了一个分层序列模型,该模型使用消息和单词级别的注意力来学习用户社交媒体帖子的相对权重,以识别个性[6]. 实验结果表明,消息级注意模型优于其他基线模型,并且注意机制大大提高了人格预测的性能。 为了更好地执行高效的并行训练并捕捉长距离序列特征,Transformer[18]使体系结构随训练数据和模型大小而上下扩展。Transformer体系结构适合于在大型文本语料库上进行预培训,并且可以很好地执行特定任务。因此,它已成为自然语言处理领域的主导架构,并在自然语言理解等任务中取得了显著的性能改进[19],机器翻译[20]、和文本生成[21,22]. Keh等人[23]验证了使用预训练语言模型预测MBTI人格类型的分类准确性,并使用微调技术使BERT双向转换模型适应语料库和语言生成任务。Jiang等人[24]融合预训练上下文嵌入(Bert和RoBERTa)和注意力神经网络,构建一种新的自动识别个性的方法。这种方法在独白散文中的表现优于最新结果。为了研究分散的社交媒体帖子所隐含的个性信息之间的依赖性,并解决任何帖子组合所导致的不必要的后序偏差,Yang等人提出了一种名为transformer-MD的多文档转换器[25]并在此基础上,设计了维度注意机制,以获得每个人格维度的特定表征。 此外,特征融合技术确保了信息的完整性和多样性,提高了模型的性能,并在各种任务中表现得很好。Polap等人[26]创新性地将单词袋机制应用于非常规的船舶图像分类任务,并使用卷积神经网络对局部图像中的关键点特征进行分类和捕获,使船舶分类结果在经典方法的基础上提高了5%。此外,长冈等人[27]提出了一种对文本尺度敏感的卷积神经网络结构。它在多级卷积层中提取不同分辨率的特征图,并融合不同尺度的文本信息特征,以防止卷积过程中的信息丢失。 为了更清楚地解释人格识别任务的相关工作表1我们展示了相关模型的特征类型和贡献,以比较它们的算法差异和性能。可以看出,以往的工作倾向于通过增加网络深度或引入外部知识来提高人格分类的准确性。 3.材料和方法
3.1. 人格分类模型
图1显示了基于自注意机制HMAttn-ECBiL的分层混合模型,包括三个模块:嵌入多头自注意的卷积神经网络HMA-CNN、结合双向长短记忆网络HA-BiLSTM的分层注意机制和原始单词嵌入模块。三个模块并行进行特征融合,弥补了单一模型提取特征的局限性,保证了特征的完整性和多样性,最终实现了基于大五个性模型的社交网络用户个性分类。该模型详述如下。 3.2. 数据预处理
为了提高数据质量并避免脏数据,数据预处理将原始数据集转换为可用的标准数据集,然后再将数据放入模型训练。预处理操作包括文本分割、数据清理和数据填充,如删除停止词、英语涉及大小写转换、删除无用标记和特殊符号等。
该数据集由250名Facebook用户的文本帖子组成。社交用户倾向于使用非正式语言和自定义符号来强调他们的情绪,如“sooooo,HELP,???,(*~*)”等。尽管这些特殊单词有助于人格分类,但它们可能给单词嵌入模型的训练带来巨大挑战。在尽可能保持语义特征的基础上,我们的预处理过程执行以下操作:删除重复字符、大小写转换、删除多余空格以帮助建立分词模型等。因此,上述特殊单词将转换为“so,help,?,(*~*)”。
由于NLP字段中的词汇量通常非常大(即达到数百万级),因此使用一个热表示法来表示单词向量很简单。然而,这通常会导致维度灾难和内存浪费。单词嵌入模型可以将一个包含所有单词数的高维空间嵌入到一个低维连续向量空间中,并且数据格式便于计算机处理。
文字2vec[28]是一种语言模型,用于学习谷歌于2013年开发的单词向量表示法。该模型不仅对所有单词进行矢量化,还可以度量单词语义相似度和词汇语义类比。预处理数据集提供了一个唯一且有意义的单词序列,每个单词都有一个唯一的向量。我们使用预先训练的Word2Vec模型进行单词嵌入,每个单词的向量维度为300D。该模型初始化单词以分配随机权重,并能够学习单词嵌入表示。 3.3. 特征提取
3.3.1. HMA-CNN(美国有线电视新闻网)
HMA-CNN模块的详细架构如所示图2首先,我们提取固定长度文本帖子的数据预处理获得的单词向量,并在卷积层中使用n个不同大小的卷积核来提取文本数据的局部特征。随后,我们聚合n元特征,将其划分为不同的区域大小,并将其输入到多头自注意机制(MHSA)中,并以级联计算方法学习每个区域的局部特征表示。 我们一步一步地减少分区的数量,同时收集局部特征,以分层的方式建模全局特征关系。此外,前馈连接层用于加深注意机制对语义特征的拟合程度。最后,为了在合理范围内规范化该值,并防止模型性能随着网络层数的增加而降低,我们在HMA-CNN模块的末尾添加了一个规范化操作和一个剩余连接块。以下是卷积层和(H-MHSA)的详细描述。
一维卷积使用固定大小的卷积核在序列上滑动并检测不同位置的特征。表示聚合用户帖子的最大长度最大长度=L、和k个定义为卷积核的长度。然后,对于每个位置j个在这个句子中,有一个窗口向量和k个连续单词向量,.每个词向量为300D;也就是说,d日= 300. 让是的d维单词向量j个句子中的第个单词,句子标记为,窗口向量表示如下:哪里是一个向量矩阵,由k个单词向量。要素图通过窗口向量的卷积运算获得; 计算过程如式(1)所示:哪里定义为滤波器的有效卷积运算,是元素的乘法,b条是一个偏差项,并且(f)是一个可以是sigmoid、双曲正切等的非线性函数。在本工作中,我们选择ReLU作为非线性函数。一般来说,偏差单位的初始值取一个随机值,该值在训练模型时通过反向传播自动更新,并根据损失函数的收敛性进行调整。因此,表示通过卷积运算获得的整个句子中所有窗口向量的特征映射。 在本研究中,我们使用了n个不同大小的卷积核以获得n-gram特征,n个= 3,,不同大小的卷积核数为过滤器数量为了确保每个大小的卷积运算的输出向量与输入维数一致,选择“SAME”作为填充方式。在卷积运算之后,我们添加了特征通过以下方式获得数量筛选器(_F)相同窗口大小的卷积核共同获得特征:其中分号表示列向量的串联。此外,将不同窗口大小的卷积核再次拼接在一起,拼接后获得的特征表示为转换输出(_O): CNN只关注本地窗口中单词对的相互影响,不能考虑所有单词对。因此,我们在HMA-CNN中添加了一个多头部自关注结构(MHSA)来提取不同表示子空间的全局特征。然而,如果输入序列太长,即向量维度太大,与较短的文本序列相比,MHSA提取的同一单词对的相关性会被其他单词稀释,并自然降低。此外,由于计算复杂度高,MHSA效率低下。
在H-MHSA结构中,我们提取n-gram特征向量转换输出(_O)从一个固定长度的文本帖子经过卷积层,在序列长度的维度上将其分割成多个区域,然后使用MHSA计算每个分区依赖中的单词,其中g _大小在中标记图2是每层划分的区域数。然后,将较小的区域逐渐合并为较大的区域,并收集局部特征表示。随后,在新的分区中再次计算自注意,并以分层方式自然地建模序列的全局特征。因此,H-MHSA可以更准确地捕获词对之间的交互和帖子之间的依赖性,并通过分区和分层降低输入向量的维数,从而提高和降低MHSA的计算复杂度。 假设对于MHSA结构的某一层,输入特征向量的高度是令牌数,其中每个标记都使用维向量进行特征化然后,我们根据设置的分区数将整个输入向量划分为多个区域g _大小,每个区域中序列特征的高度为因此,输入特征向量X(X)重建为,然后我们获得查询、键、值: 其中,分别表示Transformer中查询、键和值的可学习参数[18]. 我们使用MHSA计算分区内的自注意,以获得新的文本表示如下:哪里表示近似规范化。为了简单起见,我们省略了多个头计算方法的表达式。 为了简化特征描述,避免信息冗余,并进一步降低区域块的高度以提高计算效率,我们在每个层的MHSA结构之后添加了一个最大池层,池操作使用Chunk-MaxPooling方法。Chunk-MaxPooling的基本思想是将特征向量切割成若干段,然后在每个段中获得最大特征值。我们将MHSA结构获得的文本表示A分为由2个标记组成的片段,然后获得下采样的新文本表示.
前馈连接层由两个卷积层组成,所以卷积操作大致相同,所以这里不再重复。在将归一化和残差连接添加到前馈连接层的输出向量之后,最终的文档向量光盘获得HMA-CNN模块的: 3.3.2. HA-BiLSTM公司
在HA-BiLSTM模块中,我们使用分层注意机制将社交用户帖子编码为可用于预测个人个性的特征表示。CNN可以提取局部空间或短期结构关系,但对序列数据的特征提取能力较差。虽然Transformer中的MHSA可以提取整个文本序列的长距离相关性,但由于缺少位置信息,它对文本顺序也不敏感。针对这个问题,我们在模型中添加了双向长短期记忆(bi-LSTM),以获取上下文信息,更好地捕获社会文本序列的双向语义依赖。其中,与递归神经网络(RNN)相比,LSTM增加了一种门机制来过滤信息,在一定程度上避免了梯度消失和梯度爆炸的问题。
首先,我们对帖子中每个单词的单词嵌入向量使用门限递归单元(GRU)编码,并使用单词注意机制形成句子集特征表示。然后,我们将分散的帖子组合成多个相同长度的序列片段,使用Bi-LSTM提取文本的时间特征,然后使用句子级注意力机制计算不同帖子中携带的个性信息,并捕获序列片段依赖性。为了将分层注意输出的句子级特征表示映射到文档向量中,避免过拟合,我们在模块末尾添加了一个完全连接层和一个丢弃层。HA-BiLSTM模块的详细架构如所示图3. 句子中表达的态度并不是由所有单词一起决定的,例如“我在上学的路上遇到了一只可爱的猫”。在这句话中,只有“cute”一词表达了情感和态度,而“Way to school”一词只是一种事实陈述,因此如果我们根据文本分析一个人的情感和性格,我们必须更加注意“cute(可爱)”等情感词。
同样,在社交用户发布的众多帖子中,并非所有文本都对用户的个性有决定性影响。我们应该将最有价值的信息编码为人格特征的表征。因此,我们使用单词级注意机器学习文本序列中与个性高度相关的单词,将其编码为句子级表示,并使用句子级注意强调与个性相关的信息,以聚合到整体文档向量中。
例如,用户发布了n个帖子我-该岗位包括M(M)单词和每个单词生成隐藏状态通过GRU: 然后,我们将单词注意机制应用于生成的隐藏状态序列:哪里是单词级注意力的习得上下文向量,exp是指数函数,是第i个帖子中第j个单词对应的隐藏向量获得的注意力权重,是权重矩阵,并且是偏差系数。两者的初始值通常是随机值。训练模型时,此值会通过反向传播自动更新。因此,根据每个单词对应的权重,特征表示的我-获得第th个post。 双LSTM是前向LSTM和后向LSTM的结合,解决了单向LSTM不能从后向前编码信息的问题。Bi-LSTM在输入和目标之间增加了一个延迟,并在网络中增加了几个时间步长,以加入未来的上下文信息。因此,它可以真正使用上下文信息来预测输出。因此,我们将Bi-LSTM而不是LSTM集成到模型中,以更好地捕获社会文本序列的双向语义依赖。Bi-LSTM的网络结构如所示图4. 为了捕获用户帖子的长距离时间特征,我们将R(右)由单词级自我关注机制编码成组的帖子表示,并将其聚合为C类新序列片段长度为100,其中由于Bi-LSTM处理的序列长度有限,序列片段的长度不宜过长,以免梯度消失。每个序列片段通过Bi-LSTM选择性地遗忘或记忆上下文小区状态中的信息,以便可以传输对小区状态计算有用的信息,同时丢弃无用信息,以及隐藏层状态将在每个时间步长输出。输入层的单词向量将在向前和向后两个方向上进行计算,并将最终输出的隐藏状态连接起来,以获得一个新的句子向量,如式(9)所示。 获得句子向量后,我们可以使用句子级注意机制将序列段编码为文档向量u个。编码过程类似于单词注意机制,如等式(10)-(12)所示:哪里是句子级注意力的习得上下文向量,是由c(c)-第个序列段。文档向量u个通过所有句子向量的加权组合和最终用户个性特征劳埃德HA-BiLSTM模块通过全连接层和丢包层获得。 3.4. 特征融合与分类
Word2Vec模型处理的社会文本数据向量矩阵可以通过CNN、Bi-LSTM和H-MHSA等架构提取不同类型的深层语义信息,但不可避免地会丢失原始文本特征的特征。
因此,为了弥补原始矩阵失去的语义,我们使用concat()函数连接文档向量光盘由HMA-CNN模块编码,文档向量劳埃德由HA-Bi-LSTM模块和原始单词向量编码根据列向量对FC层进行非线性变换后得到融合特征,如式(13)所示: 此外,为了提取多个特征之间的关联并将融合特征映射到输出空间,我们添加了一个由隐藏层神经元和适合的激活层此外,我们使用丢弃操作来避免特征冗余和过拟合。最后,我们将用户分散的帖子编码为个性表示用于预测任务。
此外,在深度学习网络的训练过程中,为了避免过拟合和减少特征冗余,我们使用丢包来处理融合特征。对于神经网络单元,按一定概率暂时从网络中丢弃它们会削弱神经元节点的联合适应性。经过交叉验证,当隐藏节点丢失率(范围0-1)设置为0.5时,效果最佳。
在本研究中,人格识别基于大五人格模型。这五种性格并不是相互排斥的,每个性格都是一个二进制值:是/否(0/1),因此它属于多标签分类问题。在设计分类模型时,我们将多标签分类转化为五个二元分类问题,然后使用多个单标签分类器进行处理。单标签分类器选择归一化指数函数softmax(),它可以将任意实数的M维向量z“压缩”为另一个M维实向量,使每个元素的范围介于0和1之间;所有元素之和为1。在我们的工作中,M应该是类别数量类num=2.其定义见方程式(14):哪里是样本z属于一第th类。样品在方程式(14)中定义(即。,M(M)= 2). 由于函数softmax()用作二进制分类器,因此输出值应类似于[0.88,0.12]的格式,并将最大概率值确定为最终预测值。因此,为了满足softmax函数二进制分类的输入要求,输入值也应该是二维值。我们对融合特征进行了点积运算和权重矩阵,并添加了相应的偏差系数. 上标我表示的特征向量和超参数我五大人格中的第个人格标签。随着和在反向传播过程中,通过调整softmax()的输出概率来提高分类精度。
为了更清楚地解释本文中提出的模型,我们的算法1和算法2中的两个重要模块以伪代码形式显示。
算法1HMA-CNN(美国有线电视新闻网) |
输入:社交帖子用Word2Vec初始化 |
输出:文档向量光盘 |
1: | 对于 k个=1,2,…,内核_num做 |
2: | |
三: | |
4: | |
5: | 结束 |
6: | |
7: | 对于g以g_size表示做 //g _尺寸=[8,4,2] |
8: | |
9: | |
10: | 结束 |
算法2HA-BiLSTM公司 |
输入:社交帖子用Word2Vec初始化 |
输出:文档向量劳埃德 //输出个性表征 |
1: | 对于 我=1,2,…,post_num做 |
2: | |
三: | |
4: | |
5: | 结束 |
6: | 结束 |
7: | |
8: | 对于 c(c)=1,2,…,C类 做 |
9: | |
10: | 结束 |
11: | |
12: | 劳埃德=句子级别附件(S公司)//用句子级注意力计算 |
4.实验与分析
4.1. 数据集
本研究中使用的实验数据来自myPersonality数据集[29]其中包括来自250名Facebook用户的社会数据,这些用户的状态约为10000,其中给定的个性标签基于五大个性模型。它是一个完整的社交网络用户数据集,包括用户文本信息和外部信息(如发布时间、网络大小等)。该研究使用名为myPersonality_text的myPersonal纯文本数据,删除了用户的外部信息。我们将处理后的数据集分成训练集和测试集,比例为9:1。 4.2. 评估指标和参数设置
我们选取准确度和F1得分作为实验结果的评价指标,计算分类准确度Acc,如式(16)所示: 我们还使用F1分数来衡量二进制分类模型的准确性。它同时考虑了分类模型的精确度和召回率,可以将其视为模型准确度和召回率的调和平均值,最大值为1,最小值为0。公式在方程式(17)-(19)中定义: 在实际训练中,我们将数据集划分为几个大小的批批处理大小并计算了批处理大小数据。在方程式(16)中,TP(转移定价)是分类器划分为阳性案例的一批数据中实际阳性案例的数量,TN公司是分类器划分为否定案例的实际否定案例数,FP公司是分类器划分为阳性案例的实际阴性案例数,以及FN公司是分类器将实际阳性案例划分为阴性案例的数量;正大小写标签值为1,负大小写标签值为0。
在我们的实验中,我们使用交叉熵损失函数和Adam优化器训练了50个epoch的网络。我们从实验结果中观察到,随着迭代次数的增加,模型在训练集中的性能越来越好,但在测试集中的性能没有提高,即模型存在过拟合现象。因此,我们将周期数控制为50,并添加一个丢弃操作,以提高模型的泛化能力。由于数据集大小的限制,将batch_size设置为32,将学习率设置为0.001是最佳组合。此外,当完全连接层中的隐藏层数量设置为128时,模型将获得最佳性能。如果参数数量过大,则模型无法在反向传播中将参数调整到最佳值。更多参数的最佳值如所示表2. 4.3. 文本序列长度的比较实验
用户在社交网络上的不同帖子之间存在相关性,不同的帖子可能会表达他们对同一事物的看法。此外,将不同帖子聚合成一个整体也确保了有足够的序列信息来帮助模型获得稳定的人格特征。序列太短,无法充分发挥MASA和Bi-LSTM在捕获远程依赖方面的优势,聚合的帖子数量太少,无法捕获分散帖子之间的依赖。然而,如果文本序列过长,则该模型的处理能力有限,并且该模型侧重于记忆大量输入信息。一方面,结合不同输入向量的预测知识会导致建模能力下降。另一方面,它也可能导致反向传播过程中的消失梯度问题,削弱模型的可靠性,导致性能下降。因此,我们设置不同的文本序列长度来探讨序列长度对模型效果的影响。
我们将具有相同ID的用户帖子聚集在一起,将文本长度分别设置为200、400和600,融合特征由原始单词特征和HMA-CNN和HA-BiLSTM提取的文档向量组成。实验结果如所示表3当文本长度为200时,平均准确率最低,为63.16%。我们将序列长度增加了200,模型准确性和F1得分也得到了提高。然而,当序列长度达到600时,该模型的整体性能呈下降趋势,与400的序列长度相比,所有人格的平均准确度下降了约6%。根据分析,文本长度为400时分类效果最好,平均分类准确率为72.01%,开放性人格的最高准确率为84.57%,F1得分为0.91。 4.4. 不同模型架构和基线模型的比较实验
为了验证不同模块对人格分类准确性的影响,我们构建了由不同模块组成的五个模型,如表4. 图5对不同模型进行了清晰的比较。与由原始CNN和Bi-LSTM组成的ECBiL模型相比,HMA-CNN模块和HA-BiLSTM模块都对人格分类任务的结果产生了积极影响,因为它们以不同的方式捕获了分散帖子之间的依赖关系。 此外,HAttn-EBiL模型的平均分类精度比HMAttn-EC模型高约2%。因此,我们认为有必要计算不同帖子和帖子中不同单词对用户个性的贡献。HA-BiLSTM以分层方式为不同位置和不同帖子中的单词分配不同的权重,并从大量信息中快速过滤出对当前任务目标更为关键的信息,而HMA-CNN模块仅提取聚合信息。帖子中不同位置的信息之间的上下文依赖性。
此外,我们还注意到,除了ECBiL模型外,没有原始嵌入模块的HMAttn-CBiL模型达到了最低峰值。可以看出,随着网络层数量的增加,模型所学习的语义特征变得更加多样化和抽象,同时也不可避免地过滤掉一些语义特征。嵌入模型的添加弥补了HMA-CNN和HA-BiLSTM模块提取的全局序列特征的原始语义,从而提高了分类精度。值得一提的是,原始嵌入模块的特征提取过程必须进行丢失、正则化和提前停止等操作,以避免过度拟合。
在本研究中,HMAttn-ECBiL结合从单词嵌入模块、HMA-CNN和HA-BiLSTM模块中提取的特征对社交用户的个性表示进行编码,然后使用softmax函数进行分类任务。我们将人格识别任务与使用单一模型提取文本特征进行了比较,该模型也基于MyPersonality数据集。实验数据对比如所示表5结果表明,我们的混合模型HMAttn-ECBiL实现了最高的人格分类准确率,平均分类准确率为72.05%。在混合模型中,五种人格类型的准确率都超过了62%。具体来说,OPN的分类性能最好,准确率为84.57%,F1得分为0.92。 在所有模型中,大五人格的每个特征的分类准确度都不同。除了平均准确度外,使用混合模型HMAttn-ECBiL执行的OPN和AGR的性能准确度也高于使用附加语言特征或社交网络分析特征的基线模型。与基线模型相比,该混合模型的人格识别准确率提高了3–20%。此外,单词级和消息级注意的层次模型[6]选择Lynn等人提出的HMAttn-ECBiL作为对照组,HMAttn-EC BiL在五种人格特征和平均值的准确性方面均优于层次模型。 实验数据的比较证明了我们的混合模型的优越性。HMA-CNN和HA-BiLSTM以分区和分层的方式对不同类型的用户个性表示进行编码。它承载了与个性信息相关的关键语义信息以及分散帖子之间的依赖关系。因此,多种深度学习技术和原始的单词嵌入向量的集成最大限度地实现了文本信息的水平和垂直挖掘,从而增加了网络模型的深度和宽度,确保了语义特征的完整性。结果,分类性能大大提高。
5.结论
个性识别广泛应用于个性化推荐、智能医学、自然语言处理等领域。同时,深度神经网络在文本建模中的巨大优势促进了分类任务的发展。本文提出了一种基于自关注机制的层次混合模型HMAttn-ECBiL,它由HMA-CNN、HA-BiLSTM和原始单词嵌入模块组成。一方面,HMA-CNN以层次级联的方式学习文本数据中的全局特征。序列区域的划分使得提取的语义信息更加准确,降低了MHSA的计算复杂度。另一方面,HA-BiLSTM使用不同水平的注意机制和Bi-LSTM来捕获聚合帖子中的长距离依赖和顺序特征。值得一提的是,与HMA-CNN相比,HA-BiLSTM能够集中于人格特征的关键信息,从而大大提高了分类的准确性。
此外,单词嵌入模型的添加弥补了HMA-CNN和HA-BiLSTM模块对一些原始语义的过滤,从而确保了特征的完整性和多样性。多种深度学习技术的集成增加了网络的深度和宽度,使文本信息得到更有效的利用。与不同模型架构和单一深度学习技术构建的基线模型相比,基于自我关注机制的层次混合模型HMAttn-ECBiL在人格分类方面取得了最新的成果。
信息化社会和大数据时代导致各种网络空间文本数据中隐藏了个人隐私。基于文本数据的开放性和可访问性,采用机器学习算法和深度学习模型可以有效地获取用户的个性信息,这也成为泄露个性隐私的最重要渠道之一。因此,在计划的未来研究中,人格隐私保护将是一个至关重要的研究方向。从弱点的来源入手,分析个性隐私泄露的原理,然后对文本数据进行转换,从而降低文本数据中的个性隐私,阻止攻击者分析数据中的个性化隐私。