×

通过特征选择和集成分类技术,在线社交网络中攻击性语言检测计算中的深度学习和自然语言处理。 (英语) Zbl 1512.68295号

概要:攻击性传播已经进入社交媒体帖子。使用计算算法来区分令人反感的内容是处理此问题的最有效方法之一。处理此问题的最有效方法之一是使用计算方法来区分不需要的内容。本研究旨在解决在特征选择和分类中使用的MOLD_DL(使用深度学习的多语言攻击性语言检测)技术和自然语言处理。这里的数据集是从YouTube、Twitter和Facebook收集的,这些数据已经过预处理,可以去除噪音、过滤和删除停止词并进行分段。利用模糊卷积神经网络(FCNN)对分段数据进行特征选择。然后,利用Bi-LSTM模型的集成结构,结合朴素贝叶斯体系结构和支持向量机(SVM),对所选特征进行提取和分类。攻击性语言检测的评估是基于文本的情感自动分类的。本文利用混淆矩阵对YouTube、Twitter和Facebook数据集在检测各种语言攻击性文本时的准确率98%、准确率95%、召回率90%、F-1得分92.5%和RMSE 45%进行了实验分析。

MSC公司:

68T07型 人工神经网络与深度学习
68T05型 人工智能中的学习和自适应系统
68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.Kumar、A.K.Ojha、S.Malmasi、M.Zampieri,《社交媒体中的评估、攻击性识别》,载于:《第二次关于控制、攻击和网络欺凌的研讨会论文集》,法国马赛,2020年5月16日,第1-5页。
[2] M.Zampieri、S.Malmasi、P.Nakov、S.Rosenthal、N.Farra、R.Kumar,《SemEval-2019任务6:识别和分类社交媒体中的攻击性语言》(OffenseEval),摘自:《第十三届语义评估国际研讨会论文集》,美国明尼阿波利斯,2019年6月6日至7日,第75-86页。
[3] T.Ranasinghe,M.Zampieri,《跨语言嵌入的多语言攻击性语言识别》,载《2020年自然语言处理实证方法会议论文集》,在线,2020年11月16日至20日,第5838-5844页。
[4] S.Sai、Sharma、Y.Towards,《德拉维甸语言的攻击性语言识别》,载于:《德拉维甸语言语音和语言技术第一次研讨会论文集》,乌克兰基辅,2021年4月19日至20日,第18-27页。
[5] Hettiarachchi,H。;Adedoyin-Olowe,M。;Bhogal,J。;Gaber,M.M.,Embed2Detect用于社交媒体事件检测的临时聚集嵌入单词,Mach。学习。(2021) ·Zbl 07510306号
[6] Sharma,I.,《仇恨言论的语境化:对印度和马来西亚的研究》,Millenn。《国际研究杂志》,第15期,第133-144页(2019年)
[7] 拉纳辛格,T。;Zampieri,M.,低资源语言的多语言攻击性语言识别(2021),arXiv
[8] T.Ranasinghe,E.S.Zampieri,MUDES:攻击跨度的多语言检测,载于:计算语言学协会北美分会2021年会议记录:人类语言技术:演示,在线,2021年6月8-9日,第144-152页。
[9] 拉纳辛格,T。;Zampieri,M.,《印度语言的多语言攻击性语言识别方法评估》,《信息》,第12、8、306页(2021年)
[10] 瓦桑塔拉扬,C。;Thayasivam,U.,《针对泰米尔语编码的YouTube评论和帖子进行冒犯性语言识别》,SN Compute。科学。,3, 1, 1-13 (2022)
[11] Plaza-del-Arco,F.M。;Molina-González,医学博士。;Urena-López,洛杉矶。;Martín-Valdivia,M.T.,《西班牙语仇恨语音检测的预训练语言模型比较》,专家系统。申请。,166,第114120条pp.(2021)
[12] 比拉达尔,S。;索米亚,S。;Chauhan,A.,仇恨或非仇恨:基于翻译的混合兴式英语数据集中的仇恨语音识别,(2021年IEEE国际大数据会议,2021年12月IEEE大数据国际会议,IEEE),2470-2475
[13] Al-Hassan,A。;Al-Dossari,H.,《使用深度学习检测阿拉伯语推文中的仇恨言论》,多媒体。系统。,1-12 (2021)
[14] Nanglia等人。;库马尔,S。;Mahajan,A.N。;辛格,P。;Rathee,D.,使用SVM和神经网络进行肺癌分类的混合算法,ICT Express,7,3,335-341(2021)
[15] Almezhghwi,K。;塞尔特,S。;Al-Turjman,F.,物联网时代胸部X射线分类的卷积神经网络,多媒体。工具应用。,80, 19, 29051-29065 (2021)
[16] O.Alharbi,一种将CNN和Bi-LSTM与SVM分类器相结合的深度学习方法,用于阿拉伯语情绪分析。
[17] Fesseha,A。;熊,S。;埃米鲁,E.D。;Diallo,M。;Dahou,A.,基于卷积神经网络的文本分类和低资源语言的单词嵌入:Tigrinya,Information,12,2,52(2021)
[18] 瓦希斯塔,N。;Zubiaga,A.,《在线多语言仇恨语音检测:印地语和英语社交媒体的实验》,《信息》,第12、1、5页(2021年)
[19] 卢,S.T。;Nguyen,K.V。;Nguyen,N.L.T.,越南社交媒体文本仇恨语音检测的大规模数据集,(应用智能系统的工业、工程和其他应用国际会议(2021年7月),Springer:Springer-Cham),415-426
[20] Vitiugin,F。;Senarath,Y。;Purohit,H.,《利用交互式注意力网络和最少的人类反馈高效检测多语种仇恨言语》(第13届ACM 2021年网络科学会议(2021年6月)),130-138
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。