基于合成少数民族过采样技术的阿拉伯文作者归属及不平衡文献的主成分分析

哈西娜·哈贾德（Hassina Hadjadj）、哈利姆·萨尤德（Halim Sayoud）

国际标准编号：1557-3958|EISSN公司：1557-3966|EISBN13：9781799859857|内政部：10.4018/IJCINI.20211001.oa33

MLA公司

哈贾德、哈西纳和哈利姆·萨尤德。“使用合成少数过度抽样技术和不平衡文献的主成分分析的阿拉伯语作者归因。”IJCINI公司第15卷，2021年第4期：第1-17页。http://doi.org/10.4018/IJCINI.20211001.oa33

亚太地区

Hadjadj，H.和Sayoud，H.（2021）。使用合成少数民族过采样技术和不平衡文档主成分分析的阿拉伯语作者归属。国际认知信息学与自然智能杂志（IJCINI），15(4), 1-17. http://doi.org/10.4018/IJCINI.20211001.oa33

芝加哥

哈贾德、哈西纳和哈利姆·萨尤德。“使用合成少数民族过采样技术和不平衡文档的主成分分析进行阿拉伯语作者归属”国际认知信息学与自然智能杂志（IJCINI）15，4号：1-17。http://doi.org/10.4018/IJCINI.20211001.oa33

导出参考

最喜欢的完整发布下载

查看全文HTML

查看全文PDF

摘要

如今，处理不平衡数据在数据挖掘和机器学习任务中都是一个巨大的挑战。在本次调查中，我们对作者归因（AA）任务中的类别不平衡问题感兴趣，并对阿拉伯语文本数据进行了具体应用。本文提出了一种基于主成分分析（PCA）和合成少数过采样技术（SMOTE）的混合方法，大大提高了非平衡数据的作者归属性能。使用的数据集包含7位不同学者编写的7本阿拉伯语书籍，这些书籍被分割成相同大小的文本段，平均每篇文本长度为2900个单词。实验结果表明，本文提出的基于SMO-SVM分类器的方法在作者归属准确率（100%）方面表现出很高的性能，尤其是在起始字符图方面。此外，通过改善不平衡数据集（主要是功能词）中的AA性能，该方法显得非常有趣。