目前,处理不平衡数据是数据挖掘和机器学习任务中的一大挑战。在本次调查中,我们对作者归因(AA)任务中的类别不平衡问题感兴趣,并对阿拉伯语文本数据进行了具体应用。本文提出了一种基于主成分分析(PCA)和合成少数过采样技术(SMOTE)的混合方法,大大提高了非平衡数据的作者归属性能。使用的数据集包含7位不同学者编写的7本阿拉伯语书籍,这些书籍被分割成相同大小的文本段,平均每篇文本长度为2900个单词。实验结果表明,本文提出的基于SMO-SVM分类器的方法在作者归属准确率(100%)方面表现出很高的性能,尤其是在起始字符图方面。此外,通过改善不平衡数据集(主要是功能词)中的AA性能,该方法显得非常有趣。“,”DOI“:”10.4018\/ijcini.20211001.oa33“,”type“:”journal-article“,”created“:{”date-parts“:[2021,7,29]],”date-time“:”2021-07-29T20:49:57Z“,”timestamp“:1627591797000}“,”page“:“1-17”,“source”:“Crossref”,“is-referenced-by-count”:4,“title”:[“使用合成少数民族过采样技术和主成分分析对不平衡文档进行阿拉伯语作者归属“],”前缀“:”10.4018“,”卷“:”15“,”作者“:[{”ORCID“:”https:\/\/ORCID.org\/00000-0002-5409-6576“,”authenticated-ORCID“:true,”given“:“Hassina”,”family“:”Hadjadj“,”sequence“:”first“,”affiliation“:”[{“name”:“阿尔及利亚USTHB大学“}]},{“given”:“Halim”,“family”:“Sayoud”,“sequence”:“additional”,“affiliation”:[{“name”:“USTHB University,Algeria”}]}],“member”:“2432”,“container-title”:[“International Journal of Cognitive Informatics and Natural Intelligence”],“original-tittle”:[],“language”:“ng”,“link”:[{“URL”:“https:\/\/www.igi-global.com/viewtitle.aspx?TitleId=273159“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2023,1,16]],”date-time“:“2023-01-16T21:48:15Z”,”timestamp“:1673905695000},”score“:1,”resource“:”{“primary”:{“URL”:“https:\//services.gi-global.com\/resolvedoi\/resulte.aspx?doi=10.4018\/IJCINI.20211001.oa33“}},”subtitle“:[”“],”shorttitle“:[],”issued“:{”date-parts“:[[2021,7,29]]},“references-count”:0,“journal-issue”:{“issue”:“4”,”published-print“:{”date-ports“:[2021,10]}}”,“URL”:“https:\\/doi.org\/10.4018\/IJCINI.20211001.oa 33“,”关系“:{},”ISSN“:[”1557-3958“,”1557-39“],”ISSN-type“:[{”type“:”print“,”value“:”1557-3958“},{“类型”:“电子”,“值”:“1557-3966”}],“主题”:[],“发布”:{“日期部分”:[[2021,7,29]]}}