\`x^2+y_1+z_12^34\`
高级搜索
文章内容
文章内容

非平衡数据分类的同心二次曲面和最大边缘法

  • *通讯作者:叶田

    *通讯作者:叶田
摘要 全文(HTML) (0)/表(8) 相关论文 引用人
  • 本文提出了一种新的同心二次曲面和最大边距(HQSMM)方法用于非平衡数据分类。与采用核函数的传统支持向量机(SVM)模型不同,HQSMM直接在原始空间中找到两个同心二次曲面。一方面,小二次曲面包含尽可能多的多数类样本;另一方面,大二次曲面试图推出尽可能多的少数类样本。此外,采用最大裕度原则来最小化误分类错误。这样,HQSMM不仅避免了搜索最优核函数及其相应参数的困难和耗时的过程,而且可以等效地重新表述为线性规划问题。因此,该方法的整体效率得到了很大的提高,并且能够有效地处理一些实际的大型问题。最后,进行了综合实验,以检查我们的方法和一些基准方法的性能和效率。在各种人工数据集和实际数据集上的数值结果有力地证明了我们的方法在解决不平衡分类问题上的优越性。

    数学学科分类:初级:62H30、90C20。

    引用:

    \开始{方程式}\\结束{方程式{
  • 加载中
  • 表1。 关于两类人工数据集的详细信息

    数据集 #功能 #样品 #积极的 #否定
    Ⅰ型
    第1条 40 30 10
    第2条 5 65 50 15
    第3条 10 80 60 20
    第4条 20 155 120 35
    第5条 40 300 250 50
    第6条 60 480 400 80
    Ⅱ型
    第7条 5 65 50 15
    第8条 8 100 80 20
    第9条 10 125 100 25
    第10条 30 240 200 40
    第11条 50 490 400 90
    第12条 70 700 600 100
    |显示表格
    下载:CSV公司

    表2。 七种模型在12个人工数据集上的非平衡分类性能比较

    数据集 支持向量机 SSLM公司 THSVM公司 MMTSSVM公司 F-QSSVM公司 S-QSSVM系统 HQSMM公司
    g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s)
    Ⅰ型
    第1条 71.18美元\pm 6.11美元 82.35美元\pm 5.03美元 75.72美元\pm 5.40美元 82.59美元\pm 5.31美元 89.26美元\pm 3.48美元 93.27美元\下午3.17美元 ${\mathbf{93.44\pm3.23}}$
    18.19 147.6 128.2 120.1 3.46 4.08 ${\mathbf{0.950}}$
    第2条 73.19美元\pm 6.43美元 87.64美元\pm 4.78美元 77.16美元\pm 5.56美元 87.32美元\pm 5.20美元 90.12美元\pm 3.56美元 92.97美元\pm 3.14美元 ${\mathbf{93.28\pm3.24}}$
    21.92 207.2 144.7 135.1 3.93 4.37 ${\mathbf{1.071}}$
    第3条 73.30美元\下午6.08美元 87.92美元\pm 4.49美元 77.36美元\pm 5.37美元 87.50美元\pm 4.88美元 90.77美元\pm 3.51美元 ${\mathbf{93.46\pm2.73}}$ 93.21美元\pm 3.05美元
    25.44 226 169.8 148.5 4.13 4.80 ${\mathbf{1.098}}$
    第4条 73.81美元\pm 5.72美元 88.13美元\pm 4.42美元 77.97美元\pm 5.01美元 88.08美元\pm 4.95美元 91.09美元\下午3.35美元 93.25美元\pm 2.44美元 ${\mathbf{93.56\pm2.98}}$
    33.36 308.4 225.4 220.1 8.36 9.15 ${\mathbf{1.781}}$
    第5条 75.08美元\pm 5.94美元 88.10美元\pm 4.29美元 78.61美元\pm 4.51美元 88.73美元\pm 4.68美元 91.55美元\pm 3.28美元 ${\mathbf{95.40\pm2.26}}$ 95.28美元\pm 2.41美元
    37.42 365.2 300.4 281.5 14.39 16.02 ${\mathbf{2.230}}$
    第6条 76.14美元\pm 5.68美元 89.41美元\下午3.73美元 77.92美元\pm 4.59美元 89.42美元\pm 4.21美元 92.03美元\pm 3.18美元 95.87美元\pm 2.17美元 ${\mathbf{96.43\pm2.36}}$
    48.54 453.1 342.8 329.7 33.31 35.65 ${\mathbf{3.643}}$
    Ⅱ型
    第7条 61.84美元\pm 6.92美元 70.75美元\下午6.68美元 65.20美元\pm 9.29美元 70.13美元\pm 10.35美元 82.67美元\pm 5.22美元 90.43美元\pm 4.88美元 ${\mathbf{92.51\pm5.03}}$
    20.36 196.2 124.7 127.7 4.01 4.58 ${\mathbf{0.991}}$
    第8条 61.14美元\pm 7.50美元 71.47美元\pm 7.43美元 65.28美元\pm 11.53美元 70.61美元\pm 11.15美元 86.12美元\下午$5.07 ${\mathbf{93.18\pm4.80}}$ 92.84美元\pm 4.93美元
    26.92 238.1 194.3 173.6 4.30 4.85 ${\mathbf{1.201}}$
    第9条 63.09美元\pm 7.11美元 72.57美元\pm 7.33$ 68.19美元\pm 9.02美元 70.87美元\pm 9.40美元 87.24美元\pm 4.98美元 ${\mathbf{92.77\pm4.51}}$ 92.60美元\pm 4.73美元
    30.22 276.9 216.1 201.4 8.67 9.21 ${\mathbf{1.447}}$
    第10条 63.81美元\pm 6.40美元 73.03美元\pm 6.72美元 68.26美元\pm 8.35美元 73.79美元\pm 8.91美元 88.46美元\pm 4.75美元 92.94美元\pm 4.19美元 ${\mathbf{93.20\pm 4.48}}美元$
    35.54 327.2 228.6 225.1 15.05 16.18 ${\mathbf{2.247}}$
    第11条 66.03美元\下午6.18美元 77.45美元\pm 6.20美元 68.77美元\pm 7.49美元 75.13美元\pm 8.08美元 90.31美元\pm 4.53美元 93.76美元\pm 3.85美元 ${\mathbf{94.31\pm 4.08}}美元$
    42.58 375.2 324.3 292.1 32.76 34.81 ${\mathbf{3.447}}$
    第12条 66.19美元\pm 5.70美元 78.28美元\pm 5.52美元 68.46美元\pm 7.01美元 75.74美元\pm 7.18美元 91.26美元\pm 4.08美元 94.35美元\下午3.21美元 ${\mathbf{94.87\pm 3.53}}美元$
    56.12 529.8 449.6 410.7 38.60 40.18 ${\mathbf{4.622}}$
    |显示表格
    下载:CSV公司

    表3。 12个人工数据集上7个模型的g-mean平均秩

    数据集 支持向量机 SSLM公司 THSVM公司 MMTSSVM公司 F-QSSVM公司 S-QSSVM系统 HQSMM公司
    Ⅰ型
    第1条 7 5 6 4 2 1
    第2条 7 4 6 5 2 1
    第3条 7 4 6 5 2 1
    第4条 7 4 6 5 2 1
    第5条 7 5 6 4 2 1
    第6条 7 5 6 4 2 1
    Ⅱ型
    第7条 7 4 6 5 2 1
    第8条 7 4 6 5 2 1
    第9条 7 4 6 5 2 1
    第10条 7 5 6 4 2 1
    第11条 7 4 6 5 2 1
    第12条 7 4 6 5 2 1
    平均排名 7 4.33 6 4.67 2 1
    |显示表格
    下载:CSV公司

    表4。 有关基准数据集的详细信息

    数据集 #功能 #样品 #积极的 #否定
    鸢尾花 4 65 50 15
    种子 7 90 70 20
    声纳 60 131 111 20
    电离层 34 250 225 25
    乳腺癌 30 393 357 36
    皮马 8 550 500 50
    汽车评估 6 1410 1210 120
    魔术 10 13565 12332 1233
    HTRU2型 8 17885 16259 1626
    皮肤 4 213618 194198 19420
    |显示表格
    下载:CSV公司

    表5。 基于十个基准数据集的七种非平衡分类模型的性能比较

    数据集 支持向量机 SSLM公司 THSVM公司 MMTSSVM公司 F-QSSVM公司 S-QSSVM系统 HQSMM公司
    g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s)
    鸢尾花 93.81美元\pm 2.68美元 ${\mathbf{94.96\pm2.50}}$ 94.07美元\下午3.75美元 94.46美元\pm 3.63美元 94.01美元\pm 3.04美元 94.85美元\pm 2.88美元 94.28美元\pm 2.97美元
    20.08 195.2 135.6 124.1 2.94 3.63 ${\mathbf{0.932}}$
    种子 89.38美元\下午2.25美元 91.30美元\pm 2.63美元 87.04美元\pm 3.28美元 90.77美元\pm 3.03美元 91.20美元\pm 2.61美元 ${\mathbf{91.83\pm2.27}}$ 91.46美元\pm 2.29美元
    25.11 228.1 165.2 148.6 3.25 3.87 ${\mathbf{1.169}}$
    声纳 62.18美元\pm 16.70美元 73.89美元\pm 12.65美元 ${\mathbf{75.71\pm14.06}}$ 73.88美元\pm 13.72美元 73.70美元\pm 12.33美元 74.41美元\pm 9.95美元 74.76美元\pm 10.36美元
    37.03 28.45 249 231.8 24.53 28.39 ${\mathbf{2.065}}$
    电离层 80.42美元\pm 10.53美元 86.42美元\pm 4.97美元 80.51美元\下午7.76美元 85.18美元\pm 8.06美元 84.81美元\pm 4.22美元 86.82美元\pm 4.12美元 ${\mathbf{87.61\pm4.33}}$
    37.35 357 263.1 255.9 18.46 20.08 ${\mathbf{1.837}}$
    乳腺癌 82.20美元\下午11点07分 88.87美元\pm 5.63美元 87.12美元\pm 9.61美元 88.74美元\下午9.01美元 88.26美元\pm 5.87美元 90.42美元\pm 5.23美元 ${\mathbf{91.12\pm6.31}}$
    38.07 368.3 272.6 254.5 19.19 21.15 ${\mathbf{1.928}}$
    皮马 63.82美元\pm 7.17美元 68.90美元\下午5.45美元 62.77美元\pm 6.38美元 ${\mathbf{71.01\pm7.09}}$ 69.22美元\pm 4.90美元 70.04$\下午$4.38 70.35美元\pm 5.47美元
    35.44 369.1 298.9 285.4 13.31 15.16 ${\mathbf{1.640}}$
    汽车评估 93.86美元\pm 1.01美元 94.68美元\pm 1.62美元 94.45美元\pm 1.90美元 95.17美元\pm$1.21 94.18美元\pm 0.95美元 ${\mathbf{95.25\pm0.88}}$ 95.10美元\pm 1.04美元
    48.63 750.8 630.4 597.1 20.48 24.07 ${\mathbf{3.668}}$
    魔术 71.12美元\pm 4.39美元 73.74美元\pm 4.75美元 70.86美元\pm 6.65美元 74.10美元\pm 6.13美元 75.33美元\pm 4.58美元 76.27美元\pm 4.31美元 ${\mathbf{76.61\pm5.24}}$
    255.9 3600 3600 3600 80.55 89.09 ${\mathbf{16.81}}$
    HTRU2型 91.95美元\pm 2.43美元 93.07美元\pm 1.23美元 91.84美元\pm 1.93美元 92.30美元\pm 2.28美元 94.18美元\pm 1.37美元 94.82美元\下午1.25美元 ${\mathbf{95.01\pm1.49}}$
    382.4 3600 3600 3600 84.07 91.75 ${\mathbf{19.73}}$
    皮肤 95.01美元\pm 0.70美元 93.18美元\下午0.73美元 93.29美元\pm 1.37美元 94.36美元\pm 1.36美元 95.10美元\pm 0.73美元 96.45美元\pm 0.66美元 ${\mathbf{97.05\pm 0.68}}美元$
    450.4 3600 3600 3600 138.5 152.5 $\textbf{27.11}$
    |显示表格
    下载:CSV公司

    表6。 十个基准数据集上五个模型的g-mean平均秩

    数据集 支持向量机 SSLM公司 THSVM公司 MMTSSVM公司 F-QSSVM公司 S-QSSVM系统 HQSMM公司
    鸢尾花 7 1 5 6 2 4
    种子 6 7 5 4 1 2
    心脏 7 5 1 4 6 2
    电离层 7 6 4 5 2 1
    乳腺癌 7 4 6 5 2 1
    皮马 6 5 7 1 4 2
    汽车评估 7 4 5 6 1 2
    魔术 6 5 7 4 2 1
    HTRU2型 6 4 7 5 2 1
    皮肤 4 7 6 5 2 1
    平均排名 6.3 4.1 5.7 3.9 4.3 2 1.7
    |显示表格
    下载:CSV公司

    表7。 非寿险公司的公司层面变量

    索引 索引 比率
    一层楼 盈余 R1级 净保费/盈余
    地上二层 技术储备净额 R2级 技术储备/净保费
    第三层 其他负债合计 R3级 技术储备/盈余
    四层 总负债 R4级 液体Ast/技术研究+其他。狮子座
    五楼 总投资 R5级 流动资产+负债公司/净技术资产+其他流动资产
    六楼 其他资产合计 R6级 费用比率
    第7层 总资产 R7级 损失率
    8层 总承保保费 R8级 税前盈利能力
    九楼 净承保保费 第9轮 Liq.Ast/Net技术研究。
    10层 赚取的净保费 10兰特 Bef利润。税金/净预付令状。
    2011财年 承保费用 第11版 总保费/盈余
    2012财年 承销结果 12兰特 盈余变动
    2013财年 净投资收益 第13版 技术储备变化
    14层 税前利润 14兰特 净保费书面变更。
    15层 银团利润
    16层 税后利润
    17层 支出后利润
    |显示表格
    下载:CSV公司

    表8。 七种模型在保险公司破产数据集上的性能比较

    数据集 支持向量机 SSLM公司 THSVM公司 MMTSSVM公司 F-QSSVM公司 S-QSSVM系统 HQSMM公司
    g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s) g-平均值(%)时间(s)
    仅限于固定级别 85.71美元\pm 3.14美元 87.77美元\pm 3.16美元 85.01美元\pm 3.93美元 87.21美元\pm 4.02美元 87.16美元\pm 3.20美元 87.84美元\pm 2.73美元 ${\mathbf{88.20\pm 3.25}}美元$
    特征 93.52 984.7 853.8 766.1 36.62 39.71 ${\mathbf{7.403}}$
    公司级和 86.17美元\下午2.98美元 88.40美元\pm 3.38美元 85.96美元\pm 4.05美元 88.03美元\pm 4.07美元 87.18美元\pm 3.55美元 88.36美元\pm 2.73美元 ${\mathbf{88.75\pm 3.30}}美元$
    宏观经济特征 100.5 1218 925.6 793.8 37.84 40.13 ${\mathbf{7.831}}$
    |显示表格
    下载:CSV公司
  • [1] M.Al-Smadi,《信贷风险、宏观经济和银行特定因素》,2011年。
    [2] K.Bache和M.Lichman,Uci机器学习库,http://archive.ics.uci.edu/ml, 2013.
    [3] Y.蔡B.牛以及Y.Chen先生,用半监督支持向量机检测蛋白质同源性的新sdp模型,优化,62(2013), 561-572. 数字对象标识:10.1080/02331934.2011.611515.
    [4] N.Chawla公司K.鲍耶L.霍尔以及W.Kegelmeyer先生SMOTE:合成少数人过采样技术,人工智能研究杂志,16(2002), 321-357. 数字对象标识:10.1613/jair.953。
    [5] J.Cheng(成)以及M.维斯RBC、飓风风险敞口、债券投资组合持续时间、宏观经济和行业范围内的房地产破产预测因素,风险保险杂志,79(2012), 723-750. 
    [6] H.Chew公司以及C.林,关于支持向量机的正则化参数变换,工业与管理优化杂志,5(2017), 403-415. 数字对象标识:10.3934/jimo.2009.5.403。
    [7] J.德姆沙尔,多个数据集上分类器的统计比较,机器学习研究杂志,7(2006), 1-30. 
    [8] G.丰以及O.Mangasarian公司,多类别近端支持向量机分类器,机器学习,59(2005), 77-97. 数字对象标识:10.1007/s10994-005-0463-6。
    [9] 圣加西亚A.费尔南德斯J.卢恩戈以及F.埃雷拉《计算智能和数据挖掘实验设计中多重比较的高级非参数测试:功率实验分析》,信息科学,180(2010), 2044-2064. 
    [10] A.盖尔曼以及D.鲁宾,从使用多个序列的迭代模拟中推断,统计科学,7(1992), 457-472. 数字对象标识:10.1214/ss/1177011136。
    [11] M.Grant和S.Boyd,CVX:Matlab软件,用于专业编程,1.2版, 2010.
    [12] D.伊萨L·李V.卡拉马尼以及拉吉库马尔,使用贝叶斯公式对文本文档进行预处理,以便使用支持向量机进行分类,IEEE知识与数据工程汇刊,20(2008), 1264-1272. 数字对象标识:10.1109/TKDE.2008.76。
    [13] R.Khemchandani以及S.Chandra公司,用于模式分类的双支持向量机,IEEE模式分析和机器智能汇刊,29(2007), 905-910. 
    [14] Z.李Y.Tian先生K.李F.周以及W.杨,使用半监督支持向量机拒绝信用评分中的推理,带应用程序的专家系统,74(2017), 105-114. 
    [15] K.林以及陈先生,关于隐私保护svm分类器的设计与分析,IEEE知识与数据工程汇刊,23(2011), 1704-1717. 数字对象标识:10.1109/TKDE.2010.193。
    [16] W.林C.蔡胡彦宏(Y.Hu)以及J.Jhang先生、基于聚类的欠采样直接应用于类平衡数据科学,信息科学,409/410(2017), 17-26. 
    [17] 刘彦(Y.Liu)以及Y.Chen先生,使用基于总边缘的自适应模糊支持向量机进行人脸识别,IEEE神经网络和学习系统汇刊,18(2007), 178-192. 
    [18] J.罗S.-C.方Y.Bai先生以及Z.邓基于fisher判别分析的模糊二次曲面支持向量机,工业与管理优化杂志,12(2016), 357-373. 数字对象标识:10.3934/jimo.2016.12.357。
    [19] J.罗Y.Tian先生以及十、燕,基于模糊一类二次曲面支持向量机的聚类,软计算,21(2017), 1-7. 
    [20] J.罗X.杨Y.Tian先生以及于伟(W.Yu),通过具有模糊类内分散的模糊非核SVM对公司和个人信用评分,工业与管理优化杂志,16(2020), 2743-2756. 数字对象标识:10.3934/jimo.2019078。
    [21] J.Min(最小值)以及Y.Lee先生、利用核函数参数最优选择的支持向量机进行破产预测,带应用程序的专家系统,28(2005), 603-614. 
    [22] M.Ohsaki先生P.王马苏达S.Katagiri公司H.渡边以及A.拉莱斯库,基于模糊矩阵的核logistic回归用于不平衡数据分类,IEEE知识与数据工程汇刊,29(2017), 1806-1819. 数字对象标识:10.1109/TKDE.2017.2682249。
    [23] Y.公园以及J·戈什,$\alpha$的集合-不平衡分类问题的树,IEEE知识与数据工程汇刊,26(2013), 131-143. 数字对象标识:10.1109/TKDE.2012.255。
    [24] X.彭以及D.徐,一个双超球面支持向量机分类器和快速学习算法,信息科学,221(2013), 12-27. 数字对象标识:10.1016/j.ins.2012.09.09。
    [25] S.Pottier公司以及D.索默、集团级财务信息在保险公司偿付能力监管中价值的实证证据,风险管理和保险审查,14(2011), 73-88. 数字对象标识:10.1111/j.1540-6296.2011.0195.x。
    [26] Y.Shao先生W.Chen先生J.张Z.Wang(王)以及N.邓一种用于不平衡数据分类的高效加权拉格朗日双支持向量机,模式识别,47(2014), 3158-3167. 
    [27] J.Suykens、T.Van Gestel、J.De Brabanter、B.De Moor和J.Vandewalle,最小二乘支持向量Mchines《新加坡:世界科学》,2002年。
    [28] M.塔希尔J.基特勒K.米科拉伊奇克以及F.闫,使用逆随机欠采样解决类别不平衡问题的多专家方法,多分类器系统国际讲习班,5519(2009), 82-91. 数字对象标识:10.1007/978-3-642-02326-2_9.
    [29] Y.Tian先生以及J.罗,半监督支持向量机的一种新的分枝定界方法,软计算,2016(2016), 245-254. 数字对象标识:10.1155/2016/6471672.
    [30] Y.Tian先生Z.齐X.朱Y.Shi先生以及十、刘,用于模式分类的非并行支持向量机,IEEE控制论汇刊,44(2014), 1067-1079. 
    [31] Y.Tian先生M.孙Z.邓J.罗以及Y.Li(李彦宏),一种新的模糊集和非核支持向量机方法及其应用,IEEE模糊系统汇刊,25(2017), 1536-1545. 数字对象标识:10.1109/TFUZZ.2017.2752138。
    [32] Y.Tian先生Y.Wei先生赖先生以及M.赵,利用非核模糊二次曲面支持向量机预测非寿险公司破产,工业与管理优化杂志,15(2019), 985-999. 数字对象标识:10.3934/jimo.2018081。
    [33] N.详细E.雷蒙托C.角膜以及F.埃雷拉,使用SMOTE预处理带噪声的不平衡数据集,并使用模糊粗糙原型选择进行增强,应用软计算,22(2014), 511-517. 
    [34] 吴先生以及J.叶,使用带有离群值的训练数据进行新颖性检测的小范围大裕度方法,IEEE模式分析和机器智能汇刊,31(2009), 2088-2092. 
    [35] C.谢C.罗以及X.于、基于svm和mda方法的财务困境预测:中国上市公司案例,资格。数量。,45(2011), 671-686. 数字对象标识:2007年10月17日/11135-010-9376-y。
    [36] J.Xu先生Y.Tang(唐英年)B.周Z.Xu先生以及李立群(L.Li),基于马尔可夫抽样的支持向量机分类的泛化能力,IEEE传输。神经网络。学习。系统。,26(2015), 628-639. 数字对象标识:10.1109/TNNLS.2014.2361026。
    [37] Y.Xu先生,非平衡数据分类的双球支持向量机最大余量,IEEE控制论汇刊,47(2017), 1540-1550. 数字对象标识:10.1109/TCYB.2016.2551735。
    [38] 十、燕Y.Bai先生S.-C.方以及J.罗,用于半监督二值分类的近二次曲面支持向量机,软计算,22(2018), 6905-6919. 数字对象标识:10.1007/s00500-017-2751-z。
    [39] 十、燕Y.Bai先生S.-C.方以及J.罗,用于半监督学习的无核二次曲面支持向量机,运筹学学会杂志,67(2016), 1001-1011. 
    [40] Q.翟Y.Tian先生以及J.Zhou(周),一种基于约束的二次曲面支持向量机,用于错误标记信息的非平衡分类,工业与管理优化杂志,19(2023), 1310-1327. 数字对象标识:10.3934/jimo.2021230。
    [41] Y.Zhan先生Y.Bai先生W.Zhang先生以及S.Ying公司,稀疏二次无核最小二乘半监督支持向量机的p-admm,神经计算,306(2018), 37-50. 数字对象标识:2016年10月10日/j.neucom.2018.03.069。
    [42] L.张以及N.尼尔森《财产意外保险偿付能力分析和预测:结合经济和市场预测因素》,风险保险杂志,82(2015), 97-124. 数字对象标识:10.1111/j.1539-6975.2013.12012.x。
    [43] 十、张以及B.胡一种新的无成本学习策略,IEEE知识与数据工程汇刊,26(2014), 2872-2885. 数字对象标识:10.1109/TKDE.2014.2312336。
  • 加载中

桌子(8)

分享

文章指标

HTML视图(548) PDF下载(144) 引用人(0)

访问历史记录

作者撰写的其他文章

目录

    /

    返回
    返回