×

可解释聚类:一种优化方法。 (英语) Zbl 07432799号

摘要:最先进的聚类算法几乎没有深入了解聚类成员的基本原理,限制了它们的可解释性。在复杂的实际应用中,当专家被要求对他们的算法建议提供详细解释时,后者对机器学习的采用构成了障碍。我们提出了一种新的无监督学习方法,该方法利用混合整数优化技术生成可解释的基于树的聚类模型。利用灵活的优化驱动框架,我们的算法逼近全局最优解,从而实现高质量的特征空间划分。我们提出了一种新的方法,可以优化各种聚类内部验证指标,并自然地确定最佳聚类数。它成功地解决了混合数值和分类数据的挑战,在合成和真实数据集上取得了与其他聚类方法相当或优越的性能,同时提供了显著更高的可解释性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。第18届ACM-SIAM离散算法研讨会论文集(第1027-1035页)。工业和应用数学学会·Zbl 1302.68273号
[2] 巴萨克,J。;Krishnapuram,R.,通过构建无监督决策树进行可解释的层次聚类,IEEE知识与数据工程汇刊,17,121-132(2005)·doi:10.1109/TKDE.2005.11
[3] Bertsimas博士。;Dunn,J.,最优分类树,机器学习,106,7,1039-1082(2017)·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[4] Bertsimas博士。;Dunn,J.,《现代优化视角下的机器学习》(2019),沃尔瑟姆:动态思想出版社
[5] Bertsimas博士。;阿拉斯加州奥黑尔;《滑轮银行》,WR,《分析边缘》(2016),沃尔瑟姆:动态思想出版社
[6] Bezanson,J.、Karpinski,S.、Shah,V.B.和Edelman,A.(2012)。朱莉娅:一种用于技术计算的快速动态语言。arXiv预印本。arXiv:1209.5145·Zbl 1356.68030号
[7] Blockeel,H.,De Raedt,L.,&Ramon,J.(2000),聚类树的自上而下诱导。arXiv预印本。arXiv:cs/0011032。
[8] 布雷曼,L。;弗里德曼,J。;斯通,CJ;Olshen,RA,分类和回归树(1984),博卡拉顿:CRC出版社,博卡拉顿·Zbl 0541.62042号
[9] Chavent,M。;基诺,C。;Lechevallier,Y。;Tenenhaus,M.,《Méthodes divisives de classification et segmentation non-supervisiveée:recherche d'une typelogie de la peau humaine saine,Revue de Statistique Appliquee,47,4,87-99》(1999)
[10] Daniel Levy,SB,《改变心意:解开心血管疾病的奥秘》(2006),纽约:Vintage,纽约
[11] Diday,E.和Simon,J.C.(1976年)。聚类分析(第47-94页)。柏林:斯普林格。doi:10.1007/978-3-642-96303-23·兹比尔0331.62043
[12] Doshi-Velez,F.和Kim,B.(2017年)。走向可解释机器学习的严格科学。arXiv预印本。arXiv:1702.08608。
[13] Dunn,JC,Well-sparated clusters and optimal fuzzy partitions,《控制论杂志》,4,1,95-104(1974)·Zbl 0304.68093号 ·doi:10.1080/01969727408546059org/10.1080/019697274086059
[14] Dunn,J.W.(2018)。预测和处方的最佳树。麻省理工学院博士论文。
[15] 杜兰,B。;Odell,P.,《聚类分析》,100(1974),柏林:施普林格出版社,柏林·兹比尔0291.62069
[16] 埃斯特,M。;惠普公司Kriegel;桑德,J。;Xu,X.,在有噪声的大型空间数据库中发现簇的基于密度的算法,Kdd,96,226-231(1996)
[17] 埃弗哈特,J。;Wright,D.,糖尿病是胰腺癌的危险因素:一项荟萃分析,JAMA,273201605-1609(1995)·doi:10.1001/jama.1995.03520440059037
[18] Feinleib,M。;Kannel,W。;加里森,R。;麦克纳马拉,P。;卡斯泰利,W.,《弗雷明翰后代研究》。设计和初步数据,预防医学,4,4,518-525(1975)·doi:10.1016/0091-7435(75)90037-7
[19] Forgy,EW,多元数据的聚类分析:分类的效率与可解释性,生物统计学,21768-769(1965)
[20] R·弗雷曼。;加塔斯,B。;Svarc,M.,使用无监督二叉树的可解释聚类,数据分析和分类进展,7,2,125-145(2013)·Zbl 1267.62075号 ·doi:10.1007/s11634-013-0129-3
[21] Goodman,B.和Flaxman,S.(2016年)。欧盟关于算法决策和“解释权”的规定。arXiv预印本。arXiv:1606.08813。
[22] 哈斯勒,M。;Piekenbrock,M。;Doran,D.,dbscan:《使用r快速基于密度的聚类》,《统计软件杂志》,第91、1、1-30条(2019年)·doi:10.18637/jss.v091.i01
[23] 哈尔基迪,M。;巴蒂斯塔基斯,Y。;Vazirgiannis,M.,《集群验证技术》,《智能信息系统杂志》,17,2,107-145(2001)·Zbl 0998.68154号 ·doi:10.1023/A:1012801612483
[24] Hancock,T.P.、Coomans,D.H.和Everingham,Y.L.(2003)。使用CART的监督层次聚类。2003年澳大利亚昆士兰州汤斯维尔MODSIM国际建模与仿真大会会议记录(第1880-1885页)。
[25] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。无监督学习。《统计学习的要素》(第485-585页)。斯普林格·Zbl 1273.62005年
[26] 阿拉斯加州贾恩;明尼苏达州默蒂;弗林,PJ,《数据聚类:综述》,ACM计算调查,31,3,264-323(1999)·数字对象标识代码:10.1145/331499.331504
[27] Jolliffe,I.(2011)。主成分分析。国际统计科学百科全书(第1094-1096页)。斯普林格。
[28] Kannel,WB,《血压作为心血管风险因素:预防和治疗》,JAMA,275,20,1571-1576(1996)·doi:10.1001/jama.1996.03530440051036
[29] 克里姆·H。;Hamza,AB,《信号和图像分析中的几何方法》(2015),剑桥:剑桥大学出版社,剑桥·Zbl 1329.00010号 ·doi:10.1017/CBO9781139523967
[30] Larose,DT;Larose,CD,《发现数据中的知识:数据挖掘简介》(2014),霍博肯:威利,霍博克·JFM 27.0320.04号
[31] Liu,B.、Xia,Y.和Yu,P.S.(2000年)。通过构建决策树进行聚类。第九届信息和知识管理国际会议论文集——CIKM’00,弗吉尼亚州麦克莱恩(第20-29页)。doi:10.1145/354756.354775。arXiv:1011.1669v3。
[32] Liu,Y.、Li,Z.、Xiong,H.、Gao,X.和Wu,J.(2010)。了解内部集群验证措施。IEEE第十届国际数据挖掘会议(ICDM),2010年(第911-916页)。电气与电子工程师协会。
[33] MacQueen,J.(1967)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集,第1卷:统计学(第281-297页)。加州伯克利:加利福尼亚大学出版社·Zbl 0214.46201号
[34] Maulik,美国。;Bandyopadhyay,S.,一些聚类算法和有效性指标的性能评估,IEEE模式分析和机器智能汇刊,24,12,1650-1654(2002)·doi:10.1109/TPAMI.2002.1114856
[35] Mouselimis,L.(2019)。ClusterR:高斯混合模型、K-Means、Mini-Batch-Kmeans、K-Medoids和亲和传播聚类。R包版本,1(2)。
[36] 奥夫纳,PJ;摩尔,EE;Biffl,WL,男性是术后主要感染的危险因素,《外科档案》,134,9935-940(1999)·doi:10.1001/archsurg.134.9935
[37] Piatetsky-Shapiro,G。;杰拉巴,C。;盖托,L。;格罗斯曼,R。;费尔德曼,R。;Zaki,M.,数据挖掘的重大挑战是什么Kdd-2006小组报告,ACM SIGKDD探索新闻稿,8,2,70-77(2006)·数字对象标识代码:10.1145/1233321.123330
[38] 拉德夫,DR;Jing,H。;史提西,M。;Tam,D.,《基于中心的多文档摘要》,信息处理与管理,40,6,919-938(2004)·Zbl 1134.68367号 ·doi:10.1016/j.ipm.2003.10006
[39] Rao,CR,《应用研究中主成分分析的使用和解释》,Sankhyá:印度统计杂志,A辑(1961-2002),26,4,329-358(1964)·兹伯利0137.37207
[40] Rousseeuw,PJ,Silhouettes:聚类分析解释和验证的图形辅助,《计算与应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[41] Ruspini,E.H.(1970)。模糊聚类的数值方法。信息科学,2(3),319-350·Zbl 0205.21301号
[42] Sneath,P.H.、Sokal,R.R.等人(1973年)。数值分类法。数字分类的原理与实践·Zbl 0285.92001
[43] Stepp,RE;Michalski,RS,结构化对象的概念聚类:面向目标的方法,人工智能,28,1,43-69(1986)·doi:10.1016/0004-3702(86)90030-5
[44] Ultsch,A.(2005)。基本群集问题套件(FCPS)。马尔堡大学技术报告。
[45] 宾夕法尼亚州沃尔夫;达戈斯蒂诺,苏格兰皇家银行;坎内尔,WB;博尼塔,R。;Belanger,AJ,吸烟是中风的危险因素:弗雷明翰研究,JAMA,259,7,1025-1029(1988)·doi:10.1001/jama.1988.03720070025028
[46] Wu,J.、Xiong,H.和Chen,J.(2009)。调整k均值聚类的正确度量。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第877-886页)。ACM公司。
[47] 杨琼。;Wu,X.,数据挖掘研究中的10个挑战性问题,国际信息技术与决策杂志,5,4,597-604(2006)·doi:10.1142/S0219622006002258
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。