文件Zbl 07432799-zbMATH Open

可解释聚类：一种优化方法。（英语） Zbl 07432799号

机器。学习。 110，编号1，89-138（2021）.

摘要：最先进的聚类算法几乎没有深入了解聚类成员的基本原理，限制了它们的可解释性。在复杂的实际应用中，当专家被要求对他们的算法建议提供详细解释时，后者对机器学习的采用构成了障碍。我们提出了一种新的无监督学习方法，该方法利用混合整数优化技术生成可解释的基于树的聚类模型。利用灵活的优化驱动框架，我们的算法逼近全局最优解，从而实现高质量的特征空间划分。我们提出了一种新的方法，可以优化各种聚类内部验证指标，并自然地确定最佳聚类数。它成功地解决了混合数值和分类数据的挑战，在合成和真实数据集上取得了与其他聚类方法相当或优越的性能，同时提供了显著更高的可解释性。

引用于4文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

群集；可解释性；无监督学习；混合整数优化

软件：

剪影；k平均值++；群集R；聚类算法；朱莉娅

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Arthur，D.和Vassilvitskii，S.（2007）。k-means++：仔细播种的优点。第18届ACM-SIAM离散算法研讨会论文集（第1027-1035页）。工业和应用数学学会·Zbl 1302.68273号
[2]	巴萨克，J。；Krishnapuram，R.，通过构建无监督决策树进行可解释的层次聚类，IEEE知识与数据工程汇刊，17，121-132（2005）·doi:10.1109/TKDE.2005.11
[3]	Bertsimas博士。；Dunn，J.，最优分类树，机器学习，106，7，1039-1082（2017）·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[4]	Bertsimas博士。；Dunn，J.，《现代优化视角下的机器学习》（2019），沃尔瑟姆：动态思想出版社
[5]	Bertsimas博士。；阿拉斯加州奥黑尔；《滑轮银行》，WR，《分析边缘》（2016），沃尔瑟姆：动态思想出版社
[6]	Bezanson，J.、Karpinski，S.、Shah，V.B.和Edelman，A.（2012）。朱莉娅：一种用于技术计算的快速动态语言。arXiv预印本。arXiv：1209.5145·Zbl 1356.68030号
[7]	Blockeel，H.，De Raedt，L.，&Ramon，J.（2000），聚类树的自上而下诱导。arXiv预印本。arXiv:cs/0011032。
[8]	布雷曼，L。；弗里德曼，J。；斯通，CJ；Olshen，RA，分类和回归树（1984），博卡拉顿：CRC出版社，博卡拉顿·Zbl 0541.62042号
[9]	Chavent，M。；基诺，C。；Lechevallier，Y。；Tenenhaus，M.，《Méthodes divisives de classification et segmentation non-supervisiveée:recherche d'une typelogie de la peau humaine saine，Revue de Statistique Appliquee，47，4，87-99》（1999）
[10]	Daniel Levy，SB，《改变心意：解开心血管疾病的奥秘》（2006），纽约：Vintage，纽约
[11]	Diday，E.和Simon，J.C.（1976年）。聚类分析（第47-94页）。柏林：斯普林格。doi:10.1007/978-3-642-96303-23·兹比尔0331.62043
[12]	Doshi-Velez，F.和Kim，B.（2017年）。走向可解释机器学习的严格科学。arXiv预印本。arXiv:1702.08608。
[13]	Dunn，JC，Well-sparated clusters and optimal fuzzy partitions，《控制论杂志》，4，1，95-104（1974）·Zbl 0304.68093号 ·doi:10.1080/01969727408546059org/10.1080/019697274086059
[14]	Dunn，J.W.（2018）。预测和处方的最佳树。麻省理工学院博士论文。
[15]	杜兰，B。；Odell，P.，《聚类分析》，100（1974），柏林：施普林格出版社，柏林·兹比尔0291.62069
[16]	埃斯特，M。；惠普公司Kriegel；桑德，J。；Xu，X.，在有噪声的大型空间数据库中发现簇的基于密度的算法，Kdd，96，226-231（1996）
[17]	埃弗哈特，J。；Wright，D.，糖尿病是胰腺癌的危险因素：一项荟萃分析，JAMA，273201605-1609（1995）·doi:10.1001/jama.1995.03520440059037
[18]	Feinleib，M。；Kannel，W。；加里森，R。；麦克纳马拉，P。；卡斯泰利，W.，《弗雷明翰后代研究》。设计和初步数据，预防医学，4，4，518-525（1975）·doi:10.1016/0091-7435（75）90037-7
[19]	Forgy，EW，多元数据的聚类分析：分类的效率与可解释性，生物统计学，21768-769（1965）
[20]	R·弗雷曼。；加塔斯，B。；Svarc，M.，使用无监督二叉树的可解释聚类，数据分析和分类进展，7，2，125-145（2013）·Zbl 1267.62075号 ·doi:10.1007/s11634-013-0129-3
[21]	Goodman，B.和Flaxman，S.（2016年）。欧盟关于算法决策和“解释权”的规定。arXiv预印本。arXiv:1606.08813。
[22]	哈斯勒，M。；Piekenbrock，M。；Doran，D.，dbscan:《使用r快速基于密度的聚类》，《统计软件杂志》，第91、1、1-30条（2019年）·doi:10.18637/jss.v091.i01
[23]	哈尔基迪，M。；巴蒂斯塔基斯，Y。；Vazirgiannis，M.，《集群验证技术》，《智能信息系统杂志》，17，2，107-145（2001）·Zbl 0998.68154号 ·doi:10.1023/A：1012801612483
[24]	Hancock，T.P.、Coomans，D.H.和Everingham，Y.L.（2003）。使用CART的监督层次聚类。2003年澳大利亚昆士兰州汤斯维尔MODSIM国际建模与仿真大会会议记录（第1880-1885页）。
[25]	Hastie，T.、Tibshirani，R.和Friedman，J.（2009年）。无监督学习。《统计学习的要素》（第485-585页）。斯普林格·Zbl 1273.62005年
[26]	阿拉斯加州贾恩；明尼苏达州默蒂；弗林，PJ，《数据聚类：综述》，ACM计算调查，31，3，264-323（1999）·数字对象标识代码：10.1145/331499.331504
[27]	Jolliffe，I.（2011）。主成分分析。国际统计科学百科全书（第1094-1096页）。斯普林格。
[28]	Kannel，WB，《血压作为心血管风险因素：预防和治疗》，JAMA，275，20，1571-1576（1996）·doi:10.1001/jama.1996.03530440051036
[29]	克里姆·H。；Hamza，AB，《信号和图像分析中的几何方法》（2015），剑桥：剑桥大学出版社，剑桥·Zbl 1329.00010号 ·doi:10.1017/CBO9781139523967
[30]	Larose，DT；Larose，CD，《发现数据中的知识：数据挖掘简介》（2014），霍博肯：威利，霍博克·JFM 27.0320.04号
[31]	Liu，B.、Xia，Y.和Yu，P.S.（2000年）。通过构建决策树进行聚类。第九届信息和知识管理国际会议论文集——CIKM’00，弗吉尼亚州麦克莱恩（第20-29页）。doi:10.1145/354756.354775。arXiv:1011.1669v3。
[32]	Liu，Y.、Li，Z.、Xiong，H.、Gao，X.和Wu，J.（2010）。了解内部集群验证措施。IEEE第十届国际数据挖掘会议（ICDM），2010年（第911-916页）。电气与电子工程师协会。
[33]	MacQueen，J.（1967）。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集，第1卷：统计学（第281-297页）。加州伯克利：加利福尼亚大学出版社·Zbl 0214.46201号
[34]	Maulik，美国。；Bandyopadhyay，S.，一些聚类算法和有效性指标的性能评估，IEEE模式分析和机器智能汇刊，24，12，1650-1654（2002）·doi:10.1109/TPAMI.2002.1114856
[35]	Mouselimis，L.（2019）。ClusterR：高斯混合模型、K-Means、Mini-Batch-Kmeans、K-Medoids和亲和传播聚类。R包版本，1（2）。
[36]	奥夫纳，PJ；摩尔，EE；Biffl，WL，男性是术后主要感染的危险因素，《外科档案》，134,9935-940（1999）·doi:10.1001/archsurg.134.9935
[37]	Piatetsky-Shapiro，G。；杰拉巴，C。；盖托，L。；格罗斯曼，R。；费尔德曼，R。；Zaki，M.，数据挖掘的重大挑战是什么Kdd-2006小组报告，ACM SIGKDD探索新闻稿，8，2，70-77（2006）·数字对象标识代码：10.1145/1233321.123330
[38]	拉德夫，DR；Jing，H。；史提西，M。；Tam，D.，《基于中心的多文档摘要》，信息处理与管理，40，6，919-938（2004）·Zbl 1134.68367号 ·doi:10.1016/j.ipm.2003.10006
[39]	Rao，CR，《应用研究中主成分分析的使用和解释》，Sankhyá：印度统计杂志，A辑（1961-2002），26，4，329-358（1964）·兹伯利0137.37207
[40]	Rousseeuw，PJ，Silhouettes:聚类分析解释和验证的图形辅助，《计算与应用数学杂志》，20，53-65（1987）·Zbl 0636.62059号 ·doi:10.1016/0377-0427（87）90125-7
[41]	Ruspini，E.H.（1970）。模糊聚类的数值方法。信息科学，2（3），319-350·Zbl 0205.21301号
[42]	Sneath，P.H.、Sokal，R.R.等人（1973年）。数值分类法。数字分类的原理与实践·Zbl 0285.92001
[43]	Stepp，RE；Michalski，RS，结构化对象的概念聚类：面向目标的方法，人工智能，28，1，43-69（1986）·doi:10.1016/0004-3702（86）90030-5
[44]	Ultsch，A.（2005）。基本群集问题套件（FCPS）。马尔堡大学技术报告。
[45]	宾夕法尼亚州沃尔夫；达戈斯蒂诺，苏格兰皇家银行；坎内尔，WB；博尼塔，R。；Belanger，AJ，吸烟是中风的危险因素：弗雷明翰研究，JAMA，259，7，1025-1029（1988）·doi:10.1001/jama.1988.03720070025028
[46]	Wu，J.、Xiong，H.和Chen，J.（2009）。调整k均值聚类的正确度量。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集（第877-886页）。ACM公司。
[47]	杨琼。；Wu，X.，数据挖掘研究中的10个挑战性问题，国际信息技术与决策杂志，5，4，597-604（2006）·doi:10.1142/S0219622006002258

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

可解释聚类：一种优化方法。（英语） Zbl 07432799号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

可解释聚类：一种优化方法。 （英语） Zbl 07432799号

MSC公司：

关键词：

软件：

参考文献：

可解释聚类：一种优化方法。（英语） Zbl 07432799号