×

基于(p)-中值模型的数据集最优分割。 (英语) Zbl 1143.62035号

小结:尽管用于最小化与聚类中心的偏差平方和的聚类内均值算法可能是应用聚类分析的最常用方法,但还有其他各种标准可用。中位数模型是一个研究得特别深入的聚类问题,它需要选择对象作为聚类中心。目标是选择簇中心,以使分配给每个中心的对象的欧氏距离(或其他一些不同度量)之和最小化。
使用文献中的12个数据集,我们证明了由贪婪启发式、拉格朗日松弛和分枝定界算法组成的三阶段过程可以为非平凡规模的(p)-中值问题(数百个对象、五个或更多变量和多达10个簇)产生全局最优解。我们还报告了将(p)-中值模型应用于电信行业的经验数据集的结果。

理学硕士:

62H30型 分类和区分;聚类分析(统计方面)
91C20个 社会和行为科学中的集群
90 C90 数学规划的应用
90 C59 数学规划中的近似方法和启发式
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agmon,S.(1954年)。线性不等式的松弛方法。加拿大数学杂志,6382–392·Zbl 0055.35001号 ·doi:10.4153/CJM-1954-037-2
[2] 安德森·E(1935)。加斯佩半岛的虹膜。美国虹膜学会公报,59,2-5。
[3] Avella,P.、Sassano,A.和Vasil'ev,I.(2003)。大规模p中值问题的计算研究。罗马“萨皮恩扎”大学信息科学研究院技术报告
[4] Beltran,C.、Tadonki,C.和Vial,J.(2006)。用半拉格朗日松弛法求解p-中值问题。计算优化与应用,2006年6月5日,DOI:10.1007/s10589-006-6513-6·兹比尔1151.90521
[5] M.J.布鲁斯科(2006)。一种重复的分枝定界算法,用于求最小簇内平方和划分。《心理测量学》,71、347–363·Zbl 1306.62387号 ·doi:10.1007/s11336-004-1218-1
[6] Brusco,M.J.和Stahl,S.(2005年)。组合数据分析中的分枝定界应用。纽约:施普林格·Zbl 1093.62006年
[7] Brusco,M.J.、Cradit,J.D.和Tashchian,A.(2003年)。联合细分设置的多准则聚类回归:客户价值应用。《营销研究杂志》,40225-234·doi:10.1509/jmkr.40.2.225.19227
[8] Christofides,N.和Beasley,J.E.(1982年)。p-median问题的树搜索算法。《欧洲运筹学杂志》,第10期,196-204页·Zbl 0481.90020号 ·doi:10.1016/0377-2217(82)90160-6
[9] Cornuejols,G.、Fisher,M.L.和Nemhauser,G.L.(1977年)。优化浮动的银行账户位置:精确和近似算法的分析研究。管理科学,23789–810·Zbl 0361.90034号 ·doi:10.1287/mnsc.23.8989
[10] Du Merle,O.,&Vial,J.-P.(2002)。Proximal-ACCPM,一种用于列生成和拉格朗日松弛的切面方法:应用于p中值问题。《2002.23年技术报告》,日内瓦高等商学院,日内瓦大学。
[11] Du Merle,O.、Hansen,P.、Jaumard,B.和Mladenović,N.(2000年)。最小平方和聚类的内点算法。SIAM科学计算杂志,211485-1505·Zbl 1049.90129号 ·doi:10.1137/S10648275973283227
[12] Erlenkotter,D.(1977年)。具有价格敏感需求的设施位置:私人、公共和准公共。管理科学,24378-386·Zbl 0383.90082号 ·doi:10.1287/mnsc.24.378
[13] Fisher,R.A.(1936年)。在分类问题中使用多重测量。优生学年鉴,7179-188。
[14] Fisher,M.L.(1981年)。求解整数规划问题的拉格朗日松弛法。管理科学,27,1-18·Zbl 0466.90054号 ·doi:10.1287/mnsc.27.1.1
[15] 福吉·E.W.(1965)。多元数据的聚类分析:分类的效率与可解释性。生物统计学,21768。
[16] Grötschel,M.和Holland,O.(1991)。大规模对称旅行商问题的求解。数学编程,51,141–202·Zbl 0733.90047号 ·doi:10.1007/BF01586932
[17] Hair,J.F.、Anderson,R.E.、Tatham,R.L.和Black,W.C.(1998年)。多元数据分析(第5版)。上鞍河:普伦蒂斯·霍尔。
[18] Hakimi,S.L.(1964年)。切换中心的最佳位置以及图的绝对中心和中间点。运营研究,12450-459·Zbl 0123.00305号 ·doi:10.1287/opre.123.450
[19] Hanjoul,P.和Peeters,D.(1985年)。比较两种基于对偶的方法来解决p-中值问题。欧洲运筹学杂志,20387–396·Zbl 0565.90011号 ·doi:10.1016/0377-2217(85)90012-8
[20] Hansen,P.和Jaumard,B.(1997年)。聚类分析和数学规划。数学规划,79,191–215·Zbl 0887.90182号
[21] Hansen,P.、Mladenoviĉ,N.和Perez-Brito,D.(2001)。变量邻域分解搜索。启发式杂志,7335–350·Zbl 1041.68623号 ·doi:10.1023/A:1011336210885
[22] Hartigan,J.A.(1975年)。聚类算法。纽约:Wiley·Zbl 0372.62040号
[23] Hartigan,J.A.和Wong,M.A.(1979年)。算法AS136:k-means聚类程序。应用统计学,28100-128·Zbl 0447.62062号 ·doi:10.2307/2346830
[24] Heinz,G.、Peterson,L.J.、Johnson,R.W.和Kerk,C.J.(2003)。探索身体尺寸的关系。统计教育杂志,11。网址:www.amstat.org/publications/jse/v11n2/datasets.heinz.html。
[25] Held,M.和Karp,R.M.(1970年)。旅行商问题和最小生成树。运营研究,181138-1162·Zbl 0226.90047号 ·数字对象标识代码:10.1287/opre.18.6.1138
[26] Held,M.、Wolfe,P.和Crowder,H.P.(1974年)。次梯度优化的验证。数学编程,6,62–88·Zbl 0284.90057号 ·doi:10.1007/BF01580223
[27] Hubert,L.J.(1987)。组合数据分析中的赋值方法。纽约:马塞尔·德克尔·Zbl 0628.62003号
[28] Hubert,L.和Arabie,P.(1985)。比较分区。分类期刊,2193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[29] Hubert,L.J.和Baker,F.B.(1978年)。组合规划在数据分析中的应用:旅行推销员及其相关问题。《心理测量学》,43、81–91·doi:10.1007/BF0229091文件
[30] Hubert,L.J.和Schultz,J.V.(1976年)。二次分配作为一般数据分析策略。英国数学与统计心理学杂志,29190-241·Zbl 0356.92027号
[31] Hubert,L.、Arabie,P.和Meulman,J.(2001)。组合数据分析:通过动态编程进行优化。费城:SIAM·Zbl 0999.90047号
[32] Hubert,L.、Arabie,P.和Meulman,J.(2006)。用MATLAB实现邻近矩阵的结构表示。费城:SIAM·Zbl 1093.68147号
[33] Johnson,S.C.(1967年)。层次聚类方案。《心理测量学》,32,241-254·Zbl 1367.62191号 ·doi:10.1007/BF02289588
[34] Klastorin,T.(1985)。聚类分析的p-中值问题:使用混合模型方法的比较测试。管理科学,31,84–95·Zbl 0612.62086号 ·doi:10.1287/mnsc.31.184
[35] Lin,S.和Kernighan,B.W.(1973年)。一种求解旅行商问题的有效启发式算法。运营研究,21498–516·Zbl 0256.90038号 ·doi:10.1287/opre.21.2498
[36] MacQueen,J.B.(1967年)。多元观测值分类和分析的一些方法。L.M.Le Cam和J.Neyman(编辑),第五届伯克利数理统计与概率研讨会论文集(第1卷,第281-297页)。伯克利:加利福尼亚大学出版社·兹比尔0214.46201
[37] Motzkin,T.和Schoenberg,I.J.(1954年)。线性不等式的松弛方法。加拿大数学杂志,6393–304·Zbl 0055.35002号 ·doi:10.4153/CJM-1954-038-x
[38] Mulvey,J.M.和Crowder,H.P.(1979年)。聚类分析:拉格朗日松弛的应用。管理科学,25329-340·Zbl 0415.90085号 ·doi:10.1287/mnsc.25.4.329
[39] Narula,S.C.、Ogbu,U.I.和Samuelson,H.M.(1977年)。p-中值问题的一种算法。运筹学,25709–713·Zbl 0372.90096号 ·doi:10.1287/opre.25.4.709
[40] Rao,M.R.(1971)。聚类分析和数学规划。美国统计协会杂志,66622-626·Zbl 0238.90042号 ·doi:10.2307/2283542
[41] Reinelt,G.(2001)。TSPLIB公司。http://www.iwr.uni-heidelberg.de/groups/comopt/software/TSPLIB95 .
[42] Sokal,R.R.,&Sneath,P.H.A.(1963年)。数值分类学原理。旧金山:弗里曼·Zbl 0285.92001
[43] Späth,H.(1980)。用于数据简化和对象分类的聚类分析算法。纽约:Wiley·Zbl 0435.62059号
[44] Steinley,D.(2004)。Hubert–Arabie调整的兰德指数的属性。心理学方法,9386–396·doi:10.1037/1082-989X.9.3.386
[45] Steinley,D.(2006年a)。K-Means聚类:半个世纪的综合。英国数学与统计心理学杂志,59,1-34·doi:10.1348/00711005X48266
[46] Steinley,D.(2006年b)。在K-means聚类中分析局部最优:开发诊断技术。心理学方法,11,178-192·doi:10.1037/1082-989X.11.2.178
[47] Teitz,M.B.和Bart,P.(1968年)。估计加权图的广义顶点中值的启发式方法。运筹学,16955–961·Zbl 0165.22804号 ·doi:10.1287/opre.16.5.955
[48] Ward,J.H.(1963年)。分层分组以优化目标函数。美国统计协会杂志,58236-244·doi:10.2307/2282967
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。