×

关于多元二进制数据聚类和特征加权。 (英语) Zbl 1284.62364号

摘要:我们提出了一种方法,在没有关于聚类数量或特征显著性的先验信息的情况下,对未标记的二进制向量的数据集进行分割。使用多元伯努利分布的有限混合模型来处理无监督二值特征选择问题。利用随机复杂性,所提出的模型同时确定由二进制向量组成的给定数据集中的聚类数量和所使用特征的显著性。我们通过实际数据、文档分类和图像分类的不同应用来展示所提方法的优点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿贝尔·L。;Golmard,J。;Mallet,A.,家族二进制数据遗传分析的自体模型,美国人类遗传学杂志,53,4,894-907(1993)
[2] 阿格拉瓦尔,R。;Srikant,R.,挖掘关联规则的快速算法,(Bocca,J.B.;Jarke,M.;Zaniolo,C.,《第20届超大数据库国际会议论文集》,第20届国际超大数据库会议论文集,VLDB’94(1994),Morgan Kaufman),487-499
[3] Akaike,H.,统计模型识别的新视角,IEEE自动控制事务,AC-19,6,716-723(1974)·Zbl 0314.62039号
[4] Bartholomew,D.J.,《使用因子模型缩放二进制数据》,《皇家统计学会杂志》。B系列(方法学),46,1120-123(1984)
[5] Bartholomew,D.J.,《潜在变量模型和因子分析》(1987),牛津大学出版社:牛津大学出版社,纽约·Zbl 0664.62057号
[7] Bloomfield,P.,多元二进制数据的线性变换,生物统计学,30,4,609-617(1974)·Zbl 0294.62074号
[8] Blum,A.L。;Langley,P.,《机器学习中相关特征和示例的选择》,人工智能,97,245-271(1997)·Zbl 0904.68142号
[9] 博世公司。;穆尼奥斯,X。;Marti,R.,《综述:按内容组织/分类图像的最佳方法》,《图像与视觉计算》,25,6,778-791(2007)
[10] 布吉拉,北卡罗来纳州。;Daoudi,K.,二进制向量建模和聚类的统计方法, (第十三届亚太地区知识发现和数据挖掘进展会议议事录。第十三届太平洋地区知识发现与数据挖掘进展大会议事录,PAKDDowledge Discovery and Data Mining,PAKDD,LNAI,第5476卷(2009),Springer-Verlag),184-195
[11] 布吉拉,北卡罗来纳州。;Ziou,D.,基于最小消息长度的有限广义dirichlet混合模型的高维无监督选择和估计,IEEE模式分析和机器智能学报,29,10,1716-1731(2007)
[12] Boutemedjet,S。;布吉拉,北卡罗来纳州。;Ziou,D.,一种用于高维非高斯数据聚类的混合特征提取选择方法,IEEE模式分析和机器智能事务,31,91429-1443(2009)
[13] Cardie,C.,基于案例的学习者特征选择和加权的认知偏见方法,机器学习,41,1,85-116(2000)
[14] Celeux,G。;Govaert,G.,离散数据和潜在类模型的聚类标准,分类杂志,8,2157-176(1991)·兹比尔0775.62150
[16] Christoffersson,A.,二分变量的因子分析,《心理测量学》,40,1,5-32(1975)·Zbl 0322.62063号
[17] Cox,D.R.,《二进制数据分析》(1970),Methuen:Methuen London·Zbl 0199.53301号
[18] Cox,D.R.,《多元二进制数据的分析》,应用统计学,21,2,113-120(1972)
[21] 戴·J·G。;Brodley,C.E.,《无监督学习的特征选择》,《机器学习研究杂志》,5845-889(2004)·Zbl 1222.68187号
[22] Everingham,M。;齐瑟曼,A。;威廉姆斯,C.K.I。;Van Gool,L.,《2005年PASCAL视觉对象类挑战》,(机器学习挑战。评估预测不确定性、视觉对象分类和识别文本蕴涵。机器学习挑战:评估预测不确定度,视觉对象分类,识别文本蕴藏,LNAI,第3944卷(2006),斯普林格·弗拉格),117-176
[23] Fránti,P。;徐,M。;Kärkkäinen,I.,通过使用(Delta)SC距离最小化随机复杂性对二进制向量进行分类,模式识别字母,24,1,65-73(2003)·Zbl 1054.68120号
[24] Glasbey,C.A.,从二进制数据推断二进制图像,应用概率进展,28,3,627-640(1996)·Zbl 0857.60009号
[25] Govaert,G.,《二进制和模型分类》,《应用统计评论》,38,1,67-81(1990)
[26] 戈瓦特,G。;Nadif,M.,用二进制数据进行聚类分析中混合和分类最大似然的比较,计算统计和数据分析,23,1,65-81(1996)·Zbl 0900.62325号
[27] 戈瓦特,G。;Nadif,M.,《使用贝努利混合模型的块聚类:不同方法的比较》,计算统计与数据分析,52,6,3233-3245(2007)·Zbl 1452.62444号
[28] Gower,J.C.,《多元分析中潜在根和向量方法的一些距离特性》,《生物统计学》,53,3-4,325-338(1966)·Zbl 0192.26003号
[29] 格雷厄姆,M.W。;Miller,D.J.,具有集成特征和组件选择的大空间上简约混合的无监督学习,IEEE信号处理汇刊,54,4,1289-1303(2006)·Zbl 1373.94601号
[30] Gyllenberg,M。;Koski,T.,《数值分类与最大熵原理》,《分类杂志》,13,2,213-229(1996)·Zbl 0868.92002号
[31] Gyllenberg,M。;Koski,T。;Verlaan,M.,二元向量的随机复杂性分类,多元分析杂志,63,47-72(1997)·Zbl 1090.62542号
[32] 希区柯克,D。;Glasbey,C.A.,亚像素分辨率下的二进制图像恢复,生物计量学,53,3,1040-1053(1997)·兹比尔1130.68335
[33] A.胡安。;Vidal,E.,《关于贝努利混合模型在文本分类中的应用》,模式识别,352705-2710(2002)·Zbl 1010.68154号
[34] Kass,R.E。;Raftery,A.E.,贝叶斯因子,《美国统计协会杂志》,90,773-795(1995)·Zbl 0846.62028号
[36] Kontkanen,P。;Myllymaki,P。;Silander,T。;Tirri,H。;Grunwald,P.,《论预测分布和贝叶斯网络》,《统计与计算》,第10期,第39-54页(2000年)
[37] 法律,M.H.C。;Figueiredo,M.A.T。;Jain,A.K.,使用混合模型的同时特征选择和聚类,IEEE模式分析和机器智能汇刊,26,9,1154-1166(2004)
[38] Li,T.,关于聚类二进制数据的统一观点,机器学习,62,3,199-215(2006)·Zbl 1470.62089号
[39] Li,T.,聚类二进制数据的一般模型,(第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集
[40] Lowe,D.G.,《尺度不变关键点的独特图像特征》,《国际计算机视觉杂志》,60,2,91-110(2004)
[42] Muthén,B.,对二分法变量因子分析的贡献,《心理测量学》,43,4,551-560(1978)·Zbl 0394.62042号
[43] 纳迪夫,M。;Govaert,G.,二元数据和混合模型的聚类——模型的选择,应用随机模型和数据分析,13,3-4,269-278(1998)·Zbl 0910.62021号
[44] Novovic̀ová,J。;普迪尔,P。;Kittler,J.,多模态类密度的基于散度的特征选择,IEEE模式分析和机器智能汇刊,18,2,218-223(1996)
[45] Prentice,R.L.,《与每个二元观察的协变量相关的二元回归》,《生物统计学》,44,4,1033-1048(1988)·Zbl 0715.62145号
[46] Ripley,B.D.,模式识别和神经网络(1996),剑桥大学出版社·Zbl 0853.62046号
[47] Rissanen,J.,《最短数据描述建模》,Automatica,14,445-471(1978)·Zbl 0418.93079号
[48] Rissanen,J.,《随机复杂性》,《皇家统计学会杂志》。B系列(方法学),49,3,223-239(1987)·Zbl 0654.62008号
[49] Schwarz,G.,估算模型的维度,《统计年鉴》,16,461-464(1978)·Zbl 0379.62005年
[50] 托斯特森,T.D。;Rosner,B.,先证者研究中聚集二进制数据的Logistic回归及其在睡眠障碍家族聚集中的应用,生物统计学,47,4,1257-1265(1991)
[51] 瓦西亚纳坦,S。;Dom,B.,高维无监督学习的广义模型选择,(神经信息处理系统进展,神经信息处理系统进展,NIPS(1999),麻省理工学院出版社),970-976
[52] Wallace,C.S.,《最小信息长度的统计和归纳推理》(2005),施普林格出版社·兹比尔1085.62002
[53] 王,X。;Kabán,A.,《发现二进制数据中的无信息特征》,(第六届智能数据工程和自动学习国际会议论文集。第六届国际智能数据工程与自动学习会议论文集,IDEAL2005。程序。第六届智能数据工程和自动学习国际会议。程序。第六届智能数据工程和自动学习国际会议,IDEAL2005,LNCS,第3578卷(2005),Springer),40-47
[54] Webb,A.R.,统计模式识别(2002),John Wiley and Sons Ltd·Zbl 1102.68639号
[55] Wilbur,J.D。;Ghosh,J.K。;Nakatsu,C.H。;布罗德,S.M。;Doerge,R.W.,高维多元二元数据中的变量选择及其在微生物群落DNA指纹分析中的应用,生物统计学,58,2,378-386(2002)·Zbl 1209.62367号
[56] Wilks,S.S.,《数理统计》(1962年),Wiley:Wiley纽约·Zbl 0173.45805号
[57] 杨,J。;Jiang,Y-G。;Hauptmann,A.G。;Ngo,C-W.,《评估场景分类中的视觉词汇表示法》,(多媒体信息检索国际研讨会论文集,多媒体信息检索(2007),美国医学会),197-206
[58] 朱,L。;Rao,A。;张,A.,基于密钥块的图像检索理论,ACM信息系统汇刊,20,2,224-257(2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。