×

凸双簇。 (英文) Zbl 1366.62208号

摘要:在双聚类问题中,我们寻求同时对观测值和特征进行分组。虽然双聚类在从文本挖掘到协同过滤的广泛领域中都有应用,但识别高维基因组数据中的结构问题激发了这项工作。在这种情况下,双聚类使我们能够识别仅在实验条件子集中共同表达的基因子集。我们给出了双聚类问题的一个凸形式,该形式具有唯一的全局极小值和一个迭代算法COBRA,该算法保证能识别它。我们的方法在单个调整参数变化时生成可能双聚类的整个解路径。我们还展示了如何将选择该调谐参数的问题简化为解决凸双聚类问题的一个简单修改。我们工作的主要贡献在于其简单性、可解释性和算法保证——这些特性可以说是当前替代算法所缺乏的。我们展示了我们的方法的优势,包括在模拟和真实的微阵列数据上稳定且可重复地识别双聚类。

MSC公司:

62页第10页 统计学在生物学和医学科学中的应用;元分析
62J07型 山脊回归;收缩估计器(拉索)
62H30型 分类和区分;聚类分析(统计方面)
90C25型 凸面编程
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bauschke,两个单调算子的Dykstra-like算法,《太平洋优化杂志》4,第383页–(2008)·Zbl 1176.47051号
[2] Bergmann,用于分析大规模基因表达数据的迭代签名算法,《物理评论》E 67 pp 031902–(2003)·doi:10.1103/PhysRevE.67.031902
[3] Boyd,通过交替方向乘数法进行分布式优化和统计学习,机器学习的基础和趋势3,第1页–(2011年)·Zbl 1229.90122号 ·doi:10.1561/220000016
[4] Busygin,《数据挖掘中的双集群》,《计算机与运筹学》35页2964页–(2008)·Zbl 1144.68309号 ·doi:10.1016/j.cor.2007.01.005
[5] Cheng,第八届智能系统与分子生物学国际会议论文集,pp 93-(2000)
[6] Chi,凸聚类的分裂方法,《计算与图形统计杂志》,第24页,994–(2015)·Zbl 1060.62028号 ·doi:10.1080/10618600.2014.948181
[7] Coifman,小波与多尺度分析,应用与数值谐波分析,第161页–(2011)
[8] Dhillon,第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第269页–(2001)·doi:10.1145/502512.502550
[9] Dykstra,限制最小二乘回归算法,《美国统计协会杂志》78页837–(1983)·Zbl 0535.62063号 ·doi:10.1080/01621459.1983.10477029
[10] Friedman,Pathwise坐标优化,应用统计年鉴1第302页–(2007)·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[11] Hahsler,《整理事情:R包系列介绍》,《统计软件杂志》,25页,第1页–(2008年)·doi:10.18637/jss.v025.i03
[12] Hastie,《统计学习的要素:数据挖掘、推断和预测》(2009年)·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[13] 霍金,第28届机器学习国际会议记录(ICML-11),第745页–(2011)
[14] 霍夫曼,《第十六届国际人工智能联合会议论文集》第688页(1999年)
[15] Hubert,《分区比较》,《分类杂志》第2期第193页–(1985)·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[16] Kluger,微阵列数据的光谱双聚集:共聚集基因和条件,基因组研究13第703页–(2003)·doi:10.1101/gr.648603
[17] Lange,使用替代目标函数的优化转移(含讨论),《计算与图形统计杂志》9第1页–(2000年)
[18] Langfelder,从层次聚类树定义聚类:R的动态树切割包,生物信息学24页719–(2008)·doi:10.1093/bioinformatics/btm563
[19] Lazzeroni,基因表达数据的格子模型,Statistica Sinica 12 pp 61–(2002)·Zbl 1004.62084号
[20] Lee,《基于稀疏奇异值分解的双聚类》,《生物统计学》66页1087–(2010)·Zbl 1233.62182号 ·文件编号:10.1111/j.1541-0420.2010.01392.x
[21] Lindsten,F.Ohlsson,H.Ljung,L.2011放松下来,聚在一起吧!k-means聚类的凸化
[22] Madeira,《生物数据分析的双聚类算法:调查》,IEEE/ACM计算生物学和生物信息学汇刊1,第24页–(2004)·doi:10.1109/TCBB.2004.2
[23] Mazumder,用于学习大型不完全矩阵的谱正则化算法,《机器学习研究杂志》11页2287–(2010)·Zbl 1242.68237号
[24] 梅勒,《比较聚类——基于信息的距离》,《多元分析杂志》98页873–(2007)·Zbl 1298.91124号 ·doi:10.1016/j.jmva.2006.11.013
[25] Meinshausen,高维数据稀疏表示的Lasso型恢复,《统计年鉴》37第246页–(2009)·Zbl 1155.62050号 ·doi:10.1214/07-AOS582
[26] Pelckmans,K.De Brabanter,J.Suykens,J.De Moor,B.2005凸聚类收缩PASCAL聚类车间统计与优化研讨会
[27] 兰德,聚类方法评估的客观标准,《美国统计协会杂志》66页846–(1971)·doi:10.1080/01621459.1971.10482356
[28] Shabalin,《在高维数据中发现大平均子矩阵》,《应用统计年鉴》第3卷,第985页–(2009年)·Zbl 1196.62087号 ·doi:10.1214/09-AOAS239
[29] Sill,通过结合稳定性选择的稀疏奇异值分解实现稳健双聚类,生物信息学27页2089–(2011)·doi:10.1093/bioinformatics/btr322
[30] 瑟利,乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类,《美国国家科学院院刊》98页10869–(2001)·doi:10.1073/pnas.191367098
[31] Sörlie,独立基因表达数据集中乳腺肿瘤亚型的重复观察,《美国国家科学院院刊》100页8418–(2003)·doi:10.1073/pnas.0932692100
[32] Tan,可转置数据的稀疏双聚类,《计算与图形统计杂志》23页985–(2014)·doi:10.1080/10618600.2013.85254
[33] Tanay,《双聚类算法:一项调查》。2005年计算机与信息科学系列第9名·doi:10.1201/9781420036275.ch26
[34] Tibshirani,通过Lasso进行回归收缩和选择,皇家统计学会期刊,B辑(统计方法)58,第267页–(1996)·Zbl 0850.62538号
[35] Tibshirani,《融合拉索的稀疏性和光滑性》,英国皇家统计学会杂志,B辑(统计方法),第67页,第91-(2005)·兹比尔1060.62049 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[36] Tibshirani,广义Lasso的解路径,《统计年鉴》第39页第1335页–(2011)·Zbl 1234.62107号 ·doi:10.1214/11-AOS878
[37] Tothill,与临床结果相关的浆液性和子宫内膜样卵巢癌的新分子亚型,《临床癌症研究》14页5198–(2008)·doi:10.1158/1078-0432.CCR-08-0196
[38] Turner,通过系统性能测试证明的微阵列数据的改进双聚类,计算统计与数据分析48,第235页–(2005)·Zbl 1429.62267号 ·doi:10.1016/j.csda.2004.02.003
[39] Witten,《惩罚矩阵分解及其在稀疏主成分和典型相关分析中的应用》,生物统计学10,第515页–(2009)·doi:10.1093/biostatistics/kxp008
[40] Wold,因子和主成分模型中成分数量的交叉验证估计,《技术计量学》20,第397页–(1978)·Zbl 0403.62032号 ·网址:10.1080/00401706.1978.10489693
[41] Wu,拉索惩罚回归的坐标下降算法,《应用统计学年鉴》2,第224页–(2008)·Zbl 1137.62045号 ·doi:10.1214/07-AOAS147
[42] 邹,《自适应套索及其预言属性》,《美国统计协会期刊》第101页第1418页–(2006)·Zbl 1171.62326号 ·doi:10.19198/016214506000000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。