×

关系数据矩阵中双聚类数的良好性测试。 (英语) Zbl 07758738号

摘要:双聚类是检测给定矩阵中齐次子矩阵的一种方法。尽管有许多研究估计了矩阵的基本双聚类结构,但很少有研究能使我们确定合适的双聚类数。最近,针对规则网格双簇结构,提出了一种双簇数的统计检验方法。然而,当潜在的双簇结构不满足这种规则网格假设时,之前的测试需要比接受零假设所需的更多的双簇,这在解释接受的结构方面是不可取的。在本研究中,我们提出了一种新的不需要规则网格假设的双聚类数统计检验,并推导了所提出的检验统计量在零和可选情况下的渐近行为。通过将该方法应用于合成数据矩阵和实际数据矩阵,我们证明了该方法的有效性。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Balakrishnan,S.、Kolar,M.、Rinaldo,A.、Singh,A.、Wasserman,L.(2011年)。双聚类中的统计和计算权衡。in:NIPS 2011统计学习中的计算权衡研讨会.
[2] Ben-Dor,A.,Chor,B.,Karp,R.,Yakhini,Z.(2002年)。发现基因表达数据中的局部结构:顺序保护子矩阵问题。在:第六届国际计算生物学年会论文集(第49-57页)。
[3] PJ Bickel;Sarkar,P.,网络中自动社区检测的假设测试,《皇家统计学会杂志:B辑(统计方法)》,78,1,253-273(2016)·Zbl 1411.62162号 ·doi:10.1111/rssb.12117
[4] 布隆门达尔,A。;Knowles,A。;尤,HT;Yin,J.,关于样本协方差矩阵的主成分,概率论及相关领域,164,459-552(2016)·Zbl 1339.15023号 ·doi:10.1007/s00440-015-0616-x
[5] Brennan,M.、Bresler,G.、Huleihel,W.(2018年)。种植稀疏结构问题的可约性和计算下限。在:第31届学习理论会议记录(第75卷,第48-166页)。机器学习研究论文集。
[6] Brennan,M.、Bresler,G.、Huleihel,W.(2019年)。子矩阵检测计算下限的普遍性。在:第32届学习理论会议记录(第99卷,第417-468页)。机器学习研究论文集。
[7] 布图萨,C。;Ingster,YI,高维噪声矩阵稀疏子矩阵的检测,Bernoulli,19,5,2652-2688(2013)·Zbl 1457.62072号 ·doi:10.3150/12-BEJ470
[8] Butucea,C.,Ingster,Y.I.,Suslina,I.A.(2015)。高维噪声矩阵中稀疏子矩阵的尖锐变量选择。伊朗伊斯兰共和国:概率论与统计学19:115-134. ·Zbl 1330.62169号
[9] 蔡,TT;Wu,Y.,稀疏矩阵检测的统计和计算极限,统计年鉴,48,3,1593-1614(2020)·Zbl 1453.62285号 ·doi:10.1214/19-AOS1860
[10] 蔡,TT;Liang,T。;Rakhlin,A.,《大噪声矩阵中子矩阵定位的计算和统计边界》,《统计年鉴》,45,4,1403-1430(2017)·Zbl 1392.62017年 ·doi:10.1214/16-AOS1488
[11] Chekouo,T。;Murua,A.,《惩罚双聚类模型及相关算法》,《应用统计杂志》,第42、6、1255-1277页(2015年)·Zbl 1514.62474号 ·doi:10.1080/02664763.2014.999647
[12] Chekouo,T。;Murua,A。;Raffelsberger,W.,吉布斯格子双聚类模型,应用统计年鉴,9,3,1643-1670(2015)·Zbl 1454.62316号 ·doi:10.1214/15-AOAS854
[13] 陈,Y。;Xu,J.,随着簇和子矩阵数量的增加,植入式问题和子矩阵定位的统计计算权衡,机器学习研究杂志,17,27,1-57(2016)·Zbl 1360.62320号
[14] Conover,WJ,实用非参数统计(1999),纽约:John Wiley&Sons,纽约
[15] Corneli,M.,Latouche,P.,Rossi,F.(2015)。动态网络潜在块模型非平稳时间扩展中的精确ICL最大化。在:第23届欧洲人工神经网络研讨会论文集(第225-230页)。计算智能和机器学习。
[16] Dhillon,I.S.(2001年)。使用二部谱图划分对文档和单词进行共聚类。在:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第269-274页)。
[17] Dua,D.,Graff,C.(2017年)。UCI机器学习库。http://archive.ics.uci.edu/ml,加州大学欧文分校信息与计算机科学学院。
[18] 达菲,德国;Quiroz,AJ,基于排列的块聚类算法,分类杂志,8,65-91(1991)·doi:10.1007/BF02616248
[19] CJ弗林;Perry,PO,Profile似然双聚类,《电子统计杂志》,第14期,第1731-768页(2020年)·Zbl 1435.62229号 ·doi:10.1214/19-EJS1667
[20] 法国,FOD。(2012). 字文档数据的可扩展重叠联合聚类。在:2012年第11届机器学习与应用国际会议(第464-467页)。
[21] Goldberg,K。;罗德,T。;古普塔,D。;Perkins,C.,Eigentaste:恒定时间协同过滤算法,信息检索,4,2,133-151(2001)·Zbl 0989.68052号 ·doi:10.1023/A:101149012209
[22] 哈耶克,B。;Wu,Y。;Xu,J.,《恢复隐藏社区的信息限制》,IEEE信息理论汇刊,63,8,4729-4745(2017)·Zbl 1372.94364号 ·doi:10.1109/TIT.2017.2653804
[23] 哈耶克,B。;Wu,Y。;Xu,J.,通过消息传递进行子矩阵定位,《机器学习研究杂志》,18,186,1-52(2018)·Zbl 1468.68155号
[24] 哈珀,FM;Konstan,JA,The MovieLens datasets:History and context,ACM Transactions on Interactive Intelligent Systems,5,4,1-19(2015)·doi:10.1145/2827872
[25] Hartigan,JA,数据矩阵的直接聚类,美国统计协会杂志,67337123-129(1972)·网址:10.1080/01621459.1972.10481214
[26] Hochreiter,S。;博登霍夫,美国。;Heusel,M。;Mayr,A。;Mitterecker,A。;Kasim,A。;Khamiakova,T。;桑登,SV;Lin,D。;塔伦,W。;Bijnens,L。;赫尔曼,HWH;Shkedy,Z。;Clevert,DA,FABIA:双聚类采集的因子分析,生物信息学,26,12,1520-1527(2010)·doi:10.1093/bioinformatics/btq227
[27] Hu,J.,Zhang,J.、秦,H.、闫,T.、朱,J.(2020)。使用最大入口偏差测试随机块模型的拟合优度。美国统计协会杂志0(0):1-10. ·兹比尔1510.62247
[28] 科拉尔,M。;Balakrishnan,S。;里纳尔多,A。;Singh,A.,大噪声矩阵中结构信息的Minimax局部化,神经信息处理系统的进展,24909-917(2011)
[29] Lei,J.,随机块模型的有效性检验,《统计年鉴》,44,1,401-424(2016)·Zbl 1331.62283号 ·doi:10.1214/15-AOS1370
[30] Liu,J.、Yang,J.和Wang,W.(2004)。基因表达数据中的双聚类(按趋势)。在:2004 IEEE计算系统生物信息学会议记录(第182-193页)。
[31] Liu,Y.,Guo,J.(2018)。具有加速功能的无分布、大小自适应子矩阵检测。arXiv:1804.10887·Zbl 1442.62093号
[32] Lomet,A.,Govaert,G.,Grandvalet,Y.(2012年)。基于综合分类似然的块聚类模型选择。在:第20届国际计算统计会议论文集(第519-530页)·Zbl 1416.62349号
[33] Luo,Y.,Zhang,A.(2020年)。种植结构张量聚类:统计最优性和计算极限。在:2020年联合统计会议.
[34] 马,Z。;Wu,Y.,极小极大子矩阵检测中的计算障碍,统计学年鉴,43,31089-1116(2015)·Zbl 1328.62354号 ·doi:10.1214/14-AOS1300
[35] 南卡罗来纳州马德拉;Oliveira,AL,《生物数据分析的双聚类算法:一项调查》,IEEE/ACM计算生物学和生物信息学汇刊,1,1,24-45(2004)·doi:10.1109/TCBB.2004年2月
[36] Moran,G.E.(2019年)。贝叶斯变异建模方法。美国宾夕法尼亚大学博士论文。
[37] Oghabian,A。;Kilpinen,S。;Hautaniemi,S。;Czeizler,E.,双聚类方法:生物学相关性及其在基因表达分析中的应用,PLOS ONE,9,3(2014)·doi:10.1371/journal.pone.0090801
[38] 皮莱,NS;Yin,J.,协方差矩阵的普遍性,应用概率年鉴,24,3,935-1001(2014)·Zbl 1296.15021号 ·doi:10.1214/13-AAP939
[39] Pio,G。;塞西,M。;D’Elia,D。;Loglisci,C.等人。;Malerba,D.,一种新的双聚类算法,用于发现微RNA及其靶基因之间有意义的生物相关性,BMC生物信息学,14,7,S8(2013)·doi:10.1186/1471-2105-14-S7-S8
[40] Prelić,A。;布鲁勒,S。;齐默尔曼,P。;Wille,A。;Bühlmann,P。;格鲁伊斯姆,W。;Hennig,L。;Thiele,L。;Zitzler,E.,基因表达数据双聚类方法的系统比较与评估,生物信息学,22,9,1122-1129(2006)·doi:10.1093/bioinformatics/btl060
[41] Raff,E.、Zak,R.、Munoz,G.L.、Fleming,W.、Anderson,H.S.、Filar,B.、Nicholas,C.、Holt,J.(2020)。使用双聚类自动生成Yara规则。在:第13届ACM人工智能与安全研讨会会议记录(第71-82页)。
[42] Sakai,Y.,Yamanishi,K.(2013)。基于NML的通用关系数据建模模型选择准则。在:2013年IEEE国际大数据会议记录(第421-429页)。
[43] 沙巴林,AA;维格曼,VJ;佩鲁,CM;诺贝尔,AB,《在高维数据中发现大平均子矩阵》,《应用统计年鉴》,3,3,985-1012(2009)·Zbl 1196.62087号 ·doi:10.1214/09-AOAS239
[44] Shan,H.、Banerjee,A.(2008)。贝叶斯联合聚类。In:第八届IEEE数据挖掘国际会议记录(第530-539页)。
[45] 窗台,M。;凯撒,S。;A.本纳。;Kopp Schneider,A.,结合稳定性选择的稀疏奇异值分解的鲁棒双聚类,生物信息学,27,152089-2007(2011)·doi:10.1093/bioinformatics/btr322
[46] Symeonidis,P.、Nanopulos,A.、Papadopoulos,A.、Manolopoulos,Y.(2007年)。使用常量值的最近集群协作过滤。在:Web挖掘和Web使用分析进展,WebKDD 2006,计算机科学讲稿(第4811卷,第36-55页)。
[47] Tanay,A。;沙兰,R。;Shamir,R.,在基因表达数据中发现具有统计学意义的双簇,生物信息学,18,1,S136-S144(2002)·doi:10.1093/bioinformatics/18.suppl_1.S136
[48] Tepper,M.,Sapiro,G.(2016年)。用于多参数模型估计的快速L1-NMF。arXiv:1610.05712·Zbl 1416.65121号
[49] Tibshirani,R.、Hastie,T.、Eisen,M.、Ross,D.、Botstein,D.、Brown,P.(1999)。DNA微阵列数据分析的聚类方法。斯坦福大学卫生研究与政策系、统计系、遗传学系和生物化学系技术代表。
[50] Tracy,C.A.,Widom,H.(2009年)。随机矩阵理论的分布及其应用。在:数学物理的新动向(第753-765页),施普林格·Zbl 1176.15046号
[51] van der Vaart,AW,《渐近统计》(1998),英国剑桥:剑桥大学出版社,英国剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[52] Ward,JH Jr,优化目标函数的分层分组,美国统计协会杂志,58301236-244(1963)·doi:10.1080/01621459.1963.10500845
[53] 渡边,C。;铃木,T.,潜在区块模型的有效性检验,计算统计与数据分析,154(2021)·Zbl 1510.62285号 ·doi:10.1016/j.csda.2020.107090
[54] 渡边,C.,铃木,T.(2023)。补充“关系数据矩阵中双聚类数的良好性测试”。统计数学研究所年鉴.
[55] Wyse,J。;弗里尔,北。;Latouche,P.,使用潜在块模型和精确ICL推断二分网络中的结构,网络科学,5,1,45-69(2017)·doi:10.1017/nws.2016.25
[56] Yamanishi,K。;Wu,T。;苏加瓦拉,S。;Okada,M.,用于选择分层潜在变量模型的分解归一化最大似然码长准则,数据挖掘与知识发现,331017-1058(2019)·Zbl 1464.62233号 ·doi:10.1007/s10618-019-00624-4
[57] Yöntem,M.K.(2017)。父母出身方式对离婚预测因素的预测作用。土耳其托卡特Gaziosmanpasa大学博士论文。
[58] Yöntem,MK;阿德姆,K。;Ilhan,T。;Kólíaslan,S.,《使用基于相关性的特征选择和人工神经网络进行离婚预测》,Nevšehir HacöBektašVeliüniversitesi SBE Dergisi,9,259-273(2019)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。