文件Zbl 07758738-zbMATH Open

关系数据矩阵中双聚类数的良好性测试。（英语） Zbl 07758738号

Ann.Inst.Stat.数学。 75，编号6，979-1009（2023）.

摘要：双聚类是检测给定矩阵中齐次子矩阵的一种方法。尽管有许多研究估计了矩阵的基本双聚类结构，但很少有研究能使我们确定合适的双聚类数。最近，针对规则网格双簇结构，提出了一种双簇数的统计检验方法。然而，当潜在的双簇结构不满足这种规则网格假设时，之前的测试需要比接受零假设所需的更多的双簇，这在解释接受的结构方面是不可取的。在本研究中，我们提出了一种新的不需要规则网格假设的双聚类数统计检验，并推导了所提出的检验统计量在零和可选情况下的渐近行为。通过将该方法应用于合成数据矩阵和实际数据矩阵，我们证明了该方法的有效性。

理学硕士：

62至XX

统计

关键词：

双聚类;子矩阵检测;光纤质量测试;随机矩阵理论

软件：

电影镜头;Eigentaste公司;LAS公司;FABIA公司;UCI-毫升

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Balakrishnan，S.、Kolar，M.、Rinaldo，A.、Singh，A.、Wasserman，L.（2011年）。双聚类中的统计和计算权衡。in:NIPS 2011统计学习中的计算权衡研讨会.
[2]	Ben-Dor，A.，Chor，B.，Karp，R.，Yakhini，Z.（2002年）。发现基因表达数据中的局部结构：顺序保护子矩阵问题。在：第六届国际计算生物学年会论文集（第49-57页）。
[3]	PJ Bickel；Sarkar，P.，网络中自动社区检测的假设测试，《皇家统计学会杂志：B辑（统计方法）》，78，1，253-273（2016）·Zbl 1411.62162号 ·doi:10.1111/rssb.12117
[4]	布隆门达尔，A。；Knowles，A。；尤，HT；Yin，J.，关于样本协方差矩阵的主成分，概率论及相关领域，164，459-552（2016）·Zbl 1339.15023号 ·doi:10.1007/s00440-015-0616-x
[5]	Brennan，M.、Bresler，G.、Huleihel，W.（2018年）。种植稀疏结构问题的可约性和计算下限。在：第31届学习理论会议记录（第75卷，第48-166页）。机器学习研究论文集。
[6]	Brennan，M.、Bresler，G.、Huleihel，W.（2019年）。子矩阵检测计算下限的普遍性。在：第32届学习理论会议记录（第99卷，第417-468页）。机器学习研究论文集。
[7]	布图萨，C。；Ingster，YI，高维噪声矩阵稀疏子矩阵的检测，Bernoulli，19，5，2652-2688（2013）·Zbl 1457.62072号 ·doi:10.3150/12-BEJ470
[8]	Butucea，C.，Ingster，Y.I.，Suslina，I.A.（2015）。高维噪声矩阵中稀疏子矩阵的尖锐变量选择。伊朗伊斯兰共和国:概率论与统计学19:115-134. ·Zbl 1330.62169号
[9]	蔡，TT；Wu，Y.，稀疏矩阵检测的统计和计算极限，统计年鉴，48，3，1593-1614（2020）·Zbl 1453.62285号 ·doi:10.1214/19-AOS1860
[10]	蔡，TT；Liang，T。；Rakhlin，A.，《大噪声矩阵中子矩阵定位的计算和统计边界》，《统计年鉴》，45，4，1403-1430（2017）·Zbl 1392.62017年 ·doi:10.1214/16-AOS1488
[11]	Chekouo，T。；Murua，A.，《惩罚双聚类模型及相关算法》，《应用统计杂志》，第42、6、1255-1277页（2015年）·Zbl 1514.62474号 ·doi:10.1080/02664763.2014.999647
[12]	Chekouo，T。；Murua，A。；Raffelsberger，W.，吉布斯格子双聚类模型，应用统计年鉴，9，3，1643-1670（2015）·Zbl 1454.62316号 ·doi:10.1214/15-AOAS854
[13]	陈，Y。；Xu，J.，随着簇和子矩阵数量的增加，植入式问题和子矩阵定位的统计计算权衡，机器学习研究杂志，17，27，1-57（2016）·Zbl 1360.62320号
[14]	Conover，WJ，实用非参数统计（1999），纽约：John Wiley&Sons，纽约
[15]	Corneli，M.，Latouche，P.，Rossi，F.（2015）。动态网络潜在块模型非平稳时间扩展中的精确ICL最大化。在：第23届欧洲人工神经网络研讨会论文集（第225-230页）。计算智能和机器学习。
[16]	Dhillon，I.S.（2001年）。使用二部谱图划分对文档和单词进行共聚类。在：第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集（第269-274页）。
[17]	Dua，D.，Graff，C.（2017年）。UCI机器学习库。http://archive.ics.uci.edu/ml，加州大学欧文分校信息与计算机科学学院。
[18]	达菲，德国；Quiroz，AJ，基于排列的块聚类算法，分类杂志，8，65-91（1991）·doi:10.1007/BF02616248
[19]	CJ弗林；Perry，PO，Profile似然双聚类，《电子统计杂志》，第14期，第1731-768页（2020年）·Zbl 1435.62229号 ·doi:10.1214/19-EJS1667
[20]	法国，FOD。(2012). 字文档数据的可扩展重叠联合聚类。在：2012年第11届机器学习与应用国际会议（第464-467页）。
[21]	Goldberg，K。；罗德，T。；古普塔，D。；Perkins，C.，Eigentaste:恒定时间协同过滤算法，信息检索，4，2，133-151（2001）·Zbl 0989.68052号 ·doi:10.1023/A:101149012209
[22]	哈耶克，B。；Wu，Y。；Xu，J.，《恢复隐藏社区的信息限制》，IEEE信息理论汇刊，63，8，4729-4745（2017）·Zbl 1372.94364号 ·doi:10.1109/TIT.2017.2653804
[23]	哈耶克，B。；Wu，Y。；Xu，J.，通过消息传递进行子矩阵定位，《机器学习研究杂志》，18，186，1-52（2018）·Zbl 1468.68155号
[24]	哈珀，FM；Konstan，JA，The MovieLens datasets:History and context，ACM Transactions on Interactive Intelligent Systems，5，4，1-19（2015）·doi:10.1145/2827872
[25]	Hartigan，JA，数据矩阵的直接聚类，美国统计协会杂志，67337123-129（1972）·网址：10.1080/01621459.1972.10481214
[26]	Hochreiter，S。；博登霍夫，美国。；Heusel，M。；Mayr，A。；Mitterecker，A。；Kasim，A。；Khamiakova，T。；桑登，SV；Lin，D。；塔伦，W。；Bijnens，L。；赫尔曼，HWH；Shkedy，Z。；Clevert，DA，FABIA：双聚类采集的因子分析，生物信息学，26，12，1520-1527（2010）·doi:10.1093/bioinformatics/btq227
[27]	Hu，J.，Zhang，J.、秦，H.、闫，T.、朱，J.（2020）。使用最大入口偏差测试随机块模型的拟合优度。美国统计协会杂志0(0):1-10. ·兹比尔1510.62247
[28]	科拉尔，M。；Balakrishnan，S。；里纳尔多，A。；Singh，A.，大噪声矩阵中结构信息的Minimax局部化，神经信息处理系统的进展，24909-917（2011）
[29]	Lei，J.，随机块模型的有效性检验，《统计年鉴》，44，1，401-424（2016）·Zbl 1331.62283号 ·doi:10.1214/15-AOS1370
[30]	Liu，J.、Yang，J.和Wang，W.（2004）。基因表达数据中的双聚类（按趋势）。在：2004 IEEE计算系统生物信息学会议记录（第182-193页）。
[31]	Liu，Y.，Guo，J.（2018）。具有加速功能的无分布、大小自适应子矩阵检测。arXiv:1804.10887·Zbl 1442.62093号
[32]	Lomet，A.，Govaert，G.，Grandvalet，Y.（2012年）。基于综合分类似然的块聚类模型选择。在：第20届国际计算统计会议论文集（第519-530页）·Zbl 1416.62349号
[33]	Luo，Y.，Zhang，A.（2020年）。种植结构张量聚类：统计最优性和计算极限。在：2020年联合统计会议.
[34]	马，Z。；Wu，Y.，极小极大子矩阵检测中的计算障碍，统计学年鉴，43，31089-1116（2015）·Zbl 1328.62354号 ·doi:10.1214/14-AOS1300
[35]	南卡罗来纳州马德拉；Oliveira，AL，《生物数据分析的双聚类算法：一项调查》，IEEE/ACM计算生物学和生物信息学汇刊，1，1，24-45（2004）·doi:10.1109/TCBB.2004年2月
[36]	Moran，G.E.（2019年）。贝叶斯变异建模方法。美国宾夕法尼亚大学博士论文。
[37]	Oghabian，A。；Kilpinen，S。；Hautaniemi，S。；Czeizler，E.，双聚类方法：生物学相关性及其在基因表达分析中的应用，PLOS ONE，9，3（2014）·doi:10.1371/journal.pone.0090801
[38]	皮莱，NS；Yin，J.，协方差矩阵的普遍性，应用概率年鉴，24，3，935-1001（2014）·Zbl 1296.15021号 ·doi:10.1214/13-AAP939
[39]	Pio，G。；塞西，M。；D’Elia，D。；Loglisci，C.等人。；Malerba，D.，一种新的双聚类算法，用于发现微RNA及其靶基因之间有意义的生物相关性，BMC生物信息学，14，7，S8（2013）·doi:10.1186/1471-2105-14-S7-S8
[40]	Prelić，A。；布鲁勒，S。；齐默尔曼，P。；Wille，A。；Bühlmann，P。；格鲁伊斯姆，W。；Hennig，L。；Thiele，L。；Zitzler，E.，基因表达数据双聚类方法的系统比较与评估，生物信息学，22，9，1122-1129（2006）·doi:10.1093/bioinformatics/btl060
[41]	Raff，E.、Zak，R.、Munoz，G.L.、Fleming，W.、Anderson，H.S.、Filar，B.、Nicholas，C.、Holt，J.（2020）。使用双聚类自动生成Yara规则。在：第13届ACM人工智能与安全研讨会会议记录（第71-82页）。
[42]	Sakai，Y.，Yamanishi，K.（2013）。基于NML的通用关系数据建模模型选择准则。在：2013年IEEE国际大数据会议记录（第421-429页）。
[43]	沙巴林，AA；维格曼，VJ；佩鲁，CM；诺贝尔，AB，《在高维数据中发现大平均子矩阵》，《应用统计年鉴》，3，3，985-1012（2009）·Zbl 1196.62087号 ·doi:10.1214/09-AOAS239
[44]	Shan，H.、Banerjee，A.（2008）。贝叶斯联合聚类。In:第八届IEEE数据挖掘国际会议记录（第530-539页）。
[45]	窗台，M。；凯撒，S。；A.本纳。；Kopp Schneider，A.，结合稳定性选择的稀疏奇异值分解的鲁棒双聚类，生物信息学，27，152089-2007（2011）·doi:10.1093/bioinformatics/btr322
[46]	Symeonidis，P.、Nanopulos，A.、Papadopoulos，A.、Manolopoulos，Y.（2007年）。使用常量值的最近集群协作过滤。在：Web挖掘和Web使用分析进展，WebKDD 2006，计算机科学讲稿（第4811卷，第36-55页）。
[47]	Tanay，A。；沙兰，R。；Shamir，R.，在基因表达数据中发现具有统计学意义的双簇，生物信息学，18，1，S136-S144（2002）·doi:10.1093/bioinformatics/18.suppl_1.S136
[48]	Tepper，M.，Sapiro，G.（2016年）。用于多参数模型估计的快速L1-NMF。arXiv:1610.05712·Zbl 1416.65121号
[49]	Tibshirani，R.、Hastie，T.、Eisen，M.、Ross，D.、Botstein，D.、Brown，P.（1999）。DNA微阵列数据分析的聚类方法。斯坦福大学卫生研究与政策系、统计系、遗传学系和生物化学系技术代表。
[50]	Tracy，C.A.，Widom，H.（2009年）。随机矩阵理论的分布及其应用。在：数学物理的新动向（第753-765页），施普林格·Zbl 1176.15046号
[51]	van der Vaart，AW，《渐近统计》（1998），英国剑桥：剑桥大学出版社，英国剑桥·Zbl 0910.62001号 ·doi:10.1017/CBO978051180225
[52]	Ward，JH Jr，优化目标函数的分层分组，美国统计协会杂志，58301236-244（1963）·doi:10.1080/01621459.1963.10500845
[53]	渡边，C。；铃木，T.，潜在区块模型的有效性检验，计算统计与数据分析，154（2021）·Zbl 1510.62285号 ·doi:10.1016/j.csda.2020.107090
[54]	渡边，C.，铃木，T.（2023）。补充“关系数据矩阵中双聚类数的良好性测试”。统计数学研究所年鉴.
[55]	Wyse，J。；弗里尔，北。；Latouche，P.，使用潜在块模型和精确ICL推断二分网络中的结构，网络科学，5，1，45-69（2017）·doi:10.1017/nws.2016.25
[56]	Yamanishi，K。；Wu，T。；苏加瓦拉，S。；Okada，M.，用于选择分层潜在变量模型的分解归一化最大似然码长准则，数据挖掘与知识发现，331017-1058（2019）·Zbl 1464.62233号 ·doi:10.1007/s10618-019-00624-4
[57]	Yöntem，M.K.（2017）。父母出身方式对离婚预测因素的预测作用。土耳其托卡特Gaziosmanpasa大学博士论文。
[58]	Yöntem，MK；阿德姆，K。；Ilhan，T。；Kólíaslan，S.，《使用基于相关性的特征选择和人工神经网络进行离婚预测》，Nevšehir HacöBektašVeliüniversitesi SBE Dergisi，9，259-273（2019）

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

关系数据矩阵中双聚类数的良好性测试。（英语） Zbl 07758738号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

关系数据矩阵中双聚类数的良好性测试。 （英语） Zbl 07758738号

理学硕士：

关键词：

软件：

参考文献：

关系数据矩阵中双聚类数的良好性测试。（英语） Zbl 07758738号