文件Zbl 1514.62474-zbMATH打开

惩罚双聚类模型及相关算法。（英语） Zbl 1514.62474号

J.应用。斯达。 42，第6期，1255-1277（2015）.

摘要：双聚类是两个相关维度的同时聚类，例如，个体和特征，或基因和实验条件。文献中很少提出双聚类的统计模型。相反，大多数研究都集中在寻找双聚类的算法上。它们背后的模型没有受到太多关注。因此，人们对模型的充分性和局限性以及算法的效率知之甚少。在这项工作中，我们揭示了算法背后的相关统计模型。这使我们能够概括大多数已知的流行双聚类技术，并证明用于查找双聚类的算法是正确的，并对其进行了多次改进。事实证明，大多数已知技术都有隐藏的贝叶斯味道。因此，我们采用贝叶斯框架对双聚类进行建模。我们通过惩罚格子模型提出了一种衡量双聚类复杂性（双聚类数和重叠）的方法，并提出了一个合适版本的偏差信息准则来选择双聚类数，这一问题尚未得到充分解决。我们的想法是受基因表达数据分析的启发。

引用于三文件

MSC公司：

62至XX

统计

关键词：

群集;偏差信息准则;基因表达;混合物;型号选择;格子模型

软件：

FABIA公司;GOstats公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	H.Akaike，统计模型识别的新视角，IEEE传输。自动化。对照19（1974年），第716-723页。doi:10.1109/TAC.1974.1100705·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2]	J.Allan、J.Carbonell、G.Doddington、J.Yamron和Y.Yang，主题检测和跟踪试点研究：最终报告《美国国防高级研究计划局广播新闻转录与理解研讨会会议记录》，美国弗吉尼亚州兰斯敦兰兹唐恩会议度假区，1998年，第194-218页。
[3]	M.Ashburner、C.A.Ball、J.A.Blake、D.Botstein、H.Butler、J.M.Cherry、A.P.Davis、K.Dolinski、S.S.Dwight、J.T.Eppig、M.A.Harris、D.P.Hill、L.Issel-Tarver、A.Kasarskis、S.Lewis、J.C.Matese、J.E.Richardson、M.Ringwald、G.M.Rubin和G.Sherlock，基因本体：生物学统一的工具《自然遗传学》。25（2000），第25-29页。doi:10.1038/775556·doi:10.1038/775556
[4]	J.Besag，脏照片的统计分析，J.R.Stat.Soc.Ser.，《美国国家统计年鉴》。B 48（1986），第259-302页·Zbl 0609.62150号
[5]	G.E.P.Box和D.R.Cox，变换分析，J.R.Stat.Soc.Ser.，《美国国家统计年鉴》。B 26（1964年），第211-243页·Zbl 0156.40104号
[6]	S.Busygin、O.Prokopyev和P.M.Pardalos，数据挖掘中的双聚类，计算。操作。第35号决议（2008年），第2964-2987页。doi:10.1016/j.cor.2007.01.005·Zbl 1144.68309号 ·doi:10.1016/j.cor.2007.01.005
[7]	J.Caldas和S.Kaski，格子模型的贝叶斯双聚类《IEEE信号处理机器学习国际研讨会论文集》，第十八届，墨西哥坎昆，2008年，第291-296页。
[8]	G.Celeux、F.Forbes、C.P.Robert和D.M.Titterington，缺失数据模型的偏差信息标准贝叶斯分析。1（2006年），第651-674页。doi:10.1214/06-BA122·Zbl 1331.62329号 ·doi:10.1214/06-BA122
[9]	Y.Cheng和G.Church，表达式数据的双聚类《分子生物学智能系统国际会议》，第12卷，美国加利福尼亚州拉荷亚，2000年，第61-86页。
[10]	S.Chu、J.DeRisi、M.Eisen、J.Mulholland、D.Botstein、P.O.Brown和I.Herskowitz，芽殖酵母产孢的转录程序《科学》282（1998），第699-705页。doi:10.1126/science.282.5389.699·doi:10.1126/science.282.5389.699
[11]	A.Dempster、N.Laird和D.Rubin，通过EM算法从不完整数据中获得最大似然，J.R.Stat.Soc.Ser.，《美国国家统计年鉴》。B 39（1977），第1-38页·Zbl 0364.62022号 ·doi:10.1111/j.2517-6161.1977.tb01600.x
[12]	S.Dolnicar、S.Kaiser、K.Lazarevski和F.Leisch，双聚类《旅游研究杂志》第51期（2012年），第41-49页。doi:10.1177/0047287510394192·doi:10.1177/0047287510394192
[13]	M.Eisen、P.Spellman、P.Brown和D.Botstein，全基因组表达模式的聚类分析和显示《遗传学》95（1998），第14863-14868页。
[14]	S.Falcon和R.绅士，使用GOstats测试GO术语关联的基因列表《生物信息学》23（2007），第257-258页。doi:10.1093/bioinformatics/btl567·doi:10.1093/bioinformatics/btl567
[15]	J.Gu和S.Liu，基因表达数据的贝叶斯双聚类《生物信息学与计算生物学国际会议》，BMC基因组学，第9卷，美国内华达州拉斯维加斯，2008年，第113-120页。
[16]	J.A.Hartigan，数据矩阵的直接聚类，J.Amer。统计师。《协会》第67卷（1972年），第123-129页。网址：10.1080/01621459.1972.10481214
[17]	S.Hochreiter、U.Bodenhofer、M.Heusel、A.Mayr、A.Mitterecker、A.Kasim、T.Khamiakova、S.V.Sanden、D.Lin、W.Talloen、L.Bijnens、H.W.H.Gohlmann、Z.Shkedy和D.A.Clevert，FABIA：双集群采集的因子分析《生物信息学》第26卷（2010年），第1520-1527页。doi:10.1093/bioinformatics/btq227·doi:10.1093/bioinformatics/btq227
[18]	M.I.Jordan和R.A.Jacobs，专家的分层混合和EM算法，神经计算。6（1994年），第181-214页。doi:10.1162/neco.1996.2.181·doi:10.1162/neco.1996.2.181
[19]	H.Katsuhisa和T.Hiroyuki，基因表达谱数据中聚类边界的统计估计《生物信息学》17（2001），第1143-1151页。doi:10.1093/bioinformatics/17.12.1143·doi:10.1093/bioinformatics/17.12.1143
[20]	C.考夫曼和R.塞恩，基于高斯过程先验分布的贝叶斯函数方差分析建模《国际社会贝叶斯分析》。5（2010），第123-150页。doi:10.1214/10-BA505·Zbl 1330.62341号 ·doi:10.1214/10-BA505
[21]	Y.Kluger、R.Basri、J.T.Chang和M.Gerstein，微阵列数据的光谱双聚类：共聚类基因和条件《基因组研究》13（2003），第703-716页。doi:10.1101/gr.648603·doi:10.1101/gr.648603
[22]	L.Lazzeroni和A.Owen，基因表达数据的格子模型，统计。Sinica 12（2002），第61-86页·Zbl 1004.62084号
[23]	D.V.Lindley和A.F.M.Smith，线性模型的Bayes估计，J.R.Stat.Soc.Ser.，《美国国家统计年鉴》。B 34（1972），第1-41页·Zbl 0246.62050号
[24]	A.Prelić、S.Bleuler、P.Zimmermann、A.Wille、P.Bühlmann、W.Gruissem、L.Hennig、L.Thiele和E.Zitzler，基因表达数据双聚类方法的系统比较与评价《生物信息学》22（2006），第1122-1129页。doi:10.1093/bioinformatics/btl060·doi:10.1093/bioinformatics/btl060
[25]	C.P.Robert和G.Casella，蒙特卡洛统计方法，Springer，纽约，1999年·Zbl 0935.62005号 ·doi:10.1007/978-1-4757-3071-5
[26]	R.Santamaria、L.Quintales和R.Theron，微阵列数据中的双聚类验证和比较方法，IDEAL 07《第八届智能数据工程与自动化学习国际会议论文集》，英国伯明翰，2007年，第780-789页。
[27]	C.M.Sara和A.L.Oliveira，生物数据分析的双聚类算法综述，IEEE传输。计算。生物信息。1（2004年），第24-45页。doi:10.1109/TCBB.2004.2·doi:10.1109/TCBB.2004.2
[28]	G.E.Schwarz，估算模型的维数Ann.统计师。6（1978年），第461-464页。doi:10.1214/aos/1176344136·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[29]	R.Sokal和C.Michener，评估系统关系的统计方法堪萨斯大学。牛。38（1958），第1409-1438页。
[30]	D.J.Spiegelholter、N.G.Best、B.P.Carlin和A.van der Linde，模型复杂性和拟合的贝叶斯度量，J.R.Stat.Soc.Ser.，《美国国家统计年鉴》。B 64（2002），第583-640页。数字对象标识代码：10.1111/1467-9868.00353·Zbl 1067.62010年 ·数字对象标识代码：10.1111/1467-9868.00353
[31]	A.Tanay、R.Sharan和R.Shamir，在基因表达数据中发现具有统计意义的双聚类《生物信息学》第18卷（2002年），第S136-S144页。doi:10.1093/bioinformatics/18.suppl_1.S136·doi:10.1093/bioinformatics/18.suppl_1.S136
[32]	A.Tanay、R.Sharan和R.Shamir，双聚类算法：综述，英寸计算分子生物学手册S.Aluru主编，《计算机和信息科学丛书》，查普曼和霍尔/CRC出版社，佛罗里达州博卡拉顿，2005年·doi:10.1201/9781420036275.ch26
[33]	H.Turner、T.Bailey和W.Krzanowski，通过系统性能测试证明改进了微阵列数据的双聚类，计算。统计师。数据分析。48（2005），第235-254页。doi:10.1016/j.csda.2004.02.003·Zbl 1429.62267号 ·doi:10.1016/j.csda.2004.02.003
[34]	J.H.Ward，优化目标函数的分层分组，J.Amer。统计师。《协会》第58卷（1963年），第234-244页。doi:10.1080/016214591963.10500845
[35]	J.Zhang，双聚类的贝叶斯模型及其应用《J.R.Stat.Soc.B 59》（2010年），第635-656页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

惩罚双聚类模型及相关算法。（英语） Zbl 1514.62474号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

惩罚双聚类模型及相关算法。 （英语） Zbl 1514.62474号

MSC公司：

关键词：

软件：

参考文献：

惩罚双聚类模型及相关算法。（英语） Zbl 1514.62474号