×

分段分类的决策理论方法。 (英语) Zbl 1454.62206号

摘要:本文研究线性序列数据分段分类的统计方法,其任务是根据潜在的隐藏离散状态序列对数据进行分段和分类。这种分析在包括基因组学、金融学和语音处理在内的经验科学中很常见。特别是,我们有兴趣回答以下问题:给定数据(y)和隐藏态(x)的统计模型(pi(x,y)),我们应该报告什么作为后验分布(pi,y)下的预测?也就是说,你应该如何预测潜在状态?我们证明,报告最可能的状态序列或最可能的边缘预测集等传统方法可能会产生不良的分类伪影,并对预测的属性提供有限的控制。我们提出了一种使用一类新的马尔可夫损失函数的决策理论方法,并通过最小期望损失(最大期望效用)原则报告({x})。我们证明了马尔可夫损失函数下的最小期望损失序列可以用动态规划方法精确地枚举,并且与现有技术相比,它提供了灵活性和性能改进。该结果是通用的,适用于序列上的任何概率模型,如隐马尔可夫模型、变化点或产品划分模型。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62C10个 贝叶斯问题;贝叶斯过程的特征
2005年6月2日 马尔可夫过程:估计;隐马尔可夫模型
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Banachewicz,K.、Lucas,A.和van der Vaart,A.(2008)。使用带有协变量的隐马尔可夫模型对投资组合违约进行建模。经济。期刊11 155-171·Zbl 1135.91358号 ·doi:10.1111/j.1368-423X.2008.00232.x
[2] Barry,D.和Hartigan,J.A.(1992年)。变更点问题的产品划分模型。安。统计师。20 260-279. ·Zbl 0780.62071号 ·doi:10.1214/aos/1176348521
[3] Berger,J.O.(1985)。《统计决策理论与贝叶斯分析》,第二版,纽约斯普林格出版社·Zbl 0572.62008号
[4] Bernardo,J.M.和Smith,A.F.M.(2000)。贝叶斯理论。纽约威利·Zbl 0943.62009号
[5] Beroukhim,R.、Mermel,C.H.、Porter,D.、Wei,G.、Raychaudhuri,S.、Donovan,J.、Barretina,J.、Boehm,J.S.、Dobson,J.、Urashima,M.、Henry,K.T.M.、Pinchback,R.M.、Ligon,A.H.、Cho,Y.-J、Haery,L.、Greulich,H.、Reich,M.、Winckler,W.、Lawrence,M.S.、Weir,B.A.、Tanaka,K.E.、Chiang,D.Y.、Bass,A.J.、Loo,A.、Hoffman,C。,Prensner,J.、Liefeld,T.、Gao,Q.、Yecies,D.、Signoretti,S.、Maher,E.、Kaye,F.J.、Sasaki,H.、Tepper,J.E.、Fletcher,J.A.、Tabernero,J.,Baselga,J.和Tsao,M.-S.、Demichelis,F.、Rubin,M.A.、Janne,P.A.、Daly,M.J.、Nucera,C.、Levine,R.L.、Ebert,B.L.、Gabriel,S.,Rustgi,A.K.、Antonescu,C.R.、Ladanii,M.、Letai,A.、。,Garraway,L.A.、Loda,M.和Beer,D.G.(2010年)。人类癌症中的体细胞拷贝数改变。自然463 899-905。
[6] Bignell,G.R.、Greenman,C.D.、Davies,H.、Butler,A.P.、Edkins,S.、Andrews,J.M.、Buck,G.、Chen,L.、Beare,D.、Latimer,C.、Widaa,S.,Hinton,J.、Fahey,C.、Fu,B.、Swamy,S.和Dalgliesh,G.L.、Teh,B.T.、Deloukas,P.、Yang,F.、Campbell,P.J.、Futreal,P.和Stratton,M.R.(2010)。癌症基因组中突变和选择的特征。自然463 893-898。
[7] 癌症基因组图谱网络(2012年)。人类结肠癌和直肠癌的综合分子特征。自然487 330-337。
[8] Carter,S.L.、Cibulskis,K.、Helman,E.、McKenna,A.、Shen,H.、Zack,T.、Laird,P.W.、Onofrio,R.C.、Winckler,W.、Weir,B.A.、Beroukhim,R.、Pellman,D.、Levine,D.A.、Lander,E.S.、Meyerson,M.和Getz,G.(2012)。人类癌症中体细胞DNA变化的绝对量化。自然生物技术。30 413-421.
[9] Chien,J.T.和Furui,S.(2005)。语音识别的预测隐马尔可夫模型选择。IEEE语音和音频处理汇刊13 377-387。
[10] 肖邦,N.和佩尔格林,F.(2004)。隐马尔可夫模型的贝叶斯推断和状态数确定:通货膨胀收益率曲线信息含量的应用。《计量经济学杂志》123 327-344·Zbl 1084.62021号 ·doi:10.1016/j.jeconom.2003.12.010
[11] Christie,M.、Jorissen,R.N.、Mouradov,D.、Sakthianandeswaren,A.、Li,S.、Day,F.、Tsui,C.、Lipton,L.、Desai,J.、Jones,I.T.、McLaughlin,S.,Ward,R.L.、Hawkins,N.J.、Ruszkiewicz,A.R.、Moore,J、Burgess,A.W.、Busam,D.、Zhao,Q.、Strausberg,R.L.、Simpson,A.J.、Tomlinson,I.M.、Gibbs,P.和Sieber,O.M.(2012)。近端和远端散发性结直肠癌中不同的APC基因型表明肿瘤发生的WNT/(β)-连环蛋白信号阈值不同。癌基因。
[12] Curtis,C.、Shah,S.P.、Chin,S.-F、Turashvili,G.、Rueda,O.M.、Dunning,M.J.、Speed,D.、Lynch,A.G.、Samarajiwa,S.、Yuan,Y.、GräF,S.、Ha,G.、Haffari,G.、Bashasati,A.、Russell,R.、McKinney,S.、Group、M.E.T.A.B.R.I.C.、LangerøD,A.、Green,A.、Provenzano,E.、Wishart,G.、Pinder,S.、Watson,P.、Markowetz,F.、Murphy,L。,Ellis,I.、Purushotham,A.、Börresen-Dale,A.-L.、Brenton,J.D.、Tavaré,S.、Caldas,C.和Aparicio,S.(2012年)。2000例乳腺肿瘤的基因组和转录组结构揭示了新的亚群。自然486 346-352。
[13] Day,N.、Hemmaplardh,A.、Thurman,R.E.、Stamatoyannopoulos,J.A.和Noble,W.S.(2007)。连续基因组数据的无监督分割。生物信息学23 1424-1426。
[14] Fearnhead,P.和Liu,Z.(2007)。多变化点问题的在线推理。J.R.统计社会服务。B统计方法。69 589-605. ·doi:10.1111/j.1467-9868.2007.00601.x
[15] Giampieri,G.、Davis,M.和Crowder,M.(2005)。使用隐马尔可夫模型分析默认数据。数量。金融5 27-34·Zbl 1118.91321号 ·doi:10.1080/14697680500039951
[16] Greenman,C.D.、Bignell,G.、Butler,A.、Edkins,S.、Hinton,J.、Beare,D.、Swamy,S.和Santarius,T.、Chen,L.、Widaa,S.,Futreal,P.A.和Stratton,M.R.(2010年)。PICNIC:利用微阵列癌症数据预测绝对等位基因拷贝数变化的算法。生物统计学11 164-175。
[17] Kesten,H.(1976年)。可数一维马尔可夫随机场的存在唯一性。安·普罗巴伯。4 557-569. ·Zbl 0367.60080号 ·doi:10.1214/aop/1176996027
[18] Knight,S.J.L.,Yau,C.,Clifford,R.,Timbs,A.T.,Sadighi Akha,E.,Dréau,H.M.,Burns,A.,Ciria,C.,Oscier,D.G.,Pettitt,A.R.,Dutton,S.,Holmes,C.C.,Taylor,J.,Cazier,J.-B.和Schuh,A.(2012)。B细胞慢性淋巴细胞白血病患者治疗前和复发配对样本中复发基因组畸变亚克隆分布的量化。白血病26 1564-1575。
[19] Lember,J.和Koloydenko,A.A.(2010年)。一种基于隐马尔可夫模型的路径推理的广义风险方法。预打印。可从获取。1007.3622 ·Zbl 1318.62273号
[20] Li,A.,Liu,Z.,Lezon-Geyda,K.,Sarkar,S.,Lannin,D.,Schulz,V.,Krop,I.,Winer,E.,Harris,L.和Tuck,D.(2011)。GPHMM:使用全基因组SNP阵列识别复杂肿瘤样本中拷贝数改变和杂合性丢失的集成隐马尔可夫模型。核酸研究39 4928-4941。
[21] Loo,P.V.和Campbell,P.J.(2012)。绝对癌症基因组学。自然生物技术。30 620-621.
[22] Loo,P.V.、Nordgard,S.H.、Lingjærde,O.C.、Russnes,H.G.、Rye,I.H.、Sun,W.、Weigman,V.J.、Marynen,P.、Zetterberg,A.、Naume,B.、Perou,C.M.、Børresen Dale,A.-L.和Kristensen,V.N.(2010)。肿瘤的等位基因特异性拷贝数分析。程序。国家。阿卡德。科学。美国107 16910-16915。
[23] Majoros,W.H.、Pertea,M.和Salzberg,S.L.(2004)。TigrScan和GlimmerHMM:两个开源从头算真核生物基因发现者。生物信息学20 2878-2879。
[24] Murphy,K.P.(2002)。隐半马尔可夫模型(hsmms)。技术报告。
[25] Northcott,P.A.、Shih,D.J.H.、Peacock,J.、Garzia,L.、Morrissy,A.S.、Zichner,T.、Stütz,A.M.、Korshunov,A.、Reimand,J.,Schumacher,S.E.、Beroukhim,R.、Ellison,D.W.、Marshall,C.R.、Lionel,A.、Mack,S.、Dubuc,A.、Yao,Y.、Ramaswamy,V.、Luu,B.、Rolider,A.、Cavalli,F.M.、Wang,X.、Remke,M.、Wu,X.,Chiu,R.Y.B.、楚,A.、Chuah,E.、Corbett,R.D.、Hoad,G.R.、Jackman,S.D.、Li,Y.、Lo,A.、Mungall,K.L.、Nip,K.M.、Qian,J.Q.、Raymond,A.G.J.、Thiessen,N.T.、Varhol,R.J.,Birol,I.、Moore,R.A.、Mungell,A.J.、Holt,R.、Kawauchi,D.、Roussel,M.、Kool,M.,Jones,D.T.、Witt,H.、Fernandez,A.、Kenney,A.M.、Wechsler-Reya,R.J.、Dirks,P.、Aviv,T.、Grajkowska,W.A.和Perek-Polnik,M.(2012)。1000个髓母细胞瘤基因组的亚群特异性结构变异。自然488 49-56。
[26] Popova,T.、Manié,E.、Stoppa Lyonnet,D.、Rigaill,G.、Barillot,E.和Stern,M.H.(2009年)。基因组改变打印(GAP):通过SNP阵列获得的复杂癌症基因组图谱的可视化和挖掘工具。基因组生物学。10 R128。
[27] Rabiner,L.R.(1989)。语音识别中隐藏马尔可夫模型和选定应用的教程。IEEE 77 257-286会议记录。
[28] Rossi,A.和Gallo,G.M.(2006年)。基于隐马尔可夫模型的波动率估计。《实证金融杂志》13 203-230。
[29] Rue,H.(1995)。贝叶斯成像中的新损失函数。J.Amer。统计师。协会90 900-908·Zbl 0850.62933号 ·doi:10.2307/2291324
[30] Sengupta,N.、Yau,C.、Sakthianandeswaren,A.、Mouradov,D.、Gibbs,P.、Suraweera,N.,Cazier,J.-B、Polanco-Echeverry,G.、Ghosh,A.、Thaha,M.、Ahmed,S.、Feakins,R.、Propper,D.、Dorudi,S.,Sieber,O.、Silver,A.和Lai,C.(2013)。对英属孟加拉人结直肠癌的分析确定了早期发病、频繁的粘液组织类型和RBFOX1缺失的高患病率。摩尔癌症12 1。
[31] Siddiqi,S.M.和Moore,A.W.(2005)。大型状态空间HMM中的快速推理和学习。第22届机器学习国际会议论文集(德国波恩)800-807。纽约ACM。
[32] Su,S.Y.、Balding,D.J.和Coin,L.J.M.(2008)。通过使用隐马尔可夫模型推断祖先单倍型进行疾病关联测试。生物信息学24 972。
[33] Sun,W.、Wright,F.A.、Tang,Z.、Nordgard,S.H.、Loo,P.V.、Yu,T.、Kristensen,V.N.和Perou,C.M.(2009)。使用高密度SNP阵列对拷贝数状态和基因型调用进行综合研究。核酸研究37 5365-5377。
[34] Weiss,R.J.和Ellis,D.P.W.(2008)。使用扬声器自适应特征语音模型进行语音分离。计算机语音与语言24 16-29。
[35] Yan,Q.、Vaseghi,S.、Zavarehei,E.、Milner,B.、Darch,J.、White,P.和Andrianakis,I.(2007年)。使用HMM和卡尔曼滤波器的共振峰跟踪线性预测模型用于噪声语音处理。计算机语音与语言21 543-561。
[36] Yau,C.、Mouradov,D.、Jorissen,R.N.、Colella,S.、Mirza,G.、Steers,G.,Harris,A.、Ragoussis,J.、Sieber,O.和Holmes,C.C.(2010)。从单核苷酸多态性基因分型数据中检测异质性肿瘤样本基因组畸变的统计方法。基因组生物学。11 R92。
[37] Zhang,Lange,K.,Ophoff,R.和Sabatti,C.(2010年)。通过惩罚估计和插补重建DNA拷贝数。附录申请。法令4 1749-1773·Zbl 1220.62146号 ·doi:10.1214/10-OAS357
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。