×

尾部自由自下而上的数据分解和快速多变化点检测。 (英语) Zbl 1454.62109号

摘要:本文针对一维数据提出了一种“尾自由”、自底向上的变换,该变换导致数据相对于自适应选择的非平衡Haar小波基进行非线性但条件正交的多尺度分解。分解算法的“尾部自由度”,即在一次通过数据的过程中采取多个贪婪步骤,既可以实现快速计算,也可以使该算法适用于一致估计数据中多个变化点的数量和位置的问题。由此产生的凝聚变化点检测方法避免了经典的除法二值分割的缺点,并提供了非常好的实用性能。它在CRAN提供的R套餐早餐中实施。

MSC公司:

62G05型 非参数估计
62G10型 非参数假设检验
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal,R.、Inclan,C.和Leal,R..(1999)。新兴股市的波动。J.财务。数量。分析34 33–55。
[2] Auger,I.E.和Lawrence,C.E.(1989)。段邻域的最佳识别算法。牛市。数学。生物51 39–54·Zbl 0658.92010号 ·doi:10.1007/BF02458835
[3] Bai,J.(1997)。一次估计多个中断。计量经济学13 315–352。
[4] Bai,J.和Perron,P.(2003年)。多种结构变化模型的计算和分析。J.应用。计量经济学18 1–22。
[5] Birge,L.和Massart,P.(2001)。高斯模型选择。《欧洲数学杂志》。Soc.(JEMS)3 203–268·Zbl 1037.62001 ·doi:10.1007/s100970100031
[6] Boysen,L.、Kempe,A.、Liebscher,V.、Munk,A.和Wittich,O.(2009年)。跳跃型最小二乘估计量的一致性和收敛速度。《统计年鉴》37 157–183·Zbl 1155.62034号 ·doi:10.1214/07-AOS558
[7] Broun,J.、Braun,R.和Mueller,H.-G.(2000)。通过拟似然法进行多变化点拟合,并应用于DNA序列分割。生物特征87 301–314·Zbl 0963.62067号 ·doi:10.1093/biomet/87.2.301
[8] Braun,J.和Mueller,H.-G.(1998年)。DNA序列分割的统计方法。统计师。科学.13 142–162·Zbl 0960.62121号 ·doi:10.1214/ss/1028905933
[9] Brodsky,B.和Darkhovsky,B.1993年。变点问题中的非参数方法。多德雷赫特·克鲁沃·Zbl 1274.62512号
[10] Chen,K.-M.、Cohen,A.和Sackrowitz,H.(2011年)。对变更点进行一致的多次测试。《多变量分析杂志》102 1339–1343·Zbl 1221.62109号 ·doi:10.1016/j.jmva.2011.04.012
[11] Cho,H.和Fryzlewicz,P.(2011年)。张弦估计的多尺度解释及其与非平衡Haar小波的联系。统计计算21 671–681·Zbl 1221.62056号 ·doi:10.1007/s11222-010-9200-5
[12] Cho,H.和Fryzlewicz,P.(2012年)。非平稳时间序列一致分割的多尺度多级技术。统计师。中国22 207–229·兹比尔1417.62240 ·doi:10.5705/ss.2009.280
[13] Cho,H.和Fryzlewicz,P.(2015)。通过稀疏二进制分割实现高维时间序列的多变化点检测。J.R.统计社会服务。B.统计方法77 475–507·Zbl 1414.62356号
[14] Choi,F.Y.(2000年)。与领域无关的线性文本分割的进展。在NAACL 2000《计算语言学协会第一届北美分会会议论文集》第26-33页。
[15] Chu,P.-S.和Zhao,X.(2004)。热带气旋活动的贝叶斯变点分析:北太平洋中部案例。J.气候17 4893–4901。
[16] Ciuperca,G.(2011年)。确定转换点数量的通用标准。统计师。普罗巴伯。第81页1267–1275·Zbl 1219.62110号 ·doi:10.1016/j.spl.2011.03.027
[17] Ciuperca,G.(2014)。变点模型中LASSO方法的模型选择。统计师。论文55 349–374·Zbl 1297.62162号 ·文件编号:10.1007/s00362-012-0482-x
[18] Davies,P.L.和Kovac,A.(2001)。局部极值、运行、字符串和多分辨率。统计年鉴29 1-48·Zbl 1029.62038号 ·doi:10.1214/aos/996986501
[19] Davis,R.、Lee,T.和Rodriguez-Yam,G.(2006年)。非平稳时间序列模型的结构突变估计。J.Amer。统计师。协会101 223–239·Zbl 1118.62359号 ·doi:10.1198/01621450000000745
[20] Desmond,R.、Weiss,H.、Arani,R.,Song,S.-J.、Wood,M.、Fiddian,P.、Gnann,J.和Whitley,R.(2002)。带状疱疹疼痛变化点分析的临床应用。疼痛与症状管理杂志23 510–516。
[21] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81 425–455·兹比尔0815.62019 ·doi:10.1093/biomet/81.3.425
[22] Du,C.,Kao,C.-L.和Kou,S.(2016)。通过边际似然进行逐步信号提取。J.Amer。统计师。协会111 314–330。
[23] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。统计年鉴32 407–499·Zbl 1091.62054号 ·doi:10.1214/09053604000000067
[24] Eichinger,B.和Kirch,C.(2018年)。估计多个随机变化点的MOSUM过程。伯努利24 526–564·Zbl 1388.62251号 ·doi:10.3150/16-BEJ887
[25] Erdman,C.和Emerson,J.(2008)。用于微阵列数据分割的快速贝叶斯变化点分析。生物信息学24 2143–2148。
[26] Frick,K.、Munk,A.和Sieling,H.(2014)。多尺度变点推理(讨论)。J.R.统计社会服务。B.统计方法76 495–580·Zbl 1411.62065号
[27] Fryzlewicz,P.(2007)。非参数函数估计的非平衡Haar技术。J.Amer。统计师。协会102 1318–1327·Zbl 1333.62014年 ·doi:10.1198/0162145000000860
[28] Fryzlewicz,P.(2014)。用于多变化点检测的野生二进制分割。统计年鉴42 2243–2281·Zbl 1302.62075号 ·doi:10.1214/14-AOS1245
[29] Fryzlewicz,P.(2018)。补充“尾部自由自下而上的数据分解和快速多变化点检测”。DOI:10.1214/17-AOS1662供应·Zbl 1454.62109号
[30] Fryzlewicz,P.和Subba Rao,S.(2014)。自回归条件异方差过程的多变点检测。J.R.统计社会服务。B.统计方法76 903–924·Zbl 1411.62248号
[31] Fryzlewicz,P.和Timmermans,C.(2016)。SHAH:用于图像处理的自适应Haar小波。J.计算。图表。统计数字25 879–898。
[32] Harchaoui,Z.和Lévy-Leduc,C.(2010年)。具有总变差惩罚的多个变点估计。J.Amer。统计师。协会105 1480–1493·Zbl 1388.62211号 ·doi:10.1198/jasa.2010.tm09181
[33] Huskova,M.和Slaby,A.(2001年)。多次更改的置换测试。Kybernetika(布拉格)37 605–622·Zbl 1264.62038号
[34] Jackson,B.、Sargle,J.、Barnes,D.、Arabhi,S.、Alt,A.、Gioumousis,P.、Gwin,E.、Sangtrakulcharoen,P.,Tan,L.和Tsai,T.T.(2005)。一种在区间上对数据进行优化分区的算法。IEEE信号处理。第12页105–108。
[35] Jansen,M.、Nason,G.和Silverman,B.(2009年)。图上数据和不规则多维情况的多尺度方法。J.R.统计社会服务。B.统计方法71 97–125·Zbl 1231.62054号 ·文件编号:10.1111/j.1467-9868.2008.00672.x
[36] Killick,R.、Fearnhead,P.和Eckley,I.(2012年)。具有线性计算成本的最佳变化点检测。J.Amer。统计师。协会107 1590–1598·Zbl 1258.62091号 ·doi:10.1080/01621459.2012.737745
[37] Koprinska,I.和Carrato,S.(2001年)。时间视频分割:一项调查。信号处理。图像逗号16 477–500。
[38] Lavielle,M.(1999)。检测因变量序列中的多个变化。随机过程。申请83 79–102·Zbl 0991.62014号 ·doi:10.1016/S0304-4149(99)00023-X
[39] Lavielle,M.(2005)。对转换点问题使用惩罚对比度。信号处理85 1501–1510·Zbl 1160.94341号 ·doi:10.1016/j.sigpro.2005.01.012
[40] Lavielle,M.和Moulines,E.(2000年)。时间序列中未知移位数的最小二乘估计。《时间序列分析杂志》21 33–59·Zbl 0974.62070号 ·doi:10.1111/1467-9892.00172
[41] Lebarbier,E.(2005年)。通过模型选择检测高斯过程均值中的多个变化点。信号处理85 717–736·兹比尔1148.94403 ·doi:10.1016/j.sigpro.2004.11.012
[42] Lee,C.-B.(1995年)。估计独立正态随机变量序列中的变化点数量。统计师。普罗巴伯。第25页241-248·Zbl 0839.62015号 ·doi:10.1016/0167-7152(94)00227-Y
[43] Li,H.、Munk,A.和Sieling,H.(2016)。多尺度变点分割中的FDR控制。电子。《美国联邦法律大全》第10卷第918–959页·Zbl 1338.62117号 ·数字对象标识代码:10.1214/16-EJS1131
[44] Lio,P.和Vanucci,M.(2000)。跨膜蛋白的小波变换点预测。生物信息学16 376–382。
[45] Lu,L.,Zhang,H.-J.和Jiang,H.(2002)。音频分类和分割的内容分析。IEEE传输。语音音频处理10 504–516。
[46] Mahmoud,M.、Parker,P.、Woodall,W.和Hawkins,D.(2007年)。线性剖面数据的变点方法。资格。Reliab公司。工程国际23 247–268。
[47] Maidstone,R.、Hocking,T.、Rigaill,G.和Fearnhead,P.(2017年)。关于大数据的最优多变点算法。统计计算27 519–533·Zbl 1505.62269号 ·doi:10.1007/s11222-016-9636-3
[48] Matteson,D.和James,N.(2014年)。多元数据多变化点分析的非参数方法。J.Amer。统计师。协会109 334–345·Zbl 1367.62260号 ·doi:10.1080/01621459.2013.849605
[49] Minin,V.、Dorman,K.、Fang,F.和Suchard,M.(2005)。双多变点模型使复合检测更加准确。生物信息学21 3034–3042。
[50] Olshen,A.、Venkatraman,E.S.、Lucito,R.和Wigler,M.(2004)。用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计5 557–572·Zbl 1155.62478号 ·doi:10.1093/生物统计学/kxh008
[51] Pan,J.和Chen,J.(2006)。修正信息准则在多变点问题中的应用。《多变量分析杂志》97 2221–2241·Zbl 1101.62050号 ·doi:10.1016/j.jmva.2006.05.009
[52] Rigaill,G.(2015)。一种剪枝动态规划算法,用于恢复1到\({克}_{\max}\)更改点。J.SFdS156 180–205·Zbl 1381.90094号
[53] Rinaldo,A.(2009)。融合套索的特性和改进。统计年鉴37 2922–2952·Zbl 1173.62027号 ·doi:10.1214/08-AOS665
[54] Robbins,M.、Gallagher,C.、Lund,R.B.和Aue,A.(2011年)。相关数据的均值漂移测试。《时间序列分析杂志》32 498–511·Zbl 1294.62212号 ·文件编号:10.1111/j.1467-9892.2010.00707.x
[55] Schroeder,A.L.和Fryzlewicz,P.(2013)。基于多尺度变点诱导基恢复的金融时间序列自适应趋势估计。统计接口6 449–461·Zbl 1326.91035号 ·doi:10.4310/SII.2013.v6.n4.a4
[56] Shriberga,E.、Stolckea,A.、Hakkani-Türb,D.和Türb.G.(2000)。基于韵律的语音自动切分为句子和主题。演讲委员会32 127–154。
[57] Tartakovsky,A.、Rozovskii,B.、Blazek,R.和Kim,H.(2006)。一种通过自适应序列和批序列变化点检测方法检测计算机网络中入侵的新方法。IEEE传输。信号处理54 3372–3382·Zbl 1373.68144号 ·doi:10.1109/TSP.2006.879308
[58] Tibshirani,R.、Saunders,M.、Rosset,S.、Zhu,J.和Knight,K.(2005年)。通过融合套索实现轻盈流畅。J.R.统计社会服务。B.统计方法67 91–108·兹比尔1060.62049 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[59] 文卡特拉曼,E.S.(1992)。一致性会导致多个转换点问题。斯坦福大学统计系技术报告24https://statistics.stanford.edu/resources/technical-reports。
[60] Venkatraman,E.S.和Olshen,A.(2007年)。一种用于阵列CGH数据分析的快速循环二进制分割算法。生物信息学23 657–663。
[61] Vostrikova,L.(1981)。检测多维随机过程中的“无序”。苏联。数学。,Dokl.24 55–59·Zbl 0487.62072号
[62] 王毅(1995)。用小波检测跳跃和尖点。生物特征82 385–397·Zbl 0824.62031号 ·doi:10.1093/biomet/82.2.385
[63] Wang,H.、Zhang,D.和Shin,K.(2004)。用于检测DoS攻击的更改点监视。IEEE传输。可靠安全计算。1 193–208。
[64] Wu,Y.(2008)。回归问题中的同时变点分析和变量选择。《多变量分析杂志》99 2154–2171·Zbl 1169.62064号 ·doi:10.1016/j.jmva.2008.02.010
[65] Yao,Y.C.(1988)。通过Schwarz标准估计转换点的数量。统计师。普罗巴伯。通讯6 181–189·Zbl 0642.62016号 ·doi:10.1016/0167-7152(88)90118-6
[66] Yao,Y.C.和Au,S.T.(1989)。阶跃函数的最小二乘估计。SankhyáSer。A51 370–381·Zbl 0711.62031号
[67] Zhang,N.R.和Siegmund,D.O.(2007年)。一种改进的贝叶斯信息准则,用于比较基因组杂交数据的分析。生物统计学63 22–32·兹比尔1206.62174 ·文件编号:10.1111/j.1541-0420.2006.00662.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。