×

多尺度变点分割:超越阶跃函数。 (英文) Zbl 1429.62145号

摘要:众所周知,现代多尺度类型分割方法能够以高统计精度检测多个变化点,同时允许快速计算。支撑(minimax)估计理论主要是针对假设信号为分段常数函数的模型开发的。本文针对大量的多尺度分割方法(包括各种现有的过程),将这种理论扩展到非参数回归设置中步进函数以外的某些函数类。这一方面扩展了此类方法的解释,另一方面揭示了这些方法对分段常数函数的偏差具有鲁棒性。我们的主要发现是对一个通用阈值的非线性近似类的适应性,其中包括有界变差函数和(分段)光滑阶Hölder函数(0<\alpha\le1)作为特殊情况。从中我们得出了关于跳跃和模式的特征检测的统计保证。另一个关键发现是,这些多尺度分割方法的性能几乎达到了(对数因子)、oracle分段常数分割估计器(具有已知的跳跃位置)以及(未知)真实信号的最佳分段常数近似。理论结果通过各种数值模拟进行了检验。

MSC公司:

62G08号 非参数回归和分位数回归
6220国集团 非参数推理的渐近性质
62G35型 非参数稳健性
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramovich,F.、Antoniadis,A.和Pensky,M.(2007年)。用合并桥回归样条估计分段光滑函数。,Sankhyá69 1-27·Zbl 1193.62057号
[2] Antoch,J.和Hušková,M.(2000年)。变化点的贝叶斯型估计。,J.统计。计划。推论91 195-208。布拉格现代统计推断视角研讨会:参数、半参数、非参数(1998年)·Zbl 0965.62027号
[3] Aue,A.、Cheung,R.C.Y.、Lee,T.C.M.和Zhong,M.(2014)。基于最小描述长度原理的分位数回归分段模型选择。,J.Amer。统计师。协会109 1241-1256·Zbl 1368.62092号 ·doi:10.1080/01621459.2014.889022
[4] Behr,M.、Holmes,C.和Munk,A.(2018年)。多尺度盲源分离。,Ann.Statist公司。46 711-744之间·Zbl 1395.62084号 ·doi:10.1214/17-AOS1565
[5] Behr,M.和Munk,A.(2017年)。多个有限字母线性混合盲源分离的可辨识性。,IEEE传输。通知。理论63 5506-5517·Zbl 1374.94040号
[6] Bellman,R.(1957)。,动态编程。普林斯顿大学出版社,美国新泽西州普林斯顿·Zbl 0077.13605号
[7] Billingsley,P.(1999)。,概率测度的收敛性,第二版,《概率与统计中的威利级数:概率与统计》。John Wiley&Sons,Inc.,纽约。Wiley国际科学出版物·Zbl 0944.60003号
[8] Boneva,L.I.、Kendall,D.和Stefanov,I.(1971)。样条变换:统计数据分析的三种新诊断工具。,J.罗伊。统计师。Soc.序列号。B 33 1-70·Zbl 0231.62004号 ·doi:10.1111/j.2517-6161.1971.tb00855.x
[9] Boysen,L.、Kempe,A.、Liebscher,V.、Munk,A.和Wittich,O.(2009年)。跳跃惩罚最小二乘估计量的一致性和收敛速度。,Ann.Statist公司。37 157-183. ·Zbl 1155.62034号 ·doi:10.1214/07-AOS558
[10] Braun,J.V.、Braun、R.K.和Mueller,H.G.(2000年)。基于拟似然的多变点拟合及其在DNA序列分割中的应用。,生物特征87 301-314·兹比尔0963.62067 ·doi:10.1093/biomet/87.2301
[11] Burchard,H.G.和Hale,D.F.(1975年)。最优网格上的分段多项式逼近。,J.近似理论14 128-147·Zbl 0327.41007号 ·doi:10.1016/0021-9045(75)90084-2
[12] Cai,T.T.、Jeng,X.J.和Li,H.(2012)。超高维数据分析中稀疏段的稳健检测与识别。,J.R.统计社会服务。B.统计方法。74 773-797. ·兹比尔1411.62314 ·文件编号:10.1111/j.1467-9868.2012.01028.x
[13] Chan,H.-P.和Chen,H.(2017)。通过分数和高阶批评测试的多序列分割。,arXiv:1706.07586。
[14] Chan,H.P.和Walther,G.(2013年)。扫描检测和平均似然比。,统计师。Sinica 23 409-428·Zbl 1257.62096号
[15] Chen,H.和Zhang,N.(2015)。基于图形的变点检测。,Ann.Statist公司。43 139-176. ·Zbl 1308.62090号 ·doi:10.1214/14-AOS1269
[16] Davies,L.、Höhenrieder,C.和Krämer,W.(2012)。分段常数波动率的递归计算。,计算。统计数据分析。56 3623-3631·Zbl 1254.91751号 ·doi:10.1016/j.csda.2010.06.027
[17] Davies,P.L.和Kovac,A.(2001)。局部极值、运行、字符串和多分辨率。,Ann.Statist公司。29 1-65. 经过作者的讨论和反驳·Zbl 1029.62038号 ·doi:10.1214/aos/996986501
[18] del Alamo,M.、Li,H.和Munk,A.(2018)。白噪声回归的框架约束全变差正则化。,arXiv:1807.02038·Zbl 1475.62145号
[19] DeVore,R.A.(1998年)。非线性近似。年,《数字学报》,1998年。Acta Numer公司。7 51-150. 剑桥大学出版社,剑桥·Zbl 0931.65007号
[20] DeVore,R.A.和Lorentz,G.G.(1993)。,构造近似。Grundlehren der Mathematischen Wissenschaften[数学科学基本原理]303。柏林斯普林格·弗拉格·Zbl 0797.41016号
[21] Diskin,S.J.、Li,M.、Hou,C.、Yang,S.、Glessner,J.、Hakonarson,H.、Bucan,M.,Maris,J.和Wang,K.(2008)。全基因组SNP基因分型平台信号强度中基因组波的调整。,核酸研究36 e126。
[22] Donoho,D.L.(1988)。关于密度泛函的单面推论。,Ann.Statist公司。16 1390-1420. ·Zbl 0665.62040号 ·doi:10.1214/aos/1176351045
[23] Donoho,D.L.和Johnstone,I.M.(1994年)。通过小波收缩实现理想的空间自适应。,生物特征81 425-455·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[24] Donoho,D.L.、Johnstone,I.M.、Kerkyacharian,G.和Picard,D.(1995年)。小波收缩:无症状?,J.R.统计社会服务。B.统计方法。57 301-369. 经过讨论和作者的回复·Zbl 0827.62035号 ·doi:10.1111/j.2517-6161.1995.tb02032.x
[25] Du,C.,Kao,C.-L.M.和Kou,S.C.(2016)。基于边缘似然的逐步信号提取。,J.Amer。统计师。协会111 314-330。
[26] Dümbgen,L.和Spokoiny,V.G.(2001)。定性假设的多尺度检验。,Ann.Statist公司。29 124-152. ·Zbl 1029.62070号 ·doi:10.1214/aos/996986504
[27] Fang,X.、Li,J.和Siegmund,D.(2019年)。变点模型的分割和估计:假阳性控制区和置信区。,Ann.Statist公司。出现·Zbl 1451.62035号
[28] Farcomeni,A.(2014)。关于“多尺度变点推理”的讨论。,J.R.统计社会服务。B.统计方法。76 546-547之间。
[29] Frick,K.、Munk,A.和Sieling,H.(2014)。多尺度变化点推断。,J.R.统计社会服务。B.统计方法。76 495-580. 47位作者进行了32次讨论,作者进行了反驳·Zbl 1411.62065号 ·doi:10.1111/rssb.12047
[30] Fryzlewicz,P.(2007)。非参数函数估计的非平衡Haar方法。,J.Amer。统计师。协会102 1318-1327·Zbl 1333.62014年 ·doi:10.1198/0162145000000860
[31] Fryzlewicz,P.(2014)。用于多变化点检测的野生二进制分割。,Ann.Statist公司。42 2243-2281. ·Zbl 1302.62075号 ·doi:10.1214/14-AOS1245
[32] Futschik,A.、Hotz,T.、Munk,A.和Sieling,H.(2014)。多分辨率DNA分割:片段的统计证据。,生物信息学30 2255-2262。
[33] Gao,C.,Han,F.和Zhang,C.-H(2019)。关于保序分段常数信号的估计。,Ann.Statist公司。出现·Zbl 1450.62034号
[34] Grasmair,M.、Li,H.和Munk,A.(2018年)。变分多尺度非参数回归:光滑函数。,亨利·彭加雷·普罗巴布(Henri PoincaréProbab)安·Inst。统计54 1058-1097·Zbl 1393.62014年 ·doi:10.1214/17-AIHP832
[35] Hall,P.和Marron,J.S.(1990年)。关于非参数回归中的方差估计。,生物特征77 415-419·Zbl 0711.62035号 ·doi:10.1093/biomet/77.2.415
[36] Han,Q.和Wellner,J.A.(2019年)。具有重尾误差的最小二乘回归估计的收敛速度。,Ann.Statist公司。47 2286-2319. ·Zbl 1466.60033号 ·doi:10.1214/18-AOS1748
[37] Harchaoui,Z.和Lévy Leduc,C.(2008年)。用套索抓住转换点。,Neur高级。通知。处理系统。20 161-168.
[38] Harchaoui,Z.和Lévy-Leduc,C.(2010年)。具有总变差惩罚的多个变点估计。,J.Amer。统计师。协会105 1480-1493·Zbl 1388.62211号 ·doi:10.1198/jasa.2010.tm09181
[39] Has'minski,R.Z.(1978)。统一度量中密度非参数估计风险的下限。,理论问题。申请。23 794-798. ·Zbl 0449.62032号
[40] Haynes,K.、Eckley,I.A.和Fearnhead,P.(2017)。针对一系列惩罚的计算效率高的变更点检测。,J.计算。图表。统计师。26 134-143. ·Zbl 1505.62181号 ·doi:10.1007/s11222-016-9687-5
[41] Hotz,T.、Schütte,O.M.、Sieling,H.、Polupanow,T.,Diederichsen,U.、Steinem,C.和Munk,A.(2013)。通过跳跃分割和统计多分辨率分析实现离子通道记录的理想化。,IEEE传输。纳米生物。12 376-386.
[42] Hušková,M.和Antoch,J.(2003)。检测回归中的结构变化。,塔特拉山数学。出版物。26 201-215. 02年普罗巴斯特。第二部分·Zbl 1154.62350号
[43] Ibragimov,I.A.和Has'minskiĭ,R.Z.(1977)。关于高斯白噪声中无限维参数的估计。,Sov公司。数学。多克。18 1307-1309. ·Zbl 0389.62023号
[44] Ibragimov,I.A.和Has'minskiĭ,R.Z.(1981)。,统计估计。数学应用16。斯普林格·弗拉格(Springer-Verlag),《纽约-柏林渐近理论》,塞缪尔·科茨(Samuel Kotz)译自俄语·Zbl 0467.62026号
[45] Kabluchko,Z.(2007年)。标准高斯增量的极值分析。,arXiv:0706.1849。
[46] Killick,R.、Fearnhead,P.和Eckley,I.A.(2012年)。具有线性计算成本的最佳变化点检测。,J.Amer。统计师。协会107 1590-1598·Zbl 1258.62091号 ·doi:10.1080/01621459.2012.737745
[47] Korostelev,A.和Korosteleva,O.(2011)。,数理统计。数学研究生课程119。美国数学学会,普罗维登斯,RI渐近极小极大理论·Zbl 1241.62020号
[48] Korte,B.和Vygen,J.(2012)。,组合优化,第五版,算法和组合数学21。海德堡·斯普林格,《理论与算法》·Zbl 1237.90001号
[49] Lai,W.R.、Johnson,M.D.、Kucherlapati,R.和Park,P.J.(2005)。阵列CGH数据中放大和删除识别算法的比较分析。,生物信息学21 3763-3770。
[50] Li,H.、Munk,A.和Sieling,H.(2016)。多尺度变点分割中的FDR控制。,电子。《美国法律总汇》第10卷第918-959页·Zbl 1338.62117号 ·数字对象标识代码:10.1214/16-EJS1131
[51] Lin,K.、Sharpnack,J.、Rinaldo,A.和Tibshirani,R.J.(2016)。变点问题中的近似恢复,来自(\ell_2)估计错误率。,arXiv:1606.06746。
[52] Linton,O.和Seo,M.H.(2014)。关于“多尺度变点推理”的讨论。,J.R.统计社会服务。B.统计方法。76 548.
[53] Maidstone,R.、Hocking,T.、Rigaill,G.和Fearnhead,P.(2016)。关于大数据的最优多变点算法。,统计计算。1-15. ·Zbl 1505.62269号 ·doi:10.1007/s11222-016-9636-3
[54] Mammen,E.和van de Geer,S.(1997年)。局部自适应回归样条。,Ann.Statist公司。25 387-413. ·Zbl 0871.62040号 ·doi:10.1214操作系统/1034276635
[55] 穆勒,H.-G.和斯塔特穆勒,U.(1987)。回归分析中异方差的估计。,Ann.Statist公司。15 610-625. ·Zbl 0632.62040号
[56] Munk,A.、Bissantz,N.、Wagner,T.和Freitag,G.(2005)。关于协变量为高维时非参数回归中基于差分的方差估计。,J.R.统计社会服务。B统计方法。67 19-41. ·Zbl 1060.62047号 ·数字对象标识代码:10.1111/j.1467-9868.2005.00486.x
[57] Nemirovski,A.(1985)。光滑回归函数的非参数估计。,伊兹夫。阿卡德。恶心。SSR Teckhn公司。基伯内。(俄语)3 50-60。J.计算。系统科学。,1986年23:1-11(英语)·Zbl 0604.62033号
[58] Nemirovski,A.(2000年)。非参数统计主题。年,《概率论和统计学讲座》(Saint-Flour,1998)。数学课堂笔记。1738 85-277页。柏林施普林格·Zbl 0998.62033号
[59] Olshen,A.B.、Venkatraman,E.S.、Lucito,R.和Wigler,M.(2004)。用于分析基于阵列的DNA拷贝数数据的循环二进制分割。,生物统计学5 557-572·Zbl 1155.62478号 ·doi:10.1093/biostatistics/kxh008
[60] Pein,F.、Sieling,H.和Munk,A.(2017年)。异质变化点推断。,J.R.统计社会服务。B.统计方法。79 1207-1227·Zbl 1373.62258号 ·doi:10.1111/rssb.12202
[61] Petrushev,P.P.(1988年)。样条、有理逼近和Besov空间的正定理和逆定理。在《函数空间与应用》(Lund,1986)中。数学课堂笔记。1302 363-377. 柏林施普林格·Zbl 0603.41006号
[62] Rivera,C.和Walther,G.(2013年)。泊松过程的强度或密度的跳跃的最佳检测具有似然比统计。,扫描。《美国联邦法律大全》第40卷第752-769页·Zbl 1283.62179号 ·doi:10.1111/sjos.12027
[63] Schwartzman,A.、Gavrilov,Y.和Adler,R.J.(2011)。检测一维峰值的局部极大值的多重测试。,Ann.Statist公司。39 3290-3319. ·Zbl 1246.62173号 ·doi:10.1214/11-AOS943
[64] Scott,A.J.和Knott,M.(1974年)。方差分析中分组均值的聚类分析方法。,生物统计学30 507-512·Zbl 0284.62044号 ·doi:10.2307/2529204
[65] 邵庆明(1995)。关于Révész的一个猜想。,程序。阿默尔。数学。Soc.123 575-582·Zbl 0809.60036号
[66] Siegmund,D.(2013)。变化点:从顺序检测到生物,再到生物。,序贯分析。32 2-14·Zbl 1271.62191号 ·doi:10.1080/07474946.2013.751834
[67] Siegmund,D.和Venkatraman,E.S.(1995年)。使用广义似然比统计量对变化点进行顺序检测。,Ann.Statist公司。23 255-271. ·Zbl 0821.62044号 ·doi:10.1214/aos/1176324466
[68] Siegmund,D.和Yakir,B.(2000年)。扫描统计的零分布的尾部概率。,伯努利6 191-213·Zbl 0976.62048号 ·doi:10.2307/3318574
[69] Song,R.、Banerjee,M.和Kosorok,M.R.(2016)。变点模型在不同程度的误判下的渐近性。,Ann.Statist公司。44 153-182. ·Zbl 1331.62251号 ·doi:10.1214/15-AOS1362
[70] 斯波科尼,V.G.(1998年)。通过自适应窗选择的局部多项式拟合估计不连续函数。,Ann.Statist公司。26 1356-1378. ·Zbl 0934.62037号 ·doi:10.1214/aos/1024691246
[71] Spraul,M.、Neidig,P.、Klauck,U.、Kessler,P.,Holmes,E.、Nicholson,J.K.、Sweatman,B.C.、Salman,S.R.、Farrant,R.D.、Rahr,E.、Beddell,C.R.和Lindon,J.C.(1994)。自动还原核磁共振波谱数据,用于样品的统计和模式识别分类。,生物医药杂志。分析。12 1215-1225.
[72] Tecuapetla-Gómez,I.和Munk,A.(2017)。具有不连续信号和(m)相关误差的回归中的自协方差估计:基于差分的方法。,扫描。《美国联邦法律大全》第44卷第346-368页·Zbl 1422.62154号
[73] Tibshirani,R.和Wang,P.(2008)。基于融合套索的CGH数据空间平滑和热点检测。,生物统计学9 18-29·Zbl 1274.62886号 ·doi:10.1093/biostatistics/kxm013
[74] Tsybakov,A.(2009)。,非参数估计简介。纽约施普林格-弗拉格·Zbl 1176.62032号
[75] Tukey,J.W.(1961年)。曲线作为参数,并进行接触估计。在,程序。第四届伯克利交响乐团。数学。统计师。和探针。,第一卷681-694。加州大学出版社,加州伯克利·Zbl 0105.12304号
[76] Walther,G.(2010年)。利用扫描统计优化快速检测空间簇。,Ann.Statist公司。38 1010-1033之间·Zbl 1183.62076号 ·doi:10.1214/09-AOS732
[77] Yao,Y.C.和Au,S.T.(1989)。阶跃函数的最小二乘估计。,SankhyáSer。甲51 370-381·Zbl 0711.62031号
[78] Zhang,N.R.和Siegmund,D.O.(2007)。一种改进的贝叶斯信息准则及其在比较基因组杂交数据分析中的应用。,生物识别63 22-32·Zbl 1206.62174号 ·文件编号:10.1111/j.1541-0420.2006.00662.x
[79] Zhang,N.R.和Siegmund,D.O.(2012)。高维多序列变点问题的模型选择。,统计师。Sinica西尼卡22 1507-1538·Zbl 1264.62079号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。