×

具有大量类别的多项式数据中的变点检测。 (英语) Zbl 1408.62110号

摘要:我们考虑一系列多项式数据,其中与类别相关的概率在未知位置处发生未知量级的突变。当类别数量相当于或甚至大于分配给这些类别的受试者数量时,传统方法,例如经典的皮尔逊二次方检验和偏差检验可能无法很好地工作。受高维同质性测试的启发,我们提出了一种新的变化点检测程序,允许类别数量趋于无穷大。我们的测试统计量的零分布是渐近正态的,并且测试在有限样本下表现良好。通过最小化基于分段的惩罚目标函数来确定变化点的数量,并通过动态规划算法最小化目标函数来估计变化点的位置。在一些温和的条件下,建立了多个变点估计的相合性。仿真研究表明,该方法在功率和估计精度方面能够很好地识别变化点,并通过对实际数据集的分析进行了说明。

MSC公司:

62小时15分 多元分析中的假设检验
62H17型 应急表
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.(2013)。分类数据分析,第三版,《概率统计中的威利级数》。新泽西州霍博肯市威利国际科学研究所·Zbl 1281.62022号
[2] Aue,A.、Hörmann,S.、Horváth,L.和Reimherr,M.(2009年)。多元时间序列模型协方差结构中的中断检测。统计年鉴37 4046–4087·Zbl 1191.62143号 ·doi:10.1214/09-AOS707
[3] Bai,J.和Perron,P.(1998年)。评估和测试具有多重结构变化的线性模型。计量经济学66 47–78·Zbl 1056.62523号 ·doi:10.2307/298540
[4] Bai,Z.和Saranadasa,H.(1996)。高维的影响:通过一个两样本问题的例子。统计师。中国6 311-329·Zbl 0848.62030号
[5] Baranov,A.P.和Baranov(Y.A.)(2005年)。针对大量结果和试验的样本同质性问题的功率发散检验。磁盘。材料17 19–48·Zbl 1097.62035号 ·doi:10.4213/dm96
[6] Braun,J.V.、Braun、R.K.和Müller,H.G.(2000)。通过拟似然法进行多变化点拟合,并应用于DNA序列分割。生物特征87 301–314·Zbl 0963.62067号 ·doi:10.1093/biomet/87.2.301
[7] Bykov,S.I.和Ivanov,V.A.(1991)。关于多维随机可分解统计量的渐近正态性条件。磁盘室。材料申请1 219–227·Zbl 0737.62010号
[8] Chen,J.和Gupta,A.K.(2000年)。参数化统计变化点分析。Birkhäuser,马萨诸塞州波士顿·Zbl 0980.62013.中
[9] Chen,S.X.和Qin,Y.-L.(2010)。高维数据的双样本测试及其在基因测试中的应用。统计年鉴38 808–835·Zbl 1183.62095号 ·doi:10.1214/09-AOS716
[10] Chen,H.和Zhang,N.R.(2013)。分类数据的两样本比较的基于图形的测试。统计师。中国23 1479–1503·兹比尔1417.62155
[11] Csörgő,M.和Horváth,L.(1997)。变点分析中的极限定理。概率统计威利级数。奇切斯特·威利·Zbl 0884.62023号
[12] Fan,J.、Liao,Y.和Yao,J.(2015)。高维横断面测试中的功率增强。计量经济学83 1497–1541·Zbl 1410.62201号
[13] Fan,J.和Lv,J.(2008年)。确保超高维特征空间的独立筛选。J.R.统计社会服务。B.统计方法70 849–911·Zbl 1411.62187号
[14] Fryzlewicz,P.(2014)。用于多变化点检测的野生二进制分割。统计年鉴42 2243–2281·Zbl 1302.62075号 ·doi:10.1214/14-AOS1245
[15] Giné,E.和Nickl,R.(2016)。无限维统计模型的数学基础。剑桥统计与概率数学系列。剑桥大学出版社,纽约·Zbl 1358.62014号
[16] Hall,P.和Heyde,C.C.(1980)。鞅极限理论及其应用。纽约学术出版社·Zbl 0462.60045号
[17] 霍金斯,D.M.(2001)。将多个转换点模型拟合到数据。计算。统计师。数据分析37 323–341·Zbl 0990.62019号 ·doi:10.1016/S0167-9473(00)00068-2
[18] Holst,L.(1972)。某些质量测试的渐近正态性和效率。生物特征59 137–145·Zbl 0235.62008号 ·doi:10.1093/biomet/591.137
[19] Horváth,L.和Serbinowska,M.(1995)。多项式观测值变化的测试:Lindisfarne描述了这个问题。扫描。《美国联邦法律大全》第22卷第371–384页·Zbl 0835.62022号
[20] Ivčenko,G.I.和Levin,V.V.(1976年)。多项式格式中某类统计量的渐近正态性。特奥尔。维罗贾诺斯特。i Primenen.21 190–195·兹伯利03926016
[21] Kallenberg,W.C.M.(1985)。关于多项式分布中的中偏差和大偏差。《统计年鉴》.13 1554–1580·Zbl 0581.60023号 ·doi:10.1214/aos/1176349755
[22] Killick,R.、Fearnhead,P.和Eckley,I.A.(2012年)。具有线性计算成本的变化点的最佳检测。J.Amer。统计师。协会107 1590–1598·Zbl 1258.62091号 ·doi:10.1080/01621459.2012.737745
[23] Lavielle,M.(2005)。对转换点问题使用惩罚对比度。信号处理85 1501–1510·兹比尔1160.94341 ·doi:10.1016/j.sigpro.2005.01.012
[24] Morris,C.(1975年)。多项式和的中心极限定理。统计年鉴。3 165-188·Zbl 0305.62013.中 ·doi:10.1214/aos/1176343006
[25] Perron,P.和Vogelsang,T.J.(1992年)。均值变化的时间序列中单位根的测试:修正和扩展。J.公交车。经济。统计10 467–470。
[26] Srivastava,M.S.和Worsley,K.J.(1986)。多元正态均值变化的似然比检验。J.Amer。统计师。协会81 199-204·Zbl 0589.62037号 ·doi:10.1080/01621459.1986.10478260
[27] Srivastava,M.S.和Wu,Y.H.(1993)。EWMA、CUSUM和Shiryayev-Roberts方法检测均值偏移的比较。统计年鉴21 645–670·Zbl 0816.62068号 ·doi:10.1214/aos/1176349142
[28] Wang,G.,Zou,C.和Yin,G.(2018年)。补充“具有大量类别的多项式数据中的变化点检测”。DOI:10.1214/17-AOS1610SUPP。
[29] Yao,Y.C.(1988)。通过Schwarz标准估计转换点的数量。统计师。可能性。第6页181-189·兹比尔0642.62016 ·doi:10.1016/0167-7152(88)90118-6
[30] Zou,C.、Yin,G.、Feng,L.和Wang,Z.(2014)。多变点问题的非参数极大似然方法。统计年鉴42 970–1002·Zbl 1305.62158号 ·doi:10.1214/14-AOS1210
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。