×

对比较两个大型频率表的较高批评,对可能出现的罕见和微弱差异具有敏感性。 (英语) Zbl 07547937号

小结:我们将“更高批评”(HC)用于两个频率表的比较,这两个表可能会(也可能不会)在大量类别中的一些未知的相对较小的子集中显示出适度的差异。我们对提议的HC检验的功效分析量化了假设差异的罕见性和大小,并应用适度偏差分析来确定提议的HC-程序的渐近功效/功效。
我们的分析考虑了对一种罕见/弱扰动替代方案的潜在生成模型无差异的零假设,其中(N)类中的(N^{1-\beta})的频率在Hellinger距离中受到(r(\log N)/2n)的扰动;这里,\(n)是每个样本的大小。我们针对该设置提出的高临界值(HC)测试使用了从精确二项式测试中获得的P值。我们根据稀疏性参数\(β\)和扰动强度参数\(r \)来表征基于HC的测试的渐近性能。具体来说,我们在(β,r)平面上导出了一个区域,其中测试渐近具有最大功率,而在该区域外渐近没有功率。我们的分析区分了两个表中计数较低的情况和计数较高的情况,这与稀疏和密集频率表的情况相对应。HC在高计数状态下的相变曲线与HC在两样本正态平均值模型中提供的曲线正式匹配。

MSC公司:

62H17型 应急表
62H15型 多元分析中的假设检验
62克10 非参数假设检验
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ACHARYA,J.、DAS,H.、JAFARPOUR,A.、ORLITSKY,A.、PAN,S.和SURESH,A.(2012年)。竞争性分类和紧密性测试。学习理论会议22-1.
[2] ANSCOMBE,F.J.(1948)。泊松、二项式和负相关数据的转换。生物特征35 246-254. ·Zbl 0032.03702号 ·doi:10.1093/biomet/35.3-4.246
[3] ARIAS CASTRO,E.、CANDÉS,E.J.和PLAN,Y.(2011年)。稀疏替代方案下的全球测试:方差分析、多重比较和较高的批评。安。统计师。39 2533-2556. ·Zbl 1231.62136号 ·doi:10.1214/11-AOS910
[4] ARIAS CASTRO,E.和WANG,M.(2015)。稀疏泊松均值模型。电子。J.统计。9 2170-2201. ·Zbl 1337.62088号 ·doi:10.1214/15-EJS1066
[5] BRAVATA,D.M.、MCDONALD,K.M.、SMITH,W.M.,RYDZAK,C.、SZETO,H.、BUCKERIDGE,D.L.、HABERLAND,C.和OWENS,D.K.(2004)。系统审查:早期检测生物恐怖主义相关疾病的监测系统。Ann.实习生。医学。140 910-922.
[6] BROWN,L.D.、ZHANG,R.和ZHAO,L.(2001)。非参数密度估计的根无根方法。宾夕法尼亚大学沃顿商学院技术报告。
[7] CAI,T.T.,JENG,X.J.和JIN,J.(2011)。异质和异方差混合物的最佳检测。J.R.统计社会服务。B.统计方法。73 629-662. ·Zbl 1228.62020号 ·文件编号:10.1111/j.1467-9868.2011.00778.x
[8] CAI,T.T.和WU,Y.(2014)。针对给定零分布的稀疏混合的最佳检测。IEEE传输。Inf.理论60 2217-2232. ·Zbl 1360.94108号 ·doi:10.1109/TIT.2014.2304295
[9] CHAN,S.-O.、DIAKONIKOLAS,I.、VALIANT,G.和VALIAN,P.(2014)。离散分布贴近性测试的优化算法。第二十五届ACM-SIAM离散算法年会论文集1193-1203. 纽约ACM·兹比尔1421.68184 ·doi:10.1137/1.9781611973402.88
[10] CLOPPER,C.J.和PEARSON,E.S.(1934年)。在二项式情况下所示的置信限或基准限的使用。生物特征26 404-413.
[11] Corless,R.M.、Gonnet,G.H.、Hare,D.E.G.、Jeffrey,D.J.和Knuth,D.E.(1996)。在Lambert\(W\)函数上。高级计算。数学。5 329-359. ·Zbl 0863.65008号 ·doi:10.1007/BF02124750
[12] Dembo,A.和Zeitouni,O.(1998年)。大偏差技术及其应用,第2版。数学应用(纽约) 38. 纽约州施普林格·兹比尔0896.60013 ·doi:10.1007/978-1-4612-5320-4
[13] DIAKONIKOLAS,I.、GOULEAKIS,T.、PEEBLES,J.和PRICE,E.(2019年)。基于碰撞的测试仪是均匀性和紧密性的最佳选择。别致。J.理论。计算。科学。第1条、第21条·Zbl 1441.62068号 ·doi:10.4086/cjtcs.2019.001
[14] Diakonikolas,I.和Kane,D.M.(2016)。一种测试离散分布特性的新方法。57年第十届IEEE计算机科学基础年会2016 685-694. IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯。
[15] Donoho,D.和Jin,J.(2004)。对检测稀疏非均匀混合物的批评更高。安。统计师。32 962-994·Zbl 1092.62051号 ·doi:10.1214/009053604000000265
[16] DONOHO,D.和JIN,J.(2009)。通过较高的批评阈值进行特征选择,获得最佳相图。菲洛斯。事务处理。R.Soc.伦敦。序列号。数学。物理学。工程科学。367 4449-4470. ·Zbl 1185.62113号 ·doi:10.1098/rsta.2009.0129
[17] DONOHO,D.和JIN,J.(2015)。对大规模推理,特别是对罕见和微弱效果的批评更高。统计师。科学。30 1-25. ·Zbl 1332.62019年 ·doi:10.1214/14-STS506
[18] EFRON,B.(1982)。变换理论:一个分布族有多正常?安。统计师。10 323-339·Zbl 0507.62008号
[19] GONTSCHARUK,V.、LANDWEHR,S.和FINNER,H.(2015)。中间人承担一切:更高批评统计数据的渐近性和基于平等地方水平的强大替代性。生物。J。57 159-180. ·Zbl 1309.62082号 ·doi:10.1002/bimj.201300255
[20] 霍夫丁,W.(1994)。瓦西利·霍夫丁作品集.统计学中的斯普林格系列。统计学的观点纽约州施普林格·Zbl 0807.01034号
[21] INGSTER,J.I.(1996)。关于导致无穷可分分布的假设检验的几个问题.德国魏尔斯特拉斯研究所:预打印.Weierstraß-德国安格万特随机分析研究所,柏林。
[22] Ingster,Y.I.、Tsybakov,A.B.和Verzelen,N.(2010年)。稀疏回归中的检测边界。电子。J.统计。4 1476-1526. ·Zbl 1329.62314号 ·doi:10.1214/10-EJS589
[23] JAGER,L.和WELLNER,J.A.(2007)。通过phi-digrences进行光纤质量测试。安。统计师。35 2018-2053. ·Zbl 1126.62030号 ·doi:10.1214/00090536070000244
[24] Janssen,A.(2000年)。拟合优度检验的全局幂函数。安。统计师。28 239-253. ·Zbl 1106.62329号 ·doi:10.1214/aos/1016120371
[25] JIN,J.(2003)。检测和估算稀疏混合物ProQuest LLC,密歇根州安阿伯。论文(博士)-斯坦福大学。
[26] DONOHO,D.L.和JIN,J.(2008年)。较高的批评阈值:当有用的特征很少且较弱时,最佳特征选择。程序。国家。阿卡德。科学。美国105 14790-14795. ·Zbl 1357.62212号
[27] KIPNIS,A.(2022年)。对区分词频表和作者归属的批评更高。附录申请。统计人员。出现·Zbl 1498.62348号
[28] KIPNIS,A.(2021年)。使用中度偏差分析和对数平方P值统一稀有/弱检测模型。可在arXiv上购买:2103.03999。
[29] KIPNIS,A.和DONOHO,D.L.(2021)。稀有/弱扰动下离散分布的双样本测试。2021年IEEE信息理论国际研讨会(ISIT公司) 3314-3319. IEEE,纽约。
[30] KIPNIS,A.和DONOHO,D.L.(2021)。高层批评无法发现罕见/微弱的偏离。预印本。可从arXiv:2103.03218获取。
[31] LE CAM,L.(2012)。统计决策理论中的渐近方法纽约州施普林格。
[32] MCCULLAGH,P.和NELDER,J.A.(1989年)。广义线性模型第2版。统计学和应用概率专著CRC出版社,伦敦·Zbl 0588.62104号 ·doi:10.1007/9781-4899-3242-6
[33] MILLER,B.、KASSENBORG,H.、DUNSMUIR,W.、GRIFFITH,J.、HADIDI,M.、NORDIN,J.D.和DANILA,R.(2004)。门诊治疗中流感样疾病的症状监测。应急信息。数字化信息系统。10 1806.
[34] MITZENMACHER,M.和UPFAL,E.(2017年)。概率与计算。算法和数据分析中的随机化和概率技术,第二版,剑桥大学出版社,剑桥·Zbl 1368.60002号
[35] MOSTELLER,F.和WALLACE,D.L.(1963年)。作者问题中的推理。J.Amer。统计师。协会。58 275-309. ·Zbl 0124.10401号
[36] MUKHERJEE,R.、PILLAI,N.S.和LIN,X.(2015)。高维稀疏二元回归的假设检验。安。统计师。43 352-381. ·Zbl 1308.62094号 ·doi:10.1214/14-AOS1279
[37] NUSSBAUM,M.和KLEMELá,J.(2006)。密度估计与高斯白噪声的构造性渐近等价洪堡-柏林大学,柏林法库特郡Wirtschaftswissenschaftliche。
[38] RUBIN,H.和SETHURAMAN,J.(1965)。适度偏差的概率。SankhyáSer。一个27 325-346. ·Zbl 0178.53802号
[39] SHORACK,G.R.和WELLNER,J.A.(2009)。经验过程及其在统计学中的应用.应用数学经典59.宾夕法尼亚州费城SIAM·Zbl 1171.62057号 ·数字对象标识代码:10.1137/1.9780898719017.ch1
[40] STéPHANE,B.、LUGOSI,G.和MASSART,P.(2013)。集中不等式:独立性的非渐近理论牛津大学出版社,伦敦·Zbl 1279.60005号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。