×

分层数据高维回归建模的联合估计。 (英语) Zbl 07830443号

摘要:本文考虑使用分类变量以分层模式收集数据时回归模型的估计。由于数据是从各种来源收集的,因此此类数据经常出现在字段中。大多数文献分析数据时都假设分层信息是已知的,而这种信息并不总是可以获得的。在本文中,我们假设分层信息未知。该联合估计将聚类技术与惩罚回归建模相结合,可以应用于无特定信息的高维分层数据。我们证明了该方法具有渐近性质。仿真和实证研究证实,我们的方法优于没有分层的方法。我们将所提出的方法应用于基因表达数据和温度数据,获得了一些有意义的结果。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿里,T。;Asghar,S。;Sajid,N.A.,《dbscan变体的关键分析》,2010年信息和新兴技术国际会议,1-6(2010),IEEE
[2] 安德拉德,G。;拉莫斯,G。;马德拉,D。;萨切托,R。;费雷拉,R。;Rocha,L.,G-DBSCAN:基于密度聚类的GPU加速算法,《Procedia Computer Science》,18,369-78(2013)·doi:10.1016/j.procs.2013.05.200
[3] 坎迪斯,E。;Tao,T.,《dantzig选择器:当p远大于n时的统计估计》,《统计年鉴》,35,6,2313-51(2007)·Zbl 1139.62019号
[4] 查特吉,A。;萨马维,H。;Yu,L。;Linder,D。;蔡,J。;Vogel,R.,《关于不同分层抽样方案的回归估计量》,《统计与管理系统杂志》,20,6,1147-65(2017)·doi:10.1080/09720510.2017.1411027
[5] 埃尔茨(Ertöz,L.)。;斯坦巴赫,M。;Kumar,V.,《在噪声高维数据中发现不同大小、形状和密度的簇》,2003年SIAM国际数据挖掘会议论文集,47-58(2003),SIAM·doi:10.1137/1.9781611972733.5
[6] 埃斯特,M。;Kriegel,H.-P。;桑德,J。;Xu,X.,在有噪声的大型空间数据库中发现簇的基于密度的算法,226-31(1996)
[7] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.J.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010)·doi:10.18637/jss.v033.i01
[8] 毛重,S.M。;Tibshirani,R.,《数据共享拉索:发现隆起的新工具》,计算统计与数据分析,101226-35(2016)·Zbl 1466.62082号 ·doi:10.1016/j.csda.2016.02.015
[9] 哈斯勒,M。;Piekenbrock,M。;Doran,D.,DBSCAN:使用r快速基于密度的聚类,《统计软件杂志》,91,1,1-30(2019)·doi:10.18637/jss.v091.i01
[10] Han,J。;裴,J。;Kamber,M.,数据挖掘:概念与技术(2011),爱思唯尔
[11] 库诺,T。;de Hoon,M。;Mar,J.C。;托马鲁,Y。;卡瓦诺,M。;卡尼奇,P。;铃木,H。;宫崎骏,Y。;Shin,J.W.,使用单细胞基因表达分析的时间动力学和转录控制,《基因组生物学》,14,10,R118(2013)
[12] 林,M。;Hastie,T.,《通过分层群-随机正则化学习交互》,《计算与图形统计杂志:美国统计协会联合出版物》,数学统计研究所,北美界面基金会,24,3,627-54(2015)·doi:10.1080/10618600.2014.938812
[13] 刘,H。;Yang,Y.,分层随机试验中经回归调整的平均治疗效果估计,Biometrika,107,4,935-48(2020)·Zbl 1457.62046号 ·doi:10.1093/biomet/asaa038
[14] 内加班,S。;拉维库马尔,P。;Wainwright,M.J。;Yu,B.,带可分解正则化子的m-估计量高维分析的统一框架,《统计科学》,27,4,1348-56(2012)·兹比尔1331.62350 ·doi:10.1214/12-STS400
[15] Ollier,E。;Viallon,V.,用套索对分层数据进行回归建模,Biometrika,104,1,asw065-96(2017)·Zbl 1506.62456号 ·doi:10.1093/biomet/asw065
[16] 拉德琴科,P。;James,G.M.,高维自适应非线性交互结构变量选择,美国统计协会杂志,105,492,1541-53(2010)·Zbl 1388.62212号 ·doi:10.1198/jasa.2010.tm10130
[17] 桑德,J。;埃斯特,M。;Kriegel,H.-P。;Xu,X.,空间数据库中基于密度的聚类:gdbscan算法及其应用,数据挖掘和知识发现,2,2169-94(1998)·doi:10.1023/A:1009745219419
[18] 舒伯特,E。;桑德,J。;埃斯特,M。;Kriegel,H.P。;Xu,X.,DBSCAN重访:为什么以及如何(仍然)使用DBSCAN,ACM数据库系统事务,42,3,1-21(2017)·数字对象标识代码:10.1145/3068335
[19] Shan,L。;Kim,I.,跨非平衡类的多个高斯图形模型的联合估计,计算统计与数据分析,121,89-103(2018)·Zbl 1469.62140号 ·doi:10.1016/j.csda.2017.11.009
[20] Shan,L。;乔,Z。;Cheng,L。;Kim,I.,跨多个类的两级高斯图形模型的联合估计,计算与图形统计杂志,29,3,562-79(2020)·Zbl 07499297号 ·doi:10.1080/106186002019.1694522
[21] Thang,T.M。;Kim,J.,《使用多参数dbscan聚类进行异常检测》,2011年信息科学与应用国际会议,1-5(2011),IEEE
[22] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊:B辑》,58,1,267-88(1996)·Zbl 0850.62538号
[23] Wainwright,M.J.,使用l_1约束二次规划(lasso)实现噪声和高维稀疏恢复的夏普阈值,IEEE信息理论汇刊,55,5,2183-202(2009)·Zbl 1367.62220号 ·doi:10.10109/TIT.2009.2016018
[24] Zhang,C.H。;Huang,J.,高维线性回归中套索选择的稀疏性和偏差,《统计年鉴》,36,4,1567-94(2008)·Zbl 1142.62044号
[25] 赵,P。;Yu,B.,关于套索的模型选择一致性,机器学习研究杂志,7,2541-63(2006)·Zbl 1222.62008年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。