The Non-Overlapping Statistical Approximation to Overlapping Group Lasso

Mingyu Qi; Tianxi  Li

群套索惩罚被广泛用于统计学习中引入结构化稀疏性，其特点是能够自动消除预定义的参数组。然而，当群体重叠时，由于群体的不可分割性，在高维设置中解决群体套索问题可能会非常耗时。这种计算挑战限制了重叠群套索惩罚在前沿领域的适用性，例如基因路径选择和图形模型估计。本文介绍了一种非重叠可分离罚函数，用于有效逼近重叠群套索罚函数。这种近似大大提高了优化的计算效率，特别是对于大规模和高维问题。我们证明了所提出的罚函数是$\ell{q_1}/\ell{q_2}$范数族中重叠群lasso范数的最紧可分离松弛。此外，从估计误差、支持度恢复和平方损失下的最小最大速率方面，由我们提出的范数导出的估计与由重叠群套索惩罚导出的估计在统计上是等价的。我们的方法的有效性通过广泛的模拟示例和癌症肿瘤的预测任务得到了证明。

重叠群套索的非重叠统计逼近

摘要