×

高维逻辑熵聚类。 arXiv:2112.08701

预印本,arXiv:2112.08701[math.ST](2021)。
摘要:分类概率的(正则)熵最小化是一类通用的判别聚类方法。分类概率通常是通过使用监督分类的一些经典损失来定义的,重点是通过优化以观测值为条件的标签定律来避免对完整数据分布进行建模。我们通过专门研究逻辑分类概率,首次对此类方法进行了理论研究。我们证明,如果观测值是由两分量各向同性高斯混合生成的,那么最小化欧几里德球上的熵风险确实可以识别混合的分离向量。此外,如果这个分离向量是稀疏的,那么通过\(\ell_{1}\)正则化项惩罚经验风险可以推断高维空间中的分离,并以稀疏性问题的标准速率恢复其支持。我们的方法基于logistic熵风险的局部凸性,即当分离向量足够大时,其范数与空间维数无关。这种局部凸性也保证了在经典低维环境中的快速速率。
BibTeX公司 引用
全文: arXiv公司
arXiv数据来自arXiv OAI-PMH API.如果你发现了错误,请直接向arXiv报告.