许多机器学习和数据相关应用需要掌握手头大数据矩阵的近似秩的知识。这封信提出了两种计算成本低廉的技术来估计此类矩阵的近似秩。这些技术利用了物理学中流行的近似谱密度,即概率密度分布,用于测量在实线上给定点处找到矩阵特征值的可能性。在一个区间内对谱密度进行积分,得到该区间内矩阵的特征值计数。因此,可以通过在仔细选择的区间内积分光谱密度来近似秩。讨论了两种不同的近似秩估计方法,一种基于切比雪夫多项式,另一种基于Lanczos算法。为了获得合适的区间,有必要在对应于噪声的特征值和有助于矩阵秩的相关特征值之间找到一个间隙。基于谱密度图,提出了一种定位此间隙和选择积分间隔的方法。数值实验从典型应用中说明了这些技术在矩阵上的性能。

您当前无权访问此内容。