×

矩阵和数据的随机算法。 (英语) Zbl 1232.68173号

摘要:近年来,超大矩阵问题的随机算法受到了广泛关注。这项工作的大部分动机是大规模数据分析中的问题,这主要是因为矩阵是流行的结构,用于对从广泛的应用领域中提取的数据进行建模,而这项工作是由来自许多不同研究社区的个人完成的。尽管随机化最明显的好处是它可以产生更快的算法,无论是在最坏情况下的渐近理论还是在数值实现中,还有许多其他好处至少同样重要。例如,使用随机化可以产生更简单的算法,当应用于违反直觉的设置时,这些算法更容易分析或推理;它可以产生具有更多可解释输出的算法,这在需要分析时间而不仅仅是计算时间的应用程序中很有意义;它可以隐式地导致正则化和更稳健的输出;与经典数值方法相比,随机算法通常可以更好地利用现代计算架构。
这本专著将详细概述随机矩阵算法理论的最新工作,以及这些思想在解决大规模数据分析中的实际问题方面的应用。在这篇综述中,重点将放在几个简单的核心思想上,这些思想不仅是最新理论进展的基础,也是这些工具在大规模数据应用中的有用性的基础。在这种情况下,与统计杠杆概念的联系至关重要。这一概念长期以来一直被用于统计回归诊断,以识别异常值;最近,它被证明在改进的最坏情况矩阵算法的开发中至关重要,这些算法也适用于高质量的数值实现,并且对领域科学家有用。当人们明确地将这些矩阵算法中的随机化效应与底层线性代数结构解耦时,这种联系自然会出现。这种解耦还允许在随机化的应用中进行更精细的控制,以及更容易地利用领域知识。大多数综述将集中于线性最小二乘问题和低秩矩阵近似问题的随机抽样算法和随机投影算法。这两个问题在理论上是基本的,在实践中是普遍存在的。随机方法通过构建和操作输入矩阵(a)的随机草图来解决这些问题——对于随机抽样方法,草图由少量仔细采样和重新缩放的列/行组成,而对于随机投影方法,草图由\(a\)的列/行的少量线性组合组成。根据具体情况,与先前存在的最佳确定性算法相比,得到的随机算法具有渐近更快的最坏情况运行时间;它们的数值实现在时钟时间方面更快;或者,它们可以在现有数值算法根本无法运行的并行计算环境中实现。将详细描述说明这些观察结果的许多示例。

MSC公司:

68瓦20 随机算法
68-02 与计算机科学有关的研究展览会(专著、调查文章)
65英尺30英寸 其他矩阵算法(MSC2010)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部