多线性和非线性数据的随机数值线性代数(RandNLA)

首席研究员:
迈克尔·马奥尼

本项目研究了两种重要的非线性结构设置,以便在基础数据呈现非线性结构的情况下,开始使用RandNLA(随机数值线性代数)方法进行大数据分析。首先,研究人员研究如何设计下一代RandNLA算法,该算法可以处理张量捕获的呈现多线性结构的数据。其次,他们研究了RandNLA方法对显示非线性结构的数据的适用性,这些数据由非线性降维技术、局部谱方法和相关的半监督特征向量工具捕获。此外,他们评估了PI具有重要专业知识的数据应用的拟议方法,如人口遗传学数据和天文数据的统计分析。

世界上的数据量激增,数据是现代经济活动、创新和增长的核心。大数据通常被建模为矩阵,因为m×n矩阵A提供了一种自然结构来编码有关对象,每个对象由n个特征。因此,线性代数算法,特别是矩阵分解,在矩阵形式的数据集分析中已被证明非常成功。RandNLA整合了理论计算机科学和数值线性代数给矩阵计算带来的互补观点,是设计和分析此类算法以及使用由此产生的见解解决重要问题的新范式。

尽管RandNLA在理论和实践方面都取得了许多成功,但所有提出的方法基本上都集中在输入矩阵呈现线性结构的情况下,如良好的低阶近似所捕获的那样。一个明显的问题出现了:如果基础数据表现出非线性结构属性,RandNLA有用吗?同样,在分析非线性流形中的数据或数据具有其他非线性时,RandNLA中开发的方法、技术和直觉是否有用?该项目旨在提高RandNLA分析非线性数据的实用性。

NSF拨款提供的资金#1447534