×

千兆坦索尔

swMATH ID: 23741
软件作者: U.Kang、E.Papalexakis、A.Harpale、C.Faloutsos
描述: GigaTensor:将张量分析放大100倍-算法和发现。许多数据被建模为张量或多维数组。示例包括知识库中的谓词(主语、动词、宾语)、Web图形中的超链接和锚文本、传感器流(时间、位置和类型)、随时间变化的社交网络以及DBLP conference-author-keyword关系。张量分解是一种重要的数据挖掘工具,具有多种应用,包括聚类、趋势检测和异常检测。然而,当前的张量分解算法对于具有数十亿个大小和数亿个非零的大型张量是不可扩展的:文献中最大的张量仍然是数千个大小和数十万个非零。考虑一个由大约2600万个名词短语组成的知识库张量。中间数据爆炸问题与张量分解算法的朴素实现相关,需要将最大维≈7 x 1014的矩阵物化并存储;这相当于10 PB,或者相当于几个数据中心的存储量,因此,以天真的方式对这个知识库进行张量分析实际上是不可能的。本文提出了GIGATENSOR,一种用于大规模张量分解的可扩展分布式算法。GIGATENSOR利用了现实世界张量的稀疏性,并通过仔细重新设计张量分解算法来避免中间数据爆炸问题。大量实验表明,我们提出的GIGATENSOR解决了比现有方法大100倍的问题。此外,我们使用GIGATENSOR分析了一个非常大的现实世界知识库张量,并展示了我们惊人的发现,其中包括在数百万名词短语(例如名词“污染物”和名词短语“温室气体”)中发现了潜在的同义词。
主页: https://dl.acm.org/citation.cfm?id=2339583
相关软件: 张量工具箱;DFacTo公司;分裂;N向工具箱;TensorCast公司;多视图;亚当;涡轮-SMT;复杂优化工具箱;Tensorlab公司;TT工具箱;黛西;凯利;CombBLAS公司;C解析;促进;POOMA公司;算法862;EinSum公司;增强C++库
引用于: 7文件

按年份列出的引文