研究论文

GigaTensor：将张量分析放大100倍-算法和发现

作者：
U.Kang公司

美国宾夕法尼亚州匹兹堡卡内基梅隆大学

美国宾夕法尼亚州匹兹堡卡内基梅隆大学
查看个人资料

,
Evangelos Papalexakis公司

美国宾夕法尼亚州匹兹堡卡内基梅隆大学

美国宾夕法尼亚州匹兹堡卡内基梅隆大学
查看个人资料

,
阿布海·哈帕尔

美国宾夕法尼亚州匹兹堡卡内基梅隆大学

美国宾夕法尼亚州匹兹堡卡内基梅隆大学
查看个人资料

,
克里斯托斯·法洛索斯

美国宾夕法尼亚州匹兹堡卡内基梅隆大学

美国宾夕法尼亚州匹兹堡卡内基梅隆大学
查看个人资料

作者信息和声明

KDD’12：第18届ACM SIGKDD知识发现和数据挖掘国际会议记录2012年8月第316-324页https://doi.org/10.1145/2339530.2339583

出版：2012年8月12日出版历史

KDD’12：第18届ACM SIGKDD知识发现和数据挖掘国际会议记录

第316-324页

摘要

许多数据被建模为张量或多维数组。示例包括知识库中的谓词（主语、动词、宾语）、Web图形中的超链接和锚文本、传感器流（时间、位置和类型）、随时间变化的社交网络以及DBLP conference-author-keyword关系。张量分解是一种重要的数据挖掘工具，具有多种应用，包括聚类、趋势检测和异常检测。然而，当前的张量分解算法对于具有数十亿个大小和数亿个非零的大型张量是不可扩展的：文献中最大的张量仍然是数千个大小和数十万个非零。

考虑一个由大约2600万个名词短语组成的知识库张量。中间数据爆炸问题与张量分解算法的朴素实现相关，需要具体化和存储最大维≈7 x 10的矩阵¹⁴；这相当于大约10 PB，或者相当于几个数据中心的存储量，从而以天真的方式使对这个知识库的张量分析实际上是不可能的。本文提出了GIGATENSOR，一种用于大规模张量分解的可扩展分布式算法。GIGATENSOR利用了现实世界张量的稀疏性，通过仔细重新设计张量分解算法，避免了中间数据爆炸问题。

大量实验表明，我们提出的GIGATENSOR解决了比现有方法大100倍的问题。此外，我们使用GIGATENSOR分析了一个非常大的现实世界知识库张量，并展示了我们惊人的发现，其中包括在数百万名词短语（例如名词“污染物”和名词短语“温室气体”）中发现了潜在的同义词。

补充材料

311a_m通话_8mp4

英里4

100.3 MB

下载

工具书类

Hadoop信息。http://hadoop.apache.org/。谷歌学者
E.Acar、C.Aykut-Bingol、H.Bingol，R.Bro和B.Yener。癫痫张量的多向分析。生物信息学，23（13）：i10-i182007。谷歌学者数字图书馆
C.A.Andersson和R.Bro。matlab的n路工具箱。化学计量学和智能实验室系统，52（1）：1-42000。谷歌学者交叉引用
B.W.Bader和T.G.Kolda。使用稀疏张量和因子张量进行有效的MATLAB计算。SIAM科学计算杂志，30（1）：205--2312007年12月。谷歌学者数字图书馆
B.W.Bader、R.A.Harshman和T.G.Kolda。使用三向dedicom对社交网络进行时间分析。桑迪亚国家实验室TR SAND2006-21612006。谷歌学者交叉引用
B.W.Bader和T.G.Kolda。Matlab张量工具箱版本2.2。美国新墨西哥州阿尔伯克基：桑迪亚国家实验室，2007年。谷歌学者
S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社，纽约，纽约，美国。谷歌学者数字图书馆
R.兄弟。帕拉法。教程和应用程序。化学计量学和智能实验室系统，38（2）：149-1711997。谷歌学者
A.Carlson、J.Betteridge、B.Kisiel、B.Settles、E.R.Hruschka Jr.和T.M.Mitchell。走向一个永无止境的语言学习架构。AAAI，2010年。谷歌学者数字图书馆
P.A.Chew、B.W.Bader、T.G.Kolda和A.Abdelali。使用parafac2进行跨语言信息检索。KDD，2007年。谷歌学者数字图书馆
J.Dean和S.Ghemawat。Mapreduce：简化了大型集群的数据处理。在OSDI中，第137-150页，2004年。谷歌学者数字图书馆
S.Deerwester、S.T.Dumais、G.W.Furnas、T.K.Landauer和R.Harshman。通过潜在语义分析进行索引。《美国信息科学学会杂志》，41（6）：391-4071990年9月。谷歌学者交叉引用
C.Eckart和G.Young。一个矩阵与另一个低阶矩阵的近似。《心理测量学》，1（3）：211-2186。谷歌学者交叉引用
R.A.哈什曼。parafac程序的基础：“解释性”多模态因子分析的模型和条件。1970谷歌学者
U.Kang、D.H.Chau和C.Faloutsos。挖掘大型图形：算法、推理和发现。在ICDE中，第243-254页，2011年。谷歌学者数字图书馆
U.Kang、B.Meeder和C.Faloutsos。十亿级图的谱分析：发现和实现。PAKDD（2），第13-25页，2011年。谷歌学者数字图书馆
U.Kang、H.Tong、J.Sun、C.-Y.Lin和C.Faloutsos。Gbase：一个可扩展的通用图形管理系统。在KDD中，第1091--1099页，2011年。谷歌学者数字图书馆
U.Kang、C.E.Tsourakakis和C.Faloutsos。飞马座：一个PB级的图形挖掘系统。在ICDM中，第229-238页，2009年。谷歌学者数字图书馆
J.M.Kleinberg，超链接环境中的权威来源。美国医学会杂志，46（5）：604-6321999。谷歌学者数字图书馆
T.G.Kolda和B.W.Bader。高阶网络链接分析的tophits模型。《链接分析、反恐与安全研讨会》，第7卷，第26-29页，2006年。谷歌学者
T.G.Kolda和B.W.Bader。张量分解及其应用。SIAM综述，51（3），2009年。谷歌学者数字图书馆
T.G.Kolda和J.Sun。用于多spect数据挖掘的可缩放张量分解。ICDM，2008年。谷歌学者数字图书馆
R.Lämmel。谷歌的mapreduce编程模型——重温。《计算机编程科学》，70:1--302008年。谷歌学者数字图书馆
刘振华、杨洪川、范俊华、何立伟和王永明。基于mapreduce的网络尺度二元数据分析的分布式非负矩阵分解。在WWW中，第681-692010页。谷歌学者数字图书馆
K.Maruhashi、F.Guo和C.Faloutsos。多方面取证：利用张量分析对大规模异构网络进行模式挖掘。2011年，ASONAM。谷歌学者数字图书馆
C.Olston、B.Reed、U.Srivastava、R.Kumar和A.Tomkins。猪拉丁语：用于数据处理的非外语。在SIGMOD'08中，第1099--1110页，2008年。谷歌学者数字图书馆
E.E.Papalexakis和N.D.Sidiropoulos。作为具有稀疏潜在因子的多线性分解的协聚类。ICASSP，2011年。谷歌学者交叉引用
R.彭罗斯。矩阵的广义逆。程序中。剑桥菲洛斯。Soc，第51卷，第406--413页。剑桥大学出版社，1955年。谷歌学者
N.D.Sidiropoulos、G.B.Giannakis和R.Bro。ds-cdma系统的盲副载波接收机。信号处理，IEEE汇刊，48（3）：810--8232000。谷歌学者数字图书馆
J.Sun、S.Papadimitriou和P.S.Yu。基于窗口的高维和多spect流张量分析。在ICDM中，第1076页至第1080页，2006年。谷歌学者数字图书馆
孙建堂、曾海杰、刘海平、陆毅、陈振中。Cubesvd：一种新的个性化网络搜索方法。WWW，2005年。谷歌学者数字图书馆
D.Tao、X.Li、X.Wu、W.Hu和S.J.Maybank。监督张量学习。KAIS，13（1）：1--422007年。谷歌学者数字图书馆
D.Tao、M.Song、X.Li、J.Shen、J.Sun、X.Wu、C.Faloutsos和S.J.Maybank。三维人脸建模的贝叶斯张量方法。IEEE TCSVT，18（10）：1397-14102008。谷歌学者数字图书馆
L.R.塔克。关于三模式因子分析的一些数学注释。《心理测量学》，31（3）：279--3112966年。谷歌学者交叉引用

索引术语

GigaTensor：将张量分析放大100倍-算法和发现
1. 信息系统
  1. 信息系统应用
    1. 数据挖掘

建议

BIGtensor：轻松挖掘数十亿张数
CIKM’16：第25届ACM国际信息与知识管理会议记录

许多真实世界的数据自然地被表示为张量或多维数组。张量分解是分析张量的重要工具，用于潜在概念发现、趋势分析、聚类和异常分析等各种应用。。。
阅读更多信息
挖掘十亿尺度张量：算法和发现

我们如何分析具有各种属性的大规模真实世界数据？许多具有多个属性的真实世界数据（例如，网络流量日志、web数据、社交网络、知识库和传感器流）表示为多维数组，。。。
阅读更多信息
分数阶全变分与稀疏变换相结合的张量压缩视频传感重建

高重建性能、低计算复杂度和低内存需求的压缩视频传感（CVS）是一项非常具有挑战性的工作。为了以较低的计算复杂度重建高质量的视频帧，本文提出了一种新的视频重建算法。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
KDD’12：第18届ACM SIGKDD知识发现和数据挖掘国际会议记录
2012年8月
1616页
国际标准图书编号：9781450314626
内政部：10.1145/2339530
总主席：
强阳（Qiang Yang）
香港科技大学
,
课程主席：
迪帕克·阿加瓦尔
LinkedIn链接
,
简培
西蒙·弗雷泽大学
版权所有©2012 ACM
允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，但不收取任何费用，前提是复制品的制作或分发不是为了盈利或商业利益，并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2012年8月12日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
大数据
分布式计算
哈斗
地图缩小
张量
限定符
- 研究论文
会议

接受率
总体验收率1,133属于8,635提交，13%
即将召开的会议
KDD'24款

赞助商：

sigkdd公司

sigkdd公司

第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙
资金来源
其他指标
查看文章指标

文章度量标准
- 201
  引文总数
  查看引文
- 952
  总下载次数
- 下载量（最近12个月）56
- 下载次数（最近6周）11
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

GigaTensor：将张量分析放大100倍-算法和发现

KDD’12：第18届ACM SIGKDD知识发现和数据挖掘国际会议记录

摘要

补充材料

工具书类

引用人

索引术语

建议

BIGtensor：轻松挖掘数十亿张数

挖掘十亿尺度张量：算法和发现

分数阶全变分与稀疏变换相结合的张量压缩视频传感重建

评论