跳到主要内容
10.1145/2339530.2339583acm会议文章/章节视图摘要出版物页面千迪拉姆会议记录会议集合
研究论文

GigaTensor:将张量分析放大100倍-算法和发现

出版:2012年8月12日出版历史

摘要

许多数据被建模为张量或多维数组。示例包括知识库中的谓词(主语、动词、宾语)、Web图形中的超链接和锚文本、传感器流(时间、位置和类型)、随时间变化的社交网络以及DBLP conference-author-keyword关系。张量分解是一种重要的数据挖掘工具,具有多种应用,包括聚类、趋势检测和异常检测。然而,当前的张量分解算法对于具有数十亿个大小和数亿个非零的大型张量是不可扩展的:文献中最大的张量仍然是数千个大小和数十万个非零。

考虑一个由大约2600万个名词短语组成的知识库张量。中间数据爆炸问题与张量分解算法的朴素实现相关,需要具体化和存储最大维≈7 x 10的矩阵14这相当于大约10 PB,或者相当于几个数据中心的存储量,从而以天真的方式使对这个知识库的张量分析实际上是不可能的。本文提出了GIGATENSOR,一种用于大规模张量分解的可扩展分布式算法。GIGATENSOR利用了现实世界张量的稀疏性,通过仔细重新设计张量分解算法,避免了中间数据爆炸问题。

大量实验表明,我们提出的GIGATENSOR解决了比现有方法大100倍的问题。此外,我们使用GIGATENSOR分析了一个非常大的现实世界知识库张量,并展示了我们惊人的发现,其中包括在数百万名词短语(例如名词“污染物”和名词短语“温室气体”)中发现了潜在的同义词。

跳过补充材料部分

补充材料

311a_m通话_8mp4

英里4

100.3 MB

工具书类

  1. Hadoop信息。http://hadoop.apache.org/。谷歌学者谷歌学者
  2. E.Acar、C.Aykut-Bingol、H.Bingol,R.Bro和B.Yener。癫痫张量的多向分析。生物信息学,23(13):i10-i182007。谷歌学者谷歌学者数字图书馆数字图书馆
  3. C.A.Andersson和R.Bro。matlab的n路工具箱。化学计量学和智能实验室系统,52(1):1-42000。谷歌学者谷歌学者交叉引用交叉引用
  4. B.W.Bader和T.G.Kolda。使用稀疏张量和因子张量进行有效的MATLAB计算。SIAM科学计算杂志,30(1):205--2312007年12月。谷歌学者谷歌学者数字图书馆数字图书馆
  5. B.W.Bader、R.A.Harshman和T.G.Kolda。使用三向dedicom对社交网络进行时间分析。桑迪亚国家实验室TR SAND2006-21612006。谷歌学者谷歌学者交叉引用交叉引用
  6. B.W.Bader和T.G.Kolda。Matlab张量工具箱版本2.2。美国新墨西哥州阿尔伯克基:桑迪亚国家实验室,2007年。谷歌学者谷歌学者
  7. S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社,纽约,纽约,美国。谷歌学者谷歌学者数字图书馆数字图书馆
  8. R.兄弟。帕拉法。教程和应用程序。化学计量学和智能实验室系统,38(2):149-1711997。谷歌学者谷歌学者
  9. A.Carlson、J.Betteridge、B.Kisiel、B.Settles、E.R.Hruschka Jr.和T.M.Mitchell。走向一个永无止境的语言学习架构。AAAI,2010年。谷歌学者谷歌学者数字图书馆数字图书馆
  10. P.A.Chew、B.W.Bader、T.G.Kolda和A.Abdelali。使用parafac2进行跨语言信息检索。KDD,2007年。谷歌学者谷歌学者数字图书馆数字图书馆
  11. J.Dean和S.Ghemawat。Mapreduce:简化了大型集群的数据处理。在OSDI中,第137-150页,2004年。谷歌学者谷歌学者数字图书馆数字图书馆
  12. S.Deerwester、S.T.Dumais、G.W.Furnas、T.K.Landauer和R.Harshman。通过潜在语义分析进行索引。《美国信息科学学会杂志》,41(6):391-4071990年9月。谷歌学者谷歌学者交叉引用交叉引用
  13. C.Eckart和G.Young。一个矩阵与另一个低阶矩阵的近似。《心理测量学》,1(3):211-2186。谷歌学者谷歌学者交叉引用交叉引用
  14. R.A.哈什曼。parafac程序的基础:“解释性”多模态因子分析的模型和条件。1970谷歌学者谷歌学者
  15. U.Kang、D.H.Chau和C.Faloutsos。挖掘大型图形:算法、推理和发现。在ICDE中,第243-254页,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  16. U.Kang、B.Meeder和C.Faloutsos。十亿级图的谱分析:发现和实现。PAKDD(2),第13-25页,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  17. U.Kang、H.Tong、J.Sun、C.-Y.Lin和C.Faloutsos。Gbase:一个可扩展的通用图形管理系统。在KDD中,第1091--1099页,2011年。谷歌学者谷歌学者数字图书馆数字图书馆
  18. U.Kang、C.E.Tsourakakis和C.Faloutsos。飞马座:一个PB级的图形挖掘系统。在ICDM中,第229-238页,2009年。谷歌学者谷歌学者数字图书馆数字图书馆
  19. J.M.Kleinberg,超链接环境中的权威来源。美国医学会杂志,46(5):604-6321999。谷歌学者谷歌学者数字图书馆数字图书馆
  20. T.G.Kolda和B.W.Bader。高阶网络链接分析的tophits模型。《链接分析、反恐与安全研讨会》,第7卷,第26-29页,2006年。谷歌学者谷歌学者
  21. T.G.Kolda和B.W.Bader。张量分解及其应用。SIAM综述,51(3),2009年。谷歌学者谷歌学者数字图书馆数字图书馆
  22. T.G.Kolda和J.Sun。用于多spect数据挖掘的可缩放张量分解。ICDM,2008年。谷歌学者谷歌学者数字图书馆数字图书馆
  23. R.Lämmel。谷歌的mapreduce编程模型——重温。《计算机编程科学》,70:1--302008年。谷歌学者谷歌学者数字图书馆数字图书馆
  24. 刘振华、杨洪川、范俊华、何立伟和王永明。基于mapreduce的网络尺度二元数据分析的分布式非负矩阵分解。在WWW中,第681-692010页。谷歌学者谷歌学者数字图书馆数字图书馆
  25. K.Maruhashi、F.Guo和C.Faloutsos。多方面取证:利用张量分析对大规模异构网络进行模式挖掘。2011年,ASONAM。谷歌学者谷歌学者数字图书馆数字图书馆
  26. C.Olston、B.Reed、U.Srivastava、R.Kumar和A.Tomkins。猪拉丁语:用于数据处理的非外语。在SIGMOD'08中,第1099--1110页,2008年。谷歌学者谷歌学者数字图书馆数字图书馆
  27. E.E.Papalexakis和N.D.Sidiropoulos。作为具有稀疏潜在因子的多线性分解的协聚类。ICASSP,2011年。谷歌学者谷歌学者交叉引用交叉引用
  28. R.彭罗斯。矩阵的广义逆。程序中。剑桥菲洛斯。Soc,第51卷,第406--413页。剑桥大学出版社,1955年。谷歌学者谷歌学者
  29. N.D.Sidiropoulos、G.B.Giannakis和R.Bro。ds-cdma系统的盲副载波接收机。信号处理,IEEE汇刊,48(3):810--8232000。谷歌学者谷歌学者数字图书馆数字图书馆
  30. J.Sun、S.Papadimitriou和P.S.Yu。基于窗口的高维和多spect流张量分析。在ICDM中,第1076页至第1080页,2006年。谷歌学者谷歌学者数字图书馆数字图书馆
  31. 孙建堂、曾海杰、刘海平、陆毅、陈振中。Cubesvd:一种新的个性化网络搜索方法。WWW,2005年。谷歌学者谷歌学者数字图书馆数字图书馆
  32. D.Tao、X.Li、X.Wu、W.Hu和S.J.Maybank。监督张量学习。KAIS,13(1):1--422007年。谷歌学者谷歌学者数字图书馆数字图书馆
  33. D.Tao、M.Song、X.Li、J.Shen、J.Sun、X.Wu、C.Faloutsos和S.J.Maybank。三维人脸建模的贝叶斯张量方法。IEEE TCSVT,18(10):1397-14102008。谷歌学者谷歌学者数字图书馆数字图书馆
  34. L.R.塔克。关于三模式因子分析的一些数学注释。《心理测量学》,31(3):279--3112966年。谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. GigaTensor:将张量分析放大100倍-算法和发现

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM会议
      KDD’12:第18届ACM SIGKDD知识发现和数据挖掘国际会议记录
      2012年8月
      1616页
      国际标准图书编号:9781450314626
      内政部:10.1145/2339530

      版权所有©2012 ACM

      允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用,但不收取任何费用,前提是复制品的制作或分发不是为了盈利或商业利益,并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2012年8月12日

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 研究论文

      接受率

      总体验收率1,133属于8,635提交,13%

      即将召开的会议

      KDD'24款
      第30届ACM SIGKDD知识发现和数据挖掘会议
      2024年8月25日至29日
      巴塞罗那,西班牙

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器