数据分析中的张量

区块讲座,5 ECTS学分,2017年冬季学期--18

组织

讲师

Pauli Miettinen博士

时间和地点

  • 讲座将于第41周(2017年10月9日至13日)10:15–11:45和12:30–14:00在E1.3号楼016室举行(N.B.房间已更改)
  • 指导课程将于第41周(2017年10月10日至13日)星期二至星期五14:30至15:45在E1.4号楼023室(MPI-INF)举行(N.B.时间已更改)
  • 期末考试将于10月20日星期五举行(暂定的). 时间和地点待定。

登记处

  • 第一堂课必须到场
  • 除HISPOS考试注册外,无预注册

新闻

  • 考试成绩在HISPOS中
  • 复赛将于11月10日举行。如果你想预约口试时间,你需要在10月27日星期五之前通过电子邮件联系讲师。你还必须在11月3日星期五前在HISPOS注册。

问题单

  1. 张量操纵[问题单 |样品溶液]
  2. CP分解与张量秩[问题单 |样品溶液]
  3. CP分解的变化及其应用[问题单 |样品溶液]
  4. 塔克分解[问题单 |样品溶液]

考试信息

期末考试成绩以HISPOS为单位。 

重新选举将于11月10日星期五举行。您必须在10月27日星期五之前通过电子邮件联系讲师,以便预约口试时间,并在11月3日星期五前在HISPOS注册。

课程内容

张量是矩阵的多维扩展。在过去十年中,在数据分析中使用张量的兴趣显著增加,张量可用于存储例如多关系数据(主题-目标三元组、用户-移动标记三元组等)、高光谱数据(X-Y光谱图像)或时空数据(X-Y-时间数据)。为了分析此类数据集并从中发现潜在结构,开发并提出了各种张量分解方法。

本课程将涵盖数据分析中张量因子分解的使用。我们将介绍一些不同的因式分解、它们的应用、它们的优缺点以及寻找它们的算法。此外,我们还将讨论数据分析中与张量相关的其他重要主题,例如如何选择要使用的因子分解以及如何解释其结果。

这是一门模块课程,所有讲座将在教学开始前一周内进行(每天两次,每次1:30小时)。此外,在讲座结束后还有四节辅导课。

课程内容暂定为:

  • 张量代数与张量运算
  • CANDECOMP/PARAFAC(CP)分解与张量秩
  • CP分解的变体、应用和算法
  • 塔克分解及其算法和应用
  • 张量列分解
  • 选择因子分解和秩

课程形式

这是一个整块演讲,也就是说,它只在一周内进行。每天有2 x 1:30小时的讲座,周二至周五有1 x 1:30个小时的辅导课。对于教程,除星期五外,每天都会分发书面作业,并在第二天的教程课上交。学生应在一周内每天至少花八个小时学习该课程。 

在辅导课开始时,学生必须标出他们愿意提出的问题解决方案。为了有资格参加期末考试,学生们必须至少批改一半的问题。因此,有一个强制到场至少在两次辅导课中(假设学生标记了相应问题单中的所有问题)。解决更多问题没有额外的积分,尽管强烈鼓励尝试解决每个问题单中的每个问题。

讲座是“粉笔演讲”,也就是说,材料主要放在黑板上。每次讲座结束后,都会在课程主页上提供手写的课堂讲稿。必须出席第一堂课,其余部分则为volumery(尽管强烈建议)。 

前提条件

学生应具备良好的线性代数和矩阵分析知识。需要了解矩阵分解方法的基本知识,如SVD、PCA和NMF。参加课程数据挖掘和矩阵不是强制性的,但建议了解其内容。
 

学习目标

本课程旨在教授张量分解背后的理论,以及何时以及如何解释其结果时使用哪种分解的实际方面。课程结束后,学生应该知道数据分析中最常见的张量分解,并能够在自己的工作中使用它们。学生还应该能够理解新的分解,以及它们与他们已经知道的分解之间的关系。学生应能理解计算分解时使用的基本算法思想,并能阅读和实现基本张量分解算法。学生应该能够选择对给定数据分析任务的正确分解,能够解释结果,并知道最常见分解的优点和缺点。

阅读材料

以下材料提供了有关该主题的背景信息。这不是课程的必修课,但绝对有帮助。 

  1. Skillicorn,D.,2007年。《理解复杂数据集:矩阵分解数据挖掘》,第9章。博卡拉顿:查普曼和霍尔/CRC。
  2. Kolda,T.G.&Bader,B.W.,2009年。张量分解及其应用。SIAM评论,51(3),第455-500页。[PDF格式]
  3. Cichocki,A.等人,2009年。非负矩阵和张量因子分解:探索性多路数据分析和盲源分离的应用,第1.4、1.5和7章。奇切斯特:约翰·威利父子公司。