×

SICA:主观有趣的成分分析。 (英语) Zbl 1416.62327号

摘要:高维数据集中的信息往往过于复杂,人类用户无法直接感知。因此,使用降维方法构建可可视化的低维表示可能会有所帮助。出现的自然问题是我们如何构建信息量最大的低维表示?我们从信息理论的角度研究这个问题,并介绍了一种新的线性降维方法。所获得的量化信息量的模型还允许我们灵活地解释用户可能拥有的关于数据的先验知识。这使我们能够提供主观上有趣。我们将方法命名为主观兴趣分量分析(SICA),并期望它主要用于迭代数据挖掘。SICA基于用户对数据的信念状态模型。这种信念状态用于搜索令人惊讶的观点。初始状态由用户选择(根据数据格式,它可能为空),并在分析过程中自动更新。我们研究了几种类型的先验信念:如果用户只知道数据的规模,SICA将产生与主成分分析(PCA)相同的成本函数,而如果用户期望数据具有离群值,我们将获得一个变量,称之为(t)-PCA。最后,当用户有更复杂的信念时,例如关于数据点之间相似性的知识,科学上会获得更有趣的变体。实验表明,SICA可以让用户在主观上找到更有趣的表示。

MSC公司:

62H25个 因子分析和主成分;对应分析
62小时05 多元概率分布的表征与结构理论;连接线
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Belkin M,Niyogi P(2003),用于降维和数据表示的拉普拉斯特征映射。神经计算机15(6):1373-1396·Zbl 1085.68119号 ·doi:10.1162/089976603321780317
[2] Bishop CM(2006)《模式识别马赫数学习》。柏林施普林格
[3] Boley M、Mampaey M、Kang B、Tokmakov P、Wrobel S(2013)一键式挖掘:通过内隐偏好和性能学习的交互式局部模式发现。摘自:ACM SIGKDD交互式数据探索和分析研讨会论文集,美国纽约州纽约市ACM,第27-35页
[4] Boumal N,Mishra B,Absil PA,Sepulchre R(2014)Manopt,用于歧管优化的matlab工具箱。机械学习研究杂志15(1):1455-1459。网址:http://www.manopt.org ·Zbl 1319.90003号
[5] Brown ET,Liu J,Brodley CE,Chang R(2012)Dis-function:交互式学习距离函数。收件人:IEEE VAST,IEEE,西雅图,华盛顿州,美国,第83-92页
[6] 坎宁安JP,Ghahramani Z(2015)《线性维度缩减:调查、见解和概括》。J Mach学习研究16:2859-2900·Zbl 1351.62123号
[7] De Bie T(2011)数据挖掘的信息理论框架。摘自:第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国纽约州纽约市ACM,第564-572页
[8] De Bie T(2013)探索性数据挖掘中的主观兴趣。In:智能数据分析国际研讨会,柏林施普林格,海德堡,第19-31页
[9] De Bie T、Lijffijt J、Santos-Rodriguez R、Kang B(2016)《信息数据预测:框架和两个示例》。年:欧洲人工神经网络、计算智能和机器学习研讨会。网址:www.i6doc.com
[10] Fisher RA(1936)分类问题中多重测量的使用。《安娜·尤根》7(2):179-188·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[11] Friedman JH,Tukey JW(1974)探索性数据分析的投影寻踪算法。IEEE Trans Compute 100(9):881-890·Zbl 0284.68079号 ·doi:10.1109/T-C.1974.224051
[12] Georghiades AS、Belhumeur PN、Kriegman DJ(2001)从少到多:可变光照和姿势下人脸识别的照明锥模型。IEEE跨模式分析-马赫积分23(6):643-660·doi:10.1109/34.927464
[13] Gupta AK,Nagar DK(1999)矩阵变量分布。博卡拉顿CRC出版社·Zbl 0935.62064号
[14] Hand DJ、Mannila H、Smyth P(2001)《数据挖掘原理》。麻省理工学院出版社,剑桥
[15] He X,Niyogi P(2004),局部保留投影。主题:神经信息处理系统的进展,第153-160页
[16] 霍特林H(1936)两组变量之间的关系。生物特征28(3/4):321-377·Zbl 0015.40705号 ·doi:10.2307/2333955
[17] Hyvärinen A等人(1999)独立成分分析的快速稳健定点算法。IEEE Trans神经网络10(3):626-634·数字对象标识代码:10.1109/72.761722
[18] Hyvärinen A、Karhunen J、Oja E(2004)《独立成分分析》。纽约威利
[19] Iwata T、Houlsby N、Ghahramani Z(2013)交互式可视化的主动学习。摘自:《第十六届人工智能和统计国际会议论文集》,机器学习研究论文集,第31卷,第342-350页
[20] Jolliffe I(2002)主成分分析。威利在线图书馆·Zbl 1011.62064号
[21] Kang B、Lijffijt J、Santos-Rodríguez R、De Bie T(2016)《主观有趣成分分析:与先前预期对比的数据预测》。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国纽约州纽约市ACM,第1615-1624页
[22] Kohonen T(1998)自组织图。神经计算21(1):1-6·兹伯利0917.68176 ·doi:10.1016/S0925-2312(98)00030-7
[23] Kokiopoulou E,Chen J,Saad Y(2011),降维方法中的轨迹优化和特征问题。数字线性代数应用18(3):565-602·Zbl 1249.65075号 ·doi:10.1002/nla.743
[24] Kotz S,Nadarajah S(2004)多元t分布及其应用。剑桥大学出版社·Zbl 1100.62059号 ·doi:10.1017/CBO9780511550683
[25] Kruskal JB,Wish M(1978)多维标度。鼠尾草、千橡·doi:10.4135/9781412985130
[26] Lee KC,Ho J,Kriegman DJ(2005)获取可变光照下人脸识别的线性子空间。IEEE Trans-Pattern Ana Mach Intell 27(5):684-698·doi:10.10109/TPAMI.2005.92
[27] Lijffijt J,Papapetrou P,Puolamäki K(2014)挖掘信息量最大的模式集的统计显著性测试方法。数据最小知识发现28(1):238-263·Zbl 1281.68188号 ·doi:10.1007/s10618-012-0298-2
[28] Nesterov Y(2013)关于凸优化的介绍性讲座:一门基础课程。柏林施普林格·Zbl 1086.90045号
[29] Ng AY、Jordan MI、Weiss Y(2002)《关于光谱聚类:分析和算法》。主题:神经信息处理系统的进展,第849-856页
[30] Onishchik(2011)Stiefel歧管。数学百科全书。http://www.encyclopediaofmath.org/index.php?title=Stiefel_manifold&oldid=12028。2017年6月21日访问
[31] Paurat D,Gärtner T(2013)《Invis:交互式可视化数据分析工具》。In:数据库中的机器学习和知识发现:欧洲会议,ECML PKDD,施普林格,柏林,海德堡,第672-676页
[32] Peason K(1901)在与空间点系统最接近的直线和平面上。菲洛斯·马格2(11):559-572·doi:10.1080/14786440109462720
[33] Puolamaki K,Papapetrou P,Lighfijt J(2010)《可视化可控数据挖掘方法》。摘自:IEEE数据挖掘研讨会国际会议,IEEE,第409-417页
[34] Ruotsalo T、Jacucci G、Myllymäki P、Kaski S(2015)《交互式意图建模:搜索之外的信息发现》。通信ACM 58(1):86-92·doi:10.1145/2656334
[35] Tenenbaum JB,De Silva V,Langford JC(2000)非线性降维的全球几何框架。科学290(5500):2319-2323·doi:10.1126/science.290.5500.2319
[36] Vasilescu MAO,Terzopoulos D(2002)图像集合的多语言分析:tensorfaces。摘自:第七届欧洲计算机视觉会议记录,柏林斯普林格,海德堡,第447-460页·Zbl 1034.68693号
[37] Von Luxburg U(2007)《光谱聚类教程》。统计计算17(4):395-416·数字对象标识代码:10.1007/s11222-007-9033-z
[38] Weinberger KQ,Saul LK(2009)大幅度最近邻分类的距离度量学习。J Mach学习研究10:207-244·Zbl 1235.68204号
[39] Weinberger KQ,Sha F,Zhu Q,Saul LK(2006)大规模半定规划的图拉普拉斯正则化。主题:神经信息处理系统的进展,第1489-1496页
[40] Zografos K(1999)关于皮尔逊II型和VII型多元分布的最大熵特征。多变量分析杂志71(1):67-75·Zbl 0951.62040号 ·doi:10.1006/jmva.1999.1824
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。