×

信息瓶颈限制的高斯下限。 (英语) Zbl 1473.62015年

概要:信息瓶颈(IB)是一种概念性方法,用于提取与目标相关的一组变量的最紧凑但信息量最大的表示。它将最小充分统计量的概念从经典的参数统计量推广到更广泛的信息理论意义上。IB曲线定义了表示复杂性与其预测能力之间的最佳权衡。具体来说,它是通过最小化表示和原始变量之间的互信息水平(MI)来实现的,受表示和目标之间的最小MI水平的限制。这个问题被证明是一般的NP难问题。一个重要的例外是多变量高斯情况,已知高斯IB(GIB)可以获得解析闭式解,类似于正则相关分析(CCA)。在这项工作中,我们引入了IB曲线的高斯下界;我们发现数据的嵌入使其“高斯部分”最大化其中我们应用GIB。这种嵌入提供了任意数据集(在IB意义上)的有效(和实用)表示,此外,它还具有高斯分布的良好特性。重要的是,我们证明了最优高斯嵌入由非线性CCA从上到下有界。这对我们对任意数据集进行高斯化和用线性方法解决复杂问题的能力造成了基本限制。

MSC公司:

62B10型 信息理论主题的统计方面
62H20个 关联度量(相关性、典型相关性等)
94甲17 信息的度量,熵
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 亚历山德罗·阿齐尔(Alessandro Achille)和斯特凡诺·索托(Stefano Soatto)。信息丢失:通过噪声计算学习最佳表示。IEEE模式分析和机器26智能汇刊,2018年。
[2] Alexander A Alemi、Ian Fischer、Joshua V Dillon和Kevin Murphy。深刻的变化信息瓶颈。arXiv预印arXiv:1612.004102016。
[3] Galen Andrew、Raman Arora、Jeff Bilmes和Karen Livescu。深度典型相关分析。在2013年国际机器学习会议上,第1247–1255页。
[4] Leo Breiman和Jerome H Friedman。估计多元回归和相关性的最佳转换。美国统计协会杂志,80(391):580-5981985·Zbl 0594.62044号
[5] Jean-Franócois Cardoso女士。独立成分分析中的相关性、相关性和高斯性。机器学习研究杂志,4:1177–12032003·Zbl 1061.62096号
[6] 马修·查尔克(Matthew Chalk)、奥利维尔·玛丽(Olivier Marre)和加斯佩·特卡西克(Gasper Tkacik)。具有变分信息瓶颈的相关稀疏码。《神经信息处理系统进展》,第1957–1965页,2016年。
[7] Gal Chechik、Amir Globerson、Naftali Tishby和Yair Weiss。高斯变量的信息瓶颈。机器学习研究杂志,6:165-1882005·Zbl 1222.68166号
[8] Scott Saobing Chen和Ramesh A Gopinath。高斯化。《神经信息处理系统进展》,第423-429页,2001年。
[9] 托马斯·M·盖和乔伊·A·托马斯。信息论要素。John Wiley&Sons,2012年·Zbl 0762.94001号
[10] 尼尔·弗里德曼(Nir Friedman)、奥里·莫森森(Ori Mosenzon)、诺姆·斯隆(Noam Slonim)和纳夫塔利·蒂什比(Naftali Tishby)。多元信息瓶颈。《第十七届人工智能不确定性会议论文集》,第152-161页。摩根考夫曼出版公司,2001年·Zbl 1125.68042号
[11] 沃尔特·吉尔克斯。马尔可夫链蒙特卡罗法。威利在线图书馆,2005年·Zbl 0845.60072号
[12] 特雷弗·哈斯蒂(Trevor Hastie)、罗伯特·蒂比西拉尼(Robert Tibshirani)、杰罗姆·弗里德曼(Jerome Friedman)和詹姆斯·富兰克林(James Franklin)。统计学习的要素:数据挖掘、推理和预测。数学智能,27(2):83-852005。
[13] Ron M Hecht、Elad Noor和Naftali Tishby。高斯信息瓶颈下的说话人识别。在INTERSPEECH中,第1567–1570页,2009年。
[14] 哈罗德·霍特林。两组变量之间的关系。《生物特征》,28(3/4):321-3771936·Zbl 0015.40705号
[15] Aapo Hyv¨arinen、Juha Karhunen和Erkki Oja。独立成分分析,第46卷。John Wiley&Sons,2004年。
[16] 吉姆·凯。使用互信息在上下文监督下进行特征发现。《神经网络》,1992年。国际JCNN。,国际联合会议,第4卷,第79-84页。IEEE,1992年。27
[17] 阿尔托·克拉米和塞缪尔·卡斯基。非参数相关组件。在IEEE声学、语音和信号处理国际会议上,2005年第5卷。
[18] Artemy Kolchinsky、Brendan D Tracey和David H Wolpert。非线性信息瓶颈。arXiv预印arXiv:1705.024362017。
[19] 裴凌来(Pei Ling Lai)和科林·菲菲(Colin Fyfe)。核与非线性典型相关分析。国际神经系统杂志,10(05):365–3772000·Zbl 1008.68704号
[20] HO兰卡斯特。二元分布的相关性和标准形式。《数理统计年鉴》,34(2):532-5381963·Zbl 0115.14104号
[21] 瓦莱罗·拉帕拉(Valero Laparra)、古斯塔沃·坎普斯·瓦尔斯(Gustavo Camps-Valls)和杰斯·乌斯·马洛(Jes’us Malo)。迭代高斯化:从ICA到随机旋转。IEEE神经网络汇刊,22(4):537–5492011。
[22] 托默·迈克利(Tomer Michaeli)、韦兰·王(Weiran Wang)和凯伦·利维斯库(Karen Livescu)。非参数典型相关分析。在国际机器学习会议上,1967–1976页,2016年。
[23] 加斯帕德·蒙奇。埃布雷斯和伦布雷斯河畔的穆埃梅尔(M´emoire sur la eorie des d´eblais et des remblais)。《皇家勋章》,1781年。
[24] Svetlozar T Rachev和Ludger R¨uschendorf,《大众运输问题:第一卷:理论》第一卷。Springer科学与商业媒体,1998年。
[25] 梅兰妮·雷伊和沃尔克·罗斯。元高斯信息瓶颈。《神经信息处理系统进展》,第1916–1924页,2012年。
[26] Elad Schneidman、Noam Slonim、Naftali Tishby、R deRuyter van Stevenick和William Bialek。使用信息瓶颈方法分析神经代码。神经信息处理系统进展,2001年。
[27] Elad Schneidman、Michael J Berry、Ronen Segev和William Bialek。弱成对关联意味着神经群体中存在强关联的网络状态。《自然》,440(7087):1007–10122006。
[28] Ofer Shayevitz和Meir Feder。通过后验匹配实现最优反馈通信。IEEE信息理论汇刊,57(3):1186–12222011·Zbl 1366.94260号
[29] Ravid Shwartz-Ziv和Naftali Tishby。通过信息打开深层神经网络的黑盒。arXiv预印本arXiv:1703.008102017。
[30] Janne Sinkkonen和Samuel Kaski。基于辅助空间中的条件分布的聚类。神经计算,14(1):217–2392002·Zbl 1009.62048号
[31] 诺姆·斯隆。信息瓶颈:理论与应用。博士论文,耶路撒冷希伯来大学,2002年。
[32] 诺姆·斯隆和纳夫塔利·蒂什比。通过信息瓶颈方法使用词簇进行文档聚类。在第23届ACM SIGIR信息检索研究与开发国际年会的会议记录中,第208-215页。ACM,2000年。28
[33] 诺姆·斯隆(Noam Slonim)、古林德·辛格·阿特瓦尔(Gurinder Singh Atwal)、加斯珀·特卡西克(Ga’sper Tka’-cik)和威廉·比亚莱克(William Bialek)。基于信息的聚类。美国国家科学院学报,102(51):18297–183022005·兹比尔1135.62054
[34] 纳夫塔利·蒂什比和丹尼尔·波拉尼。决策和行动的信息理论。在感知行动周期中,第601-636页。施普林格,2011年。
[35] 纳夫塔利·蒂什比和诺加·扎斯拉夫斯基。深度学习和信息瓶颈原则。IEEE信息理论研讨会(ITW),第1-5页,2015年。
[36] 纳夫塔利·蒂什比(Naftali Tishby)、费尔南多·佩雷拉(Fernando C Pereira)和威廉·比亚莱克(William Bialek)。信息瓶颈方法。《第37届Allerton通信、控制和计算年会论文集》,第368-377页,1999年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。