×

高维学习和推理的通用功能。 (英语) Zbl 07829052号

摘要:这本专著就如何从高维数据中识别普遍的低维特征,以便在涉及学习的环境中进行推理任务的问题,提出了统一的观点。针对这类问题,引入了普遍性的自然概念,并建立了它们之间的局部等价性。分析通过信息几何自然地表达出来,它提供了概念和计算方面的见解。发展揭示了奇异值分解、Hirschfeld-Gebelein-Rényi极大相关、Hotelling和Pearson的典型相关和主成分分析、Tishby的信息瓶颈、Wyner和Gács-Körner共同信息、Ky Fan(K)-范数、,以及Breiman和Friedman的交替条件期望算法。除其他用途外,该框架有助于理解和优化学习系统的各个方面,包括多项式logistic(softmax)回归和神经网络架构、用于协同过滤的矩阵分解方法和其他应用、秩约束多元线性回归、,以及半监督学习的形式。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68-02 与计算机科学有关的研究展览会(专著、调查文章)
94甲15 信息论(总论)
94甲12 信号理论(表征、重建、滤波等)
94A08型 信息和通信理论中的图像处理(压缩、重建等)
68单位10 图像处理的计算方法
68T07型 人工神经网络与深度学习
62H30型 分类和区分;聚类分析(统计方面)
2015财年65 矩阵特征值和特征向量的数值计算
62小时25分 因子分析和主成分;对应分析
62甲12 多元分析中的估计
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] E.Abbe和L.Zheng,“高斯网络的坐标系”,IEEE Trans。通知。《理论》,第58卷,第2期,2012年2月,第721-733页·兹比尔1365.94249
[2] A.Achille和S.Soatto,“不变性的出现和深层表现的分离”,J.Mach。学习。研究,第19卷,第1期,2018年1月,第1947-1980页。
[3] R.Ahlswede和P.Gács,“乘积空间中集合的展开和马尔可夫算子的超压缩”,Ann.Prob。,第4卷,第6期,1976年12月,第925-939页·Zbl 0345.60039号
[4] R.Ahlswede和G.Körner,“关于相关信息源的共同信息和相关特征”,见Proc。布拉格会议通知。理论,布拉格,捷克斯洛伐克,1974年9月。
[5] R.Ahlswede和G.Körner,“附录:关于相关信息源的共同信息和相关特征”,《信息传递与组合学的一般理论》,R.Awlswede、L.Bäumer、N.Cai、H.Aydinian、V.Blinovsky、C.Deppe和H.Mashurian,Eds.,柏林,海德堡:施普林格-柏林-海德堡,2006年,第664-677页·Zbl 1158.94328号
[6] S.Akaho,《典型相关分析的核方法》。国际心理测量学会(IMPS),日本大阪,2001年7月。工具书类
[7] A.A.Alemi、I.Fischer、J.V.Dillon和K.Murphy,《深度变化信息瓶颈》。2017年4月,法国土伦,国际Conf.Learning Repr.(ICLR)。
[8] S.-I.Amari,《信息几何及其应用》。日本东京:施普林格出版社,2016年·Zbl 1350.94001号
[9] S.-I.Amari和H.Nagaoka,《信息几何方法》。英国牛津:牛津大学出版社,2000年·Zbl 0960.62005号
[10] V.Anantharam、A.Gohari、S.Kamath和C.Nair,“关于液压收缩性和数据处理不平等”,摘自Proc。国际交响乐团。通知。理论(ISIT),夏威夷州火奴鲁鲁,2014年6月。
[11] V.Anantharam、A.A.Gohari、S.Kamath和C.Nair,《关于超压缩性和布尔函数之间的互信息》。Allerton Conf.Commun.公司。,控制。,Compute-ing,伊利诺伊州蒙蒂塞洛,2013年10月。
[12] V.Anantharam、A.A.Gohari、S.Kamath和C.Nair,“关于Erkip和Cover研究的最大正相关、超压缩性和等式数据处理”,CoRR,第abs/1304.6133卷,2013年。arXiv:1304.6133。网址:http://arxiv.org/abs/1304.6133。
[13] T.W.Anderson,《多元统计分析导论》,第三版,新泽西州霍博肯:威利出版社,2003年·Zbl 1039.62044号
[14] G.Andrew、R.Arora、J.Bilmes和K.Livescu,“深层经典相关性分析”,发表在Proc。Int.Conf.机器学习(ICML),ser。程序。机器。学习。研究(PMLR),第28卷,第1247-1255页,佐治亚州亚特兰大,2013年6月。
[15] R.Arora和K.Livescu,《使用发音测量多视角学习声学特征的核心CCA》。交响乐团。机器。学习演讲,语言过程。,第34-37页,俄勒冈州波特兰,2012年9月。
[16] F.Bach、J.Mairal和J.Ponce,“凸稀疏矩阵法”,CNRS,法国巴黎,技术代表HAL-00345747,2008年。
[17] F.R.Bach和M.I.Jordan,“内核独立成分分析”,J.Mach。学习。研究,第3卷,2002年7月,第1-48页·兹比尔1088.68689
[18] F.R.Bach和M.I.Jordan,“典型相关分析的概率解释”,部门统计。,加州大学伯克利分校,加利福尼亚州,技术代表6882005年4月。
[19] S.Baharlouei、M.Nouiehed、A.Berami和M.Razaviyayn,“雷尼的公平推断”,见Proc。埃塞俄比亚亚的斯亚贝巴国际学术研讨会(ICLR),2020年4月。
[20] S.Balakrishnan、K.Puniyani和J.Lafferty,《稀疏加法函数和内核CCA》。《国际计算机学习》(ICML),第911-918页,苏格兰爱丁堡,2012年6月。
[21] P.Baldi和K.Hornik,“神经网络和主成分分析:从没有局部极小值的示例中学习”,神经网络。,第2卷,第1期,1989年,第53-58页。
[22] Y.Bao、Y.Li、S.-L.Huang、L.Zhang、L.郑、A.R.Zamir和L.Guibas,《任务迁移学习中迁移性的信息理论方法》。国际会议图像处理(ICIP),台湾台北,2019年9月。
[23] S.Barocas、M.Hardt和A.Narayanan,《公平与机器学习:局限与机遇》。fairmlbook.org,2019年。
[24] A.R.Barron,“S形函数叠加的通用近似界”,IEEE Trans。通知。《理论》,第39卷,第3期,1993年5月,第930-945页·Zbl 0818.68126号
[25] A.R.Barron和C.-W.Sheu,“指数族序列对密度函数的近似”,《美国统计年鉴》,第19卷,第3期,1991年9月,第1347-1369页·Zbl 0739.62027号
[26] A.巴斯特列夫斯基,统计因素分析和相关方法。新泽西州霍博肯:威利,1994年·Zbl 1130.62341号
[27] S.Basu、M.Bilenko、A.Banerjee和R.Mooney,“带约束的概率半监督聚类”,《半监督学习》,O.Chapelle、B.Schölkopf和A.Zien,Eds.,Cam-bridge,MA:麻省理工学院出版社,2006年,第5章,第73-102页。
[28] J.Bennett和S.Lanning,《网飞奖》。2007年8月,加州圣何塞,KDD杯和研讨会。
[29] A.Benton、H.Khayrallah、B.Gujral、D.A.Reisinger、S.Zhang和R.Arora,《深度广义典型相关分析》。车间代表。学习NLP(RePL4NLP),第1-6页,意大利佛罗伦萨,2019年8月。
[30] J.P.Benzécri,《唐纳分析》,第2卷:《通信分析》。法国巴黎:Dunod,1973年·兹比尔0297.62039
[31] J.P.Benzécri,通信分析手册。纽约州纽约市:马塞尔·德克尔,1992年·Zbl 0766.62034号
[32] A.Berman和R.J.Plemmons,《数学科学中的非负矩阵》,第。应用数学经典。工业与应用数学学会(SIAM),1994年·Zbl 0815.15016号
[33] C.M.Bishop,“潜在变量模型”,摘自《图形模型学习》,M.I.Jordan,Ed.,马萨诸塞州剑桥:麻省理工学院出版社,1999年,第371-403页。
[34] C.M.Bishop,模式识别和机器学习。纽约州纽约市:施普林格,2006年·Zbl 1107.68072号
[35] P.Biswal,“超收缩性及其应用”,CoRR,第abs/1101.2913卷,2011年。arXiv:1101.2913。网址:http://arxiv。org/abs/1101.2913。
[36] S.Borade和L.Zheng,《欧几里德信息论》。苏黎世国际研讨会。(IZS),瑞士苏黎世,2008年3月。
[37] D.Braess和T.Sauer,“伯恩斯坦多项式和学习理论”,《近似理论》,第128卷,第2期,2004年,第187-206页·Zbl 1068.41009号
[38] L.Breiman和J.H.Friedman,“估计多元回归和相关性的最佳转换”,《美国统计学会期刊》,第80卷,第391期,1985年9月,第580-598页·Zbl 0594.62044号
[39] D.R.Brillinger,《时间序列:数据分析和理论》。纽约州纽约市:霍尔特·莱因哈特和温斯顿,1975年·Zbl 0321.62004号
[40] Y.Bu、J.K.-W.Lee、S.Das、R.Panda、D.Rajan、P.Sattieri和G.W.Wornell,《通过充分性进行公平选择分类》。Int.Conf.机器学习(ICML),ser。程序。机器。学习。研究(PMLR),第139卷,第6076-6086页,(虚拟),2021年7月。
[41] Y.Bu、T.T.Wang和G.W.Wornell,《敏感度受限隐私漏斗和信息瓶颈问题的SDP方法》。国际交响乐团。通知。理论(ISIT),澳大利亚墨尔本,2021年7月。
[42] A.Buja,“双变量ACE理论”,华盛顿大学统计学系,西雅图,华盛顿州,技术代表741985年12月。
[43] A.Buja,“关于函数规范变量、交替最小二乘法和ACE的评论”,《美国统计年鉴》,第18卷,第3期,1990年,第1032-1069页·Zbl 0721.62068号
[44] E.van der Burg和J.de Leeuw,“非线性规范相关”,英国数学杂志。统计心理学。,第36卷,第1期,1983年5月,第54-80页·Zbl 0513.62057号
[45] T.Cacoullos,“多元密度的估计”,《Ann.Inst.Statist》。数学。,第18卷,第1期,1966年12月,第179-189页·兹比尔0202.49603
[46] F.P.Calmon、A.Makhdoumi和M.Médard,《程序》中的“完美隐私的基本限制”。国际交响乐团。通知。理论(ISIT),中国香港,2015年6月。
[47] F.P.Calmon、A.Makhdoumi、M.Médard、M.Varia、M.Chris-tiansen和K.R.Duffy,“主要惯性元件和应用”,IEEE Trans。通知。《理论》,第63卷,第8期,2017年8月,第5011-5038页·Zbl 1372.94367号
[48] F.P.Calmon、M.Varia和M.Médard,“对信息论中主惯性分量作用的探索”,载于Proc。通知。理论研讨会(ITW),霍巴特,塔斯马尼亚州,澳大利亚,2014年11月。
[49] F.P.Calmon、M.Varia、M.Médard、M.M.Christiansen、K.R.Duffy和S.Tessaro,《推理的界限》,摘自Proc。阿勒顿会议通讯社。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2013年10月。
[50] E.J.Candès和Y.Plan,“噪声下矩阵完成”,Proc。IEEE,第98卷,第6期,2010年6月,第925-936页。
[51] E.J.Candès和Y.Plan,“压缩传感的概率和无RIP理论”,IEEE Trans。通知。《理论》,第57卷,第11期,2011年11月,第7235-7254页·Zbl 1365.94174号
[52] E.J.Candès和B.Recht,“通过凸优化实现精确矩阵补全”,《基础计算》。数学。,第9卷,第6期,2009年,第717-772页·Zbl 1219.90124号
[53] E.J.Candès和T.Tao,“凸松弛的力量:近最优矩阵完成”,IEEE Trans。通知。《理论》,第56卷,第5期,2010年5月,第2054-2080页·Zbl 1366.15021号
[54] O.Chapelle,B.Schölkopf和A.Zien,编辑,半监督学习。马萨诸塞州剑桥:麻省理工学院出版社,2006年。工具书类
[55] G.Chechik、A.Globerson、N.Tishby和Y.Weiss,“高斯变量的信息瓶颈”,J.Mach。学习。研究,第6卷,2005年5月,第165-188页·Zbl 1222.68166号
[56] J.Cheeger,“拉普拉斯算子最小特征值的下界”,收录于《分析问题》,R.C.Gunning,Ed.,Prince-ton,NJ:普林斯顿大学出版社,1970年,第195-199页·Zbl 0212.44903号
[57] H.Chen、J.Li、J.Gao、Y.Sun、Y.Hu和B.Yin,“基于深度参数化学习的最大相关主成分分析”,ACM Trans。知识。发现。数据,第13卷,第4期,2019年7月,第1-17页。
[58] M.A.Chmielewski,“椭圆对称分布:综述和参考书目”,《国际统计评论》,第49卷,第1期,1981年4月,第67-74页·Zbl 0467.62047号
[59] F.R.K.Chung,谱图论,ser。数学区域会议系列92。普罗维登斯,RI:美国数学。Soc.,1997年·Zbl 0867.05046号
[60] K.W.Church和P.Hanks,“单词联想规范、相互信息和词典编纂”,J.Comput。语言学家。,第16卷,第1期,1990年3月,第22-29页。
[61] R.R.Coifman、S.Lafon、A.B.Lee、M.Maggioni、B.Nadler、F.Warner和S.W.Zucker,“几何扩散作为调和分析和数据结构定义的工具:扩散图”,Proc。美国国家科学院。科学。,第102卷,第21期,2005年,第7426-7431页·Zbl 1405.42043号
[62] C.Cortes和V.Vapnik,“支持向量网络”,机器学习,第20卷,1995年9月,第273-297页·Zbl 0831.68098号
[63] T.M.Cover和J.A.Thomas,《信息理论的要素》,第二版,纽约:John Wiley and Sons出版社,2006年·兹比尔1140.94001
[64] D.R.Cox,“二进制序列的回归分析(讨论)”,J.Roy。统计Soc.,Ser。B、 第20卷,第2期,1958年,第215-242页·Zbl 0088.35703号
[65] B.R.Crain,“使用正交样本估计分布”,《美国统计年鉴》,第2卷,第3期,1974年5月,第454-463页·Zbl 0283.62042号
[66] P.Csáki和J.Fischer,“对最大关联问题的贡献”,Publ。数学。仪表悬挂。阿卡德。科学。,第5卷,1960年,第325-337页·Zbl 0096.34201号
[67] P.Csáki和J.Fischer,“关于二元随机联系”,Publ。数学。仪表悬挂。阿卡德。科学。,第5卷,1960年,第311-323页·Zbl 0096.34105号
[68] P.Csáki和J.Fischer,“关于最大相关性的一般概念”,Magyar Tud。阿卡德。Mat.KutatóInt Közl,第8卷,1963年,第27-51页·Zbl 0125.36601号
[69] I.Csiszár,“观测通道信息性的一类度量”,《周期数学》。匈牙利,第2卷,第1-4期,1972年,第191-213页·Zbl 0247.94018号
[70] I.Csiszár和J.Körner,《信息理论:离散无记忆系统的编码理论》,第二版,英国剑桥:剑桥大学出版社,2011年·Zbl 1256.94002号
[71] I.Csiszár和P.C.Shields,“信息理论和统计:教程”,《通信和信息理论的基础和趋势》,第1卷,第4期,2004年,第417-528页·Zbl 1156.62300号
[72] D.M.Cvetković,M.Doob和H.Sachs,图的谱,理论和应用。纽约州纽约市:学术出版社,1980年·Zbl 0458.05042号
[73] G.Cybenko,“sigmoid函数叠加逼近”,数学。《控制、信号、系统》,第2卷,第4期,1989年,第303-314页·Zbl 0679.94019号
[74] A.P.Dawid,“球面矩阵分布和多元模型”,J.Roy。统计Soc.,Ser。B、 第39卷,1977年,第254-261页·Zbl 0371.62080号
[75] A.Dembo、A.Kagan和L.A.Shepp,“关于最大相关系数的评论”,伯努利,第7卷,第2期,2001年,第343-350页·Zbl 0981.62051号
[76] A.Dembo和O.Zeitouni,《大偏差技术与应用》,第38卷,第2版,ser。随机建模和应用概率。纽约州纽约市:斯普林格,1998年·兹比尔0896.60013
[77] A.P.Dempster、N.M.Laird和D.B.Rubin,“通过EM算法从不完整数据获得最大似然”,J.Roy。Stat.Soc.,B,第39卷,第1期,1977年,第1-38页·Zbl 0364.62022号
[78] P.Diaconis和D.W.Strook,“马尔可夫链特征值的几何界”,《应用年鉴》。探针。,第1卷,第1期,1991年,第36-61页。参考文献·Zbl 0731.60061号
[79] M.Diaz、H.Wang、F.P.Calmon和L.Sankar,“关于信息的强大性——理论隐私措施和机制”,IEEE Trans。通知。《理论》,第66卷,第4期,2020年4月,第1949-1978页·Zbl 1448.94101号
[80] R.Dobrushin和B.Tsybakov,“附加噪声的信息传输”,IEEE Trans。通知。《理论》,第8卷,第5期,1962年9月,第293-304页·Zbl 0221.94030号
[81] E.Domanovitz和U.Erez,“关于非对称性和单调性约束在最大相关分析中的重要性”。国际交响乐团。通知。理论(ISIT),第3112-3116页,法国巴黎,2019年7月。
[82] R.O.Duda、P.E.Hart和D.G.Stork,《模式分类》,第二版,纽约:威利出版社,2000年。
[83] G.K.Dziugaite和D.M.Roy,“神经网络矩阵因子化”,CoRR,第abs/1511.06443卷,2015年。arXiv:1511.06443。网址:http://arxiv.org/abs/1511.06443。
[84] C.Eckart和G.Young,“一个矩阵与另一个低阶矩阵的近似”,《心理测量学》,第1卷,第3期,1936年9月,第211-218页。
[85] S.Feizi、A.Makhdoumi、K.Duffy、M.Kellis和M.Médard,“网络最大相关性”,IEEE Trans。Netw公司。科学。,《工程》,第4卷,第4期,2017年10月,第229-247页。
[86] S.Feizi和D.Tse,“最大相关主成分分析”,CoRR,第abs/1702.05471卷,2017年。arXiv:1702.05471。网址:https://arxiv.org/abs/1702.05471。
[87] M.Fiedler,“图的代数连通性”,捷克斯洛伐克数学。J.,第23卷,第981973年,第298-305页·Zbl 0265.05119号
[88] M.Fiedler,“非负对称矩阵特征向量的性质及其在图论中的应用”,捷克。数学。J.,第25卷,第100号,1975年,第619-633页·Zbl 0437.15004号
[89] P.Gács和J.Körner,“共同信息远小于相互信息”,Probl。合同。通知。《理论》,第2卷,第2期,1973年,第149-162页·Zbl 0317.94025号
[90] A.Ganesh、J.Wright、X.Li、E.Candès和Y.Ma,《通过主成分追踪对低秩矩阵进行密集误差校正》。国际交响乐团。通知。理论(ISIT),德克萨斯州奥斯汀,2010年6月。
[91] H.Gebelein,“Das statistische problem der korrelations als variations-und eigen wertproblem und sein zusammenhang mit der ausgleichsrechnung”,Z.Angewandte Math。,机械。,第21卷,第6期,1941年,第364-379页。
[92] A.Gersho和R.Gray,矢量量化和信号共表达。马萨诸塞州波士顿:Kluwer学术出版社,1991年。
[93] A.L.Gibbs和F.E.Su,“关于选择和限定概率指标”,《国际统计评论》,第70卷,第3期,2002年,第419-435页·Zbl 1217.62014年
[94] A.Gifi,非线性多元分析。英国奇切斯特:威利出版社,1990年·Zbl 0697.62048号
[95] D.V.Gokhale,“离散分布的迭代最大似然估计”,SankhyáB,第35卷,第3期,1973年9月,第293-298页。
[96] D.Goldberg、D.Nichols、B.M.Oki和D.Terry,“使用col-laborative过滤编织信息挂毯”,Commun。ACM,第35卷,第12期,1992年12月,第61-70页。
[97] G.H.Golub和C.F.V.Loan,《矩阵计算》,第四版,马里兰州巴尔的摩:约翰霍普金斯大学出版社,2012年。
[98] I.J.Good,“物种的种群频率和种群参数的估算”,《生物特征》,第40卷,第3-4期,1953年12月,第237-264页·Zbl 0051.37103号
[99] I.J.Good,“假设公式的最大熵,特别是多维列联表”,《数学年鉴》。《统计》,第34卷,第3期,1963年9月,第911-934页·Zbl 0143.40705号
[100] I.Goodfellow、J.Bengio和A.Courville,深度学习。马萨诸塞州坎布里奇:麻省理工学院出版社,2017年。
[101] V.Grari、S.Lamprier和M.Detyniecki,“Fairness-aware neural Rényi minimumination for continuous features”,摘自《Proc。国际联合协调条款。智力。(IJCAI-20),第2262-2268页,(虚拟),2021年1月。
[102] M.Greenacre,对应分析的理论与应用。英国伦敦:学术出版社,1984年。参考文献·Zbl 0555.62005号
[103] M.Greenacre,《实践中的对应分析》,第三版,纽约:查普曼和霍尔/CRC,2016年。
[104] M.Haber,“分类数据中线性和对数线性模型的最大似然方法”,Comp。统计、数据分析。,第3卷,1985年5月,第1-10页·Zbl 0586.62084号
[105] N.Halko、P.G.Martinsson和J.A.Tropp,“寻找随机结构:构建近似矩阵分解的概率算法”,SIAM Rev.,第53卷,第2期,2011年,第217-288页·Zbl 1269.65043号
[106] W.J.Hall,《关于联合分布中依赖性的表征》,《概率与统计学随笔》,R.C.Bose、I.M.Chakravarti、P.C.Mahalanobis、C.R.Rao和K.J.C.Smith,编辑,北卡罗来纳州教堂山:北卡罗来纳大学出版社,1970年,第339-376页·Zbl 0265.62013年
[107] T.S.Han和S.Verdú,“输出统计的近似理论”,IEEE Trans。通知。《理论》,第39卷,第3期,1993年5月,第752-772页·Zbl 0784.94016号
[108] E.J.Hannan,“典型相关的一般理论及其与函数分析的关系”,J.Aust。数学。Soc.,第2卷,第2号,1960年10月,第229-242页·Zbl 0107.35103号
[109] W.K.Härdle和L.Simar,“典型相关分析”,《应用多元统计分析》第4版,柏林,德国:施普林格出版社,2015年,第443-454页。
[110] D.R.Hardoon、S.Szedmak和J.Shawe-Taylor,“典型相关分析:学习方法应用概述”,神经计算。,第16卷,第12期,2004年12月,第2639-2664页·Zbl 1062.68134号
[111] K.He、X.Zhang、S.Ren和J.Sun,《图像识别的深度剩余学习》。Conf.Comp.公司。视觉、模式记录。(CVPR),第770-778页,2016年。
[112] H.O.Hirschfeld,“相关性和一致性之间的联系”,Proc。剑桥Phil.Soc.,第31卷,1935年,第520-524页。
[113] R.A.Horn和C.R.Johnson,矩阵分析专题。英国剑桥:剑桥大学出版社,1991年·Zbl 0729.15001号
[114] R.A.Horn和C.R.Johnson,《矩阵分析》,第二版,英国剑桥大学出版社,2012年。
[115] K.Hornik、M.Stinchcombe和H.White,“多层前馈网络是通用逼近器”,神经网络。,第2卷,第5期,1989年,第359-366页·Zbl 1383.92015年
[116] H.Hotelling,“将复杂的统计变量分析为主要成分”,《心理学杂志》,第24卷,1933年,第417-441页,第498-520页。
[117] H.Hotelling,“两组变量之间的关系”,Biometri-ka,第28卷,1936年,第321-377页·Zbl 0015.40705号
[118] H.Hsu、S.Asoodeh、S.Salamatian和F.P.Calmon,“普遍存在的瓶颈问题”,见。国际交响乐团。通知。理论(ISIT),第531-535页,科罗拉多州维尔,2018年6月。
[119] H.Hsu、S.Salamatian和F.P.Calmon,“使用神经网络的对应分析”,见Proc。国际Conf.Artif。智力。,统计(AISTATS),ser。程序。机器。学习。Res.(PMLR),第89卷,第2671-2680页,日本那霸,2019年4月。
[120] H.Hsu、S.Salamatian和F.P.Calmon,“机器学习应用的广义响应分析”,IEEE Trans。模式分析。机器智能。,第44卷,第12期,2022年12月,第9347-9362页。
[121] S.-L.Huang,“通过渠道沟通类型类:信息几何视图”,见Proc。通知。理论研讨会(ITW),印度孟买,2022年11月。
[122] S.-L.Huang、A.Makur、G.W.Wornell和L.Zheng,“高维度学习的信息论观点:统一特征、最大相关性、瓶颈和公共信息,”Proc。通知。理论应用。研讨会(ITA),加利福尼亚州圣地亚哥,2018年2月。
[123] S.-L.Huang、A.Makur、L.Zheng和G.W.Wornell,《高维推理中通用特征选择的信息理论方法》。国际交响乐团。通知。理论(ISIT),德国亚琛,2017年6月。工具书类
[124] S.-L.Huang、G.W.Wornell和L.Zheng,“高斯普遍特征、典型相关性和公共信息”,摘自Proc。通知。理论研讨会(ITW),中国广州,2018年11月。
[125] S.-L.Huang和X.X.Xu,“关于带噪ACE算法和多层剩余学习的鲁棒性”,见Proc。国际交响乐团。通知。理论(ISIT),法国巴黎,2019年7月。
[126] S.-L.Huang和X.Xu,“关于HGR最大相关函数的样本复杂性”,摘自Proc。通知。理论研讨会(ITW),瑞典维斯比,2019年8月。
[127] S.-L.Huang和X.Xu,“关于大型数据集HGR最大相关函数的样本复杂性”,IEEE Trans。通知。《理论》,第67卷,第3期,2021年3月,第1951-1980页·Zbl 1473.94026号
[128] S.-L.Huang、X.Xu和L.Zheng,“高维数据无监督特征选择的信息理论方法”,IEEE J.Select。区域通知。《理论》,第1卷,第1期,2020年5月,第157-166页。
[129] S.-L.Huang、X.Xu、L.Zheng和G.W.Wornell,《深度神经网络的信息论解释》。国际交响乐团。通知。理论(ISIT),法国巴黎,2019年7月。
[130] S.-L.Huang、X.Xu、L.Zheng和G.W.Wornell,《韦纳公共信息的局部特征》。国际交响乐团。通知。理论(ISIT),加利福尼亚州洛杉矶,2020年6月。
[131] S.-L.Huang、X.Xu、L.Zheng和G.W.Wornell,“深度神经网络的信息论解释”,《熵》,第24卷,第1期,2022年1月。
[132] 黄S.-L.和郑L.,《线性信息耦合问题》。国际交响乐团。通知。理论(ISIT),马萨诸塞州剑桥市,2012年7月。
[133] 黄绍勇,李明翰,萧国强,“核典型相关分析的非线性关联测度及其应用”,《统计规划》,第139卷,第7期,2009年7月,第2162-2174页·Zbl 1160.62059号
[134] C.Ireland和S.Kullback,“给定边距的列联表”,《生物统计学》,第55卷,1968年,第179-188页·Zbl 0155.26701号
[135] A.J.Izenman,“多元线性模型的降秩回归”,《多元分析杂志》。,第5卷,1975年,第248-264页·Zbl 0313.62042号
[136] W.James和C.Stein,“二次损失估算”,摘自Proc。伯克利交响乐团。数学。统计师。问题。,第361-379页,加州伯克利,1961年·Zbl 1281.62026号
[137] H.Jeffreys,《概率论》,第二版,英国牛津:克拉伦登出版社,1948年·Zbl 0030.16501号
[138] F.Jelinek和R.L.Mercer,《从稀疏数据插值估计马尔可夫源参数》。研讨会,Patt。认可。《实践》,第381-397页,荷兰阿姆斯特丹,1980年5月。
[139] W.E.Johnson,《概率:演绎和归纳问题》,Mind,第41卷,第164期,1932年10月,第409-423页·Zbl 0005.25401号
[140] I.T.Jolliffe,《主成分分析》,第二版,纽约:斯普林格出版社,2002年·Zbl 1011.62064号
[141] S.Kamath和V.Anantharam,“通过Gray-Wyner系统定义的Gács-Körner公共信息的新对偶”,见Proc。Allerton Conf.Commun.公司。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2010年9月。
[142] S.Kamath和V.Anantharam,“联合分布的非交互模拟:Hirschfeld-Gebelein-Rényi最大相关性和超压缩带”,摘自Proc。Allerton Conf.Commun.公司。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2012年9月。
[143] W.Kang和S.Ulukus,“一种新的数据处理不等式及其在分布式源和信道编码中的应用”,IEEE Trans。通知。《理论》,第57卷,第1期,2010年1月,第56-69页·Zbl 1366.94289号
[144] J.Karhunen、E.Oja、L.Wang、R.Vigário和J.Joutsensalo,“用于独立元件分析的一类神经网络”,IEEE Trans。神经网络。,第8卷,第3期,1997年5月,第486-504页。
[145] S.M.Katz,“语音识别器语言模型组件的稀疏数据概率估计”,IEEE Trans。灰尘。,《语音,信号处理》,第35卷,第3期,1984年3月,第400-401页。
[146] J.Kay,“使用神经网络的典型相关分析”,摘自Proc。交响乐团。公司。Stat.(COMPSTAT),第305-308页,瑞士诺伊查特尔,1992年8月。
[147] R.H.Keshavan、A.Montanari和S.Oh,“一些条目的矩阵完成”,IEEE Trans。通知。《理论》,第56卷,第6期,2010年6月,第2980-2998页·Zbl 1366.62111号
[148] W.F.Kibble,“Mehler关于Hermite多项式定理的推广”,Proc。剑桥Phil.Soc.,第41卷,第1期,1945年6月,第12-15页·Zbl 0060.19602号
[149] G.Kimeldorf和A.R.Sampson,“单音依赖”,《Ann.Stat.》,第6卷,第4期,1978年7月,第895-903页·Zbl 0378.62059号
[150] G.Kirchoff,“Uber die auflosung der gleichungen,auf welche man bei der untersuchung der linearen verteilung镀锌机strome gefuhrt wird”,《物理年鉴》。化学。,第72卷,第12期,1847年,第497-508页。
[151] A.Klami、S.Virtanen和S.Kaski,“贝叶斯典型相关分析”,J.Mach。学习。Res.,第14卷,第30期,2013年4月,第965-1003页·Zbl 1320.62134号
[152] R.Kneser和H.Ney,《M-gram语言建模的改进回退》。国际会计准则。语音、信号处理(ICASSP),第181-184页,密歇根州底特律,1995年5月。
[153] Y.Koren、R.Bell和C.Volinsky,“推荐系统的矩阵分解技术指标”,《计算机》,第42卷,第8期,2009年8月,第30-37页。
[154] M.A.Kramer,“使用自联想神经网络的非线性主成分分析”,美国化学研究所。Eng.(AIChE)J.,第37卷,第2期,1991年2月,第233-243页。
[155] G.R.Kumar和T.A.Courtade,“哪些布尔函数信息量最大?”。国际交响乐团。通知。理论(ISIT),土耳其伊斯坦布尔,2013年7月。
[156] M.Kumar、A.Gramfort和J.Nothman,《BIRCH scikit-learn.sklearn.cluster.BIRCH的Python代码中的机器学习》。网址:https://github.com/scikit-learn/scikit-learn/blob/a24c8b46/sklearn/cluster/birch.py。
[157] P.L.Lai和C.Fyfe,“核与非线性典型相关分析”,国际神经系统杂志。,第10卷,第5期,2000年,第365-377页。
[158] H.O.Lancaster,“χ2的调和,从韵律和计数方面考虑”,Sankhyá,第13卷,第1-2期,1953年12月,第1-10页·Zbl 0052.15201号
[159] H.O.Lancaster,“以列联表形式考虑的二元正态分布的一些性质”,《生物特征》,第44卷,第1-2期,1957年6月,第289-292页·Zbl 0082.35105号
[160] H.O.Lancaster,“二元分布的结构”,《数学年鉴》。《统计》,第29卷,1958年,第719-736页·Zbl 0086.35102号
[161] H.O.Lancaster,《齐方分布》。纽约州纽约市:Wiley,1969年·Zbl 0193.17802号
[162] H.O.Lancaster,“梅克斯纳类中的联合概率分布”,J.Roy。统计Soc.,Ser。B、 第37卷,第3期,1975年,第434-443页·Zbl 0315.62009号
[163] P.S.Laplace,《概率河畔的Essai Philosophique sur les ProbabilitéS》,第五版,法国巴黎:Courcier出版社,1814年。
[164] B.Le Roux和H.Rouanet,《几何数据分析:从对应分析到结构化数据》。多德雷赫特,《荷兰:Kluwer》,2004年·Zbl 1096.62062号
[165] L.Lebart、A.Morineau和K.Warwick,多元描述统计分析。英国奇切斯特:Wiley,1984年·Zbl 0658.62069号
[166] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner,“基于梯度的学习应用于文档识别”,Proc。IEEE,第86卷,第11期,1998年11月,第2278-2324页。
[167] Y.LeCun、C.Cortes和C.J.C.Burges,MNIST手写数字数据库。网址:http://yann.lecun.com/exdb/mnist。
[168] O.Ledoit和M.Wolf,“大维协方差矩阵的良好估计”,《多元分析杂志》。,2004年第88卷,第365-411页·Zbl 1032.62050
[169] J.K.-W.Lee、Y.Bu、P.Sattigeri、R.Panda、G.W.Wornell、L.Karlinsky和R.Feris,“公平机器学习的最大相关框架”,熵,第24卷,第4期,2022年3月。
[170] J.K.-W.Lee、Y.Bu、P.Sattigeri、R.Panda、G.W.Wornell、L.Karlinsky和R.Feris,《机器学习中施加公平性的最大相关框架》。国际会计准则。语音、信号处理(ICASSP),新加坡,2022年5月。工具书类
[171] J.K.-W.Lee、P.Sattieri和G.W.Wornell,“从老狗身上学习新技巧:从预先训练的网络中进行多源转移学习”,载于《高级神经信息》。过程。系统。(NeurIPS),加拿大温哥华,2019年12月。
[172] T.-W.Lee、M.Girolma、A.J.Bell和T.J.Sejnowski,“独立成分分析的统一信息理论框架”,计算。,数学。,申请。,第39卷,第11期,2000年6月,第1-21页·Zbl 1054.94004号
[173] O.Levy和Y.Goldberg,《神经信息进展》中的“神经词嵌入作为隐式矩阵分解”。过程。系统。(NIPS),第2177-2185页,加拿大蒙特利尔,2014年12月。
[174] A.S.Lewis,“酉不变矩阵函数的凸分析”,J.凸分析。,第2卷,第1/2期,1995年,第173-183页·Zbl 0860.15026号
[175] L.Li、Y.Li、S.-L.Huang和L.Zhang,《缺失标签的多标签学习的最大相关嵌入网络》。2019年7月,中国上海,国际会议多媒体博览会(ICME)。
[176] M.Li、Y.Li、S.-L.Huang和L.Zhang,“跨模式检索的语义超视觉最大相关性”。国际会议图像处理(ICIP),阿联酋阿布扎比,2020年10月。
[177] M.Li、X.Xu、S.-L.Huang和L.Zhang,“用于防御对抗性攻击的双特征分布正则化”,摘自《Proc。内部确认神经信息。过程。(ICONIP),印尼巴厘岛,2021年12月。
[178] J.Lian、Y.Li、W.Gu、S.-L.Huang和L.Zhang,《城市区域划分的联合流动模式挖掘》。国际Conf.Mobile Ubiquit。系统。(MobiQuitous),第362-371页,2018年11月。
[179] J.Lian、Y.Li、W.Gu、S.-L.Huang和L.Zhang,“为城市动态分析挖掘区域流动模式”,移动网络。申请。,第25卷,2019年4月,第459-473页。
[180] J.Lian、Y.Li、S.-L.Huang和L.Zhang,“利用基于出行的交通分析区域挖掘流动模式:深度特征嵌入方法”,摘自Proc。智力。运输。系统。会议(ITSC),新西兰奥克兰,2019年10月。
[181] Y.Liang、F.Ma、Y.Li和S.-L.Huang,“在多模态数据上具有HGR最大相关性的人识别”,载于Int.Conf.Patt。认可。(ICPR),意大利米兰,2021年1月。
[182] G.Licciardi、P.R.Marpu、J.Chanussot和J.A.Benediktsson,“基于扩展形态学轮廓的超光谱数据分类的线性与非线性主成分分析”,IEEE Geosci。,遥感快报。,第9卷,第3期,2012年5月,第447-451页。
[183] G.J.Lidstone,“归纳或后验概率贝叶斯-拉普拉斯公式的一般情况注释”,Trans。工厂。《精算师》,第8卷,1920年,第182-192页。
[184] A.Lubotzky、R.Phillips和P.Sarnak,“Ramanujan图”,《组合数学》,第8卷,1988年,第261-278页·兹比尔0661.05035
[185] F.Ma、S.-L.Huang和L.Zhang,“一种有效的视听情感识别方法,具有标签缺失和输入错误的模式”,见Proc。2021年7月,中国深圳,国际会议多媒体博览会(ICME)。
[186] F.Ma,Y.Li,S.Ni,S.-L.Huang和L.Zhang,“高效多模式条件GAN的视听情绪识别数据分析”,Appl。科学。,第12卷,第1期,2022年1月,第527页。
[187] F.Ma、W.Zhang、Y.Li、S.-L.Huangg和L.Zhang,“学习用共同信息更好地表示视听情感识别”,应用。科学。,第10卷,第20期,2020年10月,第7239页。
[188] F.Ma、W.Zhang、Y.Li、S.-L.Huang和L.Zhang,“多模态情感识别的端到端学习方法:提取公共和私有信息”,摘自Proc。2019年7月,中国上海,国际会议多媒体博览会(ICME)。
[189] A.Makhdoumi、F.P.Calmon和M.Médard,《程序》中的“忘记密码:相关性稀释”。国际交响乐团。通知。理论(ISIT),中国香港,2015年6月。
[190] A.Makhdoumi、S.Salamatian、N.Fawaz和M.Médard,“从信息瓶颈到隐私漏斗”,见Proc。形式理论研讨会(ITW),第501-505页,霍巴特,TAS,澳大利亚,2014年11月。工具书类
[191] A.Makur,“信息收缩与分解”,麻省理工学院博士论文,马萨诸塞州剑桥,2019年。
[192] A.Makur、F.Kozynski、S.-L.Huang和L.Zheng,《信息分解和提取的有效算法》。Allerton Conf.Commun.公司。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2015年9月。
[193] A.Makur、G.W.Wornell和L.Zheng,《关于模态分解的估计》。国际交响乐团。通知。理论(ISIT),加利福尼亚州洛杉矶,2020年6月。
[194] A.Makur和L.Zheng,“条件期望算子的多项式谱分解”。Allerton Conf.Commun.公司。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2016年9月。
[195] A.Makur和L.Zheng,“源信道模型族的多项式奇异值分解”,IEEE Trans。通知。《理论》,第63卷,第12期,2017年12月,第7716-7728页·Zbl 1390.94770号
[196] A.Makur和L.Zheng,“f-发散收缩系数的比较”,Probl。信息传输。,第56卷,2020年4月,第103-156页·Zbl 1457.94063号
[197] J.Mary、C.Calauzènes和N.E.Karoui,《公平软件学习持续属性和治疗》。Int.Conf.机器学习(ICML),ser。程序。机器。学习。研究(PMLR),第97卷,第4382-4391页,加利福尼亚州长滩,2019年6月。
[198] D.A.McAllester和R.E.Schapire,“关于Good Turing估计量的收敛速度”,Proc。Conf.计算。学习理论(COLT),第1-6页,加利福尼亚州帕洛阿尔托,2000年7月。
[199] L.R.Mead和N.Papanicolaou,“矩问题中的最大熵”,《数学杂志》。物理。,第25卷,1984年,第2404-2417页。
[200] F.G.Mehler,“Ueber die entwicklung einer function von beliebig vielen variabeln nach Laplaceschen functionen höherer ordnung”,J.Reine,Angewandte Math。,第66卷,1866年,第161-176页。
[201] P.Melville和V.Sindhwani,“推荐系统”,摘自《机器学习和数据挖掘百科全书》,C.Sammut和G.I.Webb,Eds.,马萨诸塞州波士顿:Springer,2017年,第1056-1066页。
[202] T.Melzer、M.Reiter和H.Bischof,《使用广义典型相关分析的非线性特征提取时间》。国际会议工件。神经网络。(ICANN),服务器。计算机科学讲义(LNCS),第2130卷,奥地利维也纳,2001年8月·Zbl 1005.68935号
[203] T.Michaeli、W.Wang和K.Livescu,《非参数经典相关分析》。Int.Conf.机器学习(ICML),ser。程序。机器。学习。研究(PMLR),第48卷,1967-1976页,纽约州纽约市,2016年6月。
[204] G.Michailidis和J.de Leeuw,“描述性多元分析的Gifi系统”,《统计科学》。,第13卷,第4期,1998年,第307-336页·Zbl 1059.62551号
[205] T.Mikolov、K.Chen、G.Corrado和J.Dean,“向量空间中单词表示的有效估计”,CoRR,第abs/1301.3781卷,2013年。arXiv:1301.3781。网址:http://arxiv.org/abs/ 1301.3781.
[206] D.J.Miller、A.Rao、K.Rose和A.Gersho,“神经网络分类的信息理论学习算法”,载于《高级神经信息》。过程。系统。(NIPS),第591-597页,科罗拉多州丹佛,1996年12月。
[207] M.Minsky和S.Papert,Perceptrons。马萨诸塞州剑桥:麻省理工学院出版社,1969年·Zbl 0197.43702号
[208] S.Negahban和M.J.Wainwright,“带噪声和高维标度的(近)低秩矩阵估计”,《Ann.Stat.》,第39卷,第2期,2011年4月,第1069-1097页·Zbl 1216.62090号
[209] H.Ney、U.Essen和R.Kneser,“关于随机语言建模中的概率依赖结构”,《计算》。,演讲,《语言》,第8卷,第1期,1994年1月,第1-38页。
[210] J.内曼(J.Neyman),“平滑”贴合度测试”,《Scand》。演员。J.,第20卷,第3-4期,1937年,第149-199页。
[211] J.Neyman,“对χ2检验理论的贡献”,摘自Proc。伯克利交响乐团。数学。统计概率。,第239-273页,加利福尼亚州伯克利,1949年·Zbl 0039.14302号
[212] S.Nishisato,多元非线性描述性分析。英国隆登:Chapman&Hall/CRC,2006年。工具书类
[213] E.Oja,“作为主成分分析仪的简化神经元模型”,J.Math。《生物学》,第15卷,第3期,1982年11月,第267-273页·兹比尔04889-2012
[214] E.Oja,“主成分、次要成分和线性神经网络”,神经网络。,第5卷,第6期,1992年11月,第927-935页。
[215] E.Oja,“独立成分分析中的非线性主成分分析学习规则”,神经计算,第17卷,第1期,1997年9月,第25-45页。
[216] A.Orlitsky和A.T.Suresh,《竞争性分销评估:为什么善待好》,摘自《先进神经信息》。过程。系统。(NeurIPS),加拿大蒙特利尔,2015年12月。
[217] A.Painsky,“有限字母的广义独立成分分析”,博士论文,以色列特拉维夫特拉维夫大学,2016年9月。
[218] A.Painsky、M.Feder和N.Tishby,“非线性典型相关分析:压缩表示方法”,《熵》,第22卷,第2期,2020年2月。
[219] A.Painsky、S.Rosset和M.Feder,“有限字母表上的广义独立分量分析”,IEEE Trans。通知。《理论》,第62卷,第2期,2016年2月,第1038-1053页·Zbl 1359.94151号
[220] L.Paninski,“KL损失下离散分布的变分极小极大估计”,《神经信息进展》。过程。系统。(NeurIPS),加拿大温哥华,2004年12月。
[221] E.Parzen,“关于概率密度函数和模式的估计”,《数学年鉴》。Stat.,第33卷,第3期,1962年9月,第1065-1076页·Zbl 0116.11302号
[222] K.Pearson,“进化数学理论的贡献”,Phil.Trans。罗伊。Soc.伦敦,A,第185卷,1894年,第71-110页。
[223] K.Pearson,“在相关变量系统的情况下,给定的偏离概率系统的标准是,可以合理地假设它是随机抽样产生的,”Philos。Mag.,系列5,第50卷,编号3021900,第157-175页。
[224] K.Pearson,“最接近空间点系的直线和平面”,Phil.Mag.,第2卷,第11期,1901年,第559-572页。
[225] 皮尔逊,《偶然性理论及其与关联和正态相关的关系》,第页。德雷珀斯公司重新研究回忆录,生物计量系列,I.进化论的数学贡献。英国伦敦:Dulau and Co.,1904年。
[226] Y.Polyanskiy和Y.Wu,“信道和贝叶斯网络的强数据处理不等式”,载于《凸性与集中》,E.Carlen,M.Madiman和E.M.Werner,Eds.,ser。IMA数学及其应用卷,第161卷,第211-249页,纽约:施普林格出版社,2017年·Zbl 1419.60021号
[227] D.Qiu、A.Makur和L.Zheng,“使用最大矩阵范数耦合的概率聚类”,Proc。Allerton Conf.Commun.公司。,控制。,计算机,伊利诺伊州蒙蒂塞洛,2018年10月。
[228] M.Raginsky,“离散信道的强数据处理不等式和Φ-Sobolev不等式”,IEEE Trans。通知。《理论》,第62卷,第6期,2016年6月,第3355-3389页·兹比尔1359.94353
[229] 拉奥,线性统计推断及其应用。纽约州纽约市:威利,1965年·Zbl 0137.36203号
[230] B.Recht、M.Fazel和P.A.Parillo,“通过核范数最小化保证线性矩阵方程的最小秩解”,SIAM Rev.,第52卷,第3期,2010年,第471-501页·Zbl 1198.90321号
[231] A.Rényi,“大筛子概率泛化的新版本”,《匈牙利科学院数学学报》,第10卷,第1-2期,1959年3月,第217-226页·Zbl 0154.04804号
[232] A.Rényi,“依赖性度量”,《数学学报》。阿卡德。科学。挂。,第10卷,第3-4期,1959年9月,第441-451页·Zbl 0091.14403号
[233] A.Rohde和A.B.Tsybakov,“高维低秩矩阵的估计”,《Ann.Stat.》,第39卷,第2期,2011年4月,第887-930页·Zbl 1215.62056号
[234] M.Rosenblatt,“关于密度函数的一些非参数估计的评论”,《数学年鉴》。《统计》,第27卷,第3期,1956年9月,第832-837页·Zbl 0073.14602号
[235] W.Rudin,《数学分析原理》,第3期。纽约州纽约市:McGraw-Hill,1976年。参考文献·Zbl 0346.26002号
[236] S.Watanabe,“多元相关性的信息理论分析”,IBM J.Res.Develop。,第4卷,第1期,1960年1月,第66-82页·Zbl 0097.35003号
[237] Y.Saad,《大型特征值问题的数值方法》,第二版,费城,宾夕法尼亚州:SIAM,2011年·兹比尔1242.65068
[238] O.V.Sarmanov,“最大相关系数(非对称情况)”,Dockl。阿卡德。Nauk SSSR,第121卷,第4期,1958年,第52-55页·Zbl 0089.36103号
[239] O.V.Sarmanov,“最大相关系数(对称情况)”,Dockl。阿卡德。Nauk SSSR,第120卷,第4期,1958年,第715-718页·Zbl 0089.36102号
[240] O.V.Sarmanov和V.K.Zaharov,“多重相关的最大系数”,Dokl。阿卡德。Nauk SSSR,第121卷,1960年,第269-271页。
[241] S.Sapathy和P.Cuff,“高斯安全源编码和Wyner的公共信息”,见Proc。国际交响乐团。通知。理论(ISIT),中国香港,2015年6月。
[242] P.Sattigeri、S.Ghosh和S.C.Hoffman,《不变量学习的奇方信息》。ICML研讨会未经认证。,坚固耐用。深度学习。(ICML-UDL,(虚拟),2020年7月。
[243] L.K.Saul、K.Q.Weinberger、F.Sha、J.Ham和D.D.Lee,《半监督学习中的降维谱方法》,O.Chapelle、B.Schölkopf和A.Zien,Eds.,马萨诸塞州剑桥:麻省理工学院出版社,2006年,第16章,第293-308页。
[244] E.Schmidt,“Zur theorie der linearen und nichtlinearen integration-gleichungen.I.Teil:Entwicklung willkürlicher funktitonen nach systemen vorgeschriebener”,《数学》。《年鉴》,第63卷,1907年,第433-476页。
[245] B.Schölkopf、A.Smola和K.-R.Müller,《核主成分分析》。国际Conf.Artif。神经网络。(ICANN),服务器。计算机科学讲义(LNCS),第1327卷,第583-588页,瑞士洛桑,1997年6月。
[246] B.Schölkopf、A.Smola和K.-R.Müller,“非线性成分分析作为核心特征值问题”,神经计算。,第10卷,第5期,1998年,第1299-1319页。
[247] H.Scudder,“一些自适应模式识别机器的错误概率”,IEEE Trans。通知。《理论》,第11卷,第3期,1965年7月,第363-371页·Zbl 0133.12704号
[248] A.Shah、Y.Bu、J.K.-W.Lee、S.Das、R.Panda、P.Sattieri和G.W.Wornell,《公平标准下的选择性回归》。Int.Conf.机器学习(ICML),ser。程序。机器。学习。研究(PMLR),第162卷,第19 598-19 615页,马里兰州巴尔的摩,2022年7月。
[249] J.Shi和J.Malik,“标准化切割和图像分割”,IEEE Trans。模式分析。机器集成。,第22卷,第8期,2000年8月,第888-905页。
[250] R.Shwartz Ziv和N.Tishby,“通过信息打开深度神经网络的黑匣子”,CoRR,vol.abs/1703.008102017。arXiv:1703.00810。网址:http://arxiv.org/abs/1703.00810。
[251] B.W.Silverman,统计和数据分析密度估计。英国伦敦:查普曼和霍尔/CRC,1986年·Zbl 0617.62042号
[252] D.Slepian,“关于矩阵的对称Kronecker幂和Mehler公式对Hermite多项式的扩展”,SIAM J.Math。分析。,第3卷,第4期,1972年,第606-616页·Zbl 0222.33016号
[253] N.Slonim和N.Tishby,“通过信息瓶颈方法使用词簇进行文档聚类”,见Proc。国际Conf.Res.,Dev.Inform。检索(ACM SIGIR),ACM,第208-215页,希腊雅典,2000年7月。
[254] C.斯皮尔曼(C.Spearman),“一般智力”(General intelligence),客观地确定和衡量,“Amer。心理学杂志。,第15卷,第2期,1904年4月,第201-292页。
[255] N.Srebro,“矩阵分解学习”,麻省理工学院博士论文,马萨诸塞州剑桥,2004年8月。
[256] G.W.Stewart,“关于奇异值分解的早期历史”,SIAM Rev.,第35卷,第4期,1993年12月,第551-566页·Zbl 0799.01016号
[257] G.W.Stewart,《奇异值分解的扰动理论》,SVD和信号处理,II:算法、分析和应用,R.J.Vaccaro,Ed.,Elsevier,pp.99-1091991。工具书类
[258] N.Tishby、F.C.Pereira和W.Bialek,“信息瓶颈方法”,Proc。阿勒顿会议通讯社。,控制。,《计算》,1999年10月,第368-377页。
[259] N.Tishby和N.Slonim,“基于马尔可夫重线性化和信息瓶颈方法的数据聚类”,载于《高级神经信息》。过程。系统。(NIPS),第619-625页,科罗拉多州丹佛,2000年12月。
[260] N.Tishby和N.Zaslavsky,“深度学习和信息瓶颈原理”,发表在Proc。通知。理论研讨会(ITW),以色列耶路撒冷,2015年4月。
[261] X.Tong、J.Xu和S.-L.Huang,“有限通信的协作分布式学习的信息论方法”,CoRR,vol.abs/2205.06515022。arXiv:2205。06515.网址:https://arxiv.org/abs/2205.06515。
[262] X.Tong、X.Xu和S.-L.Huang,“关于学习共享表征的样本复杂性:渐近状态”,见Proc。Allerton Conf.Commun.公司。,控制。,计算,伊利诺伊州蒙蒂塞洛,2022年9月。
[263] X.Tong、X.Xu、S.-L.Huang和L.Zheng,“多源迁移学习中量化可迁移性的数学框架”,《高级神经信息》。过程。系统。(NeurIPS),(虚拟),2021年12月。
[264] L.N.Trefethen和I.D.Bau,《数值线性代数》。Phila-delphia,宾夕法尼亚州:SIAM,1997年·Zbl 0874.65013号
[265] J.A.Tropp,“随机矩阵和的用户友好尾部界限”,发现。公司。数学。,第12卷,第4期,2012年8月,第389-434页·Zbl 1259.60008号
[266] V.Uurtio、S.Bhadra和J.Rousu,《大尺度稀疏核典型相关分析》。Conf.计算。学习理论(COLT),第6383-6391页,加利福尼亚州长滩,2019年6月。
[267] N.Vaswani、T.Bouwman、S.Javed和P.Narayanamurthy,“稳健子空间学习:稳健PCA、稳健子空间跟踪和稳健子空间恢复”,IEEE信号处理杂志,第35卷,第4期,2018年7月,第32-55页。
[268] J.M.Vegas和P.J.Zufiria,“谱分析的广义神经网络:动力学和Liapunov函数”,神经网络。,第17卷,第2期,2004年3月,第233-245页·Zbl 1121.68398号
[269] C.Wang,“典型相关分析的变分贝叶斯方法”,IEEE Trans。神经网络。,第18卷,第3期,2007年5月,第905-910页。
[270] D.Wang和M.Murphy,“使用ACE算法估计多元回归的最佳转换”,《数据科学杂志》,第2卷,2004年,第329-346页。
[271] H.Wang、L.Vo、F.P.Calmon、M.Médard、K.R.Duffy和M.Varia,“具有估计保证的隐私”,IEEE Trans。通知。《理论》,第65卷,第12期,2019年12月,第8025-8042页·Zbl 1433.94109号
[272] H.Wang、L.Vo、F.P.Calmon、M.Médard、K.R.Duffy和M.Varia,“估算保证的隐私”,IEEE Trans。通知。《理论》,第65卷,第12期,2019年12月,第8025-8042页·Zbl 1433.94109号
[273] L.Wang、J.Wu、S.-L.Huang、L.Zheng、X.Xu、L.Zhang和J.Huang,《从多模态数据中提取信息特征的有效方法》。AAAI Conf.Artif.公司。智力。(AAAI),第33卷,第5281-5288页,夏威夷州檀香山,2019年1月。
[274] W.Wang、R.Arora、K.Livescu和J.Bilmes,《深度多视角表征学习》。Int.Conf.Machine Learn-ing(ICML),服务器。程序。机器。学习。研究(PMLR),第37卷,第1083-1092页,法国里尔,2015年7月。
[275] R.W.M.Wedderburn,“根据约束规定的广义线性模型”,J.Roy。统计Soc.,Ser。B、 第36卷,第3期,1974年,第449-454页·Zbl 0291.62079号
[276] P.Whittle,“关于概率密度函数的平滑”,J.Roy。统计Soc.,Ser。B、 第20卷,第2期,1958年7月,第334-343页·Zbl 0088.12603号
[277] H.S.Witsenhausen,“关于依赖随机变量对的序列”,SIAM J.Appl。数学。,第28卷,第1期,1975年1月,第100-113页·Zbl 0268.60035号
[278] J.Wolf和J.Ziv,“将噪声信息传输到失真最小的噪声接收器”,IEEE Trans。通知。《理论》,第16卷,第4期,1970年7月,第406-411页。参考文献·Zbl 0205.47003号
[279] A.D.Wyner,“两个相依随机变量的共同信息”,IEEE Trans。通知。《理论》,第21卷,第2期,1975年3月,第163-179页·Zbl 0299.94014号
[280] X.Xu和S.-L.Huang,“半监督学习中HGR最大相关函数的渐近样本复性”。Allerton Conf.Commun.公司。,控制。,计算,伊利诺伊州蒙蒂塞洛,2019年9月。
[281] X.Xu和S.-L.Huang,“最大相关回归”,IEEE Access,第8卷,2020年,第26 591-26 601页。
[282] X.Xu和S.-L.Huang,“关于Oja算法的变换效率和泛化性之间的最佳权衡”,IEEE Access,第8卷,2020年,第102 616-102 628页。
[283] X.Xu和S.-L.Huang,“分布式学习算法的信息理论框架”。国际交响乐团。通知。理论(ISIT),澳大利亚墨尔本,2021年7月。
[284] X.Xu、W.Wang和S.-L.Huang,“关于估计小奇异模的样本复杂性”。国际交响乐团。通知。理论(ISIT),加利福尼亚州洛杉矶,2020年6月。
[285] X.Xu和L.Zheng,《多元特征提取》。Allerton Conf.Commun.公司。,控制。,计算,伊利诺伊州蒙蒂塞洛,2022年9月。
[286] S.Yin、F.Ma和S.-L.Huang,《基于最大相关度的视觉问答半监督学习方法》。国际协调系统。,天啊,赛博。(SMC),澳大利亚墨尔本,2021年10月。
[287] G.Young,“最大似然估计和因子分析”,《心理测量学》,第6卷,第1期,1940年2月,第49-53页。
[288] J.Yu、K.Wang、L.Ye和Z.Song,“非线性过程故障隔离的故障相关性加速核典型相关分析”,国际工程化学。研究,第58卷,第39号,2019年10月,第18 280-18 291页。
[289] T.Zhang、R.Ramakrishnan和M.Livny,“BIRCH:超大数据库的有效数据聚类方法”,见Proc。ACM Conf.Management Data(SIGMOD),第103-114页,加拿大蒙特利尔,1996年6月。
[290] W.Zhang,W.Gu,F.Ma,S.Ni,L.Zhang和S.-L.Huang,“通过提取常见和模态特定信息进行多模态情绪识别”,Proc。Conf.嵌入。Netw公司。传感器系统。(SENSYS),第396-397页,中国深圳,2018年11月。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。