×

从完整和不完整数据中分配相互信息。 (英语) Zbl 1429.62054号

摘要:互信息以描述性的方式广泛用于测量分类随机变量的随机相关性。为了解决描述值的可靠性等问题,必须考虑样本对群体推理方法。本文研究了在贝叶斯框架下由二阶Dirichlet先验分布获得的互信息的后验分布。导出了平均值的精确解析表达式,以及方差、偏度和峰度的解析近似。这些近似值具有保证的精度等级\(O(n^{-3})\),其中\(n\)是样本量。在不完全样本的情况下,导出了均值和方差的前导阶近似。推导出的解析表达式可以快速可靠地近似相互信息的分布。事实上,派生表达式的计算复杂度与描述性互信息所需的计算复杂程度相同。这使得互信息的分布在许多应用中成为描述性互信息的具体替代方案,这些应用将受益于转向归纳侧。讨论了其中一些潜在的应用,其中之一,即特征选择,在使用归纳互信息时表现得更好。

MSC公司:

62D10号 缺少数据
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramowitz,M.,Stegun,I.A.(编辑),1974年。数学函数手册。多佛出版公司,纽约。;Abramowitz,M.,Stegun,I.A.(编辑),1974年。数学函数手册。多佛出版公司,纽约·Zbl 0171.38503号
[2] Androutsopoulos,I.,Koutsias,J.,Chandrinos,K.V.,Paliouras,G.,Spyropoulos,D.,2000年。朴素贝叶斯反垃圾邮件过滤的评估。收录于:Potamias,G.,Moustakis,V.,Someren,M.V.(编辑),《新信息时代机器学习研讨会论文集》,第9-17页,第11届欧洲机器学习会议。;Androutsopoulos,I.,Koutsias,J.,Chandrinos,K.V.,Paliouras,G.,Spyropoulos,D.,2000年。朴素贝叶斯反垃圾邮件过滤的评估。收录于:Potamias,G.,Moustakis,V.,Someren,M.V.(编辑),《新信息时代机器学习研讨会论文集》,第9-17页,第11届欧洲机器学习会议。
[3] Blum,A.L。;Langley,P.,《机器学习中相关特征和示例的选择》,Artif。Intell,97,1-2,245-271(1997),(相关性特刊)·Zbl 0904.68142号
[4] Buntine,W.,《从数据中学习概率网络的文献指南》,IEEE Trans。知识数据工程,8195-210(1996)
[5] Chen,T.T。;Fienberg,S.E.,《完全和部分交叉分类数据的二维列联表》,《生物统计学》,32,133-144(1974)·兹伯利0328.62039
[6] Cheng,J.、Hatzis,C.、Hayashi,H.、Krogel,M.、Morishita,S.、Page,D.、Sese,J.,2001年。KDD cup 2001报告。ACM SIGKDD探索3(2)。;Cheng,J.、Hatzis,C.、Hayashi,H.、Krogel,M.、Morishita,S.、Page,D.、Sese,J.,2001年。KDD cup 2001报告。ACM SIGKDD探索3(2)。
[7] Chow,C.K。;Liu,C.N.,用依赖树逼近离散概率分布,IEEE Trans。通知。理论,IT-14,3462-467(1968)·Zbl 0165.22305号
[8] Dash,M。;Liu,H.,分类特征选择,Intell。数据分析,131-156(1997)
[9] 共和国杜达。;Hart,P.E.,《模式分类和场景分析》(1973),威利:威利纽约·Zbl 0277.68056号
[10] 共和国杜达。;哈特,体育。;Stork,D.G.,《模式分类》(2001),威利出版社:威利纽约·Zbl 0968.68140号
[11] 多明戈斯,P。;Pazzani,M.,关于零损失下简单贝叶斯分类器的最优性,机器学习,29,2/3,103-130(1997)·Zbl 0892.68076号
[12] 法耶兹,U.M.,伊朗,K.B.,1993年。用于分类学习的连续值属性的多间隔离散化。摘自:第13届国际人工智能联合会议记录。Morgan Kaufmann,加利福尼亚州旧金山,第1022-1027页。;法耶兹,U.M.,伊朗,K.B.,1993年。用于分类学习的连续值属性的多间隔离散化。摘自:第13届国际人工智能联合会议记录。Morgan Kaufmann,加利福尼亚州旧金山,第1022-1027页。
[13] Gelman,A。;Carlin,J.B。;斯特恩,H.S。;鲁宾,D.B.,查普曼&霍尔/CRC。贝叶斯数据分析(1995),查普曼
[14] Hutter,M.,2002年。相互信息的分发。摘自:Dietterich,T.G.,Becker,S.,Ghahramani,Z.(编辑),《神经信息处理系统进展》,第14卷。麻省理工学院出版社,马萨诸塞州剑桥,第399-406页。统一资源定位地址http://arxiv.org/abs/cs.AI/0112019; Hutter,M.,2002年。相互信息的分发。收录:Dietterich,T.G.,Becker,S.,Ghahramani,Z.(编辑),《神经信息处理系统进展》,第14卷。麻省理工学院出版社,马萨诸塞州剑桥,第399-406页。统一资源定位地址http://arxiv.org/abs/cs.AI/0112019
[15] Hutter,M.、Zaffalon,M.,2003年。不完全离散数据的贝叶斯处理应用于互信息和特征选择。收录于:Günter,R.K.A.,Neumann,B.(编辑),《第26届德国人工智能会议论文集》(KI-2003),计算机科学讲稿第2821卷。斯普林格,海德堡,第396-406页。统一资源定位地址http://arxiv.org/abs/cs.LG/0306126; Hutter,M.、Zaffalon,M.,2003年。不完全离散数据的贝叶斯处理应用于互信息和特征选择。收录于:Günter,R.K.A.,Neumann,B.(编辑),《第26届德国人工智能会议论文集》(KI-2003),计算机科学讲稿第2821卷。施普林格,海德堡,第396-406页。统一资源定位地址http://arxiv.org/abs/cs.LG/0306126 ·Zbl 1274.68318号
[16] Heckerman,D.,《贝叶斯网络学习教程》(Jordan,M.I.,learning in Graphical Models(1998),麻省理工学院出版社:马萨诸塞州剑桥麻省理工学院出版社),301-354·Zbl 0921.62029号
[17] 约翰,G.H。;Kohavi,R。;Pfleger,K.,《无关特征和子集选择问题》(Cohen,W.W.;Hirsh,H.,《第十一届机器学习国际会议论文集》(1994),Morgan Kaufmann:Morgan Koufmann New York),121-129
[18] Kendall,M.G。;Stuart,A.,《高级统计学理论》(1967),格里芬:格里芬伦敦
[19] Kleiter,G.D.,《强相关性贝叶斯网的后验概率》,《软计算》,第3162-173页(1999年)
[20] Kohavi,R.、John,G.、Long,R.和Manley,D.、Pfleger,K.,1994年。MLC++:C++中的机器学习库。In:人工智能工具。IEEE Computer Society Press,Silver Spring,MD,第740-743页。;Kohavi,R.、John,G.、Long,R.和Manley,D.、Pfleger,K.,1994年。MLC++:C++中的机器学习库。In:人工智能工具。IEEE计算机学会出版社,马里兰州银泉,第740-743页。
[21] Koller,D.,Sahami,M.,1996年。朝向最佳特征选择。摘自:《第十三届机器学习国际会议论文集》,第284-292页。;Koller,D.,Sahami,M.,1996年。朝向最佳特征选择。摘自:《第十三届机器学习国际会议论文集》,第284-292页。
[22] Kullback,S.,《信息理论与统计学》(1968),多佛:多佛,纽约·Zbl 0149.37901号
[23] Lewis,D.D.,1992年。用于文本分类的特征选择和特征提取。摘自:演讲与自然语言研讨会论文集。Morgan Kaufmann,旧金山,第212-217页。;Lewis,D.D.,1992年。用于文本分类的特征选择和特征提取。摘自:演讲与自然语言研讨会论文集。Morgan Kaufmann,旧金山,第212-217页。
[24] Little,R.J.A。;鲁宾,D.B.,《缺失数据的统计分析》(1987年),威利出版社:威利纽约·Zbl 0665.62004号
[25] 刘,H。;Motoda,H.,《知识发现和数据挖掘的特征选择》(1998),Kluwer:Kluwer-Norwell,MA·兹比尔0908.68127
[26] Murphy,P.M.,Aha,D.W.,1995年。机器学习数据库的UCI存储库。统一资源定位地址http://www.sgi.com/Technology/mlc/db/; Murphy,P.M.,Aha,D.W.,1995年。机器学习数据库的UCI存储库。统一资源定位地址http://www.sgi.com/Technology/mlc/db/
[27] Neapolitan,R.E.,《学习贝叶斯网络》(Learning Bayesian Networks)(2004年),皮尔森·普伦蒂斯·霍尔(Pearson Prentice Hall):新泽西州皮尔森·普伦蒂斯·豪尔(Pearson-Prentice Hall Upper Saddle River)
[28] Pearl,J.,《智能系统中的概率推理:合理推理网络》(1988),摩根考夫曼:摩根考夫曼·圣马特奥
[29] Pelleg,D.,Moore,A.,2003年。使用Tarjan的红色规则快速构建依赖关系树。摘自:Becker,S.、Thrun,S.和Obermayer,K.(编辑),《神经信息处理系统进展》,第15卷。麻省理工学院出版社,马萨诸塞州剑桥,第825-832页。;Pelleg,D.,Moore,A.,2003年。使用Tarjan的红色规则快速构建依赖关系树。摘自:Becker,S.、Thrun,S.和Obermayer,K.(编辑),《神经信息处理系统进展》,第15卷。麻省理工学院出版社,马萨诸塞州剑桥,第825-832页。
[30] Press,W.H.,Flannery,B.P.,Teukolsky,S.A.,Vetterling,W.T.,1992年。数字配方。科学计算的艺术。第2版。剑桥大学出版社。;Press,W.H.,Flannery,B.P.,Teukolsky,S.A.,Vetterling,W.T.,1992年。数字食谱。科学计算的艺术。第2版。剑桥大学出版社,剑桥·Zbl 0845.65001号
[31] 昆兰,J.R.,C4.5:机器学习课程(1993),摩根考夫曼:摩根考夫曼·圣马特奥
[32] Witten,I.H。;Frank,E.,《数据挖掘:Java实现的实用机器学习工具和技术》(1999),Morgan Kaufmann:Morgan Koufmann Los Altos,CA
[33] Wolpert,D.H。;Wolf,D.R.,从有限样本集估计概率分布函数,Phys。E版,52、6、6841-6854(1995)
[34] 扎法隆,M。;Hutter,M.,通过相互信息分布进行稳健特征选择,(Darwiche,A.;Friedman,N.,《第18届人工智能不确定性国际会议论文集》(UAI-2002)(2002),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),577-584,URLhttp://arxiv.org/abs/cs.AI/0206006
[35] Zaffalon,M.、Hutter,M.,2003年。树的鲁棒推理。技术报告IDSIA-11-03,IDSIA。;Zaffalon,M.、Hutter,M.,2003年。树的稳健推理。技术报告IDSIA-11-03,IDSIA·Zbl 1177.68217号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。