×

Infomax战略实现勘探与开发之间的最佳平衡。 (英语) Zbl 1414.91116号

小结:在开发和探索之间取得适当的平衡,才能做出好的决策,从而获得高回报,比如回报或进化适应性。Infomax原理假设,信息的最大化指导着从生命系统到人工神经网络的各种系统的功能。虽然具体的应用结果是成功的,但信息作为奖励代理的有效性仍不清楚。在这里,我们考虑多武器盗贼决策问题,其特点是武器(插槽机器)的成功概率未知,玩家试图通过选择武器序列来最大化累积收益。我们表明,Infomax策略(Info-p)可以最佳地收集武器中成功概率最高的信息,使已知的最优边界饱和,并与现有策略进行比较。相反,收集有关强盗最佳武器身份的信息会导致一种在回报方面极不理想的策略。Infomax收购所选数量的性质对于勘探和开采之间的有效权衡至关重要。

MSC公司:

91B06型 决策理论
60层10 大偏差
90B50型 管理决策,包括多个目标
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Atick,J.J.,Redlich,A.N.:视网膜对自然场景了解多少?神经计算。4, 196-210 (1992) ·doi:10.1162/neco.1992.4.2.196
[2] Auer,P.,Cesa-Bianchi,N.,Fischer,P.:多武器强盗问题的有限时间分析。机器。学习。J.47,235-256(2002)·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[3] Barlow,H.B.:感官信息转换的可能原理。麻省理工学院出版社,剑桥(1961)
[4] Barron,A.,Cover,T.M.:信息财务价值的约束。IEEE传输。Inf.理论34,1097-1100(1988)·Zbl 0662.90023号 ·doi:10.1109/18.21241
[5] Bell,A.J.,Sejnowski,T.J.:盲分离和盲反褶积的信息最大化方法。神经计算。7, 1129-1159 (1995) ·doi:10.1162/neco.1995.7.6.1129
[6] Bergstrom,C.T.,Lachmann,M.:香农信息与生物健身。摘自:IEEE信息理论研讨会论文集。IEEE,柏林(2004)
[7] Berry,D.A.,Fristedt,B.:Bandit问题:实验的顺序分配。施普林格,多德雷赫特(2001)·Zbl 0659.62086号
[8] Bialek,W.:《生物物理学:寻找原理》。普林斯顿大学出版社,普林斯顿(2012)
[9] Burnetas,A.,Katehakis,M.:马尔可夫决策过程的最优自适应策略。数学。操作。第22号决议、第222-255号决议(1997年)·Zbl 0871.90103号 ·doi:10.1287/门22.1.222
[10] Cappé,O.、Garivier,A.、Maillard,O.,Munos,R.、Stoltz,G.:最优顺序分配的Kullback-leibler置信上限。Ann.Stat.41(3),1516-1541(2013)·兹比尔1293.62161 ·doi:10.1214/13-AOS1119
[11] Chang,F.,Lai,T.L.:最优停止和动态分配。高级申请。普罗巴伯。19(4),829-853(1987)·Zbl 0638.60062号 ·doi:10.2307/1427104
[12] Cheong,R.,Rhee,A.,Wang,C.J.,Nemenman,I.,Levchenko,A.:噪声生物化学信号网络的信息转导能力。《科学》334,354-358(2011)·doi:10.1126/science.1204553
[13] Cover,T.M.,Thomas,J.A.:《信息理论要素》,第二版。威利,纽约(2006)·Zbl 1140.94001号
[14] Dayan,P.,Abbott,L.F.:理论神经科学:神经系统的计算和数学建模。麻省理工学院出版社,剑桥(2001)·Zbl 1051.92010年
[15] Donaldson-Matasci,M.C.,Bergstrom,C.T.,Lachmann,M.:信息的适应值。Oikos 119、219-230(2010)·doi:10.1111/j.1600-0706.2009.17781.x
[16] François,P.,Siggia,E.D.:利用互熵适应度和硅进化预测胚胎模式。发展137,2385-2395(2010)·doi:10.1242/dev.048033
[17] Gallager,R.G.:《信息理论与可靠通信》。纽约威利(1968)·Zbl 0198.52201号
[18] Gillespie,D.T.:耦合化学反应的精确随机模拟。《物理学杂志》。化学。81(25), 2340-2361 (1977) ·doi:10.1021/j100540a008
[19] Gittins,J.、Glazebrook,K.、Weber,R.:《多武器匪徒配置指数》,第2版。威利,纽约(2011)·Zbl 1401.90257号 ·数字对象标识代码:10.1002/9780470980033
[20] Gittins,J.C.:班迪特过程和动态分配指数。J.R.Stat.Soc.B 6,148-177(1995)·Zbl 0411.62055号
[21] Honda,J.,Takemura,A.:有界支持模型的渐近最优土匪算法。摘自:学习理论年度会议记录(COLT)(2010年)·Zbl 1237.91037号
[22] 霍华德,R.A.:信息价值理论。IEEE传输。系统。科学。赛博。2, 22-26 (1966) ·doi:10.1109/TSSC.1966.300074
[23] Kaufmann,E.,Korda,N.,Munos,R.:汤普森抽样:渐近最优有限时间分析。计算机科学课堂讲稿,第199-213页。施普林格,柏林/海德堡(2012)·Zbl 1386.91055号
[24] Kelly,J.L.:信息率的一种新解释。贝尔系统。《技术期刊》35,917-926(1956)·doi:10.1002/j.1538-7305.1956.tb03809.x
[25] Kussell,E.,Leibler,S.:表型多样性、种群增长和波动环境中的信息。科学3092075-2078(2005)·doi:10.1126/科学.1114383
[26] Lai,T.L.:自适应治疗分配和多武器强盗问题。Ann.Stat.15(3),1091-1114(1987)·Zbl 0643.62054号 ·doi:10.1214/aos/1176350495
[27] Lai,T.L.,Robbins,H.:渐近有效的自适应分配规则。高级申请。数学。6, 4-22 (1985) ·Zbl 0568.62074号 ·doi:10.1016/0196-8858(85)90002-8
[28] Laughlin,S.B.:视网膜中感觉适应的作用。实验生物学杂志。146, 39-62 (1989)
[29] Linsker,R.:感知网络中的自组织。IEEE计算。21(3), 105-117 (1988) ·数字对象标识代码:10.1109/2.36
[30] 麦凯,D.J.C.:《信息理论》。推理和学习算法。剑桥大学出版社,剑桥(2003)·Zbl 1055.94001号
[31] Margolin,A.A.、Nemenman,I.、Basso,K.、Wiggins,C.、Stolovitzky,G.、Favera,R.D.:Aracne:哺乳动物细胞环境中基因调控网络重建的算法。BMC生物信息。7(1),S7(2006)·doi:10.1186/1471-2105-7-S1-S7
[32] Mézard,M.,Montanari,A.:信息。物理与计算。牛津大学出版社,牛津(2009)·兹比尔1163.94001 ·doi:10.1093/acprof:oso/9780198570837.001.0001
[33] 尼曼,I.:《信息理论与适应》。CRC出版社,查普曼和霍尔/CRC数学和计算生物学,博卡拉顿(2012)
[34] Press,W.H.,Teukolsky,S.A.,Vettering,W.T.,Flannery,B.P.:科学计算艺术C中的数字配方,第2版。剑桥大学出版社,剑桥(1992)·Zbl 0845.65001号
[35] Rieke,F.、Warland,D.、Stevennick,R.、Bialek,W.:峰值:探索神经代码。Bradford Book,剑桥(1999)·Zbl 0912.92004号
[36] Rivoire,O.,Leibler,S.:信息对不同环境中人群的价值。《统计物理学杂志》。142, 1124-1166 (2011) ·Zbl 1216.92052号 ·doi:10.1007/s10955-011-0166-2
[37] 香农,C.E.:传播的数学理论。贝尔系统。《技术期刊》27,379-423(1948)·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[38] Sharpee,T.O.,Calhoun,A.J.,Chalasani,S.H.:神经元、行为和情绪适应的信息理论。货币。操作。神经生物学。25, 47-53 (2014) ·doi:10.1016/j.cob.2013.11.007(文件编号:10.1016/j.cob.2013.11.007)
[39] Sutton,R.,Barto,A.:强化学习:简介。麻省理工学院出版社,剑桥(1998)
[40] Tishby,N.,Polani,D.:《决策和行动的信息理论》,第601-636页。施普林格,纽约(2011)
[41] Tkacik Jr.,G.:C.G.C.,Bialek,W.:转录控制中的信息流和优化。程序。国家。阿卡德。科学。美国105(12),265-70(2008)
[42] Tkacik,G.,Walczak,A.M.:基因调控网络中的信息传递:综述。物理杂志:康登斯。物质。23(15), 153102 (2011)
[43] Vergassola,M.,Villermaux,E.,Shraiman,B.:信息分类是一种无梯度搜索策略。《自然》445406-409(2007)·doi:10.1038/nature05464
[44] Whittle,P.:随时间优化,动态规划和随机控制。概率统计威利级数。威利,纽约(1982)·Zbl 0557.93001号
[45] Wyatt,J.:学习形式强化中的探索和推理。爱丁堡大学博士论文(1997)
[46] van Erven,T.,Harremoes,O.:雷尼散度和kullback-leibler散度。IEEE传输。《信息论》60(7),3797-3820(2014)·Zbl 1360.94180号 ·doi:10.1109/TIT.2014.2320050
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。