文件Zbl 1266.68157-zbMATH Open

托马斯·库利维修斯;克里斯托夫·科洛德齐耶斯基;米尼娅·塔莫修奈特;伯恩德·波尔;佛罗伦萨沃戈特

闭环系统中差分Hebbian学习的行为分析。（英语） Zbl 1266.68157号

生物、网络。 103，第4期，255-271（2010）.

总结：理解闭环行为系统是一个非平凡的问题，尤其是当它们在学习过程中发生变化时。从信息论的角度对闭环系统的描述可以追溯到20世纪50年代，然而，只有少数尝试考虑到学习，主要是测量输入的信息。在这项研究中，我们通过观察输入和输出空间来分析一种特定类型的闭环系统。为此，我们研究执行差异希伯来学习（STDP）的模拟代理。在第一部分中，我们表明，对于相对简单的情况，可以找到此类系统的时间发展的解析解。在本研究的第二部分中，我们试图回答以下问题：我们如何预测给定类中的哪个系统对特定场景最合适？这个问题是通过能量、输入/输出比和熵度量来解决的，并调查它们在学习过程中的发展。通过这种方式，我们可以表明，在特定的场景中，确实存在一些代理，它们的结构和自适应属性是最佳的。

引用于1文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

自适应系统;传感器运动回路;学习与可塑性;熵;输入/输出比;能量;最优代理

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Ashby WR（1956）《控制论导论》。查普曼和霍尔有限公司，伦敦·Zbl 0071.12303号
[2]	Ay N，Bertschinger N，Der R，Güttler F，Olbrich E（2008），自主机器人的预测信息和探索行为。欧洲物理杂志B 63:329–339·Zbl 1189.93097号 ·doi:10.1140/epjb/e2008-00175-0
[3]	鲍德温·JM（1896）进化中的一个新因素。美国国家标准时间30:441–451·doi:10.1086/276408
[4]	Bi GQ，Poo MM（1998）培养海马神经元的突触修饰：对放电时间、突触强度和突触后细胞类型的依赖性。《神经科学杂志》。18: 10464–10472
[5]	Box G，Jenkins GM，Reinsel GC（1994），时间序列分析：预测和控制。新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔·Zbl 0858.62072号
[6]	Braitenberg V（1986）载具：合成心理学实验。麻省理工学院出版社，马萨诸塞州剑桥
[7]	Der R，Güttler F，Ay N（2008）移动机器人链中的预测信息和紧急合作性。摘自：Bullock S、Noble J、Watson R、Bedau MA（eds）Artificial life XI:第十一届生物系统模拟与合成国际会议纪要。。麻省理工学院出版社，马萨诸塞州剑桥，第166–172页
[8]	Hebb DO（1949）行为组织。纽约威利
[9]	Hinton GE，Nowlan SJ（1987）《学习如何引导进化》。复杂系统1:495–502·Zbl 0651.92015号
[10]	Hofstötter C，Mintz M，Verschure PF（2002）《小脑的活动：模拟和机器人研究》。欧洲神经科学杂志16:1361–1376·doi:10.1046/j.1460-9568.2002.02182.x
[11]	Iglesias R，Nehmzow U，Billings SA（2008）机器人训练中的模型识别和模型分析。机器人自动系统56:1061–1067·doi:10.1016/j.robot.2008.09.003
[12]	Klopf AH（1988）经典条件作用的神经元模型。心理生物学16（2）：85–123
[13]	Klyubin AS、Polani D、Nehaniv CL（2004）进化主体感知-行动回路中的信息流组织。2004年NASA/DoD进化硬件会议。IEEE计算机学会，第177-180页
[14]	Klyubin AS、Polani D、Nehaniv CL（2005）《赋权：以主体为中心的通用控制措施》。摘自：IEEE进化计算大会（CEC 2005），第128–135页
[15]	Klyubin AS、Polani D、Nehaniv CL（2007），感知-行动循环中信息流最大化的空间和时间表示。神经计算19:2387–2432·Zbl 1274.92008年 ·doi:10.1162/neco.2007.19.9.2387
[16]	Klyubin AS、Polani D、Nehaniv CL（2008）《开放选择：基于信息的传感运动系统驱动原理》。公共科学图书馆ONE 3:e4018·doi:10.1371/journal.pone.0004018
[17]	Kosco B（1986）《希伯来差异学习》。收录：Denker JS（eds）计算神经网络：AIP会议记录，第151卷。纽约美国物理研究所
[18]	Kulvicius T、Porr B、Wörgötter F（2007）《简单闭环行为环境中的连锁学习架构》。生物网络97:363–378·doi:10.1007/s00422-007-0176-y
[19]	Kyriacou T、Nehmzow U、Iglesias R、Billings SA（2008）通过系统识别实现机器人精确仿真。机器人自动系统56:1082–1093·doi:10.1016/j.robot.2008.01.05
[20]	Lungarella M，Pegors T，Bulwinkle D，Sporns O（2005）《量化感觉和运动数据信息结构的方法》。神经信息学3:243–262·doi:10.1385/NI:3:3:243
[21]	Lungarella M，Sporns O（2006），《传感器运动网络中的信息流映射》。公共科学图书馆计算生物学2:e144·doi:10.1371/journal.pcbi.0020144
[22]	Markram H，Lübke J，Frotscher M，Sakmann B（1997）通过突触后AP和EPSP的巧合调节突触效能。科学275:213-215·doi:10.1126/science.275.5297.213
[23]	Porr B，Wörgötter F（2003a）各向同性序列序学习。神经计算15:831–864·Zbl 1022.68111号 ·doi:10.1162/08997660360581921
[24]	Porr B，Wörgötter F（2003b）闭环行为系统中的各向同性顺序学习。Philos Transact-A数学物理工程科学361:2225–2244·doi:10.1098/rsta.2003.1273
[25]	Porr B，Wörgötter F（2006）通过仅使用输入相关性，大大提高了时间序列学习的稳定性和更快的收敛性。神经计算18:1380–1412·Zbl 1095.68651号 ·doi:10.1162/neco.2006.18.6.1380
[26]	Porr B，Egerton A，Wörgötter F（2006）《走向闭环信息：预测信息》。发现Constr 1（2）：83–90
[27]	Poupart P，Boutiler C（2002），POMDP的值定向压缩。摘自：Becker STS，Obermayer K（eds）《神经信息处理系统进展》，第15卷。第1547–1554页
[28]	Prokopenko M，Gerasimov V，Tanev I（2006）模块化机器人系统中的时空协调进化。收入：SAB 2006。第558–569页
[29]	Saudargiene A，Porr B，Wörgötter F（2004）突触前和突触后信号的形状如何影响STDP：一个生物物理模型。神经计算16:595–625·Zbl 1050.92012年 ·doi:10.1162/089976604772744929
[30]	Saudargiene A，Porr B，Wörgötter F（2005）突触修饰依赖于突触位置和活动：STDP的生物物理模型。生物系统79:3–10·doi:10.1016/j.biosystems.2004.09.010
[31]	Shannon CE（1948）一种关于通信的数学理论。贝尔系统技术杂志27:379–423·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[32]	Slonim N，Tishby N（2000）通过信息瓶颈方法使用词簇进行文档聚类。附：第23届国际acm-sigir信息检索研究与开发会议记录
[33]	Slonim N，Tishby N（2001）文本分类中单词聚类的威力。摘自：第23届欧洲信息检索研究学术讨论会论文集
[34]	Slonim N，Somerville R，Tishby N，Lahav O（2001）使用信息瓶颈方法对星系光谱进行客观分类。Mon Notes R Astron Soc 323:270–284号·文件编号：10.1046/j.1365-8711.2001.04125.x
[35]	Sutton RS，Barto AG（1981）走向自适应网络的现代理论：期望和预测。心理学评论88:135-170·doi:10.1037/0033-295X.88.2.135
[36]	Tishby N，Pereira FC，Bialek W（1999）信息瓶颈方法。收录：关于通信、控制和计算的第37届allerton年会会议记录。第368-377页
[37]	Touchette H，Lloyd S（2000）控制系统研究的信息论方法。物理A 331:140–172·doi:10.1016/j.physa.2003.09.007
[38]	Wolpert DM，Miall RC，Kawato M（1998）小脑内部模型。趋势认知科学2:338–347·doi:10.1016/S1364-6613（98）01221-2

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

闭环系统中差分Hebbian学习的行为分析。（英语） Zbl 1266.68157号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

闭环系统中差分Hebbian学习的行为分析。 （英语） Zbl 1266.68157号

MSC公司：

关键词：

参考文献：

闭环系统中差分Hebbian学习的行为分析。（英语） Zbl 1266.68157号