×

使用未解释的传感器和效应器进行地图学习。 (英语) Zbl 1017.68546号

摘要:本文提出了一套方法,学习代理可以通过学习一系列越来越抽象和强大的接口来控制最初未知传感运动设备和环境的机器人。学习的结果是机器人世界(其传感运动装置和环境)的丰富层次模型。学习方法依赖于机器人世界的一般属性,例如运动控制信号对感官特征的几乎所有平滑效果。在层次结构的最底层,学习代理分析其电机控制信号的影响,以定义一组新的控制信号,每个控制信号对应机器人的自由度。它使用生成和测试的方法来定义捕捉环境重要方面的感官特征。它使用线性回归来学习模型,这些模型描述了控制信号对学习特征的上下文相关影响。它使用这些模型来定义高级控制律,用于查找和遵循使用学习特征约束定义的路径。代理将这些与连续环境交互的控制律抽象为实现离散状态转换的有限操作集。此时,代理已将机器人的连续世界抽象为有限状态世界,并可以使用现有方法学习其结构。在具有不同感觉运动系统和环境的几个模拟机器人上评估了学习代理的方法。

理学硕士:

68T40型 机器人人工智能
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Angluin,D.,关于正则集最小推理的复杂性,Inform。和控制,39,337-350(1978)·Zbl 0393.68066号
[2] Angluin,D.,从查询和反例中学习规则集,Inform。和计算。,75, 87-106 (1987) ·Zbl 0636.68112号
[3] 查普曼,D。;Kaelbling,L.P.,《从复杂领域的延迟强化中学习》(《技术报告》,TR-90-11(1990),Teleos Research:Teleos研究,加利福尼亚州帕洛阿尔托)
[4] 科尔曼,T.H。;Leiserson,C.E。;Rivest,R.L.,(《算法导论》(1990),麻省理工学院出版社/麦格劳-希尔出版社:麻省理工学院出版社/麦格劳-希尔坎布里奇)·Zbl 1158.68538号
[5] 迪安·T·L。;安格鲁因,D。;Basye,K。;Engelson,S。;Kaelbling,L.P。;Kokkevis,E。;Maron,O.,《用随机输出函数推断有限自动机及其在地图学习中的应用》(Proceedings AAAI-92)。AAAI-92会议记录,加利福尼亚州圣何塞(1992),208-214
[6] 迪安·T·L。;Basye,K。;Kaelbling,L.P.,基于图形的地图学习中的不确定性,(Connell,J.H.;Mahadevan,S.,机器人学习(1993),Kluwer学术出版社:Kluwer学术出版社波士顿,MA),171-192
[7] Drescher,G.L.,(Made-Up Minds:A Constructive Approach to Artificial Intelligence(1991),麻省理工学院出版社:麻省理学院出版社剑桥)·Zbl 0824.68097号
[8] 杜德克,G。;Jenkin,M。;Milios,E。;Wilkes,D.,作为图形构建的机器人探索,IEEE Trans。机器人与自动化,7,6,859-865(1991)
[9] Gold,E.M.,从给定数据识别自动机的复杂性,Inform。和控制,37,302-320(1978)·Zbl 0376.68041号
[10] Hiraki,K.,《感觉运动特征的抽象》(《认知科学学会第十六届年会论文集》(1994年),劳伦斯·埃尔鲍姆协会:劳伦斯·埃尔鲍姆协会,新泽西州希尔斯代尔)
[11] 霍恩,B.K.P.(Robot Vision(1986),麻省理工学院出版社:麻省理学院出版社剑桥)
[12] M.I.乔丹。;Rumelhart,D.E.,《正向模型:远程教师的监督学习》,认知科学。,16, 307-354 (1992)
[13] Kohonen,T.(自组织与联想记忆(1988),施普林格:施普林格柏林)·Zbl 0659.68100号
[14] Kortenkamp,D。;Weymouth,T.,《使用声纳和视觉传感组合的移动机器人拓扑图》(Proceedings AAAI-94)。AAAI-94会议记录,西雅图,华盛顿州(1994年)
[15] Krzanowski,W.J.,《多元分析原理:用户视角》(牛津统计科学丛书(1988),克拉伦登出版社:克拉伦登牛津出版社)·Zbl 0678.62001号
[16] Kuipers,B.J.,《空间知识的本体论层次结构》(第十届物理系统定性推理国际研讨会论文集。第十届关于物理系统的定性推理国际会议论文集,加利福尼亚州落叶湖(1996))
[17] Kuipers,B.J.,认知科学。,2, 129-153 (1978)
[18] Kuipers,B.J。;Byun,Y.-T.,《机器人空间学习的一种稳健的定性方法》(Proceedings AAAI-88)。美国明尼苏达州圣保罗市AAAI-88会议记录(1988),774-779
[19] Kuipers,B.J。;Byun,Y.-T.,《基于空间表示语义层次的机器人探索和绘图策略》,《机器人与自治系统杂志》,8,47-63(1991)
[20] Kuipers,B.J。;莱维特,T.S.,《大尺度空间的导航和制图》,AI杂志,9,2,25-43(1988)
[21] Kuo,B.C.,(《自动控制系统》(1982),普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德克利夫斯,新泽西州)·Zbl 0542.93001号
[22] Lenat,D.B.,《自动化科学理论形成:使用AM程序的案例研究》(Hayes,J.E.;Michie,D.;Mikulich,L.I.,《机器智能》,9(1977),霍尔斯特出版社:霍尔斯特出版公司,纽约),251-286
[23] Lin,L.-J.,《使用神经网络的机器人强化学习》(博士论文(1993),卡内基梅隆大学:卡内基梅隆大学匹兹堡分校,宾夕法尼亚州)
[24] 林,L.-J。;Hanson,S.J.,室内导航的在线学习:RatBot的初步结果,(《NIPS93机器人学习研讨会论文集》(1993))
[25] Mardia,K.V。;Kent,J.T。;Bibby,J.M.,(多元分析(1979),学术出版社:纽约学术出版社)·Zbl 0432.62029号
[26] Mataric,M.J.,《用大鼠大脑导航:机器人空间表征的神经生物学启发模型》(Meyer,J.-a.;Wilson,S.W.,《从动物到动画:模拟适应行为的第一届国际会议论文集》(1991年),麻省理工学院出版社/布拉德福德图书:麻省理学出版社/布拉德福德图书公司,马萨诸塞州剑桥),169-175
[27] Mataric,M.J.,《将表征集成到目标驱动的基于行为的机器人中》,IEEE Trans。机器人与自动化,8,3,304-312(1992)
[28] Matheus,C.J.,《建设性归纳法的必要性》(Birnbaum,L.A.;Collins,G.C.,《第八届国际机器学习会议论文集》,纽约州伊萨卡,1991年,摩根考夫曼:摩根考夫曼·圣马特奥,CA),173-177
[29] Oja,E.,作为主成分分析仪的简化神经元模型,J.Math。生物学,15,267-273(1982)·Zbl 0488.92012号
[30] Pierce,D.,用一种无法解释的感觉运动装置学习一组原始动作,(Birnbaum,L.a.;Collins,G.C.,《第八届国际机器学习会议论文集》,纽约州伊萨卡市第八届机器学习国际会议论文集(1991),338-342
[31] Pierce,D.,《用一种不为人知的传感器运动装置学习转弯和旅行动作》,(IEEE机器人和自动化国际会议论文集。IEEE机器人与自动化国际会议文献集,加利福尼亚州洛斯阿拉米托斯(1991),IEEE计算机社会出版社:IEEE计算机学会出版社,马里兰州银泉),246-251
[32] Pierce,D.,《使用未解释的传感器和效应器进行地图学习》(博士论文(1995),德克萨斯大学:德克萨斯大学奥斯汀分校)·Zbl 1017.68546号
[33] 同时:技术代表。德克萨斯大学奥斯汀分校人工智能实验室,TR AI91-137;同时:技术代表。TR AI91-137,德克萨斯大学人工智能实验室,奥斯汀
[34] 皮尔斯,D。;Kuipers,B.J.,《学习探索和构建地图》(Proceedings AAAI-94)。《AAAI-94会议录》,西雅图,华盛顿州(1994),AAAI/MIT出版社:AAAI/MIT-出版社,马萨诸塞州剑桥)
[35] 出版社,W.H。;Teukolsky,S.A。;韦特林,W.T。;Flannery,B.P.,(C中的数字配方(1988),剑桥大学出版社:剑桥大学出版社)·Zbl 0778.65003号
[36] Ring,M.,《强化环境中的持续学习》(德克萨斯大学奥斯汀分校博士论文(1994))·Zbl 0849.68101号
[37] Ritter,H.J。;马丁内斯,T。;Schulten,K.J.,(神经计算和自组织映射:导论(1992),Addison-Wesley:Addison-Whesley Reading,MA)·Zbl 0752.68068号
[38] Rivest,R.L。;Schapire,R.E.,使用归巢序列推断有限自动机,Inform。和计算。,1032, 299-347 (1993) ·Zbl 0786.68082号
[39] 沈伟明,人工智能发现系统中的功能转换,人工智能,41257-272(1990)
[40] Shen,W.-M.,(从环境中自主学习(1994),弗里曼:弗里曼纽约)
[41] 沈伟民。;Simon,H.A.,《通过环境探索创造规则和学习规则》(Proceedings IJCAI-89)。会议记录IJCAI-89,密歇根州底特律(1989)),675-680·Zbl 0709.68069号
[42] Sutton,R.S.,《基于近似动态编程的学习、规划和反应集成架构》(Porter,B.W.;Mooney,R.J.,《第七届机器学习国际会议论文集》,德克萨斯州奥斯汀,第七届国际机器学习会议论文集(1990),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),216年至224年
[43] Watkins,C.J.C.H.,《从延迟奖励中学习》(博士论文(1989),剑桥大学国王学院)
[44] 怀特黑德,S。;卡尔森,J。;Tenenberg,J.,《通过任务分解和动态策略合并学习多目标行为》,(Connell,J.H.;Mahadevan,S.,《机器人学习》(1993),Kluwer Academic Publishers:Kluwer-Academical Publishers Boston,MA),45-78
[45] Williams,R.J.,《强化学习连接主义系统》(技术报告NU-CCS-87-3(1987),东北大学计算机科学学院:马萨诸塞州波士顿东北大学计算机学院)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。