×

在多尺度决策中统一时间尺度和组织尺度。 (英语) Zbl 1292.90311号

概要:在企业系统中,对于组织层次结构的所有级别的代理来说,决策是一项复杂的任务。为了计算最佳行动方案,代理必须包括不确定性和其他代理的预期决策,并认识到他们也参与随机的游戏理论推理过程。此外,更高级别的代理通过提供激励措施来协调下属的利益。激励和接受代理人需要在最优策略计算中包括激励对其回报的影响。在本文中,我们提出了一个多尺度决策模型,该模型考虑了不确定性和组织随时间的相互依赖性。多尺度决策将随机博弈与层次马尔可夫决策过程相结合,对多组织尺度和多时间尺度问题进行建模和求解。这是第一个统一组织和时间尺度的模型,可以解决三代理、三周期的问题。解可以用低计算工作量导出为解析方程。我们将该模型应用于服务企业挑战,以说明该模型的适用性和相关性。本文对多尺度决策理论的建立做出了重要贡献,是解决一般X智能体T周期问题的关键一步。

MSC公司:

90立方厘米40 马尔可夫和半马尔可夫决策过程
90B50型 管理决策,包括多个目标
91A80型 博弈论的应用
91A35型 博弈决策理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴伯,韩国,2007年。多尺度行为建模和分析促进对基于代理的系统设计和操作的基本理解。最终技术报告(AFRL-IF-RS-TR-2007-58)<http://stinet.dtic.mil/cgi-bin/GetTRDoc?AD=ADA465613&Location=U2&doc=GetTRDoc.pdf; 巴伯,韩国,2007年。多尺度行为建模和分析促进对基于代理的系统设计和操作的基本理解。最终技术报告(AFRL-IF-RS-TR-2007-58)<http://stinet.dtic.mil/cgi-bin/GetTRDoc?AD=ADA465613&Location=U2&doc=GetTRDoc.pdf
[2] Bard,J.F.,《实用双层优化:算法和应用》(1998),Kluwer学术:Kluwer-学术波士顿·Zbl 0943.90078号
[3] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[4] 保龄球,M。;Veloso,M.,《多智能体强化学习的随机博弈分析》,卡内基梅隆大学计算机科学学院(2000)
[5] 布伦泽,R。;弗拉格内利,V。;Tijs,S.,Tree-connected peer group situations and peer groups games,运筹学的数学方法,55,1,93-106(2002)·Zbl 1052.91013号
[6] Brown,G.W.,《通过虚拟游戏迭代求解游戏》(Koopmans,T.C.,《生产和分配的活动分析》(1951),威利出版社:威利纽约)·Zbl 0045.09902号
[7] Chang,H.S。;法德·P·J。;马库斯,S.I。;Shayman,M.,多时间尺度Markov决策过程,IEEE自动控制事务,48,6,976-987(2003)·Zbl 1364.90345号
[8] 克鲁兹,J.B。;医学硕士Simaan。;加西奇,A。;姜浩。;Letelliier,B。;李,M。;Liu,Y.,军事空中作战的博弈论建模与控制,IEEE航空航天与电子系统汇刊,37,4,1393-1405(2001)
[9] Darabi,H。;Mansouri,M。;Andalibi,N。;Para,E.,《扩展企业决策框架:联邦航空管理局NextGen案例》,(超现代通信与控制系统国际大会(ICUMT)(2010),IEEE),662-667
[10] 邓,X。;Papadimitriou,C.H.,《不协调代理层次结构的决策》,《数学规划》,86,2,417-431(1999)·Zbl 0939.90009号
[11] Dolgov,D.,Durfee,E.,2004年。局部非对称多智能体马尔可夫决策过程中的图形模型。载于:《第三次自主代理和多代理系统国际联合会议记录》,第2卷,第956-963页。;Dolgov,D.,Durfee,E.,2004年。局部非对称多智能体马尔可夫决策过程中的图形模型。载于:《第三次自主代理和多代理系统国际联合会议记录》,第2卷,第956-963页。
[12] Filar,J.A。;Vrieze,K.,竞争马尔可夫决策过程(1996),Springer:Springer New York·Zbl 0763.9003号
[13] Geanakoplos,J。;Milgrom,P.,基于有限管理注意力的等级理论,《日本与国际经济杂志》,5,3,205-225(1991)
[14] Gfrerer,H。;Zäpfel,G.,需求不确定情况下生产计划的层次模型,《欧洲运筹学杂志》,86,1,142-161(1995)·Zbl 0902.90076号
[15] Goseva-Popstojanova,K。;Trivedi,K.S.,可靠性、性能和可执行性的随机建模形式,(Haring,G.;Lindemann,C.;Reiser,M.,性能评估-起源和方向(2000),施普林格:施普林格纽约)
[16] Groves,T.,《团队激励》,《计量经济学》,41,4,617-631(1973)·Zbl 0311.90002号
[17] Haimes,Y.Y.,层次全息建模,IEEE系统、人与控制论汇刊,11,9,606-617(1981)
[18] Haimes,Y.Y。;Tarvainen,K。;Shima,T。;Thadathil,J.,《大尺度系统的层次多目标分析》(1990),半球出版社。公司:Hemisphere Pub。纽约公司
[19] Haimes,Y.Y。;Lambert,J。;段,L。;肖奥夫(Schooff,R.)。;Tulsiani,V.,《复杂系统风险识别的层次全息建模》,IEEE国际系统、人与控制论会议,1027-1032(1995)
[20] Hauskrecht,M。;北卡罗来纳州穆勒奥。;Kaelbling,L.P。;迪恩,T。;Boutiler,C.,《利用宏观行动对马尔可夫决策过程进行分层求解》,(《第十四届人工智能不确定性会议论文集》(1998),威斯康星大学商学院:威斯康星州立大学麦迪逊商学院),220-229
[21] 哈克斯,A.C。;Meal,H.C.,《生产计划和调度的层次整合》(Geisler,M.A.,《管理科学研究》(1975),北荷兰:北荷兰阿姆斯特丹)·Zbl 0356.90027号
[22] Heinrich,C.E。;Schneeweiss,C.,《一般生产系统的多级批量计算》,(Axsäter,S.;Schneewiess,C.;Silver,E.,《多级生产计划和库存控制》,《经济学和数学系统讲义》,第266卷(1986),施普林格:施普林格柏林)
[23] Howard,R.A.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省理学院出版社剑桥·兹比尔0091.16001
[24] 胡,J。;Wellman,M.P.,《多智能体强化学习:理论框架和算法》,(第十五届机器学习国际会议论文集(1998年),摩根·考夫曼:摩根·考夫曼旧金山),242-250
[25] 雅各布森,M。;Shimkin,N。;Shwartz,A.,慢规模周期决策的马尔可夫决策过程,运筹学数学,28,4,777-800(2003)·Zbl 1082.90128号
[26] Krothapalli,N.K.C。;Deshmukh,A.,《多智能体制造系统协商协议的设计》,《国际生产研究杂志》,37,7,1601-1624(1999)·Zbl 0949.90518号
[27] Laffont,J.J.,《三级层次结构中的隐藏博弈分析》,《法律、经济与组织杂志》,6,2,301-324(1990)
[28] Littman,M.L.,Markov博弈作为多智能体强化学习的框架,(第十一届机器学习国际会议论文集(1994),Morgan Kaufman:Morgan Koufman Rutgers University,New Brunswick,NJ),157-163
[29] Marschak,J。;Radner,R.,《团队经济理论》(1972),耶鲁大学出版社:耶鲁大学纽黑文出版社·Zbl 0252.90003号
[30] Mertens,J.F.,《随机博弈》(Aumann,R.J.;Hart,S.,《经济应用博弈论手册》(1992),北荷兰:北荷兰阿姆斯特丹)·Zbl 0274.90066号
[31] Mesarovic,医学博士。;Macko,D。;Takahara,Y.,《层次、多层次、系统理论》(1970),学术出版社:纽约学术出版社·Zbl 0206.14501号
[32] Middelkoop,T。;A.Deshmukh,小心!基于Agent的操作系统,《国际复杂系统杂志》,256(1999)
[33] Monostori,L。;Váncza,J。;Kumara,S.,《基于代理的制造系统》,《CIRP年鉴-制造技术》,55,2,697-720(2006)
[34] Muppala,J.K。;Malhotra,M。;Trivedi,K.S.,《复杂系统的马尔可夫可信性模型:分析技术》,(Øzekici,S.,复杂系统的可靠性和维护(1996),施普林格:施普林格柏林,德国)·Zbl 0870.60069号
[35] 聂,P。;Chen,L。;Fukushima,M.,离散时间动态反馈Stackelberg对策的动态规划方法,独立和依赖追随者,欧洲运筹学杂志,169,1,310-328(2006)·兹比尔1101.91013
[36] 北欧冈田。;Mikami,Y.,《减少酸雨的博弈论方法:环境负荷分配的冲突分析》,《美国水资源协会杂志》,第28期,第1期,第155-162页(1992年)
[37] 奥兹达玛,L。;博泽尔,医学硕士。;Birbil,S.I.,生产计划的分层决策支持系统(带案例研究),《欧洲运筹学杂志》,104,3,403-422(1998)·Zbl 0960.90505号
[38] R.E.帕尔,1998年。马尔可夫决策过程的分层控制与学习。加州大学伯克利分校博士论文。;R.E.帕尔,1998年。马尔可夫决策过程的分层控制与学习。加州大学伯克利分校博士论文。
[39] Pollatschek,硕士。;Avi-Itzhak,B.,《带几何解释的随机博弈算法》,《管理科学》,第15、7、399-415页(1969年)·Zbl 0182.53502号
[40] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),威利出版社,纽约·Zbl 0829.90134号
[41] Raghavan,T.E.S。;Filar,J.A.,《随机博弈算法——一项调查》,运筹学数学方法(ZOR),35,6,437-472(1991)·Zbl 0736.90082号
[42] 罗宾逊,J.,《求解游戏的迭代方法》,《数学年鉴》,54,2,296-301(1951)·Zbl 0045.08203号
[43] Schneeweiss,C.,《组织的层次结构:概念框架》,《欧洲运筹学杂志》,86,1,4-31(1995)·兹比尔0902.90113
[44] Schneeweiss,C.,《分布式决策》(2003),施普林格:柏林施普林格出版社·Zbl 1079.90074号
[45] Schneeweiss,C.,《分布式决策–统一方法》,《欧洲运筹学杂志》,150,2,237-252(2003)·Zbl 1137.90562号
[46] Schneeweiss,C。;Zimmer,K.,供应链内的层次协调机制,《欧洲运筹学杂志》,153,3,687-703(2004)·1099.90005赞比亚比索
[47] Sethi,S.P。;Zhang,Q.,随机制造系统中的层次决策(1994),Birkhäuser Verlag:Birkháuser Verlag Basel,Switzerland·Zbl 0923.90002号
[48] Shapley,L.S.,《随机游戏》,《国家科学院学报》,39,10,1095-1100(1953)·Zbl 0051.35805号
[49] Stackelberg,H.v.,《市场经济理论》(1952),牛津大学出版社:牛津大学出版社,纽约
[50] Stadtler,H.,《供应链管理和高级规划——基础、概述和挑战》,《欧洲运筹学杂志》,163,3,575-588(2005)·Zbl 1071.90006号
[51] 萨顿,R.S.,1995年。TD模型:在混合时间尺度上建模世界。摘自:《第十二届机器学习国际会议论文集》,加利福尼亚州塔霍市,第531-539页。;Sutton,R.S.,1995年。TD模型:在混合时间尺度上建模世界。摘自:《第十二届机器学习国际会议论文集》,加利福尼亚州塔霍市,第531-539页。
[52] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(1998年),麻省理工学院出版社:麻省理学院出版社剑桥
[53] 萨顿,R.S。;Precup,D。;Singh,S.,《在MDP和半MDP之间:强化学习中的时间抽象框架》,《人工智能》,第112、1-2、181-211页(1999年)·Zbl 0996.68151号
[54] Vetschera,R.,偏好信息不完全的多标准代理模型,《欧洲运筹学杂志》,126,1152-165(2000)·Zbl 1055.91513号
[55] Vrieze,O.J.,《具有有限状态和动作空间的随机游戏》(1987),CWI Tracts:CWI Tracks Amsterdam·Zbl 0629.90094号
[56] Weiss,G.,《多智能体系统:分布式人工智能的现代方法》(1999),麻省理工学院出版社:麻省理学院出版社剑桥
[57] Wernz,C.,2008年。多尺度决策:在层次系统中架起时间和组织尺度的桥梁。马萨诸塞州阿默斯特大学机械与工业工程学位论文。博士。;Wernz,C.,2008年。多尺度决策:在层次系统中架起时间和组织尺度的桥梁。机械与工业工程,论文,马萨诸塞大学阿默斯特分校。博士。
[58] Wernz,C。;Deshmukh,A.,分层制造系统中代理交互的决策策略和设计,《制造系统杂志》,26,2,135-143(2007)
[59] Wernz,C.,Deshmukh,A.,2007b。在平面世界中管理层次结构。收录于:《2007年工业工程研究会议论文集》,田纳西州纳什维尔,第1266-1271页。;Wernz,C.,Deshmukh,A.,2007b。在平面世界中管理层次结构。参见:《2007年工业工程研究会议记录》,田纳西州纳什维尔,第1266-1271页。
[60] Wernz,C.,Deshmukh,A.,2009年。分层系统的基于激励的多周期决策模型。附:印度海得拉巴印度次大陆决策科学研究所地区第三届年会论文集。;Wernz,C.,Deshmukh,A.,2009年。分层系统的基于激励的多周期决策模型。收录于:印度海得拉巴印度次大陆决策科学研究所地区第三届年度会议记录。
[61] Wernz,C.,Deshmukh,A.,2010年A。战略agent交互的多时间尺度决策。2010年工业工程研究会议记录,墨西哥坎昆。;Wernz,C.,Deshmukh,A.,2010年A。战略agent交互的多时间尺度决策。2010年工业工程研究会议记录,墨西哥坎昆·Zbl 1176.90327号
[62] Wernz,C。;Deshmukh,A.,多尺度决策:将系统中的组织尺度与分布式决策者联系起来,《欧洲运筹学杂志》,202,3288-840(2010)·Zbl 1176.90327号
[63] Wernz,C。;Henry,A.,《服务运营中的多级协调和决策》,《服务科学》,2009年第1期,第4期,第270-283页
[64] Zachrisson,L.E.,《马尔可夫博弈在博弈论中的进展》,《数学研究年鉴》,52211-253(1964)·Zbl 0126.36507号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。