×

审批导向机构和纽康式问题的决策理论。 (英语) 兹比尔1529.68310

摘要:决策理论家不同意工具理性主体,即试图实现某个目标的主体,在所谓的纽康式问题中应该如何表现,主要的竞争者是因果和证据决策理论。由于人工智能研究的主要目标是创造出能够做出工具理性决策的机器,因此分歧就属于这个领域。除了什么是正确的决策理论这一更具哲学意义的问题外,人工智能的目标还提出了如何在人工智能中实现任何给定的决策理论的问题。例如,如何构建行为与证据决策理论建议相匹配的人工智能?相反,我们可以询问哪些决策理论(如果有的话)描述了任何现有AI设计的行为。在本文中,我们研究了批准导向的代理(即其目标是使监督员的得分最大化的代理)所实现的决策理论。如果我们假设监督员根据冯·诺伊曼·莫根斯坦效用函数的期望值奖励代理人,然后,这种批准导向的代理受两种决策理论的指导:一种是代理用来决定选择哪种行为以获得最大回报,另一种是监督者用来计算所选行为的预期效用。我们展示了这两种决策理论中的哪一种描述了代理人在何种情况下的行为。

MSC公司:

第68页第42页 Agent技术与人工智能
62C05型 统计决策理论的一般考虑
68T05型 人工智能中的学习和自适应系统
91B06型 决策理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿钦,CH;巴特尔,LM,《现实主义者的民主》。为什么选举不能产生反应灵敏的政府(2016),普林斯顿:普林斯顿大学出版社,普林斯顿·doi:10.1515/9781400882731
[2] Ahmed,A.,《证据、决定和因果关系》(2014),剑桥:剑桥大学出版社,剑桥·Zbl 1419.62006号 ·doi:10.1017/CBO9781139107990
[3] Albert,M.和Heiner,R.A.(2001年)。纽科姆问题的一种间接进化方法。CSLE讨论文件,编号2001-01。https://www.econstor.eu/bitstream/10419/23110/1/2001-01_newc.pdf。2019年2月22日访问。
[4] Alexander,L.和Moore,M.(2016)。神学伦理学。在E.N.Zalta(Ed.),斯坦福大学哲学百科全书中。2016年冬季。斯坦福大学形而上学研究实验室。https://plato.stanford.edu/archives/win2016/entries/ethics-deological/。2019年2月22日访问。
[5] Almond,P.(2010年)。第1部分:证据决定理论的正确性。https://casparotersheld.files.wordpress.com/2016/12/almend_edt_1.pdf。2019年2月22日访问。
[6] Armstrong,S.(2011)。人类决策理论。人文学院的未来。arXiv:1110.6437。
[7] 阿恩特泽尼乌斯(Arntzenius,F.),《无怨无悔:伊迪丝·皮亚夫(Edith Piaf)修正决策理论》,埃尔肯尼斯(Erkentnis),68,2,277-297(2008)·doi:10.1007/s10670-007-9084-8
[8] Arntzenius,F.(2010年)。莱森巴赫的共同原因原则。在E.N.Zalta(编辑),《斯坦福大学哲学百科全书》中。2010年秋季。斯坦福大学形而上学研究实验室。
[9] 奥曼,RJ;哈特,S。;Perry,M.,《心不在焉的司机,游戏与经济行为》,第20期,第102-116页(1997年)·Zbl 0885.90001号 ·doi:10.1006/游戏.1997.0577
[10] Billingsley,P.,《概率与测度》(1995),霍博肯:威利·Zbl 0822.60002号
[11] Bostrom,N.(2014a)。冰雹、价值孔隙度和效用多样化。http://www.nickbostrom.com/papers/porosity.pdf。2019年2月22日访问。
[12] Bostrom,N.,《超级智慧》。路径、危险、策略(2014),牛津:牛津大学出版社,牛津
[13] Briggs,R.(2017)。现实生活中的纽康问题?在英国剑桥举行的第一届决策理论与人工智能未来研讨会上发表演讲。
[14] Cavalcanti,EG,因果关系,决策理论和贝尔定理:纽科姆问题的量子模拟,《英国科学哲学杂志》,61,3,569-597(2010)·Zbl 1219.81015号 ·doi:10.1093/bjps/axp050
[15] Christiano,P.(2014)。无模式决策。https://ai-alignment.com/model-free-decisions-6e6609f5d99e。2019年2月22日访问。
[16] Christiano,P.(2016)。充分监督。https://ai-alignment.com/adequate-oversight-25fadf1edce9。2019年2月22日访问。
[17] Dohrn,D.,《Egan和代理人:证据决策理论如何应对Egan的困境》,Synthese,192,6,1883-1908(2015)·Zbl 1358.91034号 ·doi:10.1007/s11229-015-0661-0
[18] Doyle,J.,《理性及其在推理中的作用》,计算智能,8,2,376-409(1992)·doi:10.1111/j.1467-8640.1992.tb00371.x
[19] Eells,E.,因果、效用和决策,综合,48,2,295-329(1981)·Zbl 0476.03016号 ·doi:10.1007/BF01063891
[20] Everitt,T.、Leike,J.和Hutter,M.(2015)。因果和证据决策理论的序贯扩展。T.Walsh(编辑),《算法决策理论:第四届国际会议》,ADT 2015,美国肯塔基州列克星敦,2015年9月27日至30日,会议记录(第205-221页)。斯普林格。doi:10.1007/978-3-319-23114-3_13·Zbl 1405.91113号
[21] Fisher,J.C.基于处置的决策理论。https://casparotersheld.files.wordpress.com/2019/02/dbdt.pdf。2019年2月22日访问。
[22] 加西亚,J。;Fernández,F.,《安全强化学习的综合调查》,《机器学习研究杂志》,第16期,第1437-1480页(2015年)·Zbl 1351.68209号
[23] Gibbard,A.和Harper,W.L.(1981年)。反事实和两种预期效用。W.L.Harper、R.Stalnaker和G.Pearce(编辑),Ifs。条件、信念、决定、机会和时间(第15卷)。西安大略大学科学哲学系列。一系列关于科学哲学、方法论、认识论、逻辑、科学史和相关领域的书籍(第153-190页)。斯普林格。doi:10.1007/978-94-009-9117-08。
[24] Greene,P.(2018)。成功第一决策理论。在A.Ahmed(Ed.)中,Newcomb的问题。经典哲学论据。剑桥大学出版社。doi:10.1017/9781316847893.007·Zbl 1422.91029号
[25] Gustafsson,JE,《为批准主义辩护的笔记》,Erkentnis,75,1,147-150(2011)·doi:10.1007/s10670-010-9267-6
[26] Hintze,D.(2014)。预测困境中的问题类优势。http://intelligence.org/files/ProblemClassDominance.pdf。2019年2月22日访问。
[27] Horgan,T.,《反事实与纽科姆问题》,《哲学杂志》,78,6,331-356(1981)·doi:10.2307/2026128
[28] Hutter,M.(2005)。通用人工智能。基于算法概率的顺序决策。在W.Brauer、G.Rozen-berg和A.Salomaa(编辑)的《理论计算机科学文本》中。斯普林格·Zbl 1099.68082号
[29] Joyce,JM,因果决策理论的基础。剑桥概率、归纳和决策理论研究(1999),剑桥:剑桥大学出版社,剑桥·Zbl 0941.62005号 ·doi:10.1017/CBO9780511498497
[30] Kuhn,S.(2017)。囚犯的困境。在E.N.Zalta(Ed.),斯坦福大学哲学百科全书中。2017年春季。斯坦福大学形而上学研究实验室。https://plato.stanford.edu/archives/spr2017/entries/prisoner-diable/。2019年2月22日访问。
[31] Kumar,R.(2017)。决策理论家的新工作。在英国剑桥举行的第一届决策理论与人工智能未来研讨会上发表演讲。
[32] Ledwig,M.(2000)。纽科姆的问题。康斯坦茨大学博士论文。https://kops.uni-konstanz.de/bitstream/handle/123456789/3451/ledwig.pdf。2019年2月22日访问。
[33] 莱格,S。;Hutter,M.,《通用智能:机器智能的定义》,《思维与机器》,17,4,391-444(2007)·数字对象标识代码:10.1007/s11023-007-9079-x
[34] Lewis,D.,因果决策理论,《澳大利亚哲学杂志》,59,1,5-30(1981)·doi:10.1080/00048408112340011
[35] Mayer,D.、Feldmaier,J.和Shen,H.(2016)。针对自主车辆的冲突环境中的强化学习。21世纪机器人国际研讨会:挑战与承诺。arXiv:1610.07089。
[36] 米查姆,CJG,《绑定及其后果》,《哲学研究》,149,1,49-71(2010)·doi:10.1007/s11098-010-9539-7
[37] Muehlhauser,L.和Helm,L.(2012年)。智能爆炸和机器伦理。机器智能研究所。https://intelligence.org/files/IE-ME.pdf。2019年2月22日访问。
[38] 诺齐克,R。;Rescher,N.,《纽科姆问题和两个选择原则》,《纪念卡尔·亨佩尔的论文》,114-146(1969),柏林:施普林格出版社,柏林·doi:10.1007/978-94-017-1466-2_7
[39] Oesterhold,C.(2018a)。做过去行之有效的事情会产生证据决策理论。https://casparotersheld.files.wordpress.com/2018/01/learning-dt.pdf。2019年2月22日访问。
[40] Oesterhold,C.(2018b)。纽科姆问题、囚犯困境和大宇宙:对后果主义者的思考。在第十五届国际功利主义研究学会会议上的讲话中。卡尔斯鲁厄理工学院(KIT),2018年7月24日至26日。
[41] Pearl,J.,因果关系。模型、推理和推理(2009),剑桥:剑桥大学出版社,剑桥·Zbl 1188.68291号 ·doi:10.1017/CBO9780511803161
[42] 皮乔内,M。;Rubinstein,A.,《不完全回忆决策问题的解释》,《博弈与经济行为》,第20期,第3-24页(1997年)·Zbl 0885.90147号 ·doi:10.1006/游戏.1997.0536
[43] Poellinger,R.(2013)。解开纽康悖论中的概念:因果、预测、决定。http://philcicial archive.pitt.edu/9887/7/newcomb_in_ckps.pdf。访问日期:2019年2月22日。
[44] Price,H.,《反对因果决策理论》,Synthese,67195-212(1986)·doi:10.1007/BF00540068
[45] Price,H.,《因果、偶然和超自然证据的理性意义》,《哲学评论》,121,4,483-538(2012)·doi:10.1215/00318108-1630912
[46] 价格,H。;Corry,R.,《因果关系、物理学与现实构成:罗素共和国重访》(2007),牛津:牛津大学出版社,牛津
[47] Ross,SM,《概率模型导论》(2007),剑桥:学术出版社,剑桥
[48] 罗素,S。;Norvig,P.,《人工智能》。《现代方法》(2010),伦敦:培生教育公司,伦敦
[49] Skyrms,B.,因果决策理论,《哲学杂志》,79,11,695-711(1982)·doi:10.2307/2026547
[50] Soares,N.(2014a)。新出现的问题很常见。http://mindingourway.com/newcomblike-problems-are-the-norm/。2019年2月22日访问。
[51] Soares,N.(2014b)。你为什么不富有?https://intelligence.org/2014/10/07/nate-soares-talk-ain-rich/。2019年2月22日访问。
[52] Soares,N和Fallenstein,B.(2014a)。将超智能与人类利益相结合:技术研究议程。技术报告。2014-8. 机器智能研究所。https://intelligence.org/files/TechnicalAgenda.pdf。2019年2月22日访问。
[53] Soares,N和Fallenstein,B.(2014b)。走向理想化的决策理论。技术报告2014-7。机器智能研究所。arXiv:1507.1986年。
[54] Soares,N.和Levinstein,B.A.(2017年)。大马士革骗人死亡。2017年形式认识论研讨会(FEW)。美国西雅图华盛顿大学。https://intelligence.org/files/DeathInDamascus.pdf。2019年2月22日访问。
[55] Sorg,J.D.(2011年)。最优报酬问题:为有限代理人设计有效报酬。密歇根大学博士论文。https://deepblue.lib.umich.edu/bitstream/handle/2027.42/89705/jdsorg_1.pdf。2019年2月22日访问。
[56] 斯波恩,W.,依赖均衡与决策和博弈情境的因果结构,经济人,20195-255(2003)
[57] Spohn,W.,《扭转30年的讨论:为什么因果决策理论家应该一纸空文》,Synthese,187,195-122(2012)·Zbl 1275.91043号 ·doi:10.1007/s11229-011-0023-5
[58] 萨顿,RS;Barto,AG,《强化学习:简介》(1998),剑桥:麻省理工学院出版社,剑桥
[59] Treutlein,J.(2018)。类纽科姆问题的决策理论在人类和机器之间的区别。在德国慕尼黑举行的第二届决策理论与人工智能未来研讨会上的演讲。
[60] Treutlein,J.和Oesterhold,C.(2017年)。证据决策理论的赌注。未发表的手稿。
[61] Wedgwood,R.,甘道夫对纽科姆问题的解决方案,Synthese,190,14,2643-2675(2013)·doi:10.1007/s11229-011-9900-1
[62] Weirich,P.(2016)。因果决策理论。在斯坦福大学哲学百科全书中。2016年春季。
[63] Yudkowsky,E.(2010年)。永恒决策理论。奇点研究所。http://intelligence.org/files/TDT.pdf。2019年2月22日访问。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。