Information-Theoretic Bounded Rationality and ε-Optimality

Braun, Daniel A.; Ortega, Pedro A.

doi:10.3390/e16084662

开放式访问第条

信息论的有界理性与ε-最优性

通过

丹尼尔·布劳恩

^1,*和

佩德罗·奥尔特加

^2,*

¹

马克斯·普朗克生物控制论研究所，马克斯·普朗克智能系统研究所，Spemannstrasse 38，Tübingen 72076，德国

²

美国宾夕法尼亚大学电气与系统工程系GRASP实验室，宾夕法尼亚州费城，邮编：19104

^*

应向其发送信件的作者。

熵 2014,16(8), 4662-4676;https://doi.org/10.3390/e16084662

收到的提交文件：2014年7月19日/修订日期：2014年8月11日/接受日期：2014年8月15日/发布日期：2014年8月21日

下载

浏览地物

版本注释

摘要

:

有限理性涉及对信息处理资源有限的决策者的研究。以前，人们建议使用自由能量差函数来模拟有界理性决策，因为它可以在要优化的能量或效用函数与用熵搜索成本衡量的信息处理成本之间进行自然的权衡。本文的主要问题是信息理论自由能模型如何与简单的ε-有限理性决策的最优性模型，其中决策者满足于ε-最优效用的邻域。我们发现，优化自由能源权衡的随机政策符合ε-优化。此外，这种优化准则甚至适用于对抗性环境。我们的结论是，有限理性的研究基于ε-从信息处理约束的细节中抽象出来的最优性准则与有限理性的信息理论自由能模型是相容的。

关键词：

有限理性；ε-最优性；概率选择；歧义

1.简介

在经济学、人工智能研究、生物学、社会学，甚至法律研究、伦理学和哲学等领域，都有着截然不同的历史根源，通过各种科学中的最优行动者模型来研究不确定性下的决策[1–三]. 通常，当我们谈论决策时，我们会想象一个人的头脑（例如，一个棋手）会思考各种可能的行动选择，考虑其潜在结果，最后选择其中一种行动来执行；也就是说，预期会产生最有利的结果。最近，同样的范式也被扩展到了传感器-运动集成和控制模型[4–6]其中，行动的后果可以通过内隐学习过程进行预测。然而，无论在哪种情况下，经典决策理论模型都至关重要[三,7]通过简单假设这些过程优化了绩效标准，忽略了决策前潜在认知或内隐过程的细节。这种无知既有好处也有坏处，因为一方面，它允许陈述许多不依赖于决策过程细节的一般结果，但另一方面，完美优化的通常不切实际的假设限制了经典决策理论的适用性。

经典决策理论基于两个概念支柱：概率概念和效用概念。根据彩票的概念，人们可以更好地理解它们相互交织的现象。彩票的定义是N个不同的结果o个_j个∈ 熵16 04662f1

每一种情况都可能以各自的概率发生对(o个_j个)其中j个= 1, …,N个.我们可以把彩票想象成轮盘赌或赌博，在那里我们可以获得奖品o个_j个有可能对(o个_j个)有主观效用的U型(o个_j个)对于决策者来说。彩票的复合价值可以由预期效用决定E类[U型] = ∑_j个对(o个_j个)U型(o个_j个)，通常用作决策中的标准性能标准。期望效用的概念首先由诺依曼和摩根斯坦公理化[8]. 在他们的公理系统中，诺依曼和摩根斯顿[8]对结果集上定义的概率分布集定义二元偏好关系熵16 04662f1

如果（且仅当）此二元关系满足完备性、及物性、连续性和独立性公理，则存在函数U型: 熵16 04662f1

↦ ℝ, 这样：

对 ≻ 对^{'} \Leftrightarrow \sum_{j个} 对 ({o个}_{j个}) U型 ({o个}_{j个}) > \sum_{j个} 对^{'} ({o个}_{j个}) U型 ({o个}_{j个}),

哪里对,对′∈℘.这个效用函数U型在正仿射变换之前是唯一的。

在设计最佳演员时，大多数设计师使用诺依曼和摩根斯顿[8]概率和效用的概念；请参见Russell和Norvig的示例[2]. 这样的最优参与者通常具有世界的概率模型对(o个_j个|一_我)，其中一_我∈ 熵16 04662f2

是一种导致后果的行为o个_j个有可能对(o个_j个|一_我). 决策者可以评估每个行动的预期效用E类[U型|一_我] = ∑_j个对(o个_j个|一_我)U型(o个_j个). 因此，世界的概率模型定义了一组M（M）不同彩票索引一_我，其中我= 1, …,M（M）。决策者可以比较所有彩票的预期效用，并选择预期效用最高的彩票，如下所示：

一_{米 一 x个} = 参数 \underset{我}{最大值} E类 [U型 ∣ 一_{我}] .

(1)

然而，至少有两个重要假设。首先，决策者需要一个准确的概率模型。其次，决策者需要足够的计算资源来找到最佳彩票。如果违反了两个假设中的一个，会发生什么？这个问题促使了对有限理性的研究，在这种情况下，决策者的知识有限，计算资源有限。

现代有限理性研究始于赫伯特·西蒙[9–11]此后一直在经济学中延续[12–14]，博弈论[15–17]、产业组织[18]和政治学[19]，也包括心理学[20,21]，认知科学[22–24]、计算机科学和人工智能研究[25–27]. 有限理性模型面临的一个基本问题是，它们是否应该关注决策背后的实际物理或认知过程，或者是否有可能通过抽象出实际决策的细节来获得对有限理性决策的更广泛理解过程。例如，第一种方法是由神经经济学的新领域采用的，该领域将决策过程与解剖结构相关联[28,29]，第二个传统中最简单的方法之一是ε-最优性[30]决策者不寻求单一最佳行动一_最大值，但对于一组允许操作中的任何操作熵16 04662f3

其预期效用最多偏离ε>0的最佳预期效用一_最大值，以便：

{A类}^{ɛ} = {一_{我} \in A类 : E类 [U型 ∣ 一_{我}] \geq E类 [U型 ∣ 一_{米 一 x个}] - ɛ} .

(2)

本文的主要问题是如何将这个简单的有限理性模型与Ortega和Braun讨论的信息理论有限理性模型联系起来[31–34]我们将在下一节中重述。

2.方法

大多数决策模型忽略了信息处理成本，并假设决策者可以简单地手工选择产生最高（预期）效用的操作。假设有一个唯一的最大值，这将对应于确定性策略，如方程式（1）然而，一般来说，信息处理能力有限的决策者可能无法确定地选择最佳方案。因此，这种有界理性策略必须用概率分布来描述对(一_我)反映了这种不确定性。有限理性决策的信息论模型通过信息熵度量量化信息处理成本[15–17,31–35]与softmax选择规则密切相关，这些规则在心理学和计量经济学文献中得到了广泛研究，也在强化学习和博弈论文献中得到广泛研究[36–42]. 在[31–34]Ortega和Braun讨论了有限理性决策的信息理论模型，其中信息处理成本由相对熵量化，信息处理成本可以根据选择策略的变化进行测量对(一_我).

假设决策者的初始策略可以用概率分布来描述对₀(一_我). 这可能包括一_我作为一种特殊情况，如果决策者在不同的行动之间没有事先的偏好。接下来，这个决策者将暴露于一个效用函数V（V）(一_我)，包括以下情况V（V）(一_我) =E类[U型|一_我]这意味着决策者不必计算期望值，而只需简单地给出期望值。理想情况下，决策者将获得新的分配对(一_我) =δ_{一_我}_,_{一_最大值}。可以将底层计算想象为一个搜索过程，通过以下方式减少操作的不确定性D类_吉隆坡[对||对₀]=∑_我对(一_我)日志[对(一_我)/对₀(一_我)]. 总的来说，这样的搜索成本高昂，决策者可能无法承受如此明显的不确定性减少。假设价格1/α对于1一点对于信息增益，我们可以设计一个有界的最优决策者，该决策者权衡因对(一_我)与这些变化所暗示的搜索成本相比，总的来说，决策者优化了效用收益和信息成本中的自由能源差异：

Δ 如果 [\tilde{对}] = {\sum_{我} \tilde{对} (一_{我}) V（V） (一_{我}) - \frac{1}{α} \sum_{我} \tilde{对} (一_{我}) 日志 \frac{\tilde{对} (一_{我})}{对_{0} (一_{我})}},

(3)

其中最大化分布对=arg最大值_P̃Δ如果[P̃]是平衡分布：

对 (一_{我}) = \frac{1}{{Z轴}_{α}} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})}, 哪里 {Z轴}_{α} = \sum_{我} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})},

(4)

并且表示经过深思熟虑后的选择概率。注意自由能差Δ如果[P̃]可以表示为Δ如果[P̃] =如果₁[P̃] −如果₀，自由能：

\begin{array}{l} {如果}_{1} [\tilde{对}] = \sum_{我} \tilde{对} (一_{我}) Φ_{1} (一_{我}) - \frac{1}{α} \sum_{我} \tilde{对} (一_{我}) 日志 \tilde{对} (一_{我}) \\ {如果}_{0} = \sum_{我} 对_{0} (一_{我}) Φ_{0} (一_{我}) - \frac{1}{α} \sum_{我} 对_{0} (一_{我}) 日志 对_{0} (一_{我}), \end{array}

哪里对₀(一_我)=经验(α(Φ₀(一_我) −如果₀))和V（V）(一_我)=Φ₁(一_我) − Φ₀(一_我). 因此，效用函数V（V）(一_我)表示价值Φ的变化，即相对于现状的收益或损失。在推理的情况下，效用函数由负对数似然给出，并度量信息惊喜。然后，温度参数对应于指数族分布中的精确参数。将充当推理问题的问题转换为先前在中讨论过的问题[43–48]. 确定性等价值V（V）_总工程师在战略之下对可以根据相同的变分原理确定：

\begin{array}{l} {V（V）}_{C类 E类} = \underset{\tilde{对}}{最大值} {\sum_{我} \tilde{对} (一_{我}) V（V） (一_{我}) - \frac{1}{α} \sum_{我} \tilde{对} (一_{我}) 日志 \frac{\tilde{对} (一_{我})}{对_{0} (一_{我})}} \\ = \frac{1}{α} 日志 (\sum_{我} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})}) = \frac{1}{α} 日志 {Z轴}_{α} . \end{array}

(5)

对于α，值和平衡分布采用渐近形式：

\begin{array}{l} α \to + \infty & \frac{1}{α} 日志 {Z轴}_{α} = \underset{我}{最大值} V（V） (一_{我}) & 对 (一_{我}) = δ_{一_{我}, 一_{米 一 x个}} & (完全理性) \\ α \to 0 & \frac{1}{α} 日志 {Z轴}_{α} = \sum_{我} 对_{0} (一_{我}) V（V） (一_{我}) & 对 (一_{我}) = 对_{0} (一_{我}) & (不合理的) \end{array}

可以看出，一个完全理性的代理人α→ ∞ 能够手动选择最优操作，这是唯一最优情况下的确定策略，而有限理性代理具有随机策略，选择次优操作的概率不为零。

在这种情况下V（V）(一_我)并不是简单地给出，决策者必须自己根据之前的值计算期望值对₀(o个_j个|一_我)以及实用程序U型(o个_j个)，因此搜索成本必须同时考虑一_我和o个_j个然后，变分问题可以表示为嵌套表达式[32,34,49]:

参数 \underset{\tilde{对}}{最大值} \sum_{我} \tilde{对} (一_{我}) [- \frac{1}{α} 日志 \frac{\tilde{对} (一_{我})}{对_{0} (一_{我})} + \sum_{j个} \tilde{对} ({o个}_{j个} ∣ 一_{我}) [U型 ({o个}_{j个}) - \frac{1}{β} 日志 \frac{\tilde{对} ({o个}_{j个} ∣ 一_{j个})}{对_{0} ({o个}_{j个} ∣ 一_{我})}]] .

(6)

如果我们假设预期效用的估计V（V）(一_我)比最优行动的计算要便宜得多，然后是价格1/β应大大低于1/α，因此α≫β这意味着我们可以简单地从对₀(o个_j个|一_我)用于计算期望值，但计算起来要困难得多一_我，因为我们不能简单地依赖我们的先验知识对₀(一_我). 嵌套变分问题的两部分解如下所示：

对 ({o个}_{j个} ∣ 一_{j个}) = \frac{1}{{Z轴}_{β} (一_{我})} 对_{0} ({o个}_{j个} ∣ 一_{我}) 经验 (β U型 ({o个}_{j个}))

(7)

使用归一化常数：Z轴_β(一_我)=∑_j个对₀(o个_j个|一_我)经验(βU(o个_j个))和：

对 (一_{我}) = \frac{1}{{Z轴}_{α β}} 对_{0} (一_{我}) 经验 (\frac{α}{β} 日志 {Z轴}_{β} (一_{我}))

(8)

使用归一化常数：

{Z轴}_{α β} = \sum_{我} 对_{0} (一_{我}) 经验 (\frac{α}{β} 日志 {Z轴}_{β} (一_{我}))

.完全理性的决策者是在极限中获得的α→ ∞ 和β→ 0，即：

\begin{matrix} 对 ({o个}_{j个} Ş 一_{我}) = 对_{0} ({o个}_{j个} ∣ 一_{我}) \\ 对 (一_{我}) = δ_{一_{我}, 一_{米 一 x个}} . \end{matrix}

(9)

有限理性决策的信息理论模型的计算复杂性也可以用抽样复杂性来解释[50,51]. 特别地，方程式（4）可以根据拒绝抽样方案进行解释，我们希望从中获取样本对(一_我)，但我们只能从分布中取样对₀(一_我). 在这个方案中，我们生成了一个示例一_我~对₀(一_我)然后接受样品，如果：

u个 \leq \frac{{e（电子）}^{α V（V） (一_{我})}}{{e（电子）}^{α T型}},

(10)

哪里u个是从制服中提取的熵16 04662f4

[0；1]和T型是验收目标值T型≥最大值_我 V（V）(一_我). 否则，样品将被拒收。采样过程的效率取决于我们平均需要多少样本对₀从中获取一个样本对。此平均样本数来自对₀需要一个样品对由几何分布的平均值给出：

\bar{Ş S公司 一 米 第页 我 e（电子） 秒} = \frac{1}{\sum_{我} 对_{0} (一_{我}) \frac{{e（电子）}^{α V（V）} (一_{我})}{{e（电子）}^{α T型}}} = \frac{{e（电子）}^{α T型}}{{Z轴}_{α}} .

(11)

值得注意的是，样本的平均数量随着合理性参数的增加呈指数级增加，如下所示：

\frac{{e（电子）}^{α T型}}{{Z轴}_{α}} \overset{α \to \infty}{\to} \frac{{e（电子）}^{α (T型 - V（V） (一_{米 一 x个}))}}{对_{0} (一_{米 一 x个}))},

哪里一_最大值=arg最大值V（V）(x个)以及T型>最大值_我 U型(一_我).

就采样复杂性而言，这种解释也可以扩展到方程式（6），其中决策者必须从样本中估计预期效用。符合方程式（8），我们应该接受样品一_我~对₀(一_我)如果满足标准：

u个 \leq \frac{{e（电子）}^{α \frac{1}{β} 日志 {Z轴}_{β} (一_{我})}}{{e（电子）}^{α T型}} = {[\frac{{Z轴}_{β} (一_{我})}{{e（电子）}^{β T型}}]}^{\frac{α}{β}},

(12)

哪里u个~

[0；1]和

T型 \geq \frac{1}{β} 日志 {Z轴}_{β} (一_{我})

.来自方程式（11），我们知道比率Z轴_β(一_我)/e（电子）^βT可以解释为接受概率；在这种情况下θ~对₀(θ). 因此，为了从x个，我们需要接受

\frac{α}{β}

连续样本θ，验收标准：

u个 \leq \frac{{e（电子）}^{β U型 (x个, θ)}}{{e（电子）}^{β T型}}

(13)

具有u个~

[0；1]和T型如上所述。

3.结果

在这里，我们研究了一个有界理性决策者如何接近完美理性决策者实现的最佳（预期）效用的问题。由于我们假设有界理性决策者的策略本质上是随机的，并且可以用概率分布来描述，根据方程式（4），我们只能比较有限理性决策者和完全理性决策者的绩效的一些统计指标。在下文中，我们将考虑预期性能。

定理1(ε-最优化）.

给定一个具有信息成本的有限理性决策者1/优化的α(三),我们可以将决策者的预期绩效从下面限定在ε内-最优性能V的邻域_最大值=最大值_我 E类[U型|一_我]完全理性的决策者，这样：

\sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个} - \underset{= : ɛ}{\underset{︸}{(- \frac{1}{α} 日志 对_{0} (一_{米 一 x个}))}} .

证明

确定性等价值V（V）_总工程师在有限理性策略下对(一_我)由以下人员提供：

\begin{array}{l} {V（V）}_{C类 E类} = \frac{1}{α} 日志 \sum_{我} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})} \\ = \sum_{我} 对 (一_{我}) V（V） (一_{我}) - \frac{1}{α} \underset{\geq 0}{\underset{︸}{\sum_{我} 对 (一_{我}) 日志 \frac{对 (一_{我})}{对_{0} (一_{我})}}}, \end{array}

哪里

对 (一_{我}) = \frac{1}{Z轴} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})}

从Kullback–Leibler散度的积极性来看，可以得出以下结论：

\begin{array}{l} \sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq \frac{1}{α} 日志 \sum_{我} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})} \\ \Rightarrow \sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq \frac{1}{α} 日志 对_{0} (一_{米 一 x个}) {e（电子）}^{α {V（V）}_{米 一 x个}} \\ \Rightarrow \sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个} + \frac{1}{α} 日志 对_{0} (一_{米 一 x个}) \end{array}

作为推论，我们可以得出一致先验的特殊情况对₀(一_我) = 1/M（M）那个ε-bound由给定ε= 1/α日志M（M）相反，如果给定ε>0，存在

\bar{α} = \frac{日志 M（M）}{ɛ}

，以便α≥ᾱ，所做的任何决策都会在最佳的ε内产生效用。

在以下情况下(6)有限理性决策者必须通过抽样来确定期望效用，而上述下限已无法保证。而不是预期的公用设施V（V）(一_我) =E类[U型|一_我]，这样的决策者优化了“扭曲的”确定性等价值：

\tilde{V（V）} (一_{我}) = \frac{1}{β} 日志 {Z轴}_{β} (一_{我}) = \frac{1}{β} 日志 \sum_{j个} 对_{0} ({o个}_{j个} ∣ 一_{我}) {e（电子）}^{β U型 ({o个}_{j个})},

具有Z轴_β(一_我)来自方程式（7）。仅适用于β→ 0，期望值Ṽ(一_我) →E类[U型|一_我]保留。由于

\frac{1}{β} 日志 {Z轴}_{β} (一_{我}) \geq E类 [U型 ∣ 一_{我}]

，这样一个积极的决策者β会高估次优行动的确定当量一_我.对于小型β≪1，确定等价值可以通过泰勒展开式近似β:

\frac{1}{β} 日志 \sum_{j个} 对_{0} ({o个}_{j个} ∣ 一_{j个}) {e（电子）}^{β U型 ({o个}_{j个})} \approx {E类}_{对_{0} ({o个}_{j个} ∣ 一_{我})} [U型 ({o个}_{j个})] + \frac{β}{2} {VAR（无功功率）}_{对_{0} ({o个}_{j个} ∣ 一_{我})} [U型 ({o个}_{j个})] + O（运行） (β^{2}),

哪里O（运行）(β²)是可以忽略的高阶累积量。根据定理1，我们得到：

\sum_{我} 对 (一_{我}) [\frac{1}{β} 日志 \sum_{j个} 对_{0} ({o个}_{j个} ∣ 一_{我}) {e（电子）}^{β U型 ({o个}_{j个})}] \geq {V（V）}_{米 一 x个} + \frac{1}{α} 日志 对_{0} (一_{米 一 x个}),

从中我们可以得出极限β≪1和α≫β即：

\sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个} - \underset{= : ɛ}{\underset{︸}{(- \frac{1}{α} 日志 对_{0} (一_{米 一 x个}) + \frac{β}{2} {E类}_{对 (一_{我})} [{VAR（无功功率）}_{对_{0} ({o个}_{j个} ∣ 一_{我})} [U型 ({o个}_{j个})] + O（运行） (β^{2})])}} .

对于这样一个有界理性决策者，误差界会随着高阶累积量的增加而增加。

如果所有（预期的）实用程序V（V）(一_我)在数量级上非常相似，这需要一个高合理性参数α以区分它们。一个更紧的ε-绑定在α如果我们假设有一个区间V（V）(一_我) ∈ [V（V）_最小值；V（V）_最大值]并且所有实用程序都可以通过至少一个“utile”来区分，因此对于任何选择一_我和一_k个，我们有|V（V）(一_我)−V（V）(一_k个)|≥1，例如，当公用事业反映等级时。

定理2(ε-排名实用程序的最佳性）.

给定一个具有信息成本的有限理性决策者1/优化的α 方程式(3) 假设一个统一的先验P₀(一_我) = 1/M（M）,有界（预期）实用程序V(一_我) ∈ [V（V）_最小值；V（V）_最大值]就我和|V（V）(一_我) −V（V）(一_k个)| ≥ 1每一双(我,k个),我们可以将决策者的预期绩效从下面限定在ε内-最优性能V的邻域_最大值=最大值_我 E类[U型|一_我]完全理性的决策者，例如：

\sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个} - \underset{= : ɛ}{\underset{︸}{({e（电子）}^{- α} ({V（V）}_{米 一 x个} - {V（V）}_{米 我 n个}))}} .

证明

我们表示选择概率对(一_我)派生自方程式（4）在均匀先验下对₀(一_我) = 1/M（M）作为：

对 (一_{我}) = \frac{{e（电子）}^{α V（V） (一_{我})}}{\sum_{k个} {e（电子）}^{α V（V） (一_{k个})}} = \frac{{(\frac{1}{δ})}^{V（V） (一_{我})}}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}},

在这里我们引入了变量δ=经验（−α). 然后，我们可以将预期性能表示为：

\begin{array}{l} \sum_{我} 对 (一_{我}) V（V） (一_{我}) = \frac{1}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}} \sum_{我} {(\frac{1}{δ})}^{V（V） (一_{我})} V（V） (一_{我}) \\ \geq (\frac{{(\frac{1}{δ})}^{{V（V）}_{米 一 x个}}}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}}) {V（V）}_{米 一 x个} + (1 - \frac{{(\frac{1}{δ})}^{{V（V）}_{米 一 x个}}}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}}) {V（V）}_{米 我 n个} \\ \geq {V（V）}_{米 一 x个} - (1 - \frac{{(\frac{1}{δ})}^{{V（V）}_{米 一 x个}}}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}}) ({V（V）}_{米 一 x个} - {V（V）}_{米 我 n个}), \end{array}

(14)

其中不等式是通过去掉最大和，然后找到剩余项的下限来获得的。最后一个等式中的第二个被加数可以进一步定界为：

1 - \frac{{(\frac{1}{δ})}^{{V（V）}_{米 一 x个}}}{\sum_{k个} {(\frac{1}{δ})}^{V（V） (一_{k个})}} = 1 - \frac{1}{\sum_{k个} δ^{{V（V）}_{米 一 x个} - V（V） (一_{k个})}} \leq δ,

因为我们可以限制

\sum_{k个} δ^{{V（V）}_{米 一 x个} - V（V） (一_{k个})} \leq \sum_{k个} δ^{k个} \leq \frac{1}{1 - δ}

来自|V（V）(一_我) −V（V）(一_k个)| ≥ 1 ∀我,k个几何级数的极限性质。因此，我们有：

\sum_{我} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个} - δ ({V（V）}_{米 一 x个} - {V（V）}_{米 我 n个}) .

作为推论，我们可以得出最小区间大小的结论[V（V）_最小值；V（V）_最大值] = [V（V）_最小值；V（V）_最小值+M（M）]性能界限由∑给出_我对(一_我)V（V）(一_我) ≥V（V）_最大值负极e（电子）^负极^α M（M）相反，如果给定ε>0，存在

\bar{α} = 日志 \frac{{V（V）}_{米 一 x个} - {V（V）}_{米 我 n个}}{ɛ}

，以便α≥ᾱ，所做的任何决策都会在最佳的ε范围内产生效用。

4.对抗环境

到目前为止，我们已经考虑到，由于计算能力有限，即使在环境中没有任何不确定性的情况下，行动选择也会出现随机性。当然，在这种情况下，随机选择产生的（预期）效用要比确定性选择最佳选项产生的效用小，但性能下降可以受以下因素的限制ε然而，如果环境具有潜在的对抗性，随机行动选择在效用方面也可能更优越，因为它不允许对手完全预测和挫败决策者可能拥有的任何确定性行动计划。在下文中，我们将讨论对抗环境中决策的两种不同场景，决策者在不同的行动之间进行选择一_我∈ 熵16 04662f2

带有（预期的）实用程序V（V）(一_我) =E类[U型|一_我].

4.1. 未知操作集

在第一个场景中，我们假设决策者从选择概率分布开始对(一_我)过度动作一_我∈ 熵16 04662f2

然后，环境选择一个子集熵16 04662f5

∈ ℘(

)\{}允许动作，其中℘( 熵16 04662f2

)表示电源组。不属于子集的所有操作都将被删除。最后，行动一_我从一组允许作用及其重整化概率中随机确定。问题是找到下注概率对(一_我)使我们的预期回报最大化；然而，期望值必须覆盖未知子集熵16 04662f5

对手反复无常地选择。这为决策者建模，决策者必须通过将资源分配给不同的备选方案来选择通用的对冲策略，但只有在做出选择后，游戏规则才能完全揭示。形式上，我们要选择概率对(一_我)，即条件期望E类[V（V）(一_我)| 熵16 04662f5

]尽可能大。不出所料，我们无法提供确定的最佳解决方案对(一_我) =δ(一_我负极一*)，因为环境总是可以消除一*. 然而，如果我们允许自己有一个任意小的、非零的性能损失ε>0，则有一种分配概率的方法对(一_我)，使得条件期望几乎等于最优值，即，达到对手选择的子集中的最高效用。这正是以下定理的结果。

定理3(ε-对抗环境中的最佳性）.

有限理性决策者实现的预期效用(三)位于最优效用的ε-邻域内

{V（V）}_{米 一 x个}^{S公司} = 米 一 {x个}_{一_{我} \in S公司} V（V） (一_{我})

在里面

对于任何子集

自然选择的可能行动，例如：

\begin{array}{l} \frac{1}{\sum_{一_{k个} \in S公司} 对 (一_{k个})} \sum_{一_{我} \in S公司} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个}^{S公司} - (- \frac{1}{α} 日志 对_{0} (一_{米 一 x个}^{S公司})) \\ = : {V（V）}_{米 一 x个}^{S公司} - ɛ . \end{array}

证明

\begin{array}{l} \frac{1}{\sum_{一_{k个} \in S公司} 对 (一_{k个})} \sum_{一_{我} \in S公司} 对 (一_{我}) V（V） (一_{我}) = \sum_{一_{我} \in S公司} \frac{对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})}}{\sum_{一_{k个} \in S公司} 对_{0} (一_{k个}) {e（电子）}^{α V（V） (一_{k个})}} V（V） (一_{我}) \\ = \sum_{一_{我} \in S公司} \frac{\frac{对_{0} (一_{我})}{\sum_{一_{我} \in S公司} 对_{0} (一_{我})} {e（电子）}^{α V（V） (一_{我})}}{\sum_{一_{k个} \in S公司} \frac{对_{0} (一_{k个})}{\sum_{一_{我} \in S公司} 对_{0} (一_{我})} {e（电子）}^{α V（V） (一_{k个})}} V（V） (一) \end{array}

哪里

对 (一_{我}) = \frac{1}{Z轴} 对_{0} (一_{我}) {e（电子）}^{α V（V） (一_{我})}

然后，我们可以将定理1应用于最后一个等式中的表达式，得出：

\begin{array}{l} \frac{1}{\sum_{一_{k个} \in S公司} 对 (一_{k个})} \sum_{一_{我} \in S公司} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个}^{S公司} + \frac{1}{α} 日志 \frac{对_{0} (一_{米 一 x个}^{S公司})}{\sum_{一_{k个} \in S公司} 对 (一_{k个})} \\ \geq {V（V）}_{米 一 x个}^{S公司} + \frac{1}{α} 日志 对_{0} (一_{米 一 x个}^{S公司}) \end{array}

哪里

一_{米 一 x个}^{S公司} = 参数 {最大值}_{一_{我}} {V（V）}^{S公司} (一_{我})

.

作为推论，我们在案例中得出

对_{0} (一_{我}) = \frac{1}{M（M）}

一个ε-的绑定

ɛ = \frac{1}{α} 日志 M（M）

.

类似地，定理2适用于任何选择的子集熵16 04662f5

，以便：

\frac{1}{\sum_{一_{k个} \in S公司} 对 (一_{k个})} \sum_{一_{我} \in S公司} 对 (一_{我}) V（V） (一_{我}) \geq {V（V）}_{米 一 x个}^{S公司} - \underset{= : ɛ}{\underset{︸}{({e（电子）}^{- α} ({V（V）}_{米 一 x个} - {V（V）}_{米 我 n个}))}} .

4.2. 未知实用程序

在对抗环境的第二个场景中，代理选择分发对₀(一_我)环境随后会选择V（V）(一_我)以任意的方式，例如，一般来说V（V）(一_我)可能取决于对₀(一_我). 一旦V（V）(一_我)被披露后，决策者根据方程式（4）重要的是，新的分发对(一_我)不用作在不同的V（V）(一_我)与前面的定理一样，但仅在以后的选择中使用，具有新的但未知的实用程序。如果我们将试验编号或时间步长表示为t吨并假设进行逐次试验更新：

对_{t吨 + 1} (一_{我}) = \frac{1}{{Z轴}_{t吨}} 对_{t吨} (一_{我}) 经验 (α {V（V）}_{t吨} (一_{我})),

(15)

其中公用设施V（V）_t吨(一_我)在每个时间步长内都有界于单位间隔内，即V（V）_t吨(一_我)∈[0；1]，则决策者的预期绩效可由下式限定：

\sum_{t吨} \sum_{我} 对_{t吨} (一_{我}) {V（V）}_{t吨} (一_{我}) \geq \frac{日志 (1 + ɛ)}{ɛ} {V（V）}_{米 一 x个}^{T型} - \frac{日志 M（M）}{ɛ},

(16)

哪里ε=经验(α) − 1. 这个性能界限可以从Freund和Shapire最初在全信息博弈中提出的对冲分析中得出，决策者在该博弈中了解所有可能的效用V（V）_t吨(一_我)在每个时间步中[52,53]. 在这种情况下，决策者选择我具有概率的不同选项第页_我(t吨) =w个_我(t吨)/∑_j个 w个_j个(t吨)，其中权重w个_我(t吨)更新依据：

{w个}_{我} (t吨 + 1) = {w个}_{我} (t吨) {(1 + ɛ)}^{{V（V）}_{我} (t吨)}

以及在哪里V（V）_我(t吨)是期权的效用我时间t吨很容易看出，有限理性决策者方程式（4）是对冲，当根据对_t吨(一_我)在收到反馈之前V（V）_我(t吨)；也就是说，有界理性决策者有一个时间步长的延迟，因为它是分布对_t吨_+1个(一_我)对于效用来说是有界最优的V（V）_我(t吨)在之前的基础上对_t吨(一_我).

5.讨论和结论

当决策者只能承担一定数量的信息处理时，信息论有限理性可以被视为最优决策的规定模型。信息处理形式化为概率分布与表示先验的信息处理完成后，对行动进行后验分布的选择策略。分布中的这种变化可以通过前后分布之间的相对熵来测量，并与热力学系统中的实际物理状态变化有关[34]其中，能量的概念类似于效用的概念，而计算成本类似于降低系统做功能力的熵成本。这种解释建立在以前有相关计算和物理过程的工作基础上；参见示例[54]以获取概述。正如方法中所讨论的，改变分布的成本也可以用抽样过程的复杂性来表示[50,51].

在本文中，我们证明了当建模具有熵信息处理约束的有界理性决策时，我们可以进一步从物理和计算过程中抽象出来。我们表明，信息理论有界理性决策者的绩效可以ε-与完全理性决策者相比是有界的，因此，信息理论的有限理性自然意味着ε-最优性。从这个意义上讲，有限理性决策严格低于完全理性，完全理性决定选择最佳行动。然而，这在对抗环境中会发生变化。我们讨论两种场景。在第一种情况下，对手可以在决策者指定策略后从选择集中消除任何非空的动作子集。这里，有限理性允许定义ε-任意子集下的最优性能准则。在第二种情况下，对手可以为每个动作任意选择实用程序，而代理使用与先前实用程序相关的有限理性策略进行响应。这种情况相当于套期保值，也有性能界限，但与前面的设置相比，这些界限并不对应ε-最佳性，因为最佳效用和实际效用之间的差异也取决于乘法因子。

概念ε-经济文献中已经讨论过最优化，特别是在博弈论和ε-平衡[55,56]. 尤其是福登堡和莱文[57]已经研究了ε-游戏中的普遍一致性，玩家从观察中学习到对另一个玩家的平滑最佳反应。他们可以表明，使用softmax决策规则学习在ε-已知对手比赛频率的最佳反应范围。重要的是ε-最优化扩展了在忽略推理过程细节的经济决策的完美理性模型中采用的通常的黑箱方法[30]. 在ε-最优模型，假设决策者做出（近似）最优的决策；这些决定是如何做出的，在很大程度上被忽视了。选择ε在这种模型中通常是任意的。这里，我们链接参数ε定量到信息论有界理性的温度参数，即拉格朗日乘数，表示改变分布的影子价格，代表选择策略。

决策的经济模型通常被认为是假设模型。行为符合优化标准这一事实并不意味着实际的优化过程会导致这种行为。同样，我们可以将信息理论的有限理性模型视为一个假设模型，其中决策者的行为就像是在效用和信息成本之间进行权衡，或者像是在信息处理约束下优化效用。相反，当设计一个最优决策者（例如，机器人中的规划算法）时，通常效用函数由工程师提供，动作由系统在优化过程后选择。在这里，我们可以将信息理论的有限理性模型视为一种在资源耗尽时停止的任何时间的最优搜索。然而，最重要的是，无论人们是否将效用函数视为行为的因果关系，有限理性决策并不一定意味着优化一个比原始无约束问题更难解决的约束优化问题，但决策者可以被视为优化效用，直到资源耗尽，从而隐式优化约束问题。

致谢

这项研究得到了德国Forschungsgemeinschaft，Emmy Noether Grant BR4164/1-1的支持。

作者贡献

丹尼尔·布劳恩和佩德罗·奥尔特加构思并撰写了这篇论文。两位作者均已阅读并批准了最终手稿。

利益冲突

作者声明没有利益冲突。

工具书类

Gintis，H.行为科学统一框架。行为。脑科学 2006,30, 1–61. [谷歌学者]
罗素，S。；Norvig，P。人工智能：一种现代方法第1版。；普伦蒂斯·霍尔：恩格尔伍德悬崖，新泽西州，美国，1995年。[谷歌学者]
D.M.克雷普斯。关于选择理论的注记; 威斯特维尤出版社：美国科罗拉多州博尔德，1988年。[谷歌学者]
Trommershauser，J。；马洛尼，L.T。；Landy，M.S.决策、运动规划和统计决策理论。趋势认知。科学 2008,12, 291–297. [谷歌学者]
D.A.布劳恩。；A.J.Nagengast。；Wolpert，D.感觉运动控制中的风险敏感性。前面。嗯，神经科学 2011,5. [谷歌学者] [交叉参考]
Wolpert，医学博士。；兰迪，M.S.电机控制是决策。货币。操作。神经生物学 2012,22，996年至1003年。[谷歌学者]
菲什伯恩，P。预期效用的基础; D.Reidel出版社：荷兰多德雷赫特出版社，1982年。[谷歌学者]
Neumann，J.V。；O.摩根斯顿。博弈论与经济行为; 普林斯顿大学出版社：美国新泽西州普林斯顿，1944年。[谷歌学者]
Simon，H.A.理性选择与环境结构。心理学。利润 1956,63, 129–138. [谷歌学者]
西蒙·H·有限理性理论。在决策和组织; McGuire，C.B.，Radner，R.，编辑。；北荷兰酒吧。公司：荷兰阿姆斯特丹，1972年；第161-176页。[谷歌学者]
H·西蒙。有限理性模型; 麻省理工学院出版社：美国马萨诸塞州剑桥，1984年。[谷歌学者]
Aumann，R.J.《理性与有限理性》。游戏经济。贝哈夫 1997,21, 2–14. [谷歌学者]
A.鲁宾斯坦。有限理性建模; 麻省理工学院出版社：美国马萨诸塞州剑桥，1998年。[谷歌学者]
卡尼曼，D.《有限理性地图：行为经济学心理学》。美国经济。利润 2003,93, 1449–1475. [谷歌学者]
R.D.McKelvey。；Palfrey，T.R.常态博弈的量子响应平衡。游戏经济。贝哈夫 1995,10, 6–38. [谷歌学者]
麦克尔维，R。；Palfrey，T.R.《广义形式游戏的量子响应平衡》。支出经济 1998,1，9–41。[谷歌学者]
Wolpert，D.H.信息论——连接有界理性博弈论和统计物理的桥梁。在复杂工程系统; Braha，D.，Minai，A.A.，Bar-Yam，Y.，编辑。；施普林格：德国柏林/海德堡，2006年；第262-290页。[谷歌学者]
斯皮格勒，R。有限理性与产业组织; 牛津大学出版社：英国牛津，2011年。[谷歌学者]
B.D.Jones，《有限理性政治科学：公共行政和公共政策的教训》。J.公共行政研究理论 2003,13, 395–412. [谷歌学者]
Gigerenzer，G。；塞尔滕，R。有限理性：适应性工具箱; 麻省理工学院出版社：剑桥，马萨诸塞州，美国，2001年。[谷歌学者]
卡梅勒，C。行为博弈理论：战略互动实验; 普林斯顿大学出版社：美国新泽西州普林斯顿，2003年。[谷歌学者]
豪斯，A。；刘易斯，R。；任务和加工约束下的理性适应：对认知和行动理论测试的启示。心理学。修订版 2009,116, 717–751. [谷歌学者]
詹森，C.P。；布鲁比，D.P。；道尔，J。；查特，N。；Howes，A.使用自主任务交错的认知有界理性分析模型确定最佳性能权衡。顶部。认知。科学 2011,三, 123–139. [谷歌学者]
刘易斯，R。；豪斯，A。；计算理性：通过有限效用最大化将机制和行为联系起来。顶部。认知。科学 2014，正在印刷中。[谷歌学者]
信息处理与有限理性：一项调查。可以。J.经济 1995,28, 42–67. [谷歌学者]
罗素，S.理性与智慧。第十四届国际人工智能联合会议记录，加拿大蒙特利尔，1995年8月20日至25日；摩根·考夫曼：美国加利福尼亚州旧金山，1995年；第950–957页。[谷歌学者]
罗素，S。；Subramanian，D.可靠的有界最优代理。J.人工制品。智力。雷斯 1995,三, 575–609. [谷歌学者]
Glimcher，P。；费尔，E。；卡梅勒，C。；波德拉克，R。神经经济学：决策与大脑; 爱思唯尔科学：荷兰阿姆斯特丹，2008年。[谷歌学者]
Friston，K。；施瓦滕贝克，P。；菲茨杰拉德，T。；驼峰，M。；Behrens，T。；Dolan，R.J.《选择的解剖：主动推理和能动性》。前面。嗯，神经科学 2013,7. [谷歌学者] [交叉参考]
Dixon，H。关于经济理论和人工智能的一些想法。在人工智能与经济分析：前景与问题; Moss，S.，Rae，J.，编辑。；爱德华·埃尔加出版社：英国切尔滕纳姆出版社，1992年；第131-154页。[谷歌学者]
奥尔特加，P。；效用和信息之间的转换。2010年3月5日至8日在瑞士卢加诺举行的第三届人工智能会议记录；亚特兰蒂斯出版社：法国巴黎，2010年；第115-120页。[谷歌学者]
奥尔特加，P.A。；信息、效用和有限理性。在通用人工智能; 2011年8月3日至6日在美国加利福尼亚州山景城举行的第四届人工智能国际会议（AGI 2011），Schmidhuber，J.，Thórisson，K.R.，Looks，M.编辑。；人工智能课堂讲稿，第6830卷；施普林格：德国柏林/海德堡，2011年；第269-274页。[谷歌学者]
D.A.布劳恩。；奥尔特加，P.A。；Theodorou，E。；Schaal，S.路径积分控制与有限理性。IEEE自适应动态规划和强化学习研讨会论文集，法国巴黎，2011年4月11日至15日；第202-209页。
奥尔特加，P.A。；Braun，D.A.热力学是一种具有信息处理成本的决策理论。程序。R.Soc.A公司 2013,469. [谷歌学者] [交叉参考]
Wolpert，D。；哈雷，M。；北伯辛格。；Olbrich，E。；Jost，J.非合作博弈参数变化的滞后效应。物理学。版本E 2012,85, 036102. [谷歌学者]
卢斯，R。个人选择行为; 威利：英国牛津，1959年。[谷歌学者]
McFadden，D.定性选择行为的条件逻辑分析。在计量经济学的前沿; Zarembka，P.，编辑。；学术出版社：纽约，纽约，美国，1974年；第105–142页。[谷歌学者]
一类新的赌博对称效用规则、主观边际概率函数和广义贝叶斯规则。在1976年美国统计协会会议录，商业和经济统计科; 美国统计协会：华盛顿特区，美国，1976年；第471-476页。[谷歌学者]
福登堡，D。；Kreps，D.学习混合均衡。游戏经济。贝哈夫 1993,5, 320–367. [谷歌学者]
萨顿，R。；A.巴托。强化学习：简介; 麻省理工学院出版社：美国马萨诸塞州剑桥，1998年。[谷歌学者]
卢斯，R。收益和损失的效用：测量理论和实验方法; 埃尔鲍姆：马哈瓦，新泽西州，美国，2000年。[谷歌学者]
火车，K。离散选择方法及其仿真第2版。；剑桥大学出版社：英国剑桥，2009年。[谷歌学者]
杜桑，M。；哈梅林，S。；A.斯托基。求解（PO）MDP的概率推理; 技术报告；爱丁堡大学：英国爱丁堡，2006年。[谷歌学者]
奥尔特加，P.A。；Braun，D.A.学习和行动的最小相对熵原则。J.人工制品。智力。雷斯 2010,38, 475–511. [谷歌学者]
自由能量原理：统一的大脑理论？神经科学自然评论 2010,11, 127–138. [谷歌学者]
蒂什比，N。；Polani，D.《决策与行动的信息理论》。在感知-推理-行动循环：模型、算法和系统; Vassilis，H.T.，编辑。；施普林格：德国柏林，2011年。[谷歌学者]
Kappen，H。；Gómez，V。；Opper，M.最优控制是一个图形模型推理问题。机器。学习 2012,1, 1–11. [谷歌学者]
Vijayakumar，S。；罗利克，K。；Toussant，M.论通过近似推理的随机最优控制和强化学习。《机器人学学报：科学与系统》，澳大利亚悉尼，2012年7月9日至13日；麻省理工学院出版社：美国马萨诸塞州剑桥市，2013年。[谷歌学者]
奥尔特加，P.A。；Braun，D.A.自由能和序列决策的广义最优性方程。第十届强化学习欧洲研讨会会议记录，2012年6月30日至7月1日，苏格兰爱丁堡。
奥尔特加，P.A。；Braun，D.A.序列决策和因果推理的广义汤普森抽样。复杂Adap。系统。型号 2014,5, 269–274. [谷歌学者]
奥尔特加，P.A。；D.A.布劳恩。；Tishby，N.广义最优性方程精确有效解的蒙特卡罗方法。2014年5月31日至6月5日，中国香港，IEEE机器人与自动化国际会议（ICRA）会议记录。
奥尔，P。；塞萨·比安奇，N。；弗洛伊德，Y。；Schapire，R.E.在一个作弊的赌场赌博：对抗性的多武器匪徒问题。IEEE第36届计算机科学基础年会论文集，密尔沃基，威斯康星州，美国，1995年10月23日至25日；第322–331页。
弗伦德，Y。；Schapire，R.E.《在线学习的决策理论推广及其在提升中的应用》。J.计算。系统。科学 1997,55, 119–139. [谷歌学者]
费曼，R.P。费曼计算讲座; 艾迪森·韦斯利：美国马萨诸塞州波士顿，1996年。[谷歌学者]
福登堡，D。；D.莱文。游戏学习理论; 麻省理工学院出版社：美国马萨诸塞州剑桥，1998年。[谷歌学者]
诺姆，N。；拉夫加登，T。；埃瓦·T。；瓦齐拉尼，V。算法博弈论; 剑桥大学出版社：英国剑桥，2007年。[谷歌学者]
福登堡，D。；莱文，D.K.一致性和谨慎的虚构游戏。《经济学杂志》。动态。控制 1995,19, 1065–1089. [谷歌学者]

分享和引用

MDPI和ACS样式

布劳恩，地方检察官。；P.A.奥尔特加。信息论有界理性与ε-最优性。熵 2014,16, 4662-4676.https://doi.org/10.3390/e16084662

AMA风格

宾夕法尼亚州奥尔特加市Braun DA。信息论有界理性与ε-最优性。熵. 2014; 16(8):4662-4676.https://doi.org/10.3390/e16084662

芝加哥/图拉宾风格

Daniel A.Braun和Pedro A.Ortega。2014.“信息论有限理性与ε-最优”熵第16页，第8页：4662-4676。https://doi.org/10.3390/e16084662

文章菜单