2.方法
大多数决策模型忽略了信息处理成本,并假设决策者可以简单地手工选择产生最高(预期)效用的操作。假设有一个唯一的最大值,这将对应于确定性策略,如方程式(1)然而,一般来说,信息处理能力有限的决策者可能无法确定地选择最佳方案。因此,这种有界理性策略必须用概率分布来描述对(一我)反映了这种不确定性。有限理性决策的信息论模型通过信息熵度量量化信息处理成本[15–17,31–35]与softmax选择规则密切相关,这些规则在心理学和计量经济学文献中得到了广泛研究,也在强化学习和博弈论文献中得到广泛研究[36–42]. 在[31–34]Ortega和Braun讨论了有限理性决策的信息理论模型,其中信息处理成本由相对熵量化,信息处理成本可以根据选择策略的变化进行测量对(一我). 假设决策者的初始策略可以用概率分布来描述对0(一我). 这可能包括一我作为一种特殊情况,如果决策者在不同的行动之间没有事先的偏好。接下来,这个决策者将暴露于一个效用函数V(V)(一我),包括以下情况V(V)(一我) =E类[U型|一我]这意味着决策者不必计算期望值,而只需简单地给出期望值。理想情况下,决策者将获得新的分配对(一我) =δ一我,一最大值。可以将底层计算想象为一个搜索过程,通过以下方式减少操作的不确定性D类吉隆坡[对||对0]=∑我 对(一我)日志[对(一我)/对0(一我)]. 总的来说,这样的搜索成本高昂,决策者可能无法承受如此明显的不确定性减少。假设价格1/α对于1一点对于信息增益,我们可以设计一个有界的最优决策者,该决策者权衡因对(一我)与这些变化所暗示的搜索成本相比,总的来说,决策者优化了效用收益和信息成本中的自由能源差异:
其中最大化分布对=arg最大值P̃Δ如果[P̃]是平衡分布:
并且表示经过深思熟虑后的选择概率。注意自由能差Δ如果[P̃]可以表示为Δ如果[P̃] =如果1[P̃] −如果0,自由能:
哪里对0(一我)=经验(α(Φ0(一我) −如果0))和V(V)(一我)=Φ1(一我) − Φ0(一我). 因此,效用函数V(V)(一我)表示价值Φ的变化,即相对于现状的收益或损失。在推理的情况下,效用函数由负对数似然给出,并度量信息惊喜。然后,温度参数对应于指数族分布中的精确参数。将充当推理问题的问题转换为先前在中讨论过的问题[43–48]. 确定性等价值V(V)总工程师在战略之下对可以根据相同的变分原理确定: 对于α,值和平衡分布采用渐近形式:
可以看出,一个完全理性的代理人α→ ∞ 能够手动选择最优操作,这是唯一最优情况下的确定策略,而有限理性代理具有随机策略,选择次优操作的概率不为零。
在这种情况下V(V)(一我)并不是简单地给出,决策者必须自己根据之前的值计算期望值对0(o个j个|一我)以及实用程序U型(o个j个),因此搜索成本必须同时考虑一我和o个j个然后,变分问题可以表示为嵌套表达式[32,34,49]: 如果我们假设预期效用的估计V(V)(一我)比最优行动的计算要便宜得多,然后是价格1/β应大大低于1/α,因此α≫β这意味着我们可以简单地从对0(o个j个|一我)用于计算期望值,但计算起来要困难得多一我,因为我们不能简单地依赖我们的先验知识对0(一我). 嵌套变分问题的两部分解如下所示:
使用归一化常数:Z轴β(一我)=∑j个 对0(o个j个|一我)经验(βU(o个j个))和:
使用归一化常数:.完全理性的决策者是在极限中获得的α→ ∞ 和β→ 0,即:
有限理性决策的信息理论模型的计算复杂性也可以用抽样复杂性来解释[50,51]. 特别地,方程式(4)可以根据拒绝抽样方案进行解释,我们希望从中获取样本对(一我),但我们只能从分布中取样对0(一我). 在这个方案中,我们生成了一个示例一我~对0(一我)然后接受样品,如果: 哪里u个是从制服中提取的 [0;1]和T型是验收目标值T型≥最大值我 V(V)(一我). 否则,样品将被拒收。采样过程的效率取决于我们平均需要多少样本对0从中获取一个样本对。此平均样本数来自对0需要一个样品对由几何分布的平均值给出: 值得注意的是,样本的平均数量随着合理性参数的增加呈指数级增加,如下所示:
哪里一最大值=arg最大值V(V)(x个)以及T型>最大值我 U型(一我).
就采样复杂性而言,这种解释也可以扩展到方程式(6),其中决策者必须从样本中估计预期效用。符合方程式(8),我们应该接受样品一我~对0(一我)如果满足标准: 哪里u个~ [0;1]和.来自方程式(11),我们知道比率Z轴β(一我)/e(电子)βT可以解释为接受概率;在这种情况下θ~对0(θ). 因此,为了从x个,我们需要接受连续样本θ,验收标准: 具有u个~ [0;1]和T型如上所述。 3.结果
在这里,我们研究了一个有界理性决策者如何接近完美理性决策者实现的最佳(预期)效用的问题。由于我们假设有界理性决策者的策略本质上是随机的,并且可以用概率分布来描述,根据方程式(4),我们只能比较有限理性决策者和完全理性决策者的绩效的一些统计指标。在下文中,我们将考虑预期性能。 定理1(ε-最优化).
给定一个具有信息成本的有限理性决策者1/优化的α(三),我们可以将决策者的预期绩效从下面限定在ε内-最优性能V的邻域最大值=最大值我 E类[U型|一我]完全理性的决策者,这样: 证明
确定性等价值V(V)总工程师在有限理性策略下对(一我)由以下人员提供:
哪里从Kullback–Leibler散度的积极性来看,可以得出以下结论:
作为推论,我们可以得出一致先验的特殊情况对0(一我) = 1/M(M)那个ε-bound由给定ε= 1/α日志M(M)相反,如果给定ε>0,存在,以便α≥ᾱ,所做的任何决策都会在最佳的ε内产生效用。
在以下情况下(6)有限理性决策者必须通过抽样来确定期望效用,而上述下限已无法保证。而不是预期的公用设施V(V)(一我) =E类[U型|一我],这样的决策者优化了“扭曲的”确定性等价值: 具有Z轴β(一我)来自方程式(7)。仅适用于β→ 0,期望值Ṽ(一我) →E类[U型|一我]保留。由于,这样一个积极的决策者β会高估次优行动的确定当量一我.对于小型β≪1,确定等价值可以通过泰勒展开式近似β: 哪里O(运行)(β2)是可以忽略的高阶累积量。根据定理1,我们得到:
从中我们可以得出极限β≪1和α≫β即:
对于这样一个有界理性决策者,误差界会随着高阶累积量的增加而增加。
如果所有(预期的)实用程序V(V)(一我)在数量级上非常相似,这需要一个高合理性参数α以区分它们。一个更紧的ε-绑定在α如果我们假设有一个区间V(V)(一我) ∈ [V(V)最小值;V(V)最大值]并且所有实用程序都可以通过至少一个“utile”来区分,因此对于任何选择一我和一k个,我们有|V(V)(一我)−V(V)(一k个)|≥1,例如,当公用事业反映等级时。
定理2(ε-排名实用程序的最佳性).
给定一个具有信息成本的有限理性决策者1/优化的α 方程式(3) 假设一个统一的先验P0(一我) = 1/M(M),有界(预期)实用程序V(一我) ∈ [V(V)最小值;V(V)最大值]就我和|V(V)(一我) −V(V)(一k个)| ≥ 1每一双(我,k个),我们可以将决策者的预期绩效从下面限定在ε内-最优性能V的邻域最大值=最大值我 E类[U型|一我]完全理性的决策者,例如: 证明
我们表示选择概率对(一我)派生自方程式(4)在均匀先验下对0(一我) = 1/M(M)作为: 在这里我们引入了变量δ=经验(−α). 然后,我们可以将预期性能表示为:
其中不等式是通过去掉最大和,然后找到剩余项的下限来获得的。最后一个等式中的第二个被加数可以进一步定界为:
因为我们可以限制来自|V(V)(一我) −V(V)(一k个)| ≥ 1 ∀我,k个几何级数的极限性质。因此,我们有:
作为推论,我们可以得出最小区间大小的结论[V(V)最小值;V(V)最大值] = [V(V)最小值;V(V)最小值+M(M)]性能界限由∑给出我 对(一我)V(V)(一我) ≥V(V)最大值负极e(电子)负极α M(M)相反,如果给定ε>0,存在,以便α≥ᾱ,所做的任何决策都会在最佳的ε范围内产生效用。