马尔可夫链中的几何方差约简:在值函数和梯度估计中的应用
雷米·穆诺斯; 7(14):413−427, 2006.
摘要
我们研究了蒙特卡罗估计的方差缩减技术马尔可夫链中的泛函。该方法基于设计顺序控制变量使用连续近似利益的功能V(V)常规蒙特卡罗估计有的变化O(1/N),其中N个是采样轨迹的数量马尔可夫链。这里,我们得到了一个几何方差缩减O(ρN个)(ρ<1)达到取决于近似误差V-AV视频,其中一个是一个近似操作人员值呈线性。因此,如果V(V)属于权利近似空间(即。平均电压=伏),方差呈几何递减至零。
一个直接的应用是马尔可夫链中的值函数估计,可用于策略迭代算法中的策略评估用于求解马尔可夫决策过程。
另一个非常需要减少方差的重要领域,是梯度估计,即计算灵敏度∂αV(V)绩效指标的V(V)关于一些参数α转移概率。例如,在策略参数中优化,需要计算策略梯度的估计值执行梯度优化方法。
我们证明,使用两个近似值价值函数和梯度,还实现了几何方差减少,达到取决于两者近似误差的阈值这些陈述。
[腹肌]
[pdf格式][围兜]