主页

文件

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

马尔可夫链中的几何方差约简:在值函数和梯度估计中的应用

雷米·穆诺斯; 7(14):413−427, 2006.

摘要

我们研究了蒙特卡罗估计的方差缩减技术马尔可夫链中的泛函。该方法基于设计顺序控制变量使用连续近似利益的功能V(V)常规蒙特卡罗估计有的变化O(1/N),其中N个是采样轨迹的数量马尔可夫链。这里,我们得到了一个几何方差缩减O(ρN个)(ρ<1)达到取决于近似误差V-AV视频,其中一个是一个近似操作人员值呈线性。因此,如果V(V)属于权利近似空间(即。平均电压=伏),方差呈几何递减至零。

一个直接的应用是马尔可夫链中的值函数估计,可用于策略迭代算法中的策略评估用于求解马尔可夫决策过程。

另一个非常需要减少方差的重要领域,是梯度估计,即计算灵敏度αV(V)绩效指标的V(V)关于一些参数α转移概率。例如,在策略参数中优化,需要计算策略梯度的估计值执行梯度优化方法。

我们证明,使用两个近似值价值函数梯度,还实现了几何方差减少,达到取决于两者近似误差的阈值这些陈述。

[腹肌][pdf格式][围兜]      
©JMLR公司2006(编辑,贝塔)

乳臭虫