跳到主要内容
文章

结合重要性抽样和时差控制变量来模拟马尔可夫链

出版:2004年1月1日出版历史
跳过抽象节

摘要

众所周知,在估计与随机系统相关的性能度量时,好的重要性抽样分布(is)可以给出方差减少的数量级,而坏的重要抽样分布可能导致较大甚至无限的方差。本文将重要性抽样与基于随机近似的时间差分(TD)方法相结合,研究了如何“减弱”估计方差对测度重要抽样变化的敏感性。我们考虑一个有限状态空间离散时间马尔可夫链(DTMC),该链具有一步转移报酬和一组吸收状态,并着重估计从任何状态开始的累积期望报酬到吸收。在这种情况下,我们发展了充分的条件,在这种条件下,即使仅使用重要抽样测量变化形成的估计具有无限方差,由组合方法产生的估计也具有渐近等于零的均方误差。特别地,我们考虑了排队网络中小缓冲区溢出概率的估计问题,其中,文献中建议的度量变化在某些参数下具有无穷大的方差,并且与朴素模拟相比,可以从经验上看出is和TD方法的适当组合具有更快的收敛速度。

工具书类

  1. Andradottir,S.、Heyman,D.和Ott,T.J.,1993年。通过平滑和控制变量减少马尔可夫链模拟的方差。ACM事务处理。国防部。计算。西姆。3, 3, 167--189.谷歌学者谷歌学者
  2. Andradottir,S.、Heyman,D.和Ott,T.J.,1995年。马尔可夫链重要性抽样中替代测度的选择。运营商。第43、3、509--519号决议。谷歌学者谷歌学者
  3. Bertsekas,D.和Tsitsiklis,J.,1996年。神经动力学编程。Athena Scientific,马萨诸塞州贝尔蒙特。谷歌学者谷歌学者
  4. Billingsley,P.1995年。概率与测度。John Wiley&Sons,纽约州纽约市。谷歌学者谷歌学者
  5. Borkar,V.和Meyn,S.,2000年。随机逼近和强化学习收敛的o.d.e.方法。SIAM J.控制。选择。38, 2, 347--469.谷歌学者谷歌学者
  6. Bratley,P.、Fox,B.和Schrage,L.1987年。模拟指南。Springer-Verlag,纽约州纽约市。谷歌学者谷歌学者
  7. Crane,M.和Iglehart,D.1975。模拟稳定随机系统,iii:再生过程和离散事件模拟。运营商。第23号决议,第33-45号决议。谷歌学者谷歌学者
  8. Dembo,A.和Zeitouni,O.1992年。大偏差技术和应用。Jones和Bartlett,马萨诸塞州波士顿。谷歌学者谷歌学者
  9. Frater,M.、Lennon,T.和Anderson,B.1991年。排队网络中罕见事件统计的最优有效估计。IEEE传输。自动化。合同。36, 12, 1395--1404.谷歌学者谷歌学者
  10. Glasserman,P.和Kou,S.1995年。串联队列重要抽样估计的分析。ACM事务处理。国防部。计算。西姆。5, 1, 22--42.谷歌学者谷歌学者
  11. Glasserman,P.和Wang,Y.,1997年。大偏差概率重要性抽样的反例。附录申请。探针。7, 731--746.谷歌学者谷歌学者
  12. Glynn,P.和Iglehart,D.1989年。随机模拟的重要性抽样。管理。科学。第351367-1392页。谷歌学者谷歌学者
  13. 海德堡,P.1977。模拟马尔可夫链的方差减少技术。1977年冬季模拟会议记录。谷歌学者谷歌学者
  14. 海德堡,P.1980a。马尔可夫过程模拟的方差减少技术,i:多重估计。IBM J.Res.Develop公司。24, 570--581.谷歌学者谷歌学者
  15. 海德堡,P.1980b。马尔可夫过程模拟的方差减少技术,ii:矩阵迭代方法。信息学报13,21-37。谷歌学者谷歌学者
  16. 海德堡,P.1995。队列和可靠性模型中罕见事件的快速模拟。ACM事务处理。模型。计算。西姆。5, 1, 43--85.谷歌学者谷歌学者
  17. Hseih,M.和Glynn,P.,2002年。随机近似算法的置信域。2002年冬季模拟会议记录。370--376.谷歌学者谷歌学者
  18. Juneja,S.2001年。重要性抽样和循环方法。运营商。第49、6、900--912号决议。谷歌学者谷歌学者
  19. 2003年6月,S。使用重要性抽样的高效罕见事件模拟:简介。《计算数学、建模和算法》,J.C.Misra主编,印度新德里纳罗莎出版社,357-396。谷歌学者谷歌学者
  20. Juneja,S.和Shahabuddin,P.,2001年。具有小转移概率的马尔可夫链的有效模拟。管理。科学。第47页,第4757-562页。谷歌学者谷歌学者
  21. Kushner,H.和Yin,G.1997年。随机逼近算法及其应用。Springer-Verlag,纽约州纽约市。谷歌学者谷歌学者
  22. Parekh,S.和Walrand,J.1989年。队列网络中过量积压的快速模拟方法。IEEE传输。自动化。合同。34, 1, 54--66.谷歌学者谷歌学者
  23. Precup,D.、Sutton,R.和Singh,S.,2000年。非保单政策评估的资格跟踪。第17届国际机器学习会议(ICML'00)论文集。摩根·考夫曼,加利福尼亚州旧金山,759-766。谷歌学者谷歌学者
  24. Rubinstein,R.1997年。具有罕见事件的计算机模拟模型的优化。欧洲J.操作。第99号决议、第89-112号决议。谷歌学者谷歌学者
  25. Rubinstein,R.1999年。通过交叉熵和重要性抽样进行罕见事件模拟。第二次罕见事件模拟研讨会(RESIM'99)。1--17.谷歌学者谷歌学者
  26. Singh,S.和Dayan,P.1998年。时间差分学习的分析均方误差曲线。机器。学习。32, 5--40.谷歌学者谷歌学者
  27. Singh,S.和Sutton,R.,1996年。通过替换资格痕迹强化学习。机器。学习。22, 123--158.谷歌学者谷歌学者
  28. Sutton,R.1988年。学习通过时间差异的方法进行预测。机器。学习。3, 9--44.谷歌学者谷歌学者
  29. Sutton,R.和Barto,A.1998年。强化学习:简介。麻省理工学院出版社,马萨诸塞州剑桥。谷歌学者谷歌学者

索引术语

  1. 结合重要性抽样和时差控制变量来模拟马尔可夫链

          建议

          评论

          登录选项

          检查您是否可以通过登录凭据或您的机构访问本文。

          登录

          完全访问权限

          PDF格式

          以PDF文件查看或下载。

          PDF格式

          电子阅读器

          使用eReader联机查看。

          电子阅读器