文章

结合重要性抽样和时差控制变量来模拟马尔可夫链

作者：
R.S.兰德哈瓦

斯坦福大学，加利福尼亚州斯坦福

斯坦福大学，加利福尼亚州斯坦福
查看个人资料

,
S.朱内加

印度孟买塔塔基础研究所

印度孟买塔塔基础研究所
查看个人资料

作者信息和声明

美国计算机学会模型和计算机仿真汇刊第14卷第1版第1-30页https://doi.org/10.1145/974734.974735

出版：2004年1月1日出版历史

美国计算机学会模型和计算机仿真汇刊

摘要

众所周知，在估计与随机系统相关的性能度量时，好的重要性抽样分布（is）可以给出方差减少的数量级，而坏的重要抽样分布可能导致较大甚至无限的方差。本文将重要性抽样与基于随机近似的时间差分（TD）方法相结合，研究了如何“减弱”估计方差对测度重要抽样变化的敏感性。我们考虑一个有限状态空间离散时间马尔可夫链（DTMC），该链具有一步转移报酬和一组吸收状态，并着重估计从任何状态开始的累积期望报酬到吸收。在这种情况下，我们发展了充分的条件，在这种条件下，即使仅使用重要抽样测量变化形成的估计具有无限方差，由组合方法产生的估计也具有渐近等于零的均方误差。特别地，我们考虑了排队网络中小缓冲区溢出概率的估计问题，其中，文献中建议的度量变化在某些参数下具有无穷大的方差，并且与朴素模拟相比，可以从经验上看出is和TD方法的适当组合具有更快的收敛速度。

工具书类

Andradottir，S.、Heyman，D.和Ott，T.J.，1993年。通过平滑和控制变量减少马尔可夫链模拟的方差。ACM事务处理。国防部。计算。西姆。3, 3, 167--189.谷歌学者
Andradottir，S.、Heyman，D.和Ott，T.J.，1995年。马尔可夫链重要性抽样中替代测度的选择。运营商。第43、3、509--519号决议。谷歌学者
Bertsekas，D.和Tsitsiklis，J.，1996年。神经动力学编程。Athena Scientific，马萨诸塞州贝尔蒙特。谷歌学者
Billingsley，P.1995年。概率与测度。John Wiley&Sons，纽约州纽约市。谷歌学者
Borkar，V.和Meyn，S.，2000年。随机逼近和强化学习收敛的o.d.e.方法。SIAM J.控制。选择。38, 2, 347--469.谷歌学者
Bratley，P.、Fox，B.和Schrage，L.1987年。模拟指南。Springer-Verlag，纽约州纽约市。谷歌学者
Crane，M.和Iglehart，D.1975。模拟稳定随机系统，iii：再生过程和离散事件模拟。运营商。第23号决议，第33-45号决议。谷歌学者
Dembo，A.和Zeitouni，O.1992年。大偏差技术和应用。Jones和Bartlett，马萨诸塞州波士顿。谷歌学者
Frater，M.、Lennon，T.和Anderson，B.1991年。排队网络中罕见事件统计的最优有效估计。IEEE传输。自动化。合同。36, 12, 1395--1404.谷歌学者
Glasserman，P.和Kou，S.1995年。串联队列重要抽样估计的分析。ACM事务处理。国防部。计算。西姆。5, 1, 22--42.谷歌学者
Glasserman，P.和Wang，Y.，1997年。大偏差概率重要性抽样的反例。附录申请。探针。7, 731--746.谷歌学者
Glynn，P.和Iglehart，D.1989年。随机模拟的重要性抽样。管理。科学。第351367-1392页。谷歌学者
海德堡，P.1977。模拟马尔可夫链的方差减少技术。1977年冬季模拟会议记录。谷歌学者
海德堡，P.1980a。马尔可夫过程模拟的方差减少技术，i：多重估计。IBM J.Res.Develop公司。24, 570--581.谷歌学者
海德堡，P.1980b。马尔可夫过程模拟的方差减少技术，ii：矩阵迭代方法。信息学报13，21-37。谷歌学者
海德堡，P.1995。队列和可靠性模型中罕见事件的快速模拟。ACM事务处理。模型。计算。西姆。5, 1, 43--85.谷歌学者
Hseih，M.和Glynn，P.，2002年。随机近似算法的置信域。2002年冬季模拟会议记录。370--376.谷歌学者
Juneja，S.2001年。重要性抽样和循环方法。运营商。第49、6、900--912号决议。谷歌学者
2003年6月，S。使用重要性抽样的高效罕见事件模拟：简介。《计算数学、建模和算法》，J.C.Misra主编，印度新德里纳罗莎出版社，357-396。谷歌学者
Juneja，S.和Shahabuddin，P.，2001年。具有小转移概率的马尔可夫链的有效模拟。管理。科学。第47页，第4757-562页。谷歌学者
Kushner，H.和Yin，G.1997年。随机逼近算法及其应用。Springer-Verlag，纽约州纽约市。谷歌学者
Parekh，S.和Walrand，J.1989年。队列网络中过量积压的快速模拟方法。IEEE传输。自动化。合同。34, 1, 54--66.谷歌学者
Precup，D.、Sutton，R.和Singh，S.，2000年。非保单政策评估的资格跟踪。第17届国际机器学习会议（ICML'00）论文集。摩根·考夫曼，加利福尼亚州旧金山，759-766。谷歌学者
Rubinstein，R.1997年。具有罕见事件的计算机模拟模型的优化。欧洲J.操作。第99号决议、第89-112号决议。谷歌学者
Rubinstein，R.1999年。通过交叉熵和重要性抽样进行罕见事件模拟。第二次罕见事件模拟研讨会（RESIM'99）。1--17.谷歌学者
Singh，S.和Dayan，P.1998年。时间差分学习的分析均方误差曲线。机器。学习。32, 5--40.谷歌学者
Singh，S.和Sutton，R.，1996年。通过替换资格痕迹强化学习。机器。学习。22, 123--158.谷歌学者
Sutton，R.1988年。学习通过时间差异的方法进行预测。机器。学习。3, 9--44.谷歌学者
Sutton，R.和Barto，A.1998年。强化学习：简介。麻省理工学院出版社，马萨诸塞州剑桥。谷歌学者

索引术语

结合重要性抽样和时差控制变量来模拟马尔可夫链
1. 计算方法
  1. 建模与仿真
2. 计算数学
  1. 概率与统计
    1. 概率算法
    2. 概率推理算法
      1. Markov-chain Monte Carlo方法
      2. 序贯蒙特卡罗方法

建议

随机规划中的重要抽样：马尔可夫链蒙特卡罗方法

随机规划模型是用于促进不确定性下决策的大规模优化问题。针对此类问题的优化算法需要评估当前决策的预期未来成本，通常指。。。
阅读更多信息
离散时间马尔可夫链的最优重要抽样
QEST’05：第二届系统定量评估国际会议记录

重要性抽样是一种方差减少技术，用于通过改变度量值进行有效模拟。特别是，它可以应用于马尔可夫链的罕见事件模拟。测量的最佳变化总是产生零方差估计量。。。
阅读更多信息
随机模拟的重要性抽样

重要性抽样是一种经典的方差减少技术，用于提高蒙特卡罗算法估计积分的效率。其基本思想是用一种新的随机机制取代模拟中原有的随机机制，并在模拟过程中对随机机制进行改进。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

美国计算机学会模型和计算机仿真汇刊第14卷第1期
2004年1月
114页
国际标准编号：1049-3301
EISSN公司：1558-1195
内政部：10.1145/974734
期刊目录

版权所有©2004 ACM
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2004年1月1日
发布于托马斯第14卷第1期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
重要性抽样
马尔可夫链
罕见事件
随机近似
时间差分法
方差减少
限定符
- 文章
会议
资金来源
其他指标
查看文章指标

文章指标
- 19
  引文总数
  查看引文
- 942
  总下载次数
- 下载次数（过去12个月）6
- 下载次数（最近6周）2
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

结合重要性抽样和时差控制变量来模拟马尔可夫链

美国计算机学会模型和计算机仿真汇刊

摘要

工具书类

引用人

索引术语

建议

随机规划中的重要抽样：马尔可夫链蒙特卡罗方法

离散时间马尔可夫链的最优重要抽样

随机模拟的重要性抽样

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

结合重要性抽样和时差控制变量来模拟马尔可夫链

美国计算机学会模型和计算机仿真汇刊

摘要

工具书类

引用人

索引术语

建议

随机规划中的重要抽样：马尔可夫链蒙特卡罗方法

离散时间马尔可夫链的最优重要抽样

随机模拟的重要性抽样

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享