[1] |
M.G.Bellemare,W.Dabney,R.Munos,《强化学习的分布视角》国际机器学习会议, (2017), 449–458. |
[2] |
M.G.Bellemare、W.Dabney、M.Rowland、,分布强化学习麻省理工学院出版社,2023年。 |
[3] |
M.L.Puterman,马尔可夫决策过程:离散随机动态规划,John Wiley&Sons,Inc.,纽约,1994年。https://doi.org/10.1002/9780470316887
|
[4] |
M.Rowland,M.Bellemare,W.Dabney,R.Munos,Y.W.Teh,分类分布强化学习分析国际人工智能与统计会议, (2018), 29–37. |
[5] |
E.Krasheninikova,J.García,R.Maestre,F.Fernández,保险业定价策略优化的强化学习,工程应用。Artif公司。智力。,80(2019), 8–19. https://doi.org/10.1016/j.engappai.2019.01.010数字对象标识:10.1016/j.engappai.2019.01.010
|
[6] |
P.N.Kolm,G.Ritter,《金融强化学习的现代视角》,J.马赫。学习。财务,1(2019).https://doi.org/10.2139/ssrn.3449401
|
[7] |
P.Embrechts、C.Klüppelberg、T.Mikosch、,极端事件建模:保险和金融《施普林格-弗拉格》,柏林,1997年。https://doi.org/10.1007/978-3-642-33483-2
|
[8] |
V.Zhuang,Y.Sui,无回报强化学习与重奖,in第24届国际人工智能与统计会议记录, (2021), 3385–3393. |
[9] |
A.M.Medina,S.Yang,《针对重尾线性土匪的非格雷特算法》,年第33届机器学习国际会议论文集(编辑M.F.Balcan和K.Q.Weinberger),PMLR(2016),1642-1650。https://proceedings.mlr.press/v48/medina16.html
|
[10] |
X.Yu,H.Shao,M.R.Lyu,I.King,《以沉重代价纯粹探索多武装匪徒》,年人工智能不确定性会议,(2018),第937–946页。 |
[11] |
H.Shao,X.Yu,I.King,M.R.Lyu,具有重尾收益的线性随机土匪的几乎最优算法神经信息处理系统研究进展(编辑S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett),Curran Associates,Inc.,2018年。 |
[12] |
S.Lu,G.Wang,Y.Hu,L.Zhang,《利普希茨强盗重尾奖励的优化算法》机器学习国际会议,PMLR,(2019),4154–4163。 |
[13] |
S.R.Chowdhury,A.Gopalan,重尾收益下的贝叶斯优化神经信息处理系统研究进展(编辑H.Wallach、H.Larochelle、A.Beygelzimer、F.d\textquotesingle Alché-Buc、E.Fox和R.Garnett),Curran Associates,Inc.,2019年。 |
[14] |
A.Dubey,A.Pentland,Thompson对对称阿尔法稳定土匪的采样第二十八届国际人工智能联合会议记录,IJCAI-19, (2019), 5715–5721.https://doi.org/10.24963/ijcai.2019/792
|
[15] |
G.Alsmeyer,F.Buckmann,马尔科夫环境中永久性稳定性,J.差异。方程式应用。,23(2017), 699–740. https://doi.org/10.1080/1236198.216.1271878数字对象标识:10.1080/10236198.2016.1271878
|
[16] |
D.Buraczewski、E.Damek、T.Mikosch、,幂律尾随机模型,施普林格,2016年,https://doi.org/10.1007/978-3-319-29679-1
|
[17] |
T.Morimura,M.Sugiyama,H.Kashima,H.Hachiya,T.Tanaka,强化学习的非参数回归分布近似,in第27届国际机器学习会议论文集, (2010), 799–806. |
[18] |
K.J.Chung,M.J.Sobel,贴现mdp:分布函数和指数效用最大化,SIAM J.控制优化。,25(1987), 49–62. https://doi.org/10.1137/0325004数字对象标识:10.1137/0325004
|
[19] |
W.Vervaat,关于随机差分方程和非负无穷可分随机变量的表示,高级申请。普罗巴伯。,11(1979), 750–783. https://doi.org/10.2307/1426858数字对象标识:10.2307/1426858
|
[20] |
C.M.Goldie、R.Grübel,《尾巴薄的永生女神》,高级申请。普罗巴伯。,28(1996), 463–480, https://doi.org/10.2307/1428067。doi(操作界面):10.2307/1428067
|
[21] |
C.M.Goldie,R.A.Maller,永续经营稳定性,安·普罗巴伯。,28(2000), 1195–1218. https://doi.org/10.1214/aop/1019160331数字对象标识:2014年10月14日/次/1019160331
|
[22] |
U.Rösler,分布的不动点定理,随机过程。申请。,42(1992), 195–214. https://doi.org/10.1016/0304-4149(92)90035-O doi:10.1016/0304-4149(92)90035-O
|
[23] |
N.H.Bingham、C.M.Goldie、J.L.Teugels、,常规变化剑桥大学出版社,剑桥,1987年。https://doi.org/10.1017/CBO9780511721434
|
[24] |
D.Cline,具有规则变化尾部的无限系列随机变量,仪器应用程序。数学。统计师。, (1983). |
[25] |
A.Brandt,平稳系数随机方程$Y_{n+1}=A_nY_n+B_n$,高级申请。普罗巴伯。,18(1986), 211–220. https://doi.org/10.2307/1427243数字对象标识:10.2307/1427243
|
[26] |
T.Erhardsson,高维随机系数AR(1)过程和垂直度收敛的条件,伯努利,20(2014), 990–1005. https://doi.org/10.3150/13-BEJ513数字对象标识:10.3150/13-北京513
|
[27] |
O.Kallenberg,现代概率论基础施普林格,2021年。https://doi.org/10.1007/978-3-030-61871-1
|
[28] |
P.Bougerol,N.Picard,广义自回归过程的严格平稳性,安·普罗巴伯。,20(1992), 1714–1730. |
[29] |
T.Mikosch,正则变分、次指数性及其在概率论中的应用埃因霍温理工大学,荷兰埃因霍芬,1999年。 |