史成春;罗世凯;乐、袁;朱洪图;宋睿 统计有效的优势学习,用于无限视野中的离线强化学习。 (英语) Zbl 07820378号 美国统计协会。 119,编号545,232-245(2024).MSC公司:62至XX PDF格式BibTeX公司 XML格式引用 \textit{C.Shi}等人,《美国法律总汇》第119卷,第545、232和245号(2024年;Zbl 07820378) 全文: 内政部 arXiv公司 OA许可证
史成春;万润哲;宋,葛;罗世凯;朱洪图;宋睿 双边市场非政策评估的多智能体强化学习框架。 (英语) 兹伯利07789404 附录申请。斯达。 17,第4号,2701-2722(2023).MSC公司:62件 PDF格式BibTeX公司 XML格式引用 \textit{C.Shi}等人,Ann.Appl。Stat.17,No.4,2701--2722(2023;Zbl 07789404) 全文: 内政部 arXiv公司
史成春;王晓宇;罗世凯;朱洪图;叶洁平;宋睿 基于强化学习框架的A/B测试中的动态因果效应评估。 (英语) Zbl 07751828号 美国统计协会。 118,第543号,2059-271(2023).MSC公司:62至XX PDF格式BibTeX公司 XML格式引用 \textit{C.Shi}等人,《美国统计协会期刊》118,第543号,2059--2071(2023;Zbl 07751828) 全文: 内政部 arXiv公司 OA许可证