“大型语言模型的离线正规强化学习…”
皮埃尔·哈维·里奇蒙 , 汤云浩 , 丹尼尔·郭 , Daniele Calandriello(丹妮尔·卡兰迪略) , 穆罕默德·盖什拉希·阿扎尔 , 拉斐尔·拉斐洛夫 , 贝尔纳多·阿维拉·皮雷斯 , 尤金·塔拉索夫 , 卢卡斯·斯潘格 , 威尔·埃尔斯沃思 , Aliaksei Severyn公司 , 乔纳森·马林森 , 利奥·沙尼 , 吉尔·沙米尔 , 里沙布·乔希 , 刘天奇 , 雷米·穆诺斯 , 比拉尔·皮奥特 :
用于大型语言模型对齐的离线正则化强化学习。 CoRR公司 abs/2405.19107 ( 2024 )
由于引用数据不可用,以下列表可能不完整, 引用字符串可能尚未成功映射到dblp中列出的项,并且 我们没有针对这些列表中给出的所有项目的完整和精心策划的元数据。
![](https://dblp.org/img/cog.dark.24x24.png)