停止战争！

Остановите войну!

对于科学家：

默认搜索操作

组合dblp搜索
作者搜索
场馆搜索
出版物搜索

问别人

“大型语言模型的离线正规强化学习…”

Pierre Harvey Richemond等人（2024年）

>主页

详细信息和统计

内政部： 10.48550/ARXIV.2405.19107

访问：打开

类型：非正式或其他出版物

元数据版本：2024-06-21

打开Alex

- 看法
  - 通过DOI的电子版（开放存取）
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2405-19107
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2405-19107
皮埃尔·哈维·里奇蒙,汤云浩,丹尼尔·郭,Daniele Calandriello（丹妮尔·卡兰迪略）,穆罕默德·盖什拉希·阿扎尔,拉斐尔·拉斐洛夫,贝尔纳多·阿维拉·皮雷斯,尤金·塔拉索夫,卢卡斯·斯潘格,威尔·埃尔斯沃思,Aliaksei Severyn公司,乔纳森·马林森,利奥·沙尼,吉尔·沙米尔,里沙布·乔希,刘天奇,雷米·穆诺斯,比拉尔·皮奥特:
用于大型语言模型对齐的离线正则化强化学习。 CoRR公司 abs/2405.19107(2024)

请注意：由于提供了开放的元数据API，因此只能提供有关引用和引用的信息crossref.org网站和开放引用.net.如果您的出版物的引用数据尚未公开，请考虑要求您的出版商向公众发布您的引用数据。有关更多信息，请参阅公开引用倡议（I4OC）也请注意，无法直接向dblp提交缺失的参考文献或引用数据。

请注意，此功能是正在进行的工作而且它还远远不够完美。尤其是，

由于引用数据不可用，以下列表可能不完整，
引用字符串可能尚未成功映射到dblp中列出的项，并且
我们没有针对这些列表中给出的所有项目的完整和精心策划的元数据。

需要JavaScript才能检索和显示此记录的任何引用和引用。

工具书类

引用人

服务

管理站点设置

为了保护您的隐私，所有依赖浏览器外部API调用的功能都是默认情况下关闭。你需要选择加入，让他们变得活跃。此处的所有设置将在您的web浏览器中存储为cookie。有关更多信息查看我们的F.A.Q。