Arash Ahmadian等人:回到基础:重新审视强化式优化,以从LLM中的人的反馈中学习。(2024) 日记账/corr/abs-2402-14740 10.48550/ARXIV.2402.14740 回到基础:重温强化风格优化,以从LLM中的人的反馈中学习。 8 阿拉什·艾哈迈迪安 1 克里斯·克莱默 2 马蒂亚斯·加莱 马齐·法戴伊 4 朱莉娅·克鲁泽 5 奥利维尔·皮特金 6 艾哈迈特·尤·斯图 7 萨拉·胡克 8 CoRR公司 CoRR公司 abs/2402.14740 2024 dblp记录“journals/corr/abs-2402-14740”的RDF数据的来源信息 2024-03-25T09:52:29+0100