阿拉什·艾哈迈迪安 克里斯·克莱默 马蒂亚斯·加莱 马齐·法戴伊 朱莉娅·克鲁泽 奥利维尔·皮特金 AhmetÜstün公司 萨拉·胡克 回到基础:重温强化风格优化,以从LLM中的人的反馈中学习。 2024 abs/2402.14740 CoRR公司 https://doi.org/10.48550/arXiv.2402.14740 db/journals/corr/corr2402.html#abs-2402-14740