“Q-Probe:语言模型奖励最大化的轻量级方法。”
肯尼思李 , 萨米·杰拉西 , 休·张(Hugh Zhang) , 沙姆·M·卡卡德 , 瓦滕伯格 , 大卫·布兰德福恩布雷纳 :
Q-Probe:一种轻量级的语言模型奖励最大化方法。 CoRR公司 abs/2402.14688 ( 2024 )
由于引用数据不可用,以下列表可能不完整, 引用字符串可能未成功映射到dblp中列出的项,并且 我们没有针对这些列表中给出的所有项目的完整和精心策划的元数据。