计算机科学>计算与语言
标题: 帮助人类评估者的自我批评模型
摘要: 我们微调大型语言模型,使用行为克隆编写自然语言评论(自然语言评论)。 在基于主题的总结任务中,我们的模型撰写的评论可以帮助人们发现总结中的缺陷,否则他们会错过这些缺陷。 我们的模型有助于发现模型和人类书面总结中自然出现的缺陷,以及人类书面总结故意误导的故意缺陷。 我们研究了基于主题的摘要和合成任务中评论的尺度特性。 较大的模型写的评论更有用,在大多数任务中,尽管有更难批评的输出,但更善于自我批评。 更大的模型还可以将自己的自我评价作为反馈,将自己的总结提炼为更好的总结。 最后,我们激励并引入了一个比较批判能力与生成和辨别能力的框架。 我们的测量结果表明,即使是大型模型,也可能仍有相关知识,它们无法或无法作为评论表达出来。 这些结果为使用人工智能辅助的人类反馈将机器学习系统的监督扩展到人类难以直接评估的任务提供了概念证明。 我们发布了我们的培训数据集,以及我们的评论辅助实验的样本。