Self-critiquing models for assisting human evaluators

Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan

计算机科学>计算与语言

arXiv公司：2206.05802（cs）

【于2022年6月12日提交(第1版)，最后修订日期2022年6月14日（本版本，v2）]

标题：帮助人类评估者的自我批评模型

作者：桑德斯,凯瑟琳·叶,吴建福,史蒂文·比尔,龙欧阳,乔纳森·沃德,简·雷克

查看PDF

摘要：我们微调大型语言模型，使用行为克隆编写自然语言评论（自然语言评论）。在基于主题的总结任务中，我们的模型撰写的评论可以帮助人们发现总结中的缺陷，否则他们会错过这些缺陷。我们的模型有助于发现模型和人类书面总结中自然出现的缺陷，以及人类书面总结故意误导的故意缺陷。我们研究了基于主题的摘要和合成任务中评论的尺度特性。较大的模型写的评论更有用，在大多数任务中，尽管有更难批评的输出，但更善于自我批评。更大的模型还可以将自己的自我评价作为反馈，将自己的总结提炼为更好的总结。最后，我们激励并引入了一个比较批判能力与生成和辨别能力的框架。我们的测量结果表明，即使是大型模型，也可能仍有相关知识，它们无法或无法作为评论表达出来。这些结果为使用人工智能辅助的人类反馈将机器学习系统的监督扩展到人类难以直接评估的任务提供了概念证明。我们发布了我们的培训数据集，以及我们的评论辅助实验的样本。

学科：	计算与语言（cs.CL）; 机器学习（cs.LG）
引用为：	arXiv公司：2206.05802【cs.CL】
	（或 arXiv:2206.05802v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2206.05802

提交历史记录

发件人：Jeffrey Wu[查看电子邮件]
[第1版]2022年6月12日，星期日17:40:53 UTC（9435 KB）
[版本2]2022年6月14日星期二01:16:24 UTC（9458 KB）

计算机科学>计算与语言

标题：帮助人类评估者的自我批评模型

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：帮助人类评估者的自我批评模型

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目