AI Alignment in the Design of Interactive AI: Specification Alignment, Process Alignment, and Evaluation Support

Terry, Michael; Kulkarni, Chinmay; Wattenberg, Martin; Dixon, Lucas; Morris, Meredith Ringel

计算机科学>人机交互

arXiv:2311.00710号（cs）

【于2023年10月23日提交】

职务：交互式人工智能设计中的人工智能对齐：规范对齐、过程对齐和评估支持

作者：迈克尔·特里,Chinmay Kulkarni公司,瓦滕伯格,卢卡斯·狄克逊,梅雷迪思·林格尔·莫里斯

查看PDF

摘要：人工智能校准考虑了确保人工智能产生预期结果而没有不良副作用的总体问题。虽然通常从安全和人类价值的角度考虑，但在设计和评估交互式人工智能系统的接口时，也可以考虑人工智能对齐。本文将人工智能校准的概念映射到一个基本的三步交互循环中，从而产生一组相应的校准目标：1）规范校准：确保用户能够高效可靠地将目标传达给人工智能，2）过程对齐：提供验证和可选控制人工智能执行过程的能力，以及3）评估支持：确保用户能够验证和理解人工智能的输出。我们还介绍了代理过程的概念，定义为人工智能实际过程的简化、单独推导但可控的表示；以及过程海湾的概念，它强调了人类和人工智能过程之间的差异如何会导致人工智能控制的挑战。为了说明该框架的价值，我们沿着三个对齐维度中的每一个描述了商业和研究系统，并展示了提供交互式对齐机制的接口如何能够带来质的不同和改进的用户体验。

学科：	人机交互（cs.HC）; 人工智能（cs.AI）
引用为：	arXiv:2311.00710号【cs.HC】
	（或 arXiv:2311.00710v1【cs.HC】对于此版本）
	https://doi.org/10.48550/arXiv.2311.00710

提交历史记录

发件人：Michael Terry[查看电子邮件]
[第1版]2023年10月23日星期一14:33:11 UTC（532 KB）

计算机科学>人机交互

职务：交互式人工智能设计中的人工智能对齐：规范对齐、过程对齐和评估支持

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>人机交互

职务：交互式人工智能设计中的人工智能对齐：规范对齐、过程对齐和评估支持

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目