Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values

Bang, Yejin; Yu, Tiezheng; Madotto, Andrea; Lin, Zhaojiang; Diab, Mona; Fung, Pascale

计算机科学>计算与语言

arXiv公司：2210.07652（cs）

【2022年10月14日提交】

标题：使分类器能够做出与人类价值观明确一致的判断

作者：Yejin Bang公司,铁正宇（Tiezheng Yu）,安德烈亚·马多托,林兆江,蒙娜·迪亚卜,帕斯卡尔·冯

查看PDF

摘要：许多NLP分类任务，例如性别歧视/种族歧视检测或毒性检测，都是基于人类价值观的。然而，人类的价值观在不同的文化条件下可能会有所不同。因此，我们引入了一个基于值对齐分类的框架，该框架基于命令中显式写入的人为值执行预测。在完成这项任务的同时，我们提出了一种实用的方法，从大规模语言模型（LLM）中提取与值对齐的知识，分两步构造与值对齐分类器。首先，我们通过基于即时的少快照学习从LLM中生成价值一致的训练数据。接下来，我们使用为任务生成的数据微调较小的分类模型。实证结果表明，我们的VA-Models在F1核上超过多个基线至少15.56%，包括使用OPT-175B的少量快照学习和现有的文本增强方法。我们建议使用带有明确人类价值输入的分类器可以提高人工智能的包容性和可解释性。

学科：	计算与语言（cs.CL）; 人工智能（cs.AI）
引用为：	arXiv公司：2210.07652【cs.CL】
	（或 arXiv:2210.07652v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2210.07652

提交历史记录

发件人：Yejin Bang[查看电子邮件]
[第1版]2022年10月14日星期五09:10:49 UTC（2007 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2022-10

更改为浏览方式：

反恐精英
反恐精英。人工智能

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：使分类器能够做出与人类价值观明确一致的判断

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：使分类器能够做出与人类价值观明确一致的判断

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目