计算机科学>计算与语言
标题: 使分类器能够做出与人类价值观明确一致的判断
摘要: 许多NLP分类任务,例如性别歧视/种族歧视检测或毒性检测,都是基于人类价值观的。 然而,人类的价值观在不同的文化条件下可能会有所不同。 因此,我们引入了一个基于值对齐分类的框架,该框架基于命令中显式写入的人为值执行预测。 在完成这项任务的同时,我们提出了一种实用的方法,从大规模语言模型(LLM)中提取与值对齐的知识,分两步构造与值对齐分类器。 首先,我们通过基于即时的少快照学习从LLM中生成价值一致的训练数据。 接下来,我们使用为任务生成的数据微调较小的分类模型。 实证结果表明,我们的VA-Models在F1核上超过多个基线至少15.56%,包括使用OPT-175B的少量快照学习和现有的文本增强方法。 我们建议使用带有明确人类价值输入的分类器可以提高人工智能的包容性和可解释性。