Challenges in Detoxifying Language Models

Johannes Welbl; Amelia Glaese; Jonathan Uesato; Sumanth Dathathri; John Mellor; Lisa Anne Hendricks; Kirsty Anderson; Pushmeet Kohli; Ben Coppin; Po-Sen Huang

doi:10.18653/v1/2021.findings-emnlp.210

解毒语言模型面临的挑战

约翰内斯·韦尔布尔,阿米莉亚·格莱斯,乔纳森·尤萨托,苏曼特·达塔赫里,约翰·梅勒,丽莎·安妮·亨德里克斯,柯斯蒂·安德森,Pushmet Kohli公司,本·科宾,黄伯森

摘要

大型语言模型（LM）可以生成非常流畅的文本，并且可以有效地适应NLP任务。从安全角度衡量和保证生成文本的质量对于在现实世界中部署LM至关重要；为此，之前的工作通常依赖于LM毒性的自动评估。我们对该方法进行了批判性讨论，评估了自动评估和人类评估方面的几种毒性缓解策略，并从模型偏差和LM质量方面分析了毒性缓解的后果。我们证明，虽然基本干预策略可以有效地优化先前在REALTOXICITYPROMPTS数据集上建立的自动指标，但这是以降低边缘化群体文本和方言的LM覆盖率为代价的。此外，我们发现人类评估者在进行强毒性降低干预后往往不同意高自动毒性评分，这进一步突出了仔细评估LM毒性所涉及的细微差别。

选集ID：: 2021.结果-emnlp.210
体积：: 计算语言学协会的发现：EMNLP 2021
月份：: 十一月
年份：: 2021
地址：: 多米尼加共和国卡纳角
编辑：: 玛丽·弗兰辛·莫恩斯,黄宣景,露西娅·斯佩西亚,斯科特·文涛（Scott Wen-tau Yih）
地点：: 调查结果
SIG公司：: SIGDAT公司
出版商：: 计算语言学协会
注：
页：: 2447–2469
语言：
网址：: https://aclantology.org/2021.findings-emnlp.210
内政部：: 10.18653/v1/2021.findings-emnlp.210
比比键：
引用（ACL）：: Johannes Welbl、Amelia Glaese、Jonathan Uesato、Sumanth Dathathri、John Mellor、Lisa Anne Hendricks、Kirsty Anderson、Pushmet Kohli、Ben Coppin和Po Sen Huang。2021解毒语言模型面临的挑战.英寸计算语言学协会的发现：EMNLP 2021，第2447–2469页，多米尼加共和国卡纳角。计算语言学协会。
引用（非正式）：: 解毒语言模型面临的挑战（Welbl等人，2021年调查结果）
复制引文：
PDF格式：: https://aclantology.org/2021.findings-emnlp.210.pdf
视频：: https://aclantology.org/2021.findings-emnlp.210.mp4网址
数据: 憎恨言语和攻击性语言

PDF格式引用搜索视频