T型有毒物质C类帽子:揭开现实世界用户中毒性检测的潜在挑战-人工智能对话

紫琳,王子翰,永奇通,王阳坤,郭玉欣,王玉佳(音译),尚京波


摘要
尽管大型语言模型在聊天机器人中取得了显著进步,但保持无毒的用户-人工智能交互环境如今变得越来越重要。然而,之前在毒性检测方面的工作大多基于社交媒体内容的基准,因此对真实世界用户与人工智能交互固有的独特挑战缺乏充分的研究。在这项工作中,我们介绍了ToxicChat,这是一个基于开源聊天机器人的真实用户查询构建的新基准。该基准包含丰富而微妙的现象,当前的毒性检测模型很难识别这些现象,与社交媒体内容相比,显示出显著的领域差异。我们对根据现有毒性数据集训练的模型进行的系统评估表明,当应用于ToxicChat这一独特领域时,它们存在缺陷。我们的工作阐明了在真实的用户-人工智能对话中,毒性检测可能被忽视的挑战。未来,ToxicChat可以成为一种宝贵的资源,推动进一步发展,为用户与AI的交互构建一个安全健康的环境。
选集ID:
2023.结果-emnlp.311
体积:
计算语言学协会的发现:EMNLP 2023
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
调查结果
SIG公司:
出版商:
计算语言学协会
注:
页:
4694–4702
语言:
网址:
https://aclantology.org/2023.findings-emnlp.311
DOI(操作界面):
10.18653/v1/2023.findings-emnlp.311
比比键:
引用(ACL):
Zi Lin、Zihan Wang、Yongqi Tong、Yangkun Wang、俞新国、Yujia Wang和Jingbo Shang。2023有毒聊天:揭示现实世界用户与AI对话中有毒物质检测的潜在挑战.英寸计算语言学协会的发现:EMNLP 2023,第4694–4702页,新加坡。计算语言学协会。
引用(非正式):
有毒聊天:揭示现实世界用户与AI对话中有毒物质检测的潜在挑战(Lin等人,研究结果2023)
复制引文:
PDF格式:
https://aclantology.org/2023.findings-emnlp.311.pdf