@进展中{世界杯-2021挑战-排毒,title=“排毒语言模型的挑战”,author=“Welbl、Johannes和Glaese、Amelia和尤萨托、乔纳森和Dathathri、Sumanth和梅勒、约翰和亨德里克斯、丽莎·安妮和Anderson、Kirsty和Kohli、Pushmeet和科平、本和黄伯森”,editor=“Moens、Marie-Francine和黄、玄静和Specia、Lucia和Yeh,Scott Wen-tau“,booktitle=“计算语言学协会的研究结果:EMNLP 2021”,月=11月,年=“2021”,address=“多米尼加共和国蓬塔卡纳”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.findings-emnlp.210”,doi=“10.18653/v1/2021.findings-emnlp.210”,pages=“2447--2469”,abstract=“大型语言模型(LM)可以生成非常流畅的文本,并且可以有效地适应NLP任务。从安全性的角度衡量和保证生成文本的质量对于在现实世界中部署LM至关重要;为此,之前的工作通常依赖于LM毒性的自动评估。我们对该方法进行了批判性讨论,评估了自动评估和人类评估方面的几种毒性缓解策略,并从模型偏差和LM质量方面分析了毒性缓解的后果。我们证明,虽然基本干预策略可以有效地优化先前在REALTOXICITYPROMPTS数据集上建立的自动指标,但这是以降低边缘化群体文本和方言的LM覆盖率为代价的。此外,我们发现人类评估者在进行强毒性降低干预后,往往不同意高自动毒性评分{---},这进一步强调了仔细评估LM毒性所涉及的细微差别。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“welbl-etal-2021挑战排毒”><标题信息>解毒语言模型面临的挑战</titleInfo><name type=“personal”><namePart type=“给定”>Johannes</namePart>韦尔布尔<角色>作者</角色></name><name type=“personal”>阿梅利亚<namePart type=“family”>希腊语</namePart><角色>作者</角色></name><name type=“personal”>乔纳森优萨托<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>萨曼思达塔赫里<角色>作者</角色></name><name type=“personal”>约翰梅勒<角色>作者</角色></name><name type=“personal”>丽莎安妮亨德里克斯<角色>作者</角色></name><name type=“personal”>Kirsty<namePart type=“family”>Anderson</namePart>安德森</namePart<角色>作者</角色></name><name type=“personal”>推送会科尔里<角色>作者</角色></name><name type=“personal”>本Coppin(Coppin)<角色>作者</角色></name><name type=“personal”>Po-Sen黄<namePart type=“family”><角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会的发现:EMNLP 2021</titleInfo><name type=“personal”>玛丽·弗朗辛莫恩斯<角色>编辑器</角色></name><name type=“personal”>轩辕<namePart type=“given”><namePart type=“family”>黄</namePart><角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”>斯科特文涛<namePart type=“given”>文涛</namePart>Yih(Yih)<角色><roleTerm authority=“marcorrator”type=“text”>编辑器</roleTerm></角色></name><originInfo>计算语言学协会<位置>多米尼加共和国卡纳角</place></originInfo>会议出版物</relatedItem>大型语言模型(LM)可以生成非常流畅的文本,并且可以有效地适应NLP任务。从安全角度衡量和保证生成文本的质量对于在现实世界中部署LM至关重要;为此,之前的工作通常依赖于LM毒性的自动评估。我们对该方法进行了批判性讨论,评估了自动评估和人类评估方面的几种毒性缓解策略,并从模型偏差和LM质量方面分析了毒性缓解的后果。我们证明,虽然基本干预策略可以有效地优化先前在REALTOXICITYPROMPTS数据集上建立的自动指标,但这是以降低边缘化群体文本和方言的LM覆盖率为代价的。此外,我们发现人类评估者在进行强毒性降低干预后往往不同意高自动毒性评分,这进一步突出了仔细评估LM毒性所涉及的细微差别</摘要>welbl-etal-2021挑战排毒10.18653/v1/2021.findings-emnlp.210<位置><网址>https://aclantology.org/2021.findings-emnlp.210</url></位置><部分>2021-11年<扩展单元=“page”><开始>2447<end>2469</范围></部分></模块></modsCollection>
%0会议记录%解毒语言模型中的T挑战%Johannes,世界%A Glaese,阿米莉亚%乔纳森·尤萨托%A Dathathri,苏曼思%约翰·A·梅勒%亨德里克斯,丽莎·安妮%柯斯蒂·安德森%A Kohli,Pushmet公司%A Coppin,本%阿黄、坡森%玛丽·弗朗辛·Y·莫恩斯%Y Huang,宣景%露西娅·Y·斯佩西亚%Y Yih、Scott Wen-tau%计算语言学协会的发现:EMNLP 2021%D 2021年%11月8日%计算语言学协会%多米尼加共和国C蓬塔卡纳%F welbl-etal-2021挑战-排毒%大型语言模型(LM)可以生成非常流畅的文本,并且可以有效地适应NLP任务。从安全角度衡量和保证生成文本的质量对于在现实世界中部署LM至关重要;为此,之前的工作通常依赖于LM毒性的自动评估。我们对该方法进行了批判性讨论,评估了自动评估和人类评估方面的几种毒性缓解策略,并从模型偏差和LM质量方面分析了毒性缓解的后果。我们证明,虽然基本的干预策略可以有效地优化REALTOCICITYPROMPTS数据集上先前建立的自动指标,但这是以减少边缘化群体的文本和方言的LM覆盖率为代价的。此外,我们发现人类评估者在进行强毒性降低干预后往往不同意高自动毒性评分,这进一步突出了仔细评估LM毒性所涉及的细微差别。%R 10.18653/v1/2021.查找-emnlp.210%U型https://aclantology.org/2021.findings-emnlp.210%U型https://doi.org/10.18653/v1/2021.findings-emnlp.210%第2447-2469页
降价(非正式)
[解毒语言模型的挑战](https://aclantology.org/2021.findings-emnlp.210)(Welbl等人,2021年调查结果)
国际计算语言学协会
- 约翰内斯·韦尔布尔(Johannes Welbl)、阿米莉亚·格拉泽(Amelia Glaese)、乔纳森·尤萨托(Jonathan Uesato)、苏曼特·达塔赫里(Sumanth Dathathri)、约翰·梅勒(John Mellor)、丽莎·安妮·亨德里克斯(Lisa Anne Hendricks)、柯斯蒂·安德森(Kirsty。2021解毒语言模型面临的挑战.英寸计算语言学协会的发现:EMNLP 2021,第2447–2469页,多米尼加共和国卡纳角。计算语言学协会。