@正在进行{costa-jussa-etal-2023多种语言,title=“多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见”,author=“Costa-juss{\`a}、Marta和安德鲁斯、皮埃尔和史密斯、埃里克和Hansanti、Prangthip和罗珀斯、克利斯朵夫和Kalbassi、Elahe和高、辛西娅和Licht、Daniel和伍德,卡利“,editor=“Bouamor、Houda和皮诺、胡安和巴厘岛,卡利卡”,booktitle=“2023年自然语言处理实证方法会议记录”,月=12月,年=“2023”,address=“新加坡”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.emnlp-main.874”,doi=“10.18653/v1/2023.emnlp-main.874”,pages=“14141--14156”,抽象=“我们引入了HolisticBias数据集的多语言扩展,该数据集是最大的基于英语模板的文本人物参考分类法:multilingual HolisticBias。该扩展由分布在13个人口轴上的50种语言的20459个句子组成。源句由118个人口描述符和三种模式,不包括无意义的组合。多语言翻译包括当英语中存在歧义时涵盖性别翻译的性别语言替代方案。我们的数据集旨在揭示人口失衡,并成为量化缓解措施的工具。我们的初步发现表明,与女性相比,使用男性参照物进行评估时,EN-XX翻译的平均翻译质量要好近8个spBLEU。在相反的方向上,从XX到EN,我们比较了当源输入仅在性别(阳性或阴性)上存在差异且阳性翻译比阴性翻译平均好近4个spBLEU时模型的稳健性。当将句子嵌入到联合的多语言句子表征空间时,我们发现对于大多数语言来说,男性化的翻译在嵌入时与英语中性句明显更接近。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“costa-jussa-etal-2023-多语言”><标题信息>多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见</titleInfo><name type=“personal”>玛尔塔Costa-jussá<角色>作者</角色></name><name type=“personal”>皮埃尔安德鲁斯<角色>作者</角色></name><name type=“personal”>埃里克史密斯<角色>作者</角色></name><name type=“personal”>Prangthip品牌汉桑蒂<角色>作者</角色></name><name type=“personal”>克里斯托夫罗珀<角色>作者</角色></name><name type=“personal”>Elahe(Elahe)卡尔巴斯语<角色>作者</角色></name><name type=“personal”>辛西娅高<namePart type=“family”><角色>作者</角色></name><name type=“personal”>丹尼尔许可证<角色>作者</角色></name><name type=“personal”>卡利木材<角色>作者</角色></name><originInfo>2023-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2023年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>侯达<namePart type=“family”>Bouamor</namePart><角色>编辑器</角色></name><name type=“personal”>胡安皮诺<角色>编辑器</角色></name><name type=“personal”>卡利卡语巴厘岛<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>新加坡</place></originInfo>会议出版物</relatedItem><abstract>我们介绍了HolisticBias数据集的多语言扩展,这是最大的基于英语模板的文本人物参考分类法:多语言HolisticBias。该扩展由50种语言的20459个句子组成,分布在13个人口轴上。源句由118个人口统计学描述符和三种模式组合而成,不包括无意义的组合。多语言翻译包括当英语中存在歧义时涵盖性别翻译的性别语言替代方案。我们的数据集旨在揭示人口失衡,并成为量化缓解措施的工具。我们的初步发现表明,与女性相比,使用男性参照物进行评估时,EN-XX翻译的平均翻译质量要好近8个spBLEU。在相反的方向上,从XX到EN,我们比较了当源输入仅在性别(阳性或阴性)上存在差异且阳性翻译比阴性翻译平均好近4个spBLEU时模型的稳健性。当将句子嵌入到联合的多语言句子表征空间时,我们发现对于大多数语言来说,男性化的翻译在嵌入时与英语中性句明显更接近</摘要>costa-jussa-etal-2023-多语种<identifier type=“doi”>10.18653/v1/2023。emnlp main.874</identifier><位置><网址>https://aclantology.org/2023.emnlp-main.874</url></位置><部分>2023-12年<扩展单元=“page”><开始>1414114156</范围></部分></mods></modsCollection>
%0会议记录%T多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见%玛尔塔,Costa-jussá%A安德鲁斯,皮埃尔%埃里克·史密斯%A Hansanti,Prangthip公司%克利斯朵夫,A Ropers%阿卡巴西,埃莱赫%阿高,辛西娅%丹尼尔·利希特%卡利·A伍德%Y Bouamor,Houda公司%胡安·皮诺%Y巴厘岛,卡利卡%2023年自然语言处理实证方法会议论文集%D 2023年%12月8日%计算语言学协会%C新加坡%肋-骨-etal-2023-多语言%我们介绍了HolisticBias数据集的多语言扩展,这是最大的基于英语模板的文本人物参考分类法:multilingual HolisticBias。该扩展由50种语言的20459个句子组成,分布在13个人口轴上。源句由118个人口统计学描述符和三种模式组合而成,不包括无意义的组合。多语言翻译包括当英语中存在歧义时涵盖性别翻译的性别语言替代方案。我们的数据集旨在揭示人口失衡,并成为量化缓解措施的工具。我们的初步发现表明,与女性相比,使用男性参照物进行评估时,EN-XX翻译的平均翻译质量要好近8个spBLEU。在相反的方向上,从XX到EN,我们比较了当源输入仅在性别(阳性或阴性)上存在差异且阳性翻译比阴性翻译平均好近4个spBLEU时模型的稳健性。当将句子嵌入到联合的多语言句子表征空间时,我们发现对于大多数语言来说,男性化的翻译在嵌入时与英语中性句明显更接近。%R10.18653/v1/2023.emnlp-main.874%U型https://aclantology.org/2023.emnlp-main.874%U型https://doi.org/10.18653/v1/2023.emnlp-main.874网址%电话:14141-14156
降价(非正式)
【多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见】(https://aclantology.org/2023.emnlp-main.874)(Costa-jussá等人,EMNLP 2023)
国际计算语言学协会
- Marta Costa-jussá、Pierre Andrews、Eric Smith、Prangthip Hansanti、Christophe Ropers、Elahe Kalbassi、Cynthia Gao、Daniel Licht和Carleigh Wood。2023多语言整体偏见:扩展描述词和模式以揭示语言中的大规模人口偏见.英寸2023年自然语言处理实证方法会议记录,第14141–14156页,新加坡。计算语言学协会。