多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见

Marta Costa-jussá,皮埃尔·安德鲁斯,埃里克·史密斯,Prangship Hansanti公司,克里斯托夫·罗珀斯,Elahe Kalbassi公司,辛西娅·高,丹尼尔·利希特,卡利·伍德


摘要
我们引入了HolisticBias数据集的多语言扩展,这是最大的基于英语模板的文本人物参考分类法:multilingual HolisticBias。这个扩展包含50种语言的20459个句子,分布在13个人口轴上。源句由118个人口统计学描述符和三种模式组合而成,不包括无意义的组合。多语言翻译包括当英语中存在歧义时涵盖性别翻译的性别语言替代方案。我们的数据集旨在揭示人口失衡,并成为量化缓解措施的工具。我们的初步发现表明,与女性相比,使用男性参照物进行评估时,EN-XX翻译的平均翻译质量要好近8个spBLEU。在相反的方向上,从XX到EN,我们比较了当源输入仅在性别(阳性或阴性)上存在差异且阳性翻译比阴性翻译平均好近4个spBLEU时模型的稳健性。当将句子嵌入到联合的多语言句子表征空间时,我们发现对于大多数语言来说,男性化的翻译在嵌入时与英语中性句明显更接近。
选集ID:
2023.emnlp-main.874年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
14141–14156
语言:
网址:
https://aclantology.org/2023.emnlp-main.874
内政部:
10.18653/v1/2023.emnlp-main.874
双钥匙:
引用(ACL):
Marta Costa jussà、Pierre Andrews、Eric Smith、Prangthip Hansanti、Christophe Ropers、Elahe Kalbassi、Cynthia Gao、Daniel Licht和Carleigh Wood。2023多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见.英寸2023年自然语言处理实证方法会议记录,第14141–14156页,新加坡。计算语言学协会。
引用(非正式):
多语言整体偏见:扩展描述符和模式以揭示大规模语言中的人口统计学偏见(Costa-jussá等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.874.pdf