GENIE项目:性别偏见分析
查尔默斯语和其他瑞典语文本中的性别偏见分析
这是一个由GENIE公司(Chalmers性别卓越倡议),运行于2020年至2021年,由彼得·荣格洛夫.在该项目中,我们将使用最先进的自然语言处理(NLP)技术来调查不同文本类型(正式和非正式)中的性别偏见。这将针对英语和瑞典语文本进行,这样我们就可以将结果与之前几乎只针对英语文本进行的研究进行比较。
项目描述
在过去的几年里,人们对性别语言及其可能产生的影响越来越感兴趣,尤其是在招聘方面。这可以通过在网上搜索“招聘中的性别中性语言”来证明:最热门的搜索结果是来自招聘公司或报纸的文章,给出了如何撰写更好的招聘广告的技巧。然而,大多数研究都是在讲英语的背景下进行的(主要是美国人),目前尚不清楚哪些结果可以传递给瑞典语和社会。
如何利用人工智能技术来减少性别偏见并非易事。亚马逊公司就是一个众所周知的例子,它开始使用神经网络对求职申请进行排名,目的是减少歧视。但相反,算法学会了降低女性申请者和女性编码申请者的等级。最终,亚马逊决定退出其人工智能系统,因为其固有的性别偏见。(更多信息请参见路透社2018)
在这个项目中,我们将使用最先进的自然语言处理(NLP)技术来调查不同文本类型(正式和非正式)中的性别偏见。这将针对英语和瑞典语文本进行,这样我们就可以将结果与之前几乎只针对英语文本进行的研究进行比较。
以前的工作
已经有一些关于文本中无意识性别偏见的研究,主要是针对英语文本和招聘背景。大多数研究都试图找到编码为阳性或阴性的单词,然后使用这些列表来分析招聘广告等文本(Gaucher等人,2011年)。一些研究侧重于代词他/她(Sendén等人2014;Twenge等人2012)。
大多数数据驱动的研究都使用了传统的统计技术,例如计算单词在不同类型文本中的出现次数,或者计算两个单词在文本中共现的频率。一些使用更先进的自然语言处理技术(如单词嵌入或语言建模)的相关研究包括作者性别识别(Cheng 2011)、中性语言模型(Kaneko&Bollegala 2019;Zhao et al 2019)、历时分析(Garg et al 2018;Moricz 2019),共指消解(Zhao等人2018),机器翻译(Vanmassenhove 2018)。从参考文献中可以看出,过去几年来,研究兴趣激增,今年甚至举办了第一次自然语言处理中的性别偏见研讨会。
在瑞典的背景下,几乎没有任何研究使用数据科学或NLP来分析性别语言。除了偶尔出现的例外情况(例如Moricz 2019,他使用LSTM神经网络分析#meto活动对推特的影响),大多数瑞典研究都是心理或语言方面的,使用调查,访谈和心理语言分析,以分析对性别和性别中立语言的态度(例如,见研究项目“性别公平语言”)。瑞典正在进行一场关于性别中立语言的讨论,可以通过简单的网络搜索“jämlikt sprák”、“jámställt sprök”或“könsneutral t sprók”等术语来查看,但这些讨论没有太多瑞典数据可作为其论点的依据。
研究问题
我们的主要研究问题是,不同的单词、短语或文本风格是否存在性别差异,以何种方式?这是一个非常普通的问题,下面是我们将在本项目中探讨的一些更具体的问题。
瑞典文本调查:
- 不同的职业(例如工程师、护士)或学科(例如艺术、社会学、工程)是否被描述为与一种性别更相关?如果是,这是如何体现的?
- 不同的文本风格(如新闻、学术)与一个性别的联系更大吗?这是怎么表现出来的?
- 在词汇、句法、语义或其他层面上,是否有很好的文本性别指标?
查尔默斯出版的文本调查:
- 在查尔默斯内部,不同类型的文本(如网络文本、招聘广告、申请、学生论文)或学科(如化学、建筑、天文学)中是否存在性别偏见?
- 课程描述和招聘材料的性别差异与相应学习课程中的性别平衡是否相关?
类似瑞典语和英语文本的比较:
- 瑞典语和英语文本(1)相互翻译,或(2)来自同一体裁,在性别方面是否存在系统性差异?
培训和评估数据
对于瑞典数据,我们将使用GU Språkbanken现有的文本语料库,该语料库拥有来自所有时间段和流派的大量文本集,包括新闻文本、政府文本、学生论文、小说、社交媒体、在线聊天等。Språkbanken总共收集了大约130亿个单词,是世界上最大的非英语文本集之一。
除了来自Språkbanken的材料外,我们还将从Chalmers收集官方和半官方文件。根据这些,我们将创建一个新的语料库资源,它将以不同的方式进行分类,例如出版日期、文档类型(例如教育、研究、行政、学生、非正式等)、部门或教育计划等。
Sprákbanken的一些语料库是手动注释语言特征的,如引理、词义、词性、形态学和句法结构。包含绝大多数数据的其余语料库由Sprákbanken的注释管道自动注释。我们将对项目中收集的文本进行同样的处理,以便我们处理的所有数据都将针对语言特征进行注释。
对于英语数据,我们将使用不同流派的公开语料库,以便与我们的瑞典实验以及之前关于英语文本中性别偏见的研究进行比较。由于查尔默斯制作的许多文档都是用英语编写的,因此项目中创建的语料库将是双语的瑞典英语。
技术和工具
我们将使用最先进的NLP技术,如文本相似性度量、情感分析、语言模型(基于概率和神经网络)和分布模型(例如,单词和意义嵌入)。只要可能,我们将使用手动注释的参考数据,在其他情况下,我们将采用无监督的方法分析文本。
性别平等与科学卓越的关系
我们计划在该项目中进行的研究是新颖的,因为对瑞典文本中的性别语言进行的面向数据的研究很少。这一试点项目将对瑞典语的性别问题以及瑞典语和英语文本之间的比较提供新的见解。研究结果可以造福社会,帮助人们更好地理解语言如何影响对性别的认知,以及不同特征如何被视为与特定性别相关。
此外,该项目将对查尔默斯大学正在制作的文本进行分析,如网络文本、招聘广告、学生招聘,并有望提供有价值的见解。例如,研究结果可用于制定如何在Chalmers撰写和分析文本的指导方针,例如,在撰写招聘广告和招收学生时。
由于这一领域的研究很少,我们希望该项目将为国家和国际间更大的科学合作开辟道路,并且我们将能够在这一有趣和重要的科学领域申请进一步的资金。