×

名字里有什么使用基于字符的机器学习模型对姓名进行性别分类。 (英语) Zbl 1473.68194号

摘要:在许多领先的互联网公司注册帐户时,性别信息不再是强制性输入。然而,预测性别和年龄等人口信息仍然是一项重要任务,特别是在干预推荐系统中无意的性别/年龄偏见方面。因此,有必要推断那些在注册期间没有提供此信息的用户的性别。我们考虑了根据注册用户的声明名称预测其性别的问题。通过分析100M+用户的名字,我们发现使用名字字符串的组合可以非常有效地对性别进行分类。我们提出了许多基于字符的机器学习模型,并证明我们的模型能够以比基线模型更高的准确性推断用户的性别。此外,我们还表明,除了名字之外,使用姓氏可以进一步提高分类性能。

MSC公司:

68T50型 自然语言处理
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 3000个英语中最常见的单词。https://www.ef.edu/english-resources/englis-vocabulary/top-3000-words网站/ (2020). [在线;2020年3月22日访问]
[2] SP 500公司(2020年)。https://datahub.io/core/s-and-p-500-公司。[在线;2020年3月22日访问]
[3] 社会保障局:美国出生人口中有社会保障号码的人的名字相对频率的国家数据(根据2019年3月3日的社会保障记录制成表格)。http://www.ssa.gov/ocat/babynames/names.zip
[4] Al Zamal F,Liu W,Ruth D(2012)同质性和潜在属性推断:从邻居推断推特用户的潜在属性。参加:第六届AAAI网络日志和社交媒体国际会议
[5] Ambekar A、Ward C、Mohammed J、Male S、Skiena S(2009)公开来源的人种分类。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议记录,第49-58页。ACM公司
[6] Beretta V、Maccagnola D、Cribbin T、Messina E(2015)推特中推断人口统计属性的交互式方法。摘自:第26届ACM超文本和社交媒体会议记录,第113-122页。ACM公司
[7] Brown E(2017)跨国公司名字中字符序列的性别推断。https://towardsdatascience.com/name2gender-introduction-626d89378fb0#408a
[8] Burger JD、Henderson J、Kim G、Zarrella G(2011)《推特上的性别歧视》。摘自:自然语言处理实证方法会议记录,第1301-1309页。计算语言学协会
[9] Chen P,Sun Z,Bing L,Yang W(2017)关于记忆的重复注意网络,用于方面情绪分析。摘自:2017年自然语言处理实证方法会议记录,第452-461页
[10] Ciot M、Sonnederger M、Ruth D(2013)非英语语境下推特用户的性别推断。摘自:2013年自然语言处理实证方法会议记录,第1136-1145页
[11] 谷歌云内容类别(2019年)。https://cloud.google.com/natural-language/docs/categories
[12] Culotta A、Kumar NR、Cutler J(2015)《从网站流量数据预测推特用户的人口统计学》。收录于:AAAI,第72-78页
[13] Culotta,A。;NK拉维;Cutler,J.,利用网站流量数据的远程监控预测推特用户人口统计,J Artif Intell Res,55,389-408(2016)·doi:10.1613/jair.4935
[14] Devlin J,Chang MW,Lee K,Toutanova K(2018)Bert:语言理解的深层双向变压器预培训。arXiv预印本arXiv:11810.04805
[15] Grbovic M、Radosavljevic V、Djuric N、Bhamidipati N、Nagarajan A(2015)tumblr赞助广告的性别和兴趣目标。在:第21届ACM SIGKDD知识发现和数据挖掘国际会议记录,KDD'15,第1819-1828页。ACM,美国纽约州纽约市doi:10.145/2783258.2788616
[16] Han S,Hu Y,Skiena S,Coskun B,Liu M,Qin H,Perez J(2017)为安全挑战生成相似的名称。参见:第十届ACM人工智能与安全研讨会会议记录,AISec’17,第57-67页。ACM,美国纽约州纽约市doi:10.1145/3128572.3140441
[17] Hochreiter S,Schmidhuber J(1997),长期短期记忆。摘自:神经计算,第1735-1780页
[18] Karako C,Manggala P(2018)在基于多样性的重新排名中使用图像公平表示法进行推荐。摘自:第26届用户建模、适应和个性化会议附属出版物,第23-28页。ACM公司
[19] Kingma DP,Ba J(2014)Adam:一种随机优化方法。arXiv预打印arXiv:1412.6980
[20] Knowles R、Carroll J、Dredze M(2016)《人口统计学:非常简单的名字人口统计学》。摘自:NLP和计算社会科学第一次研讨会论文集,第108-113页
[21] Kokkos A,Tzouramanis T(2014)在线社交网络的稳健性别推断模型及其在linkedin和twitter上的应用。第一个星期一19(9)
[22] Liu W,Al Zamal F,Ruth D(2012)使用社交媒体推断通勤人口的性别构成。参加:第六届AAAI网络日志和社交媒体国际会议
[23] Liu W,Ruth D(2013)名称中有什么?在twitter中使用名字作为性别推断的功能。摘自:分析微文AAAI 2013春季研讨会,第10-16页。美国加利福尼亚州帕洛阿尔托市AAAI
[24] 陆飞(2018)《11个最美丽的中文名字及其含义》。https://bit.ly/2yGSNO7网址
[25] Ludu PS(2014)使用其关注的名人推断推特用户的性别。arXiv预打印arXiv:1405.6667
[26] Merler M、Cao L、Smith JR(2015)你是你推特上的人。。。照片!基于社交媒体图像语义分析的性别预测。摘自:2015年IEEE多媒体与博览会国际会议(ICME),第1-6页。美国电气工程师协会
[27] Mikolov T,Chen K,Corrado G,Dean J(2013),向量空间中单词表示的有效估计。In:ICLR研讨会记录
[28] Mueller J,Stumme G(2016)使用推特中的统计名称特征进行性别推断。摘自:第三届社会信息学多学科国际社会网络会议记录,2016年数据科学,第47页。ACM公司
[29] Otterbacher J(2010)《电影评论家的性别推断:利用写作风格、内容和元数据》。摘自:第19届ACM信息和知识管理国际会议记录,第369-378页。ACM公司
[30] Pennacchiotti M,Popescu AM(2011)推特用户分类的机器学习方法。参加:第五届AAAI网络日志和社交媒体国际会议
[31] Rao D,Yarowsky D(2010)《社交媒体中潜在用户属性的检测》。In:程序。NIPS MLSN研讨会,第1-7页。Citeser公司
[32] Sakaki S,Miura Y,Ma X,Hattori K,Ohkuma T(2014)使用文本和图像处理的组合分析进行推特用户性别推断。载于:第三次视觉与语言讲习班会议记录,第54-61页
[33] Wang S,Manning CD(2012)基线和二元图:简单、良好的情绪和主题分类。摘自:计算语言学协会第50届年会会议记录:短篇论文-第2卷,ACL’12,第90-94页。计算语言学协会,美国宾夕法尼亚州斯特劳德斯堡
[34] Wang Y,Huang M,Zhao L,et al.(2016)基于注意的方面级情感分类lstm。摘自:2016年自然语言处理实证方法会议记录,第606-615页
[35] 维基百科:安德里亚。https://en.wikipedia.org/wiki/Andrea(英文)[在线;2020年3月22日访问]
[36] 维基百科:托尼。https://en.wikipedia.org/wiki/Toni(英语)[在线;2020年3月22日访问]
[37] 维基百科:中性名称。https://en.wikipedia.org/wiki/Unisex名称[在线;2020年3月22日访问]
[38] Wu Y、Schuster M、Chen Z、Le QV、Norouzi M、Macherey W、Krikun M、Cao Y、Gao Q、Macheree K、Klingner J、Shah A、Johnson M、Liu X、Łkasz Kaiser、Gouws S、Kato Y、Kudo T、Kazawa H、Stevens K、Kurian G、Patil N、Wang W、Young C、Smith J、Riesa J、Rudnick A、Vinyals O、Corrado G、Hughes M、Dean J(2016)谷歌的神经机器翻译系统:弥合人类和机器翻译之间的鸿沟。CoRR arXiv公司:1609.08144
[39] Yao S,Huang B(2017)《超越对等:协作过滤的公平目标》,载《神经信息处理系统的进展》,第2921-2930页
[40] Ye J,Han S,Hu Y,Coskun B,Liu M,Qin H,Skiena S(2017)《使用名字嵌入的国籍分类》。参见:2017年ACM信息和知识管理会议记录,CIKM’17,第1897-1906页。ACM,美国纽约州纽约市doi:10.1145/3132847.3133008
[41] Zhang X,Zhao J,LeCun Y(2015)文本分类的特征级卷积网络。摘自:第28届神经信息处理系统国际会议纪要——第1卷,NIPS’15,第649-657页。麻省理工学院出版社,美国马萨诸塞州剑桥
[42] Zhou X,Wan X,Xiao J(2016)基于注意的跨语言情感分类lstm网络。摘自:2016年自然语言处理实证方法会议记录,第247-256页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。