位sa_nlp@书信电报-电子数据交换-国际计算语言学协会2022年:利用预先训练的语言模型检测社交媒体评论中的同性恋恐惧症和跨恐惧症

维塔尔·班达里,普南·戈亚尔


摘要
在线社交网络无处不在,用户友好。然而,检测和缓和冒犯性内容以保持体面和同理心至关重要。然而,挖掘社交媒体文本是一项复杂的任务,因为用户不遵循任何固定的模式。评论可以用任何语言组合编写,其中许多可能资源不足。本文介绍了我们的LT-EDI共享任务系统,用于检测社交媒体评论中的同性恋恐惧症和跨恐怖症。我们实验了许多基于单语和多语言转换器的模型,如mBERT,以及用于处理类不平衡的数据增强技术。这种经过预处理的大型模型最近在自然语言处理的各种基准测试任务中取得了巨大成功。我们在一个经过仔细注释的YouTube英语和泰米尔语评论的真实数据集上观察了他们的表现。我们的提交在英语、泰米尔语和泰米尔文-英语子任务中的宏观平均F1分数分别为0.42、0.64和0.58,排名分别为9、6和3。系统的代码已经开源。
选集ID:
2022.ltedi-1.18年
体积:
第二次语言技术促进平等、多样性和包容性研讨会论文集
月份:
五月
年份:
2022
地址:
爱尔兰都柏林
编辑:
巴拉提·拉贾·查克拉瓦尔蒂,B巴拉提,约翰·麦克雷,马内尔·扎鲁克,卡利卡-巴厘岛,保罗·布伊特拉尔
地点:
长期教育发展指数
SIG公司:
出版商:
计算语言学协会
注:
页:
149–154
语言:
网址:
https://aclantology.org/2022.ltedi-1.18
内政部:
10.18653/v1/2022.ltedi-1.18
比比键:
引用(ACL):
维塔尔·班达里(Vitthal Bhandari)和普南·戈亚尔(Poonam Goyal)。2022bitsa_nlp@LT-EDI-ACL2022:利用预先训练的语言模型检测社交媒体评论中的同性恋恐惧症和跨恐惧症.英寸语言技术促进平等、多样性和包容性第二次研讨会记录,第149-154页,爱尔兰都柏林。计算语言学协会。
引用(非正式):
位sa_nlp@LT-EDI-ACL2022:利用预先训练的语言模型检测社交媒体评论中的同性恋恐惧症和跨恐惧症(班达里和戈亚尔,LTEDI 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.ltedi-1.18.pdf
视频:
 https://aclantology.org/2022.ltedi-1.18.mp4网址
代码
vitthal-bhandari/恐同症-跨恐怖症检测