计算机科学>计算与语言
标题: SuperTweetEval:社交媒体NLP研究的挑战性、统一性和异构性基准
摘要: 尽管NLP具有相关性,但与通用模型、指标和基准相比,社交媒体NLP的成熟度相形见绌。 这种支离破碎的局面使得社区很难知道,例如,给定一项任务,哪种模型表现最佳,以及与其他模型的比较。 为了缓解这个问题,我们在社交媒体中引入了一个统一的NLP评估基准SuperTweetval,它包括一组从零开始组合、调整和构建的异构任务和数据集。 我们对SuperTweetEval上一系列模型的性能进行了基准测试,结果表明,尽管语言建模方面取得了最新进展,但社交媒体仍然具有挑战性。