通用语言理解评估(GLASE)基准是用于训练、评估和分析自然语言理解系统的资源集合。胶包括:九个句子或句子对语言理解任务的基准建立在现有的现有数据集上,并选择覆盖不同范围的数据集大小、文本类型和难度;一种诊断数据集,用于评估和分析关于自然语言中发现的各种语言现象的模型性能,以及用于跟踪基准和仪表板上的性能的公共排行榜,用于可视化诊断集上模型的性能。胶水标尺的格式是模型不可知的,所以任何能够处理句子和句子对并产生相应预测的系统都有资格参与。选择基准任务以支持使用参数共享或其他传输学习技术跨任务共享信息的模型。胶水的最终目标是推动研究开发通用的和健壮的自然语言理解系统。