计算机科学>计算与语言
职务: Phi-3技术报告:一种在手机上本地使用的高效语言模型
摘要: 我们引入了phi-3-mini,这是一个38亿个参数的语言模型,使用3.3万亿个令牌进行训练,其总体性能通过学术基准测试和内部测试来衡量,与Mixtral 8x7B和GPT-3.5等模型的性能相匹敌(例如,phi-3-mni在MMLU上达到69%,在MT-bench上达到8.38), 尽管它足够小,可以部署在手机上。 创新完全在于我们的训练数据集,这是用于phi-2的数据集的放大版,由经过严格过滤的公开可用网络数据和合成数据组成。 该模型还针对健壮性、安全性和聊天格式进行了进一步调整。 我们还提供了一些初始参数标定结果,其中7B和14B模型针对4.8T令牌(称为phi-3-small和phi-3-medium)进行了训练,这两个模型的能力都显著高于phi-3-mini(例如,MMLU上分别为75%和78%,MT-bench上分别为8.7和8.9)。 此外,我们还介绍了phi-3-vision,这是一个基于phi-3-mini的42亿参数模型,具有强大的图像和文本提示推理能力。