Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Abdin, Marah; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash; Bao, Jianmin; Behl, Harkirat; Benhaim, Alon; Bilenko, Misha; Bjorck, Johan; Bubeck, Sébastien; Cai, Qin; Cai, Martin; Mendes, Caio César Teodoro; Chen, Weizhu; Chaudhary, Vishrav; Chen, Dong; Chen, Dongdong; Chen, Yen-Chun; Chen, Yi-Ling; Chopra, Parul; Dai, Xiyang; Del Giorno, Allie; de Rosa, Gustavo; Dixon, Matthew; Eldan, Ronen; Fragoso, Victor; Iter, Dan; Gao, Mei; Gao, Min; Gao, Jianfeng; Garg, Amit; Goswami, Abhishek; Gunasekar, Suriya; Haider, Emman; Hao, Junheng; Hewett, Russell J.; Huynh, Jamie; Javaheripi, Mojan; Jin, Xin; Kauffmann, Piero; Karampatziakis, Nikos; Kim, Dongwoo; Khademi, Mahoud; Kurilenko, Lev; Lee, James R.; Lee, Yin Tat; Li, Yuanzhi; Li, Yunsheng; Liang, Chen; Liden, Lars; Liu, Ce; Liu, Mengchen; Liu, Weishung; Lin, Eric; Lin, Zeqi; Luo, Chong; Madan, Piyush; Mazzola, Matt; Mitra, Arindam; Modi, Hardik; Nguyen, Anh; Norick, Brandon; Patra, Barun; Perez-Becker, Daniel; Portet, Thomas; Pryzant, Reid; Qin, Heyang; Radmilac, Marko; Rosset, Corby; Roy, Sambudha; Ruwase, Olatunji; Saarikivi, Olli; Saied, Amin; Salim, Adil; Santacroce, Michael; Shah, Shital; Shang, Ning; Sharma, Hiteshi; Shukla, Swadheen; Song, Xia; Tanaka, Masahiro; Tupini, Andrea; Wang, Xin; Wang, Lijuan; Wang, Chunyu; Wang, Yu; Ward, Rachel; Wang, Guanhua; Witte, Philipp; Wu, Haiping; Wyatt, Michael; Xiao, Bin; Xu, Can; Xu, Jiahang; Xu, Weijian; Yadav, Sonali; Yang, Fan; Yang, Jianwei; Yang, Ziyi; Yang, Yifan; Yu, Donghan; Yuan, Lu; Zhang, Chengruidong; Zhang, Cyril; Zhang, Jianwen; Zhang, Li Lyna; Zhang, Yi; Zhang, Yue; Zhang, Yunan; Zhou, Xiren

计算机科学>计算与语言

arXiv:2404.14219（cs）

【于2024年4月22日提交(第1版)，最后修订日期2024年5月23日（本版本，v3）]

职务：Phi-3技术报告：一种在手机上本地使用的高效语言模型

作者：玛拉·阿卜丁,萨姆·艾德·雅各布斯,阿马尔·艾哈迈德·阿旺,乔蒂·阿内亚,艾哈迈德·阿瓦达拉赫,哈尼·阿瓦达拉,阮·巴赫,阿米特·巴赫里,阿拉什·巴赫蒂亚里,鲍建民,哈基拉特·贝尔,阿隆·本哈伊姆,米沙·比伦科,约翰·比约克,塞巴斯蒂安·布贝克,秦才,马丁·蔡,凯奥·塞萨尔·特奥多罗·门德斯,陈伟珠,维什拉夫·乔杜里,董晨,陈东东,陈彦君,陈一玲,帕鲁尔·乔普拉,西阳代,艾莉·德尔·乔诺,古斯塔沃·德·罗萨,狄克逊,罗恩·埃尔丹,维克托·弗拉戈索,丹·伊特,梅高,闵高,高剑锋,阿米特·加格,阿披实-戈斯瓦米,苏里亚·古纳塞卡尔,艾曼·海德,郝俊恒,罗素·J·休特,杰米·休恩,莫扬·贾瓦赫里皮,新晋,皮耶罗·考夫曼,尼科斯·卡拉姆帕齐亚基斯,金东宇（Dongwoo Kim）,马乌德·卡迪米,列夫·库里连科,詹姆斯·R·李,尹达礼,李元志,李云生,陈亮,拉尔斯·利登,刘策,刘梦晨,刘伟顺,埃里克·林,林泽琪,崇洛,皮尤什·马丹,马特·马佐拉,阿林达姆·米特拉,哈迪克·莫迪,安娜·阮,布兰登·诺里克,巴伦·帕特拉,丹尼尔·佩雷兹·贝克尔,托马斯·波特,里德·普里桑特,合阳琴,马尔科·拉德米拉克,科尔比·罗塞特,桑布达·罗伊,Olatunji Ruwase公司,奥利·萨里基维,阿明·赛义德,阿迪尔·萨利姆,迈克尔·桑塔克罗斯,什塔尔·沙阿,宁尚,Hiteshi Sharma公司,斯瓦迪恩·舒克拉,夏松,田中将大,安德里亚·图皮尼,王欣（Xin Wang）,王丽娟,王春雨,Yu Wang（王宇）,雷切尔·沃德,王冠华,菲利普·维特,吴海平,迈克尔·怀亚特,Bin Xiao先生,残旭（Can Xu）,徐家航,徐伟建等人（未显示另外15位作者）

查看PDF HTML（实验性）

摘要：我们引入了phi-3-mini，这是一个38亿个参数的语言模型，使用3.3万亿个令牌进行训练，其总体性能通过学术基准测试和内部测试来衡量，与Mixtral 8x7B和GPT-3.5等模型的性能相匹敌（例如，phi-3-mni在MMLU上达到69%，在MT-bench上达到8.38），尽管它足够小，可以部署在手机上。创新完全在于我们的训练数据集，这是用于phi-2的数据集的放大版，由经过严格过滤的公开可用网络数据和合成数据组成。该模型还针对健壮性、安全性和聊天格式进行了进一步调整。我们还提供了一些初始参数标定结果，其中7B和14B模型针对4.8T令牌（称为phi-3-small和phi-3-medium）进行了训练，这两个模型的能力都显著高于phi-3-mini（例如，MMLU上分别为75%和78%，MT-bench上分别为8.7和8.9）。此外，我们还介绍了phi-3-vision，这是一个基于phi-3-mini的42亿参数模型，具有强大的图像和文本提示推理能力。

评论：	19页
学科：	计算与语言（cs.CL）; 人工智能（cs.AI）
引用为：	arXiv:2404.14219【cs.CL】
	（或 arXiv:2404.14219v3【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2404.14219

提交历史记录

发件人：塞巴斯蒂安·布贝克[查看电子邮件]
[第1版]2024年4月22日星期一14:32:33 UTC（3072 KB）
[版本2]2024年4月23日星期二14:49:38 UTC（3072 KB）
[第3版]2024年5月23日星期四22:42:40 UTC（12248 KB）

计算机科学>计算与语言

职务：Phi-3技术报告：一种在手机上本地使用的高效语言模型

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：Phi-3技术报告：一种在手机上本地使用的高效语言模型

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目