A Survey of Learning on Small Data: Generalization, Optimization, and Challenge

Cao, Xiaofeng; Bu, Weixin; Huang, Shengjun; Zhang, Minling; Tsang, Ivor W.; Ong, Yew Soon; Kwok, James T.

计算机科学>机器学习

arXiv公司：2207.14443（cs）

【2022年7月29日提交(第1版)，上次修订日期：2023年6月6日（此版本，v2）]

标题：小数据学习综述：泛化、优化与挑战

作者：曹晓峰,维新布,黄胜军,张敏玲,Ivor W.Tsang先生,Yew Soon Ong公司,詹姆斯·郭台铭

查看PDF

摘要：学习大数据为人工智能（AI）带来成功，但注释和培训成本高昂。未来，在接近大数据泛化能力的小数据上学习是人工智能的最终目的之一，这需要机器像人类一样识别依赖小数据的目标和场景。一系列学习主题正在以这种方式进行，例如主动学习和少量学习。然而，它们的泛化性能几乎没有理论保证。此外，它们的大多数设置都是被动的，即标签分布明确地由已知分布的有限训练资源控制。本调查遵循PAC（可能近似正确）框架下的不可知主动抽样理论，以模型认知监督和非监督方式分析小数据学习的泛化错误和标签复杂性。考虑到多个学习社区可以产生小数据表示，并且相关主题已经得到了很好的调查，因此我们加入了小数据的新几何表示视角：欧几里得和非欧几里得（双曲）均值，其中优化解包括欧几里得梯度、非欧几里得梯度，给出并讨论了Stein梯度。随后，总结了可以通过小数据学习来改进的多个学习社区，这些社区产生了数据有效的表示，如转移学习、对比学习、图形表示学习。同时，我们发现元学习可以为小数据学习提供有效的参数更新策略。然后，我们探讨了小数据的多个具有挑战性的场景，例如弱监管和多标签。最后，对可能受益于高效小数据表示的多个数据应用程序进行了调查。

学科：	机器学习（cs.LG）
引用为：	arXiv公司：2207.14443【cs.LG】
	（或 arXiv:2207.14443v2【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2207.14443

提交历史记录

发件人：魏新卜[查看电子邮件]
[v1]2022年7月29日星期五02:34:19 UTC（6852 KB）
[版本2]2023年6月6日星期二15:44:14 UTC（7504 KB）

计算机科学>机器学习

标题：小数据学习综述：泛化、优化与挑战

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：小数据学习综述：泛化、优化与挑战

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目