计算机科学>机器学习
标题: 小数据学习综述:泛化、优化与挑战
摘要: 学习大数据为人工智能(AI)带来成功,但注释和培训成本高昂。 未来,在接近大数据泛化能力的小数据上学习是人工智能的最终目的之一,这需要机器像人类一样识别依赖小数据的目标和场景。 一系列学习主题正在以这种方式进行,例如主动学习和少量学习。 然而,它们的泛化性能几乎没有理论保证。 此外,它们的大多数设置都是被动的,即标签分布明确地由已知分布的有限训练资源控制。 本调查遵循PAC(可能近似正确)框架下的不可知主动抽样理论,以模型认知监督和非监督方式分析小数据学习的泛化错误和标签复杂性。 考虑到多个学习社区可以产生小数据表示,并且相关主题已经得到了很好的调查,因此我们加入了小数据的新几何表示视角:欧几里得和非欧几里得(双曲)均值,其中优化解包括欧几里得梯度、非欧几里得梯度, 给出并讨论了Stein梯度。 随后,总结了可以通过小数据学习来改进的多个学习社区,这些社区产生了数据有效的表示,如转移学习、对比学习、图形表示学习。 同时,我们发现元学习可以为小数据学习提供有效的参数更新策略。 然后,我们探讨了小数据的多个具有挑战性的场景,例如弱监管和多标签。 最后,对可能受益于高效小数据表示的多个数据应用程序进行了调查。