Revisiting Knowledge Distillation via Label Smoothing Regularization

Yuan, Li; Tay, Francis EH; Li, Guilin; Wang, Tao; Feng, Jiashi

基于标签平滑正则化的知识提取

李元、弗朗西斯·爱荷华·戴、桂林·李、王涛、冯佳诗; 2020年IEEE/CVF计算机视觉和模式识别会议记录，第3903-3911页

摘要

知识提取（KD）旨在将繁琐教师模型的知识提取为轻量级学生模型。它的成功通常归功于教师模型提供的关于类别之间相似性的特权信息，从这个意义上讲，只有强大的教师模型才能在实践中教授较弱的学生。在这项工作中，我们通过以下实验观察来挑战这一共同信念：1）除了承认教师可以提高学生，学生还可以通过逆转KD过程来显著提高教师；2）一个训练有素、准确度远低于学生的老师仍然可以显著提高后者。为了解释这些观察结果，我们对KD和标记平滑正则化之间的关系进行了理论分析。我们证明了1）KD是一种学习的标签平滑正则化，2）标签平滑正则性为KD提供了一个虚拟教师模型。从这些结果来看，我们认为KD的成功并不完全是由于教师类别之间的相似信息，而是由于软目标的正则化，这同样重要，甚至更重要。基于这些分析，我们进一步提出了一种新的无教师知识提取（Tf-KD）框架，在该框架中，学生模型可以从自身或手动设计的正则化分布中学习。Tf-KD的性能与来自优秀教师的普通KD相当，这在没有更强的教师模型时得到了很好的应用。同时，Tf-KD是通用的，可以直接用于训练深度神经网络。在没有任何额外计算成本的情况下，Tf-KD在ImageNet上比成熟的基线模型提高了0.65%，这优于标签平滑正则化。

相关材料

[pdf格式][支持]

[围巾]

@会议记录{Yuan_2020_CVPR，
作者={袁、李和泰、弗朗西斯·埃赫和李、桂林和王、陶和冯、伽师}，
title={通过标签平滑正则化重新访问知识提取}，
booktitle={IEEE/CVF计算机视觉和模式识别（CVPR）会议记录}，
月={6月}，
年份={2020年}
}