HCP公司

HCP:一个灵活的CNN多标签图像分类框架。卷积神经网络(CNN)在单标签图像分类中表现出了良好的性能。然而,CNN如何更好地处理多标签图像仍然是一个有待解决的问题,主要是由于复杂的底层对象布局和不足的多标签训练图像。在这项工作中,我们提出了一个灵活的深层CNN基础设施,称为假设CNN池(HCP),其中任意数量的对象段假设作为输入,然后每个假设连接一个共享的CNN,最后,将不同假设下的CNN输出结果与max-pooling进行聚合,得到最终的多标签预测结果。这种灵活的深层CNN基础设施的一些独特之处包括:1)训练不需要地面真实边界框信息;2) 整个HCP基础设施对可能存在的噪音和/或冗余假设是稳健的;3) 共享的CNN是灵活的,可以很好地使用大规模的单标签图像数据集(如ImageNet)进行预训练;4)自然输出多标签预测结果。在Pascal VOC 2007和VOC 2012多标签图像数据集上的实验结果很好地证明了所提出的HCP基础设施相对于其他最新技术的优越性。特别是,仅HCP获得的mAP达到90.5%,融合后的mAP达到93.2%(基于VOC 2012数据集手工制作的特征)。