剥皮

DenseCap:用于密集字幕的完全卷积定位网络。我们介绍了密集字幕任务,这需要计算机视觉系统本地化和描述自然图像中的突出区域。当一个预测区域覆盖完整图像时,密集字幕任务概括描述对象检测,当描述由单个词组成时,以及图像字幕。为了解决本地化和描述任务联合,我们提出了一个完全卷积定位网络(FCLN)架构,处理一个单一的,有效的前向图像,不需要外部区域的建议,并可以训练端到端的一轮优化。该体系结构由卷积网络、新的密集定位层和产生标签序列的递归神经网络语言模型组成。我们评估我们的网络上的视觉基因组数据集,它包括94000个图像和4100000个区域接地字幕。我们观察到速度和精度改进基线的基础上的当前状态的最先进的方法在生成和检索设置。