目标
给定一个带有弱视觉注释的古典艺术数据集,我们的目标是自动了解神和动物是谁,并为他们提供边界框注释。
古典艺术的Beazley档案
我们使用的数据集是公开可用的Beazley档案希腊陶器。这包括50000个花瓶条目,其中包括图片和文本注释,总共有120000张图片。下面可以看到一个例子,请注意,我们不知道哪些图像对应于两个文本中的哪一个。
答:特修斯和牛头怪,还有年轻人和女人。B类:宙斯坐在女人和旁观者之间。
方法
为了实现这一目标,我们提出了一种分阶段进行的弱监督学习方法:
a) 文本挖掘以获得视觉一致的聚类。
b) 多示例学习(MIL)以找到上帝(/动物)区域。
c) DPM培训,在数据库中查找上帝(/动物)。
文本挖掘
根据所描绘的故事,神的姿势可能会有所不同。我们的目标是使用花瓶文本生成簇,在簇中上帝将具有固定的姿势。这是通过挖掘成对的神和关键字来实现的。
1宙斯坐着坐在长翅膀的上帝和赫尔墨斯之间的凳子上
2宙斯坐着椅子上放着长矛,黑豹赫密士用长矛把男人披在身上
3.雅典娜的诞生宙斯坐着坐在带鸟头的椅子上,身披披肩的年轻阿波罗,身着北原·迪奥尼索斯(kithara dionysos)和常春藤花环艾利西亚艾(eileithyiai)是设备明星
4.雅典娜的诞生宙斯坐着坐在椅子上,猫头鹰和工作人员披着青年爱马仕·波塞冬阿雷斯装置三脚架
5.人宙斯坐着在拿着长矛的年轻人和披肩的年轻人之间
多实例学习
我们现在有了视觉上一致的簇,其中一些图像将以一致的姿势包含上帝。我们现在的目标是找到包含神的确切区域。这是通过从每个图像中采样窗口并执行多实例学习来实现的。
对于每个采样窗口:
- 计算HOG特征
- 使用功能训练使用LDA作为分类器的滑动窗口检测器。
- 在正、负行李上运行检测器。
- 计数探测器在负包之前在正包上点火的次数。
以这种方式得分最高的窗口最有可能包含一致的上帝区域。这些窗口可以平均用来训练一个新的LDA,以发现更多的神区域。
对象类别检测
为每个簇获得的上帝区域用于训练可变形零件模型(DPM)。然后,DPM被用于标准的滑动窗口方法,用于所有与包含神的名字(或动物)的花瓶条目相关的图像,以检测数据库中的实例。
更多示例
阿波罗·基特拉
狄奥尼索斯·坎塔罗斯
酒神座
赫拉克勒斯狮子
马
骡子
相关出版物
E.J.Crowley,A.齐瑟曼
2013年英国机器视觉会议
鸣谢
这项工作得到了EPSRC和欧盟ERC的资助VisRec编号228180.