×

基于大裕度sigmoid信念网络的快速结构预测。 (英语) Zbl 1254.68213号

摘要:图像通常包含多个语义相关的对象。从低级视觉特征到相互依赖的高级语义的映射可以表述为一个结构化预测问题。当前用于结构化预测的统计模型简化了对底层输出图结构的假设,例如假设一个低阶马尔可夫链,因为随着底层图树宽度的增加,精确推断变得很难处理。另一方面,近似推理算法迫使人们权衡表征能力和计算效率。本文提出了一种用于图像结构化预测的大裕度sigmoid信念网络(LMSBNs)。LMSBN允许对运行在多项式时间内的高概率任意图形结构使用非常快速的推理算法。此概率依赖于数据分布,并在学习中最大化。新方法克服了以往模型中表示效率的权衡,并允许复杂图形结构的快速结构化预测。我们展示了将完全连接模型应用于语义图像注释、图像检索和光学字符识别(OCR)问题的结果,并证明了与当前最先进的方法相比,所提出的方法可以显著提高性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T45型 机器视觉和场景理解
68立方英尺 知识表示
62A09号 统计学中的图形方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdou,S.和;Scordilis,M.S.(2004)。基于后验概率的置信度测度在语音识别中的波束搜索剪枝。语音通信,42(3-4),409-428·doi:10.1016/j.specom.2003.11.002
[2] Bartlett,P.L.和;Mendelson,S.(2002)。Rademacher和Gaussian复杂性:风险边界和结构结果。机器学习研究杂志,3463–482·Zbl 1084.68549号
[3] Bengio,Y.、Lamblin,P.、Popovici,D.和;Larochelle,H.(2007)。深度网络的贪婪分层培训。神经信息处理系统进展。剑桥:麻省理工学院出版社。
[4] Bottou,L.和;Bousquet,O.(2008)。大规模学习的权衡。在J.Platt,D.Koller,Y.Singer,&S.Roweis(编辑),《神经信息处理系统的进展》(第20卷,第161-168页)。
[5] Boutel,M.R.、Luo,J.、Shen,X.和;Brown,C.M.(2004)。学习多标签场景分类。模式识别,371757-1771·doi:10.1016/j.patcog.2004.03.009
[6] Carneiro,G.、Chan,A.、Moreno,P.和;Vasconcelos,N.(2007年)。监督学习用于图像注释和检索的语义类。IEEE模式分析和机器智能汇刊,29(3),394–410·doi:10.1109/TPAMI.2007.61
[7] Collins,M.、Globerson,A.、Koo,T.、Carreras,X.和;Bartlett,P.L.(2008)。条件随机场和最大边际马尔可夫网络的指数梯度算法。机器学习研究杂志,9,1775-1822·Zbl 1225.68167号
[8] Darwiche,A.(2003年)。贝叶斯网络中推理的差分方法。美国医学会杂志,50,123–132·Zbl 1325.68226号 ·doi:10.1145/765568.765570
[9] DauméIII,H.、Langford,J.和;Marcu,D.(2009)。基于搜索的结构化预测。机器学习杂志,75(3),297–325·Zbl 1470.68094号 ·数字对象标识代码:10.1007/s10994-009-5106-x
[10] Doucet,A.、de Freitas,N.、Murphy,K.P.和;罗素·S·J(2000)。用于动态贝叶斯网络的Rao Blackwell粒子滤波。在人工智能不确定性年度会议上(第176-183页)。
[11] Duygulu,P.、Barnard,K.、de Freitas,J.和;Forsyth,D.(2006年)。作为机器翻译的对象识别:学习固定图像词汇的词汇。在A.Heyden、G.Spar、M.Nielsen和;P.Johansen(编辑),计算机科学讲稿:第2353卷。欧洲计算机视觉会议(第349-354页)。柏林:斯普林格·Zbl 1039.68623号
[12] 风机、R.E.和;Lin,C.J.(2007)。多标签分类阈值选择研究(技术代表)。国立台湾大学。
[13] Feng,S.、Manmatha R.和;Lavrenko,V.(2004)。图像和视频注释的多个伯努利相关模型。计算机视觉和模式识别。
[14] Finley,T.和;Joachims,T.(2008)。当精确推理困难时,训练结构化SVM。在机器学习国际会议上(第304–311页)。纽约:ACM。
[15] Guillaumin,M.、Mensink,T.、Verbeek,J.和;Schmid,C.(2009)。Tagprop:用于图像自动标注的最近邻模型中的区分性度量学习。在计算机视觉国际会议上(第309-316页)。
[16] Guo,Y.、Wilkinson,D.和;Schuurmans,D.(2005年)。最大裕度贝叶斯网络。在关于人工智能不确定性的年度会议上。
[17] Hinton,G.E.和;Sejnowski,T.J.(1983年)。最佳感知推理。计算机视觉和模式识别(第448-453页)。
[18] Hoefel,G.和;Elkan,C.(2008)。学习两阶段SVM/CRF序列分类器。在ACM信息和知识管理会议上(第271-278页)。美国纽约州纽约市。
[19] 谢家杰、张家卫、林家杰、基尔西、S.S;Sundararajan,S.(2008)。一种用于大规模线性支持向量机的双坐标下降方法。在机器学习国际会议上(第408-415页)。纽约:ACM。
[20] Joachims,T.、Finley,T.和;Yu,C.N.J.(2009)。结构SVM的切入式培训。机器学习,77(1),27–59·Zbl 1235.68161号 ·doi:10.1007/s10994-009-5108-8
[21] Kassel,R.H.(1995)。联机手写字符识别方法的比较。博士论文,美国马萨诸塞州剑桥。
[22] 科尔莫戈罗夫;Zabih,R.(2002)。哪些能量函数可以通过图形切割最小化?在欧洲计算机视觉会议上(第185-208页)·Zbl 1039.68666号
[23] A.Kulesza,&;Pereira,F.(2007)。具有近似推理的结构化学习。神经信息处理系统进展。
[24] Lafferty,J.、McCallum,A.和;Pereira,F.(2001)。条件随机场:用于分割和标记序列数据的概率模型。在机器学习国际会议上。
[25] Lavrenko,V.、Manmatha,R.和;Jeon,J.(2003)。学习图片语义的模型。神经信息处理系统进展。剑桥:麻省理工学院出版社。
[26] Lazebnik,S.、Schmid,C.和;Ponce,J.(2006年)。除了一袋袋的特征:用于识别自然场景类别的空间金字塔匹配。计算机视觉和模式识别。
[27] LeCun,Y.、Chopra,S.、Hadsell,R.、Huang,F.J.、Bakir,G.、Hofman,T.、Schölkopf,B.、Smola,A.和;Taskar,B.(编辑)(2006年)。基于能量的学习教程。在预测结构化数据中。剑桥:麻省理工学院出版社。
[28] Liu,J.、Li,M.、Liu,Q.、Lu,H.和;Ma,S.(2009)。通过图形学习进行图像标注。模式识别,42,218–228·兹比尔1181.68247 ·doi:10.1016/j.patcog.2008.04.012
[29] Lowd,D.和;Domingos,P.(2008)。学习算术电路。在人工智能不确定性年度会议上(第383–392页)。科瓦利斯:AUAI出版社。
[30] Makadia,A.、Pavlovic,V.和;Kumar,S.(2008)。图像注释的新基线。在欧洲计算机视觉会议上(第316-329页)。柏林:斯普林格。
[31] McCallum,A.、Freitag,D.和;佩雷拉,F.(2000)。信息提取和分割的最大熵马尔可夫模型。程序中。第17届机器学习国际会议(第591-598页)。旧金山:摩根考夫曼。
[32] 梅茨勒,D.,&;Manmatha,R.(2004)。图像检索的推理网络方法。图像和视频检索国际会议(第42-50页)。柏林:斯普林格。
[33] 苗,X,&;Rao,R.P.(2009)。大利润波尔兹曼机器。在国际人工智能联合会议上(第1156–1162页)。
[34] Neal,R.M.(1992)。信念网络的联结学习。人工智能,56(1),71–113·Zbl 0761.68081号 ·doi:10.1016/0004-3702(92)90065-6
[35] Perez Cruz,F.、Ghahramani,Z.和;Pontil,M.(2007)。条件图形模型。剑桥:麻省理工学院出版社。
[36] Quattoni,A.、Collins,M.和;Darrell,T.(2004)。用于对象识别的条件随机字段。《神经信息处理系统进展》(第1097-1104页)。剑桥:麻省理工学院出版社。
[37] Rosenberg,D.、Klein,D.和;Taskar,B.(2007年)。混合租金最大熵马尔可夫模型。在人工智能不确定性年度会议上(第318-325页)。科瓦利斯:AUAI出版社。
[38] Russell,B.、Torralba,A.、Murphy,K.和;Freeman,W.(2008)。Labelme:用于图像注释的数据库和基于web的工具。国际计算机视觉杂志,77(1),157-173·doi:10.1007/s11263-007-0090-8
[39] Shalev-Shwartz,S.、Singer,Y.和;Srebro,N.(2007年)。Pegasos:支持向量机的原始估计子梯度解算器。在机器学习国际会议上(第807-814页)。纽约:ACM·Zbl 1211.90239号
[40] Shalev-Shwartz,S.、Srebro,N.和;Sridharan,K.(2008年)。针对正规化目标的快速费率。神经信息处理系统进展。
[41] Tadepalli,P.和;Natarajan,B.K.(1996)。加快从问题和解决方案中学习的正式框架。《人工智能研究杂志》,445-475·Zbl 0900.68365号
[42] Taskar,B.、Guestrin,C.和;Koller,D.(2004)。最大边际马尔可夫网络。《神经信息处理系统进展》,加拿大温哥华。
[43] Tsochantaridis,I.、Hofmann,T.、Joachims,T.和;Altun,Y.(2004)。支持相互依赖和结构化输出空间的向量机学习。在机器学习国际会议上·兹比尔1222.68321
[44] Tsoumakas,G.、Katakis,I.和;Vlahavas,I.P.(2010年)。挖掘多标签数据。数据挖掘和知识发现手册,第667–685页。
[45] Wainwright,M.J.、Jaakkola,T.和;Willsky,A.S.(2003)。基于伪矩匹配的树重加权置信传播算法和近似MI估计。在AISTATS。
[46] Wainwright,M.J.、Jaakkola,T.和;Willsky,A.S.(2005年A)。日志分区函数的一类新的上界。IEEE信息理论汇刊,51,2313–2335·Zbl 1310.94028号 ·doi:10.1109/TIT.2005.850091
[47] Wainwright,M.J.、Jaakola,T.和;Willsky,A.S.(2005年b)。通过树协议进行MAP估计:消息传递和线性规划。IEEE信息理论汇刊,51,3697–3717·Zbl 1318.94025号 ·doi:10.1109/TIT.2005.856938
[48] Yavlinsky,A.、Schofield,E.和;Rüger,S.(2005年)。使用全局特征和稳健的非参数密度估计进行自动图像注释。图像和视频检索国际会议(第507-517页)。柏林:斯普林格。
[49] Yedidia,J.S.、Freeman,W.T.和;Weiss,Y.(2005)。构造自由能近似和广义置信传播算法。IEEE信息理论汇刊,51,2282–2312·Zbl 1283.94023号 ·doi:10.1109/TIT.2005.850085
[50] 张涛(2001)。基于凸风险最小化的分类方法的统计行为和一致性。《统计年鉴》,32(1),56–85·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。