×

结构化数据的半监督、多标签、多实例学习。 (英语) Zbl 1474.68273号

摘要:许多分类任务都需要为对象添加标签并确定每个对象部分的标签关联。示例应用程序包括标记图像片段或确定文本文档的相关部分(当训练标签仅在图像或文档级别可用时)。这项任务通常被称为多实例(MI)学习,学习者通常会收到一组标记的(有时是未标记的)袋子,每个袋子包含几个片段(实例)。我们提出了一种用于多标签分类的半监督MI学习方法。大多数MI学习方法将每个包中的实例视为独立且相同分布的样本。然而,在许多实际应用中,实例是相互关联的,不应被视为独立的。我们的模型发现了一个潜在的低维空间,它捕获了每个袋子中的结构。此外,与许多其他MI学习方法不同,这些方法主要是为二进制分类开发的,我们联合建模多个类,从而也捕获不同类之间可能的依赖关系。我们在一个半监督框架内开发了我们的模型,该框架既利用了标记的袋子,也利用了一组更大的未标记的袋子进行训练。我们为模型开发了几种有效的推理方法。我们首先介绍了一种用于推理的马尔可夫链蒙特卡罗方法,该方法可以处理行李标签和实例标签之间的任意关系,包括标准的硬-最大MI假设。我们还扩展了我们的模型,使用随机变分贝叶斯方法进行推理,从而更好地扩展到海量数据集。实验表明,我们的方法在包级和实例级标签预测方面都优于几种MI学习和标准分类方法。复制我们实验的所有代码都可以从https://github.com/hsoleimani/MLTM网站.

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Adel,T.、Smith,B.、Urner,R.、Stashuk,D.和Lizotte,D.J.(2013)。定量肌电图的生成性多实例学习模型。第二十届人工智能不确定性会议论文集。AUAI出版社。
[2] Amores,J.(2013)。多实例分类:综述、分类和比较研究。人工智能,201,81-105·Zbl 1334.68176号
[3] Andrews,S.、Tsochantaridis,I.和Hofmann,T.(2002)。支持向量机进行多实例学习。S.Becker、S.Thrun和K.Obermayer(编辑),《神经信息处理系统的进展》,15(第561-568页)。马萨诸塞州剑桥:麻省理工学院出版社。
[4] 毕晓普,C.M.(2006)。模式识别和机器学习。纽约:施普林格·Zbl 1107.68072号
[5] Blei,D.、Carin,L.和Dunson,D.(2012年)。概率主题模型。ACM通信,55(4),77-84,
[6] 布莱,D.和乔丹,M.I.(2003)。建模带注释的数据。在ACM SIGIR信息检索研究与发展会议上(第127-134页)。纽约:ACM出版社。
[7] Blei,D.和McAuliffe,J.(2010年)。受监督的主题模型。arXiv:1003.0783
[8] Blei,D.、Ng,A.Y.和Jordan,M.I.(2003年)。潜在Dirichlet分配。机器学习研究杂志,3,993-1022·Zbl 1112.68379号
[9] Briggs,F.、Fern,X.、Raich,R.和Lou,Q.(2013)。用于多实例多标签学习的实例注释。ACM数据知识发现事务,7(3),14,
[10] Broderick,T.、Boyd,N.、Wibisono,A.、Wilson,A.C.和Jordan,M.I.(2013年)。流式变分贝叶斯。C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,26(第1-9页)。纽约州红钩市:Curran。
[11] Brooks,S.、Gelman,A.、Jones,G.和Meng,X.(2011年)。马尔可夫链蒙特卡罗手册。佛罗里达州博卡拉顿:CRC出版社·Zbl 1218.65001号
[12] Chapelle,O.、Schölkopf,B.和Zien,A.(2006年)。半监督学习。马萨诸塞州剑桥:麻省理工学院出版社,
[13] Chen,Y.,&Wang,J.Z.(2004)。通过区域学习和推理进行图像分类。机器学习研究杂志,5913-939。
[14] Cour,T.和Sapp,B.(2011年)。从部分标签中学习。机器学习研究杂志,12(2),1501-1536·Zbl 1280.68162号
[15] Dai,A.和Storkey,A.J.(2014)。监督的分层Dirichlet过程。IEEE模式分析和机器智能汇刊,37(2),243-255,
[16] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志,39(1),1-38·Zbl 0364.62022号
[17] Dietterich,T.G.、Lathrop,R.H.和Lozano-Pérez,T.(1997)。用轴平行矩形解决多实例问题。人工智能,89,31-71·兹比尔1042.68650
[18] Doran,G.和Ray,S.(2014)。从多实例数据中学习实例概念,并将包作为分布。第二十八届AAAI人工智能会议论文集(第1802-1808页)。马萨诸塞州剑桥:麻省理工学院出版社。
[19] Fei-Fei,L.和Perona,P.(2005)。用于学习自然场景类别的贝叶斯层次模型。2005年IEEE计算机学会计算机视觉和模式识别会议记录(第2卷,第524-531页)。华盛顿特区:IEEE计算机协会,
[20] Foulds,J.、Boyles,L.、DuBois,C.、Smyth,P.和Welling,M.(2013年)。潜在狄利克雷分配的随机坍缩变分贝叶斯推理。《第19届知识发现和数据挖掘国际会议论文集》(第446-454页)。纽约:ACM。
[21] Foulds,J.和Frank,E.(2010年)。回顾多实例学习假设。知识工程评论,25(1),1,
[22] Foulds,J.和Smyth,P.(2011年)。多实例混合模型和半监督学习。在SIAM国际数据挖掘会议记录中。费城:SIAM。
[23] Freund,Y.和Schapire,R.R.E.(1996)。实验一种新的boosting算法。《第三届机器学习国际会议论文集》(第148-156页)。加利福尼亚州圣马特奥:Morgan Kaufmann。
[24] Griffiths,T.L.和Steyvers,M.(2004)。寻找科学主题。《美利坚合众国国家科学院院刊》,101(增刊1),5228-5235,
[25] Guan,X.、Raich,R.和Wong,W.-K.(2016)。使用自回归隐马尔可夫模型从时间序列数据中进行活动识别的高效多实例学习。第33届机器学习国际会议论文集(第2330-2339页)。
[26] Hernández-González,J.、Inza,I.和Lozano,J.A.(2016)。监管不力和其他非标准分类问题:分类法。模式识别字母,69,49-55,
[27] Hoffman,M.、Blei,D.、Wang,C.和Paisley,J.(2012)。随机变分推理。《机器学习研究杂志》,第14期,1303-1347页·Zbl 1317.68163号
[28] Jones,G.L.、Haran,M.、Caffo,B.S.和Neath,R.(2006)。马尔可夫链蒙特卡罗固定宽度输出分析。《美国统计协会杂志》,101(476),1537-1547·兹比尔1171.62316
[29] Jordan,M.I.、Ghahramani,Z.、Jaakkola,T.S.和Saul,L.K.(1999)。介绍图形模型的变分方法。机器学习,37(2),183-233·Zbl 0945.68164号
[30] Kandemir,M.和Hamprecht,F.A.(2014年)。Dirichlet的实例标签预测过程是多实例学习的过程。第三十届人工智能不确定性会议论文集。AUAI出版社。
[31] Kim,D.、Kim,S.和Oh,A.(2012年)。混合随机测度的狄利克雷过程:标记数据的非参数主题模型。第29届机器学习国际会议论文集(第727-734页)。威斯康星州麦迪逊:无所不在。
[32] Lacoste-Julien,S.、Sha,F.和Jordan,M.I.(2008)。DiscLDA:用于降维和分类的判别学习。D.Koller、D.Schuurmans、Y.Bengio和L.Bottou(编辑),《神经信息处理系统的进展》,21(第1-8页)。马萨诸塞州剑桥:麻省理工学院出版社。
[33] Lehmann,J.、Isele,R.、Jakob,M.、Jentzsch,A.、Kontokostas,D.、Mendes,P.N.、…Bizer,C.(2014)。DBpedia——从维基百科中提取的大规模多语言知识库。语义网,5,1-29。
[34] Lewis,D.D.(1991)。评估文本分类I.语音和自然语言研讨会论文集(第312-318页)。加利福尼亚州圣马特奥:Morgan Kaufmann,
[35] Lu,Y.,&Zhai,C.(2008)。通过半监督主题建模进行意见集成。《万维网国际会议记录》(第121-130页)。纽约:ACM。
[36] Mao,X.-L.,Ming,Z.-Y.,Chua,T.-S.,Li,S.,Yan,H.,&Li,X.(2012)。SSHLDA:半监督层次化主题模型。《2012年自然语言处理和计算自然语言学习实证方法联合会议论文集》(第800-809页)。宾夕法尼亚州斯特劳德斯堡:计算语言学协会
[37] Maron,O.和Lozano-Pérez,T.(1998)。多元学习框架。M.Mozer、M.I.Jordan和T.Petsche(编辑),《神经信息处理系统的进展》,10(第570-576页)。马萨诸塞州剑桥:麻省理工学院出版社。
[38] Miller,D.J.和Uyar,H.S.(1997年)。基于标记和未标记数据的专家分类器与学习的混合。M.Mozer、M.I.Jordan和T.Petsche(编辑),《神经信息处理系统的进展》,9(第571-577页)。马萨诸塞州剑桥:麻省理工学院出版社。
[39] Neal,R.(2011)。MCMC使用哈密顿动力学。在S.Brooks、A.Gelman、G.L.Jones和X.-L.Meng(编辑)的《马尔可夫链蒙特卡罗手册》中。佛罗里达州博卡拉顿:查普曼和霍尔/CRC·兹比尔1218.65001
[40] Nocedal,J.和Wright,S.(2006年)。数值优化。纽约:施普林格·Zbl 1104.65059号
[41] Paisley,J.W.、Blei,D.M.和Jordan,M.I.(2012年)。随机搜索的变分贝叶斯推理。第29届机器学习国际会议论文集(第1367-1374页)。威斯康星州麦迪逊:无所不在。
[42] Pakman,A.和Paninski,L.(2013)。二元分布辅助变量精确哈密顿蒙特卡罗采样器。在C.J.C.Burges、L.Bottou、Z.Gahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,26(第2490-2498页)。纽约州红钩市:Curran。
[43] Pham,A.T.、Raich,R.、Fern,X.Z.和Arriaga,J.P.(2015)。存在新类实例的多实例多标签学习。第32届机器学习国际会议论文集(第2427-2435页)。纽约:ACM。
[44] Ramage,D.、Hall,D.、Nallapati,R.和Manning,C.D.(2009年)。标签LDA:多标签语料库中信用归因的监督主题模型。《2009年自然语言处理实证方法会议论文集》(第248-256页)。宾夕法尼亚州斯特劳德斯堡:计算语言学协会,
[45] Ramage,D.、Manning,C.D.和Dumais,S.(2011年)。用于可解释文本挖掘的部分标记主题模型。《第17届知识发现和数据挖掘国际会议论文集》(第457-465页)。纽约:ACM。
[46] Robbins,H.和Monro,S.(1951年)。一种随机近似方法。数理统计年鉴,22400-407·Zbl 0054.05901号
[47] Soleimani,H.和Miller,D.J.(2016)。用于文档分类和句子标注的半监督多标签主题模型。第25届ACM国际信息与知识管理会议记录(第105-114页)。纽约:ACM。
[48] Teh,Y.、Newman,D.和Welling,M.(2006年)。一种用于潜在Dirichlet分配的折叠变分贝叶斯推理算法。B.Schölkopf、J.C.Platt和T.Hofmann(编辑),《神经信息处理系统的进展》,19(第1353-1360页)。马萨诸塞州剑桥:麻省理工学院出版社。
[49] Titsias,M.K.和Lazaro-Gredilla,M.(2015)。黑箱变分推理的局部期望梯度。C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett(编辑),《神经信息处理系统进展》,28(第1-9页),纽约州红钩出版社:Curran。
[50] Tsoumakas,G.和Katakis,I.(2007年)。多标签分类:概述。国际数据仓库与挖掘杂志,3(3),1-13,
[51] Wallach,H.M.、Murray,I.、Salakhutdinov,R.和Mimno,D.(2009年)。主题模型的评估方法。《第26届国际机器学习年会论文集》(第1105-1112页)。纽约:ACM。
[52] Wang,C.,Blei,D.M.和Li,F.-F.(2009年)。同时进行图像分类和注释。《计算机视觉和模式识别会议论文集》(第1903-1910页)。华盛顿特区:IEEE计算机协会。
[53] Warrell,J.和Torr,P.H.S.(2011年)。结构化包模型的多实例学习。《计算机视觉和模式识别中能量最小化方法国际研讨会论文集》(第369-384页)。纽约:斯普林格。
[54] Wu,J.S.,Huang,S.J.和Zhou,Z.H(2014)。通过多实例多标记学习预测全基因组蛋白质功能。IEEE/ACM计算生物学和生物信息学汇刊,11(5),891-902,
[55] Xu,X.和Frank,E.(2004)。已标记实例包的逻辑回归和增强。《亚太知识发现和数据挖掘会议记录》(第272-281页)。纽约:斯普林格。
[56] Xu,X.-S.,Jiang,Y.,Xue,X.,&Zhou,Z.-H.(2012)。视频注释任务的半监督多实例多标签学习。第20届ACM国际多媒体会议记录(第737-740页)。纽约:ACM,
[57] Yang,S.-H.,Zha,H.和Hu,B.-G.(2009)。Dirichlet-Bernoulli对齐:多类多标签多实例语料库的生成模型。Y.Bengio、D.Schuurmans、J.D.Lafferty、C.K.I.Williams和A.Culotta(编辑),《神经信息处理系统的进展》,22(第2143-2150页)。纽约州红钩市:Curran。
[58] Yang,Z.、Kotov,A.、Mohan,A.和Lu,S.(2015)。参数和非参数用户软件情感主题模型。《第38届信息检索研究与开发国际会议论文集》(第413-422页)。纽约:ACM。
[59] Zhang,D.、Liu,Y.、Si,L.、Zhang、J.、Lawrence,R.D.、Lafayette,W.…Heights,Y.(2011)。结构化数据的多实例学习。J.Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.C.N.Pereira和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,24(第145-153页)。纽约州红钩市:Curran。
[60] Zhang,M.-L.和Zhou,Z.-H.(2014)。多标签学习算法综述。IEEE知识与数据工程汇刊,26(8),1819-1837,
[61] Zhang,Q.和Goldman,S.A.(2002年)。EM-DD:一种改进的多位置学习技术。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统的进展》,14(第1073-1080页)。马萨诸塞州剑桥:麻省理工学院出版社。
[62] Zhou,Z.-H.,Sun,Y.-Y.,&Li,Y.-F.(2009)。通过将实例视为非I.I.D.样本进行多因素学习。《第26届国际机器学习年会论文集》(第1249-1256页)。纽约:ACM。
[63] Zhou,Z.-H.,&Xu,J.-M.(2007)。关于多实例学习和半监督学习之间的关系。《第24届国际机器学习年会论文集》(第1167-1174页)。纽约:ACM。
[64] Zhou,Z.-H.,&Zhang,M.-L.(2006)。多实例多标签学习及其在场景分类中的应用。B.Schölkopf、J.C.Platt和T.Hofmann(编辑),《神经信息处理系统的进展》,19(第1609-1616页)。马萨诸塞州剑桥:麻省理工学院出版社。
[65] Zhou,Z.-H.,Zhang,M.-L.,Huang,S.J.,&Li,Y.F.(2012)。多实例多标签学习及其在场景分类中的应用。人工智能,1762291-2320·Zbl 1238.68139号
[66] Zubiaga,A.、GarcíA-Plaza,A.P.、Fresno,V.和Martínez,R.(2009年)。基于内容的集群用于标记云可视化。《2009年ASONAM会议记录》,《社会网络分析和挖掘进展国际会议》(第316-319页)。华盛顿特区:IEE计算机协会,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。