文件Zbl 07432825-zbMATH Open

标签噪声下的鲁棒监督主题模型。（英语） Zbl 07432825号

机器。学习。 110，第5期，907-931（2021）.

摘要：近年来，一些统计主题建模方法在监督文档分类领域得到了广泛应用。然而，在实际应用中广泛存在的标签噪声下，对这些方法的研究很少。例如，许多大型数据集是从网站上收集的，或者由不同质量的人员进行注释，然后有一些标记错误的项目。本文针对文档分类问题提出了两种健壮的主题模型：平滑标记LDA（SL-LDA）和自适应标记LDA。SL-LDA是标记LDA（L-LDA）的扩展，它是一种经典的监督主题模型。该模型通过Dirichlet平滑，克服了L-LDA算法对噪声标签过度拟合的缺点。AL-LDA是一种基于SL-LDA的迭代优化框架。在每个迭代过程中，我们通过基于最大化熵和最小化交叉熵原则。该方法避免了噪声标签的识别，这是标签噪声消除算法中普遍存在的困难。定量实验结果嘈杂的完全地在随机的，随机的（NCAR）和多个吵闹来源（MNS）设置表明，我们的模型在噪声标签下具有出色的性能。特别地，与最先进的主题建模方法相比，在大规模标签噪声下，所提出的AL-LDA具有显著的优势。

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

监督主题建模;文件分类;标签噪声

软件：

UCI-毫升;梅德达

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Angelova，A.，Abu-Mostafam，Y.，Perona，P.，（2005）对象类别学习的修剪训练集。2005年IEEE计算机学会计算机视觉和模式识别会议（CVPR'05），IEEE，第1卷，（第494-501页）。
[2]	亚松森A，纽曼D（2007）Uci机器学习库。
[3]	Biggio，B.，Nelson，B.，Laskov，P.，（2011）对抗性标签噪声下的支持向量机。摘自：亚洲机器学习会议，PMLR，（第97-112页）。
[4]	Blei DM，McAuliffe JD（2010）监管主题模型。arXiv预打印arXiv:10030783。
[5]	布莱，DM；Ng、AY；Jordan，MI，潜在dirichlet分配，《机器学习研究杂志》，3，993-1022（2003）·Zbl 1112.68379号
[6]	布特尔，MR；罗，J。；沈，X。；Brown，CM，学习多标签场景分类，模式识别，37，9，1757-1771（2004）·doi:10.1016/j.patcog.2004.03.009
[7]	布罗德利，CE；马萨诸塞州弗里德尔，《识别错误标记的训练数据》，《人工智能研究杂志》，11，131-167（1999）·Zbl 0924.68158号 ·数字对象标识代码：10.1613/jair.606
[8]	伯克哈特，S。；Kramer，S.，文本分类的在线多标签依赖主题模型，机器学习，107，5，859-886（2018）·Zbl 1458.68159号 ·doi:10.1007/s10994-017-5689-6
[9]	Burkhardt，S。；Kramer，S.，《多标签主题模型调查》，ACM SIGKDD Explorations Newsletter，21，2，61-79（2019）·doi:10.1145/337344.33733474
[10]	德拉托雷，F。；Black，MJ，鲁棒子空间学习框架，国际计算机视觉杂志，54，1，117-142（2003）·Zbl 1076.68058号 ·doi:10.1023/A:1023709501986
[11]	弗莱奈，B。；Verleysen，M.，《标签噪声存在下的分类：一项调查》，IEEE神经网络和学习系统汇刊，25，5，845-869（2013）·doi:10.1109/TNNLS.2013.2292894
[12]	Fürnkranz，J。；Hüllermier，E。；Mencía，EL；Brinker，K.，通过校准标签排名进行多标签分类，机器学习，73，2，133-153（2008）·Zbl 1470.68108号 ·doi:10.1007/s10994-008-5064-8
[13]	Ghosh，A.，Kumar，H.，Sastry，P.，（2017）深度神经网络标签噪声下的鲁棒损失函数。在：AAAI人工智能会议记录，第31卷（1）
[14]	Golzari，S。；多莱萨米，S。；明尼苏达州苏莱曼；Udzir，NI，噪声对rwtsairs分类器的影响，《欧洲科学研究杂志》，31，4，632-641（2009）
[15]	Goutte，C.，Gaussier，E.，（2005）精确性、召回率和f-score的概率解释，以及评估含义。摘自：《欧洲信息检索会议》，施普林格，（第345-359页）。
[16]	TL格里菲斯；Steyvers，M.，《寻找科学主题》，《国家科学院学报》，第101期，补编1，5228-5235（2004）·doi:10.1073/pnas.0307752101
[17]	Jaynes，ET，《信息理论和统计力学》，《物理评论》，106，4，620（1957）·Zbl 0084.43701号 ·doi:10.1103/PhysRev.106.620
[18]	Jeatrakul，P。；Wong，KW；Fung，CC，使用错误分类分析进行分类的数据清理，《高级计算智能与智能信息学杂志》，14，3，297-302（2010）·doi:10.20965/jaciii.2010.p0297
[19]	Ji，S.，Tang，L.，Yu，S.、Ye，J.，（2008）提取共享子空间用于多标签分类。摘自：第14届ACM SIGKDD知识发现和数据挖掘国际会议记录（第381-389页）。
[20]	Jiang，L.，Meng，D.，Mitamura，T.，Hauptmann，AG.，（2014）《Easy samples first:Self-space reranking for zero-example multimedia search》。摘自：第22届ACM国际多媒体会议记录（第547-556页）。
[21]	哈尔登，R。；Wachman，G.，感知器算法的噪声容忍变体，机器学习研究杂志，8，2，227-248（2007）·Zbl 1222.68232号
[22]	Kumar，H.，Manwani，N.，Sastry，P.，（2020）标签噪声下多标签分类器的鲁棒学习。参见：第七届ACM IKDD CoDS和第二十五届COMAD会议记录（第90-97页）。
[23]	Lacoste-Julien，S.，Sha，F.，Jordan，MI.，（2008）Disclada:维数缩减和分类的判别学习。摘自：《神经信息处理系统进展》（第897-904页）。
[24]	Li，J.，Wong，Y.，Zhao，Q.，Kankanhalli，MS.（2019）学习从噪声标记数据中学习。摘自：IEEE/CVF计算机视觉和模式识别会议记录（第5051-5059页）。
[25]	李，X。；欧阳，J。；Zhou，X.，多标签分类监督主题模型，神经计算，149，811-819（2015）·doi:10.1016/j.neucom.2014.07.053
[26]	李，X。；欧阳，J。；周，X。；卢，Y。；Liu，Y.，《监督文件分类的标记潜在dirichlet分配》，应用情报，42，3，581-593（2015）·doi:10.1007/s10489-014-0595-0
[27]	李，X。；马，Z。；彭，P。；郭，X。；黄，F。；王，X。；Guo，J.，监督使用稀疏softmax混合的潜在dirichlet分配，神经计算，312324-335（2018）·doi:10.1016/j.neucom.2018.05.077
[28]	Liu，CY.，Liu，Z.，Li，T.，Xia，B.，（2018）多关系杂音短文的主题建模。收录于：SEKE（第610-609页）。
[29]	Lukasik，M.，Bhojanapalli，S.，Menon，A.，Kumar，S.，（2020）标签平滑能缓解标签噪声吗？摘自：机器学习国际会议，PMLR，（第6448-6458页）。
[30]	Magnusson，M.，Jonsson，L.，Villani，M.（2016）Dolda——高维多类回归的正则化监督主题模型。arXiv预打印arXiv:160200260·Zbl 1505.62266号
[31]	Manwani，N。；Sastry，P.，《风险最小化下的噪声容限》，IEEE控制论汇刊，43，3，1146-1151（2013）·doi:10.1109/TSMCB.2012.2223460
[32]	米卡尔森，KØ；Soguero-Ruiz，C。；比安奇，FM；Jenssen，R.，Noisy多标签半监督降维，模式识别，90，257-270（2019）·doi:10.1016/j.patcog.2019.01.033
[33]	Padmanabhan，D。；巴特，S。；谢瓦德，S。；Narahari，Y.，使用主题模型从多个噪声源进行多标签分类，Information，8，2，52（2017）·doi:10.3390/info8020052
[34]	Patrini，G.，Rozza，A.，Krishna Menon，A.，Nock，R.，Qu，L.，（2017）使深层神经网络对标签噪声鲁棒：一种损失修正方法。摘自：IEEE计算机视觉和模式识别会议记录（第1944-1952页）。
[35]	Porter，MF，后缀剥离算法，Program，14，3，130-137（1980）·电话：10.1108/eb046814
[36]	Prechelt，L.，（1998）提前停止——但什么时候？摘自：《神经网络：贸易的诡计》（Neural Networks:Tricks of the trade），施普林格出版社，（第55-69页）
[37]	Ramage，D.，Hall，D.，Nallapati，R.，Manning，CD。（2009）标记的lda：多标记语料库中信用归因的监督主题模型。摘自：《2009年自然语言处理实证方法会议论文集》（第248-256页）。
[38]	Ramage，D.，Manning，CD.，Dumais，S.，（2011）可解释文本挖掘的部分标记主题模型。摘自：第17届ACM SIGKDD知识发现和数据挖掘国际会议记录（第457-465页）。
[39]	雷卡尔，VC；于斯。；赵，LH；GH Valadez；弗洛林，C。；博戈尼，L。；Moy，L.，从人群中学习，机器学习研究杂志，11，4，1297-1322（2010）
[40]	Ren，M.，Zengm W.，Yang，B.，Urtasun，R.，（2018）学习重新权衡示例以实现稳健的深度学习。摘自：机器学习国际会议，PMLR，（第4334-4343页）。
[41]	田纳西州鲁宾；钱伯斯，A。；Smyth，P。；Steyvers，M.，多标签文档分类的统计主题模型，机器学习，88，1-2，157-208（2011）·兹比尔1243.68248 ·doi:10.1007/s10994-01-5272-5
[42]	Shu，J.、Xie，Q.、Yi，L.、Zhao，Q.，Zhou，S.、Xu，Z.、Meng，D.（2019）Meta-weight-net：学习样本权重的显式映射。arXiv预打印arXiv:190207379
[43]	Soleimani，H。；DJ Miller，《利用高维特征空间上类标签的价值：半监督文档分类的主题模型》，模式分析与应用，22，2，299-309（2019）·doi:10.1007/s10044-017-0629-4
[44]	孙，Jw。，赵，Fy.，王，Cj。，陈女士。，（2007）识别并纠正错误标记的培训实例。摘自：《未来一代通信与网络》（FGCN 2007），IEEE，第1卷，（第244-250页）。
[45]	Szegedy，C.、Vanhoucke，V.、Ioffe，S.、Shlens，J.、Wojna，Z.（2016）《重新思考计算机视觉的初始架构》。摘自：IEEE计算机视觉和模式识别会议记录（第2818-2826页）。
[46]	Tanaka，D.、Ikami，D.、Yamasaki，T.、Aizawa，K.（2018）《含噪标签学习的联合优化框架》。摘自：IEEE计算机视觉和模式识别会议记录（第5552-556页）。
[47]	Ueda，N.，Saito，K.，（2003）多标签文本的参数混合模型。摘自：《神经信息处理系统进展》（第737-744页）。
[48]	Veit，A.，Alldrin，N.，Chechik，G.，Krasin，I.，Gupta，A.，Belongie，S.，（2017）在最小监督下从嘈杂的大规模数据集学习。摘自：IEEE计算机视觉和模式识别会议记录（第839-847页）。
[49]	Wang，W。；郭，B。；沈毅。；Yang，H。；陈，Y。；Suo，X.，Twin标签的LDA：文档分类的监督主题模型，应用情报，50，12，4602-4615（2020）·doi:10.1007/s10489-020-01798-x
[50]	杨勇，《文本分类统计方法评价》，信息检索，1，1-2，69-90（1999）·doi:10.1023/A:1009982220290
[51]	Ying，X.，过度拟合及其解决方案概述，《物理学杂志：会议系列》，IOP出版社，1168，2022，2022（2019）
[52]	查，D。；Li，C.，带主题建模的多标签无数据文本分类，知识与信息系统，61,1137-160（2019）·doi:10.1007/s10115-018-1280-0
[53]	张伟。；王，D。；Tan，X.，《在标签噪声存在下用于数据清理和分类的鲁棒类特定自动编码器》，《神经处理快报》，50，2，1845-1860（2019）·doi:10.1007/s11063-018-9963-9
[54]	Zhang，Y.，Ma，J.，Wang，Z.，&Chen，B.（2017）。Lf-lda：用于多标签分类的主题模型。摘自：新兴互联网国际会议（第618-628页）。数据和网络技术：Springer。
[55]	Zhang，Z.，Sabuncu，MR.，（2018）训练带噪声标签的深度神经网络的广义交叉熵损失。arXiv预印arXiv:180507836。
[56]	朱，J。；艾哈迈德。；Xing，EP，Medlda:最大边际监督主题模型，《机器学习研究杂志》，第13期，第1期，第2237-2278页（2012年）·Zbl 1433.68388号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

标签噪声下的鲁棒监督主题模型。 （英语） Zbl 07432825号

MSC公司：

关键词：

软件：

参考文献：

标签噪声下的鲁棒监督主题模型。（英语） Zbl 07432825号