×

使用多个局部回归模型进行主动学习。 (英语) Zbl 1380.68332号

概述:通常情况下,企业面临的挑战是需要昂贵的信息来提高预测任务的准确性。一个值得注意的例子是获得信息丰富的客户反馈(例如,通过昂贵的激励措施获得客户-产品评级),以提高推荐系统的有效性。本文提出了一种新的主动学习方法,旨在智能地选择要标记的信息量训练实例,从而最大限度地提高实值预测模型的预测精度。我们专注于大型、异构和二元数据,以及本地化建模技术,与单个“全局”模型相比,这些技术已被证明对此类数据建模特别好。重要的是,具有协变量的二元数据在当代大数据应用中普遍存在,例如大规模推荐系统和搜索广告。合并并元信息的一个关键好处是它们对异构数据的简单、有意义的表示,而不是替代性的局部建模技术,这些技术通常会产生复杂且难以理解的预测模式。我们开发了一种计算效率高的主动学习策略,专门用于利用多个本地预测模型来识别信息采集。现有的主动学习策略在计算上通常对我们探索的环境是禁止的,我们的策略使主动学习的应用在计算上对这种环境是可行的。我们提供了全面的经验评估,以证明我们的方法的优点,并探索其在现实世界中具有挑战性的领域中的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62J02型 一般非线性回归
62第20页 统计学在经济学中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abe N,Mamitsuka H(1998)使用助推和打包的查询学习策略。程序。ICML'98年(摩根·考夫曼出版社,旧金山),1-9.谷歌学者
[2] Agarwal D,Merugu S(2007)大规模二元数据的预测离散潜在因素模型。程序。第13届ACM SIGKDD国际。Conf.知识发现数据挖掘(ACM,纽约),26-35.Crossref,谷歌学者·doi:10.1145/1281192.1281199
[3] Baumann T,Germond AJ(1993)Kohonen网络在短期负荷预测中的应用。程序。ANNPS’93年(IEEE Computer Society,Washington,DC),407-412.Crossref,谷歌学者·doi:10.1109/ANN.1993.264313
[4] Bilgic M,Bennett PN(2012)《学习等级的主动查询选择》。程序。第35届国际米兰。ACM SIGIR Conf.Res.开发信息。检索(ACM,纽约),1033-1034.Crossref,谷歌学者·doi:10.1145/2348283.2348455
[5] Breiman L、Friedman JH、Olshen RA、Stone CJ(1984)分类和回归树(加利福尼亚州贝尔蒙特市沃兹沃斯)。谷歌学者·Zbl 0541.62042号
[6] Burbidge R,Rowland JJ,King RD(2007)基于委员会查询的主动回归学习。程序。智能数据工程自动学习。(理想)(纽约施普林格),209-218.谷歌学者(Google Scholar)交叉引用·doi:10.1007/978-3-540-77226-22
[7] Cohn D、Atlas L、Ladner R(1994),通过主动学习提高泛化能力。机器学习。15(2):201-221.Crossref,谷歌学者·doi:10.1007/BF00993277
[8] Cohn D、Ghahramani Z、Jordan M(1996)《统计模型的主动学习》。J.人工智能研究。4:129-145.谷歌学者Crossref·Zbl 0900.68366号 ·电话:10.1613/jair.295
[9] Deodhar M,Ghosh J(2008),大型时态营销数据的同步联合分割和预测建模。程序。数据挖掘设计营销,ICDM 2008研讨会(IEEE计算机学会,华盛顿特区),806-815.Crossref,谷歌学者·doi:10.1109/ICDMW.2008.17
[10] Deodhar M,Ghosh J(2010)SCOAL:同步联合聚类和从复杂数据中学习的框架。J.ACM事务。从数据中发现知识4(3):第10条。谷歌学者
[11] Djukanovic M、Babic B、Sobajic D、Pao Y(1993),24小时负荷预测的无监督/监督学习概念。IEE程序-发电、输电和配电140(4):311-318 Crossref,谷歌学者·doi:10.1049/ip-c.1993.0046
[12] 费多罗夫五世(1972)最优实验理论(纽约学术出版社)。谷歌学者
[13] Fukumizu K(2000)多层感知器中的统计主动学习。IEEE传输。神经网络11(1):17-26.Crossref,谷歌学者·数字对象标识代码:10.1109/72.822506
[14] Gill P、Murray W、Wright M(1981)实际优化(伦敦学术出版社)。谷歌学者·Zbl 0503.90062号
[15] Hastie T、Tibshirani R、Friedman J(2001)统计学学习的要素(纽约州施普林格)。Crossref,谷歌学者·Zbl 0973.62007号 ·doi:10.1007/978-0-387-21606-5
[16] 黄Z(2007)选择性获取产品推荐评级。程序。第九届国际。Conf.电子商务(ICEC’07)(ACM,纽约),379-388.Crossref,谷歌学者·数字对象标识代码:10.1145/1282100.1282171
[17] Kanamori T,Shimodaira H(2003)使用最大加权对数似然估计量的主动学习算法。J.统计。规划推断116(1):149-162.Crossref,谷歌学者·Zbl 1020.62065号 ·doi:10.1016/S0378-3758(02)00234-3
[18] Kiefer J(1959)最佳实验设计。J.罗伊。统计师。Soc公司。21(2):272-304.谷歌学者·Zbl 0108.15303号
[19] Kim B,Sullivan M(1998)母品牌体验对延长线试用和重复购买的影响。营销信函。9(2):181-193.Crossref,谷歌学者·doi:10.1023/A:1007961016262
[20] Kohavi R、Longbotham R、Sommerfield D、Henne1 R(2009)《网络受控实验:调查与实践指南》。数据挖掘知识发现18(1):140-181.Crossref,谷歌学者·电话:10.1007/s10618-008-0114-1
[21] Koren Y(2008)分解满足邻域:一个多方面的协作过滤模型。程序。第14届ACM SIGKDD国际。Conf.知识发现数据挖掘(ACM,纽约),426-434.Crossref,谷歌学者·数字对象标识代码:10.1145/1401890.1401944
[22] Lewis DD,Gale WA(1994)训练文本分类器的序列算法。Croft BW,van Rijsbergen CJ,编辑。程序。1994年SIGIR(施普林格,伦敦),3-12.Crossref,谷歌学者·doi:10.1007/978-14471-2099-5_1
[23] 刘天勇(2011)学习信息检索排名(纽约州施普林格)。Crossref,谷歌学者·Zbl 1227.68002号 ·doi:10.1007/978-3-642-14267-3
[24] Long B,Bian J,Chapelle O,Zhang Y,Inagaki Y,Chang Y(2015)通过预期损失优化积极学习排名。IEEE传输。知识数据工程。27(5):1180-1191.Crossref,谷歌学者·doi:10.1109/TKDE.2014.2365785
[25] Melville P,Saar Tsechansky M,Provost F,Mooney R(2005)主动特征值获取的预期效用方法。程序。2005年ICDM(IEEE计算机学会,纽约)。Crossref,谷歌学者·doi:10.1109/ICDM.2005.23
[26] Menon AK、Jian X、Kim J、Vaidya J、Ohno-Machado L(2013)使用协同过滤检测对电子健康记录的不当访问。机器学习。95(1):87-101.Crossref,谷歌学者·doi:10.1007/s10994-013-5376-1
[27] Quinlan JR(1992)《连续课堂学习》。程序。AI'92年(世界科学,新加坡),343-348,谷歌学者
[28] Ray Chaudhuri T,Hamey LGC(1995),通过主动学习最小化数据收集。程序。ICNN’95(新泽西州皮斯卡塔韦IEEE),1338-1341.谷歌学者
[29] Roy N,McCallum AK(2001)通过误差减少的抽样估计实现最佳主动学习。程序。ICML'01年(Morgan Kaufmann Publishers,旧金山),441-448谷歌学者
[30] Rubens N,Sugiyama M(2007)基于影响力的协作主动学习。程序。07年RecSys(ACM,纽约),145-148,Crossref,谷歌学者·数字对象标识代码:10.1145/1297231.1297257
[31] Saar Tsechansky M,Provost F(2004)用于类概率估计和排序的主动抽样。机器学习。54(2):153-178.Crossref,谷歌学者·Zbl 1057.68089号 ·doi:10.1023/B:MACH.0000011806.12374.c3
[32] Saar-Tschechansky M,Melville P,Provost F(2009)《主动特征值获取》。管理科学。55(4):664-684.链接,谷歌学者
[33] Seetharaman PB,Ainslie A,Chintagunta PK(1999)《跨类别家庭国家依赖效应研究》。J.营销研究。36(4):488-500.Crossref,谷歌学者·doi:10.2307/3152002年
[34] 结算B(2012年)主动学习(人工智能和机器学习综合讲座)(Morgan and Claypool Publishers,加利福尼亚州圣拉斐尔)。谷歌学者·Zbl 1270.68006号
[35] Seung HS,Opper M,Smopolinsky H(1992),委员会质询。程序。1992年科尔特(ACM,纽约),287-294.Crossref,谷歌学者·数字对象标识代码:10.1145/130385.130417
[36] Sugiyama M(2006)基于泛化误差条件期望的近似线性回归中的主动学习。J.机器学习。物件。7:141-166.谷歌学者·Zbl 1222.68311号
[37] Sugiyama M,Nakajima S(2009),近似线性回归中基于池的主动学习。机器学习。75(3):249-274.谷歌学者Crossref·Zbl 1470.68181号 ·doi:10.1007/s10994-009-5100-3
[38] Sugiyama M,Rubens N(2008)线性回归中模型选择的主动学习。程序。SIAM国际。Conf.数据挖掘(费城SIAM),518-529,Crossref,谷歌学者·doi:10.1137/1.9781611972788.47
[39] Wang Y,Witten IH(1997)诱导连续类的模型树。van Someren M,Widmer G编辑。程序。ECML’97,布拉格.谷歌学者
[40] Wedel M,Steenkamp J(1991)一种同时进行模糊市场结构和利益分割的聚类回归方法。J.营销研究。28(4):385-396.Crossref,谷歌学者·doi:10.2307/3172779
[41] Wiens D(2000)有偏回归模型的稳健权重和设计:最小二乘和广义m估计。J.统计。规划推断83(2):395-412.谷歌学者交叉引用·Zbl 0976.62075号 ·doi:10.1016/S0378-3758(99)00102-0
[42] Zhang C,Chen T(2002)基于内容的信息检索的主动学习框架。IEEE传输。多媒体4(2):260-268.Crossref,谷歌学者·doi:10.1109/TMM.2002.1017738
[43] 郑Z,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。