×

多源域自适应的适应性分析。 (英语) Zbl 1494.68229号

摘要:在许多实际应用程序中,可能希望从根据给定的来源为了解决不同但相关的目标只有弱标记数据可用的任务。领域适应(DA)是一个框架,旨在利用源分布和目标分布之间的统计相似性来更好地学习。当前的理论结果表明,DA算法的效率取决于(i)其最小化源域和目标域之间发散的能力,以及(ii)是否存在在两个域中都很少出错的良好假设。虽然DA的大部分工作都集中在新的分歧度量上,但第二个方面通常建模为能力术语令人惊讶的是,仍然缺乏调查。在本文中,我们证明了在多源DA环境下,可以使用基于Wasserstein距离的误差函数来重新描述最佳联合假设估计问题。基于这一思想,我们对能力项进行了理论分析,并导出了允许我们从有限样本中估计能力项的不等式。我们在不同的数据集上实证地说明了所提出的想法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿奎,M。;Carlier,G.,Wasserstein空间中的重心,SIAM数学分析杂志,43,2,904-924(2011)·Zbl 1223.49045号 ·数字对象标识代码:10.1137/100805741
[2] 阿尔乔夫斯基,M。;钦塔拉,S。;Bottou,L.,Wasserstein生成性对抗网络,ICML,70,214-223(2017)
[3] 阿尔瓦雷斯·埃斯特班,P。;del Barrio,E。;司法部长Cuesta Albertos;Matrán,C.,最优不完全交通计划的唯一性和近似计算,亨利·庞加莱研究所年鉴B:概率与统计学,47,23558-375(2011)·Zbl 1215.49042号 ·doi:10.1214/09-AIHP354
[4] Ben-David,S.、Blitzer,J.、Crammer,K.和Pereira,F.(2007年)。领域适应的表示分析。收录于:NIPS(第137-144页)。
[5] Ben-David,S。;布利泽,J。;克拉默,K。;Kulesza,A。;佩雷拉,F。;Vaughan,J.,《不同领域的学习理论》,机器学习,79,151-175(2010)·Zbl 1470.68081号 ·文件编号:10.1007/s10994-009-5152-4
[6] Ben-David,S。;卢·T。;卢,T。;Pál,D.,域适应的不可能性定理,AISTATS,9,129-136(2010)
[7] Bigot,J.、Gouet,R.、Klein,T.和Lopez,A.(2018年)。估计实线上随机测度的Wasserstein重心的上下风险界。《电子统计杂志》,12(02),2253-2289·Zbl 1403.62057号
[8] Bigot,J.、Cazelles,E.和Papadakis,N.(2018a)。Wasserstein重心的数据驱动正则化及其在多元密度注册中的应用。ArXiv电子打印ArXiv:1804.08962v2·Zbl 1471.62308号
[9] Bigot,J.、Cazelles,E.和Papadakis,N.(2018b)。Wasserstein空间中重心的惩罚。ArXiv电子打印·Zbl 1425.62074号
[10] Blitzer,J.、Crammer,K.、Kulesza,A.、Pereira,F.和Wortman,J.(2008)。领域适应的学习边界。单位:NIPS·Zbl 1470.68081号
[11] Boissard,E。;Le Gouic,T。;Loubes,JM,Distribution使用Wasserstein指标的模板估计,Bernoulli,21,2,740-759(2015)·Zbl 1320.62107号 ·doi:10.3150/13-BEJ585
[12] Chizat,L.、Peyré,G.、Schmitzer,B.和Vialard,F.X.(2015)。非平衡最优运输:几何学和Kantorovich公式。ArXiv电子版1508.05216v2·Zbl 1387.49066号
[13] 科尔特斯,C。;Mohri,M.,回归的领域适应和样本偏差校正理论与算法,理论计算机科学,519,103-126(2014)·Zbl 1358.68232号 ·doi:10.1016/j.tcs.2013.09.027
[14] 克拉默,K。;卡恩斯,M。;Wortman,J.,《从多个来源学习》,《机器学习研究杂志》,9,1757-1774(2008)·兹比尔1225.68168
[15] Cuturi,M.(2013)。下沉喇叭距离:最佳运输的光速计算。收录于:NIPS(第2292-2300页)。
[16] Cuturi,M.和Doucet,A.(2014年)。Wasserstein重心的快速计算。收录于:ICML(第685-693页)。
[17] 福尼尔,N。;Guillin,A.,《关于经验测度的Wasserstein距离的收敛速度》,概率论及相关领域,162,3-4,707(2015)·Zbl 1325.60042号 ·doi:10.1007/s00440-014-0583-7
[18] Frogner,C.、Zhang,C.、Mobahi,H.、Araya-Polo,M.和Poggio,T.A.(2015)。Wasserstein失学。收录于:NIPS(第2053-2061页)。
[19] Genevay,A.、Peyré,G.和Cuturi,M.(2018年)。学习具有Sinkhorn分歧的生成模型。收录于:AISTATS(第1608-1617页)。
[20] Germain,P.、Habrard,A.、Laviolette,F.和Morvant,E.(2013年)。一种Pac-Bayesian方法,用于专门化线性分类器的域自适应。收录于:ICML(第738-746页)。
[21] Goodfellow,I.J.、Pouget-Abadie,J.、Mirza,M.、Xu,B.、Warde-Farley,D.、Ozair,S.、Courville,A.和Bengio,Y.(2014)。生成性对抗网络。收录于:NIPS(第2672-2680页)。
[22] Le Gouic,T。;Loubes,JM,Wasserstein重心的存在性和一致性,概率论及相关领域,168901-917(2017)·Zbl 1406.60019号 ·doi:10.1007/s00440-016-0727-z
[23] Mansour,Y.、Mohri,M.和Rostamizadeh,A.(2009a)。领域适应:学习边界和算法。输入:COLT。
[24] Mansour,Y.、Mohri,M.和Rostamizadeh,A.(2009b)。多源适应与雷尼发散。收录于:阿拉伯联合酋长国(第367-374页)。
[25] Margolis,A.(2011年)。未标记数据领域适应的文献综述。华盛顿大学技术报告。
[26] Monge,G.(1781)。梅莫尔(Muémoire sur la théorie des déblais et des remblais)。《皇家科学史》(Historie de l'Académie Royale des Sciences)(第666-704页)。
[27] 潘,SJ;Yang,Q.,迁移学习调查,IEEE知识与数据工程汇刊,22,10,1345-1359(2010)·doi:10.1109/TKDE.2009.191
[28] Redko,I.、Habrard,A.和Sebban,M.(2017)。最优传输域自适应的理论分析。收录于:ECML/PKDD(第737-753页)。
[29] 鲁布纳,Y。;托马西,C。;Guibas,LJ,The earth mover’s distance as a metric for image retrieval,国际计算机视觉杂志,40,2,99-121(2000)·Zbl 1012.68705号 ·doi:10.1023/A:1026543900054
[30] R.Sinkhorn。;Knopp,P.,关于非负矩阵和双随机矩阵,太平洋数学杂志,21343-348(1967)·Zbl 0152.01403号 ·doi:10.2140/pjm.1967.21.343
[31] Smola,A.、Gretton,A.、Song,L.和Schölkopf,B.(2007年)。分布的希尔伯特空间嵌入。参见:ALT(第13-31页)·Zbl 1142.68407号
[32] 张,C.,张,L.,&叶,J.(2012)。域自适应的泛化边界。收录于:NIPS(第3320-3328页)。
[33] 张,Z。;Müller,HG,功能密度同步,计算统计与数据分析,55,7,2234-2249(2011)·Zbl 1328.62238号 ·doi:10.1016/j.csda.2011.01.007
[34] Zolotarev,VM,概率度量,概率理论及其应用,28,2,278-302(1984)·Zbl 0533.60025号 ·数字对象标识代码:10.1137/1280025
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。