×

内核作为特征:关于内核、边距和低维映射。 (英语) Zbl 1470.68077号

摘要:核函数通常被视为提供了一种将点隐式映射到高维空间的方法,如果结果在很大程度上可以线性分离,则核函数可以在不产生高成本的情况下获得该空间的大部分功能。然而,Johnson-Lindenstraus引理表明,在存在较大边距的情况下,核函数也可以被视为到低维空间的映射,仅为维空间(tilde{O}(1/gamma^2))。在本文中,我们探讨了一个问题,即人们是否可以仅使用对核函数的黑盒访问来有效地生成这种低维映射。也就是说,只要给定一个根据我们选择的输入(x,y)计算(K(x,y))的程序,我们能有效地构造一组显式(小)特征,有效地捕捉隐式高维空间的力量吗?如果我们的方法也允许黑盒访问底层数据分布(即未标记的示例),那么我们肯定会回答这个问题。我们还给出了一个下限,表明如果我们不能访问该分布,那么对于任意的黑盒内核函数来说这是不可能的;然而,对于标准内核函数(例如多项式内核),这是否可以实现,我们留下了一个悬而未决的问题。我们的积极结果可以看作是说,设计一个好的核函数就像设计一个良好的特征空间。给定一个内核,通过在随机未标记的例子上以黑盒方式运行它,我们可以有效地生成一组显式的\(\tilde{O}(1/\gamma^2)\)特征,这样,如果数据在内核下与裕度\(\gamma\)线性可分离,那么它在这个新的特征空间中是近似可分离的。

理学硕士:

68T05型 人工智能中的学习和自适应系统
68T09年 数据分析和大数据的计算方面

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Achlioptas,D.(2003年)。数据库友好型随机投影。计算机与系统科学杂志,66(4),671-687·Zbl 1054.68040号 ·doi:10.1016/S0022-0000(03)00025-4
[2] Arriaga,R.I.和Vempala,S.(1999)。学习算法理论、稳健概念和随机投影。第40届计算机科学基础会议录。期刊版本将出现在机器学习,616–623·Zbl 1095.68092号
[3] Bartlett,P.和Shawe Taylor,J.(1999年)。支持向量机和其他模式分类器的泛化性能。内核方法的进展:支持向量学习(第43–54页)。麻省理工学院出版社。
[4] Ben-David,S.、Eiron,N.和Simon,H.U.(2003年)。通过嵌入欧氏半空间学习的局限性机器学习研究杂志,3441–461·Zbl 1084.68551号 ·doi:10.1162/153244303321897681
[5] Ben David,S.(2001年)。基于核学习的先验泛化界。NIPS内核学习研讨会。
[6] Ben-Israel,A.和Greville,T.N.E.(1974年)。广义逆:理论与应用。纽约:Wiley·Zbl 0305.15001号
[7] Blake,C.L.和Merz,C.J.(1998年)。机器学习数据库的UCI存储库。[ http://www.ics.uci.edu/mlearn/MLRepository.html ]
[8] Boser,B.E.、Guyon,I.M.和Vapnik,V.N.(1992年)。一种最优边缘分类器的训练算法。第五届计算学习理论年度研讨会论文集(第144-152页)。
[9] Cortes,C.和Vapnik,V.(1995年)。支持向量网络机器学习,20(3),273–297·Zbl 0831.68098号
[10] Dasgupta,S.和Gupta,A.(1999)。Johnson-Lindenstraus引理的初等证明。加州大学伯克利分校技术报告。
[11] Freund,Y.和Schapire,R.E.(1999)。使用感知器算法进行大边距分类,机器学习,37(3),277–296·Zbl 0944.68535号 ·doi:10.1023/A:1007662407062
[12] Gunn,S.R.(1997)。用于分类和回归的支持向量机。南安普顿大学图像语音和智能系统研究小组技术报告。
[13] Goldreich,O.、Goldwasser,S.和Micali,S.(1986年)。如何构造随机函数。美国医学会杂志,33(4),792-807·Zbl 0596.65002号 ·数字对象标识代码:10.1145/6490.6503
[14] Indyk,P.和Motwani,R.(1998年)。近似最近邻:消除维度诅咒。第30届ACM计算理论研讨会论文集(第604-613页)·Zbl 1029.68541号
[15] Herbrich,R.(2002)。学习内核分类器剑桥:麻省理工学院出版社·Zbl 1063.62092号
[16] Johnson,W.B.和Lindenstrauss,J.(1984年)。Lipschitz映射到Hilbert空间的扩张。当代数学,26 189–206·Zbl 0539.46017号
[17] Littestone,N.(1988年)。当不相关属性大量存在时快速学习:一种新的线性阈值算法。机器学习,2(4)285–318。
[18] Muller,K.R.、Mika,S.、Ratsch,G.、Tsuda,K.和Scholkopf,B.(2001年)。基于内核的学习算法简介。IEEE神经网络汇刊,12(2),181-201·数字对象标识代码:10.1109/72.914517
[19] Nevo,Z.和El-Yaniv,R.(2003)。在线学习决策列表。机器学习研究杂志,3271–301·兹比尔1088.68734
[20] Scholkopf,B.、Burges,C.J.C.和Mika,S.(1999)。核方法的进展:支持向量学习。麻省理工学院出版社。
[21] Shawe-Taylor,J.、Bartlett,P.L.、Williamson,R.C.、Anthony,&M.(1998)。基于数据依赖层次结构的结构风险最小化。IEEE信息理论汇刊,44(5),1926-1940·Zbl 0935.68090号 ·doi:10.1109/18.705570
[22] Shawe-Taylor,J.和Cristianini,N.(2004)。模式分析的核心方法。剑桥大学出版社·Zbl 0994.68074号
[23] Scholkopf,B.、Tsuda,K.和Vert,J.-P.(2004)。计算生物学中的核心方法。麻省理工学院出版社。
[24] Smola,A.J.、Bartlett,P.、Scholkopf,B.和Schurmans D.(2000年)。(编辑),《大幅度分类器的进展》。麻省理工学院出版社·兹伯利0988.68145
[25] Scholkopf,B.和Smola,A.J.(2002)。使用内核学习:支持向量机、正则化、优化及其他。剑桥:麻省理工大学出版社。
[26] Vapnik,V.N.(1998)。统计学习理论纽约:John Wiley and Sons Inc·Zbl 0935.62007号
[27] http://www.isis.ecs.soton.ac.uk/resources/svminfo/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。