×

最小二乘支持向量机。 (英语) Zbl 1017.93004号

新加坡:世界科学。xiv,294页(2002年)。
过去几十年来,神经网络的发展促进了模式识别、分类和非线性建模的研究。虽然后者有时被视为解决实际问题的灵丹妙药,但该书的作者指出,“现在,人们已经进入了一个重要的阶段,即理解人工智能和人类智能的极限”[p.viiii]。因此,在认识到边界的重要性时,作者可能会被视为支持不可知论这个词最初是由T·H·赫胥黎引入的,即“一个人不应说他知道或相信他没有科学依据来声称知道或相信的东西”{[III,p.98]}。
作者提出了一项工作,从广义上讲,涉及通过凸优化解决非线性建模和分类问题的方法,这些方法相对不存在局部极小值。我将在这里对几个章节进行简要总结。
在介绍性章节中,作者回顾了神经网络的一些相关问题。介绍了多层感知器神经网络,强调了其在连续非线性函数逼近中的重要性(一个隐层就足以实现泛逼近)。这种近似比使用多项式展开式更好,因为输入空间的维数可以更好地处理[p.4],实际上,降维问题在§1.5中进行了概述。还提到了径向基函数(RBF)网络。考虑了分类和模式识别,引入了回归方法和适当的贝叶斯方法。强调了参数和非参数方法的重要性。
在第二章“支持向量机”中,作者提出了支持向量机的一些标准公式。在可分离和不可分离的情况下,处理线性和非线性SVM分类器。SVM公式是在凸优化理论的背景下建立的,最初构建在原始权重空间中的问题是通过首先建立拉格朗日公式,然后在对偶拉格朗日乘子空间中求解该问题来解决的。值得注意的是,原始问题和对偶问题分别对应于参数和非参数方法。SVM在线性和非线性函数估计中的使用通过使用“核技巧”而加快。在这里,输入数据通过非线性映射映射到高维特征空间,应用默瑟定理,然后允许“在巨大的维特征空间中工作,而无需在该空间中进行显式计算”[p。37]. 给出了泛化误差的Vapnik-Chervonenkis界。将常用成本函数的SVM回归结果推广到任何凸成本函数。
第三章“最小二乘支持向量机的基本方法”考虑了分类和非线性函数估计的结果。统计学家将有兴趣在这里看到与高维特征空间中的Fisher判别分析的联系。强调了LS-SVM回归与正则化网络、高斯过程、再生核Hilbert空间以及(统计学家也是)克里格和核岭回归之间的密切关系,并指出线性Karush-Kuhn-Tucker系统是用于分类和非线性回归的LS-SVM模型的特征。
第4章“LS-SVM模型的贝叶斯推理”包含LS-SVM分类器和函数估计器的贝叶斯推理的完整框架。贝叶斯方法允许自动确定超参数(LS-SVM设置中的调谐参数),并导出输出上的误差条。作者表明,用于非线性函数估计的贝叶斯推理LS-SVM方法与分类方法非常相似。
在单变量情况下,作者通过\(p(\widehat{\theta}\mid\mathcal)定义Occam因子{高}_\sigma)=\sigma{theta\mid\mathcal{D}}/\sigma\\theta\),其中\(\widehat{theta}\)是后部密度最大化的点,\({mathcal{高}_\sigma}是一个具有RBF核宽度(sigma)的模型,(mathcal{D})是给定的数据训练集。此外,(sigma{theta\mid\mathcal{D}})和(sigma theta)分别表示后验分布和先验分布的扩散。可能更习惯于贝叶斯方法的统计学家可能更喜欢将Occam因子视为更为著名的贝叶斯因子的一种特殊形式,(模型)(M_0)对(M_1)的贝叶斯因子由(B_{01}=p(mathbf{y}|M_0,)/p(mathbf{y}|M_1,)定义。Occam因子可以被视为模型构建中的节俭措施。(贝叶斯因子在显著性检验中的地位肯定至少可以追溯到H.杰弗里斯[概率论,牛津(1939;Zbl 0023.14501号)].)
尽管本文中迄今为止讨论的一些方法产生了(相对)简单的公式,但也可能存在由于缺乏稀疏性(可以通过使用修剪方法来克服)或健壮性而产生的潜在缺陷。第5章讨论后一个问题,即通过使用稳健统计(例如。修剪意味着)。
第6章考虑了大规模问题,Nyström方法得到了广泛应用。作者提出了一种新的固定大小LS-SVM技术,其中给出了函数估计和密度估计之间的明确联系。该技术还利用了原始对偶公式,并展示了如何选择合适的支持向量,而不是Nyström方法中的随机点。委员会网络也受到关注,这里的指导原则是“整体大于部分之和”。
第7章专门讨论无监督学习。这里的主要工具是主成分分析(出于我不明白的原因,通常称为“PCA分析”)和典型相关分析。
最后一章的标题是“递归网络和控制的LS-SVM”。在这里,前面的工作几乎总是与静态情况有关(公式不涉及任何递归方程),将其扩展到动态问题。尽管这些问题现在是非凸的,但以前使用的方法仍然适用。同时也关注最优控制问题。
附录中给出了某些数学和统计定义和结果,并有一个综合参考书目。
作者写这本书的主要目的之一是介绍总框架\(\ldots\)用于一类支持向量机的有监督和无监督学习、前馈以及递归网络[p。vi]。另一个是提供“跨学科论坛不同的字段可以满足'[p。事实上,读者将不得不对神经网络、优化、线性代数、控制理论和统计学等方面略知一二。
人们可能会像我一样,对(多种)缩写中缺少句号感到恼火,正如书后面的列表所示。人们可能会试图指责作者,但不能忽视国家偏好或更严格的“住宅风格”命令可能带来的影响。打字错误很少,而且很容易纠正。第111页有一个很好的新词,即。“稀疏化”(sparsify):大概使向量稀疏化的人就是“稀疏化器”。
这既不是一本教科书,也不是参考书,它既不适合新手,也不适合普通读者。这是该领域的研究人员想要完成的一项工作,目的是找到适合特定情况的方法。

MSC公司:

93-02 与系统和控制理论相关的研究展览(专著、调查文章)
93E10型 随机控制理论中的估计与检测
62G05型 非参数估计
62M45型 神经网络及从随机过程推断的相关方法
93甲15 大型系统
68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
2015年1月62日 贝叶斯推断
90C25型 凸面编程
62G35型 非参数稳健性
62K20型 响应面设计
PDF格式BibTeX公司 XML格式引用