×

结构化数据的内核。 (英语) Zbl 1168.68039号

机器感知与人工智能系列72.新泽西州哈肯萨克:世界科学(ISBN 978-981-281-455-5/hbk;978-981-2 81-456-2/电子书)。十七、197页。(2008).
托马斯·加特纳(Thomas Gärtner)的书通过给出大量解释内核方法如何工作以及如何将其应用于结构化数据的答案,逐步引导我们进入机器学习的重要概念。
仔细看看这本书的内容,已经足以让人觉得Gärtner的书是经过深思熟虑的。然后,第一章通过处理一般性问题:“为什么使用内核方法?”对主题进行了简单介绍,但很好的是,作者能够用几句开场白说服我们,他的作品是为了一些对他来说很重要,对读者来说也很重要的东西。很明显,“能够从经验中学习是适应不断变化的环境的能力”,但如果我们明白每天收集的数据量远远超过了我们发现其中隐藏的知识的能力,我们马上就清楚了,我们需要有使学习过程自动化的可能性。这个问题可以通过使用机器学习和数据挖掘来解决,这显然可以降低给定过程的成本。最流行的学习算法(支持向量机)基于核方法的方法可以直接应用于嵌入欧氏空间的数据;然而,这种方法考虑在表的单行中表示的示例。但是,在许多问题上,这样的表述并不自然。托马斯·加特纳(Thomas Gärtner)的书展示了如何扩展内核方法,并将其应用于学习由高阶逻辑或图形给出对象表示的问题。因此,读者有一本书,向他介绍了内核方法的系统扩展,包括所有可用的内核方法,以及涉及结构化数据的机器学习问题。本章中的软介绍和理由“为什么要使用内核方法?”由一个简单的示例进行补充——同样的示例也用于解释与机器学习相关的基本术语。
第二章至少由四部分组成。第一部分给出了与机器学习相关的预备知识。在某种程度上果壳我们简要介绍了必要的数学概念:从集合论和函数积分到线性空间和度量空间以及矩阵计算。本简介非常简短,但为我们提供了所有必要的信息。第二部分考虑了机器学习的基本问题:经验风险最小化和性能评估方法。第三部分介绍了核方法的基本知识以及统计学习理论和模型拟合对其的影响。最后一部分介绍了各种不同的核方法。
在第三章中,我们介绍了内核方法设计(也适用于结构化数据)。在本章的第一节中,给出了核函数的分类,并解释了对“好”核至关重要的三个重要问题,即完整性、正确性和适当性。在为结构化数据定义内核的情况下,从更简单的数据结构上定义的内核构建内核是很有用的,因此具有这样的内核函数,了解它的闭包属性和可能的修饰符是非常重要的——这在本章的第二节中介绍。第三节讨论了核函数(i)定义在概率模型上,(ii)基于实例之间的相似关系或转换操作,(iii)定义在离散符号序列上,(iv)基于树子树的相似性。
第四章主要讨论没有标识符和链接的数据结构,因此采用了类型化高阶逻辑中的术语。在第一部分中,我们概述了通常用作结构化数据表示语言的不同逻辑,采用的更高逻辑是多态类型的(lambda)演算的变体。第二部分基于该逻辑定义了一个核,并研究了其理论性质。在最后一部分中,我们有各种实验结果,与文献中的其他算法相比,这些实验结果表明所引入的内核方法具有更好的性能。实验结果基于考虑以下因素的示例:药物活性预测、光谱分析的结构说明、设施位置优化情况下的空间聚类。
最后一章是关于图核的。核函数可以定义为具有高阶逻辑术语表示形式的实例(详见第4章),这是非常通用的,甚至可以用于图形表示。这种方法需要引入标识符,在某些情况下,这种引入可能需要递归,因此我们可能会增加计算复杂性。另一方面,如果我们忽略标识符,那么可能会出现信息丢失。图是非常有用的系统属性模型,但应该记住,通常的核方法可以获取顶点或边的信息,但不能处理图结构。本章回答了这样一个问题:“是否可以定义(某些)图核?”显然,许多图是同构的,因为在学习不同图中给顶点的名称没有意义,我们希望核不区分同构图。这导致了一个重要结论,即计算任何完整的图核至少与判断两个图是否同构一样困难。假设图的同构问题介于P和NP-完全问题之间,因此我们仍然没有得到关于本章所考虑问题的所有信息。但是,如果有一个函数能够完全识别图的结构,那么就有一种有效的计算方法;基于游动,这样的核可以在多项式时间内计算(对于几个限制图类,有多项式时间算法)。对于本章中提出的注意事项,有实验示例(关系强化学习设置和分子分类),结果以表格和图表形式呈现。
这本书是根据10篇已发表的文章撰写的,T·Gärtner是其中的作者或合著者;参考书目至少有180篇参考文献。总之,这保证了作者是该领域的专家。在阅读这本书的时候,很明显,这本书在布局和准确性方面做了很好的准备。只能找到几个打字错误。
总之,这本书是对所考虑的主题的一个极好的逐步介绍、介绍和解释。它提供了一种系统化的方法来定义结构化数据的核函数,并将这些核函数应用于大量实际机器学习问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68第05页 数据结构
68-01 与计算机科学有关的介绍性说明(教科书、教程论文等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部