×

文本的机器学习。 (英语) Zbl 1395.68001号

查姆:施普林格(ISBN 978-3-319-73530-6/hbk;978-3-3169-73531-3/电子书)。xxiii,493页。(2018).
这本书是应用于各个领域的机器学习方法系列书籍的及时补充。其中,重点是文本处理(静态或流式),其中传统方法适用于分类、摘要或信息提取(例如实体/关系识别、意见挖掘、情感分析等)。内容以教科书的形式组织,分为14章,每章都有一个总结、一组参考文献供进一步阅读和练习,以强调讨论的主要方面。
在第一章中,作者介绍了机器学习,概述了一些适用于文本的方法(并在后续章节中详细讨论),包括文本预处理、文本聚类和分类。在描述信息检索、提取和摘要方法之前,先简要概述了传统方法,如计算相似度和分类方法,如决策树、基于规则、朴素贝叶斯、最近邻和线性分类器。
第二章详细介绍了相似性度量。在描述基于向量的表示和术语频率的规范化之前,需要先将文本(常规文本或特定于web的文本)组织为标记,并从一组标记中提取有意义的术语。接下来,在第三章中,讨论了矩阵分解和主题建模。详细介绍了奇异值分解、非负矩阵分解和概率潜在语义分析等方法;对于每种方法,在有趣的示例之后都讨论了每种方法的优缺点。本章最后概述了潜在Dirichlet分配(LDA)以及基于核相似函数的非线性变换的适用性。
第四章致力于文本聚类和特征选择(在矩阵分解方法和非线性降维的背景下)。详细介绍了标准方法,如k均值、层次聚类和系综的使用。本章最后对各种方法进行了客观评估;讨论了内部和外部有效性度量,后者包含关于聚类评估和监督学习之间关系的附加信息。
接下来的三章重点介绍分类方法。在第五章中,作者首先回顾了特征选择的基本模型(包括基尼指数和互信息),然后是贝努利或多项式分布的朴素贝叶斯模型、最近邻方法、决策树和随机森林以及基于规则的分类器。第六章的重点是线性分类和回归,介绍了最小二乘回归(使用L_1和L_2正则化)、支持向量机、逻辑回归,并总结了线性模型非线性推广的适用性(重点是核支持向量机和核技巧)。最后,在第七章中,作者介绍了通过偏差-方差权衡、装袋、二次抽样和提升等方法对分类性能进行评估,并将数据分割为训练和测试部分,以便于保持和交叉验证等方法的应用。
第八章介绍了处理异构数据的方法,例如基于共享矩阵分解技巧的联合文本挖掘。还介绍了因子分解机背后的原理以及联合概率建模技术。在下一章中,重点将转向信息检索和用于索引和查询处理的搜索引擎,以及检索模式下的信息评分和网络爬行技术。还介绍了基于链接的排名算法的现代方法(如页面排名)。
在下一章中,作者从深度学习的角度提出了文本序列建模;本文详细介绍了核方法、词控制矩阵分解模型、神经语言模型和递归神经网络,并给出了各种示例(包括word2vec、序列到序列学习和机器翻译)。第十一章是文本总结。在同时介绍了提取和抽象概括之后,提出了主题词方法、潜在方法和基于特征提取的机器学习方法。后一种方法的要素,包括句子压缩、信息融合和排序,也包括在内。
第十二章进一步扩展了信息提取,包括基于规则的或带有隐藏马尔可夫模型组件的名称实体识别方法。利用依存关系图的解析和卷积树核方法的应用,提出了词之间关系的提取(包括关系的预测)。这项任务在第十三章提出,包括意见挖掘和情感分析的方法。首先介绍了意见词典,然后介绍了文档级和短语或句子级的分类方法。本章最后介绍了垃圾邮件检测的监督方法和基于评级或情绪的意见汇总方法。
在第十四章中,作者提出了文本分割和事件检测的方法。还包括使用无监督技术挖掘文本流的方法,以及使用无监督(例如,最近邻、生成模型)或监督方法(监督分割)检测事件的方法。
这本书将教科书和文本处理的机器学习方法的研究现状进行了出色的结合。贯穿各章的详细示例和众多图表表示使其不仅可以作为本科生的完美起点,也可以作为具有不同背景的各种科学家的可靠参考。

MSC公司:

68-01年 与计算机科学相关的介绍性说明(教科书、教程论文等)
68-02 与计算机科学有关的研究展览会(专著、调查文章)
62H30型 分类和区分;聚类分析(统计方面)
68第20页 信息存储和数据检索
68T05型 人工智能中的学习和自适应系统
68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部