×

使用R进行机器学习。在R中使用时间序列和基于行业的用例。第二版。 (英语) Zbl 1423.68007号

纽约州纽约:美联社(ISBN 978-1-4842-4214-8/pbk;978-1-4842-4215-5/ebook)。xxiv,700页。(2019).
这本书是一本类似教科书的理论和实践示例的集合,旨在顺利介绍机器学习方法和R作为编程/分析环境。本书由十一章组成,每章侧重于特定任务,例如数据准备和探索(第2章)或机器学习理论和实践(第6章),雄心勃勃地涵盖了经典的监督和非监督方法。
在第一章“机器学习和R简介”中,作者对全书中使用的理论概念进行了高层次的概述。第一小节概述了机器学习的时间轴,从统计学习、“现代”机器学习开始,继续介绍与人工智能、数据挖掘和数据科学相关的概念。接下来,简要概述了概率和统计学,重点介绍了与计数事件、概率分布和假设检验方法相关的定义。本章还包括R作为编程环境的一些基本元素,以及基于机器学习分析的流程步骤描述。第二章侧重于数据预处理和探索的方法。它包括输入数据的概述,如变量类型和数据格式、组织多个数据源的提示以及重塑数据以使其在项目间具有可比性的方法。还包括基于汇总统计的探索性数据分析的一些要素。本章最后对信用卡欺诈进行了案例研究。
在第三章中,作者讨论了采样和重采样。在介绍了与抽样有关的定义之后,包括抽样分布、总体和样本均值和方差、有替代和无替代抽样以及潜在偏差的分析,作者还介绍了与本主题相关的统计理论要素,即:。,大数定律和中心极限定理。本章最后对概率抽样技术进行了更详细的概述,如简单随机抽样、系统随机抽样、分层随机抽样以及聚类和自举抽样。第四章概述了R中数据可视化的方法;这些包括各种线条图、散点图、总结图,所有这些图都附有示例和相关代码。第五章重点介绍了与给定问题相关的特征。以数据摘要为起点,作者着手描述特征,例如,连续或分类特征,根据相关性进行排序,并最终确定负责数据集中观察到的大多数变化的特征子集;对于后者,讨论了滤波、包装和嵌入方法以及主成分分析。
第六章是对机器学习方法的广泛、全面的概述;在描述了分类为有监督学习、无监督学习、半监督学习和强化学习的方法之后,作者逐一描述了大多数标准方法,包括回归和相关分析、支持向量机、决策树、朴素贝叶斯方法、聚类分析、,人工神经网络中的关联规则挖掘。所有理论概念都附有示例和R代码。本章最后给出了一个建模清单,指导用户确定哪种方法更适合于特定的现实问题。在第七章中,作者描述了连续和离散输出的模型性能和评估方法。包括交叉验证和引导抽样方法。第八章回顾了改进模型性能的方法;重点是R中的插入符号包,用于不同类型的超参数最佳范围搜索。还提出了集成学习的概念(基于投票方案),并使用装袋树、决策树的梯度增强以及混合kNN和Rpart进行了说明。
第九章着重于时间序列建模,重点是平稳性测试,以及ACF、AR、PACF和MA模型。详细讨论了ARIMA模型和带有AR误差的线性回归。在第十章中,作者讨论了机器学习方法的可扩展性。概述了分布式处理和存储的标准技术,包括Google文件系统(GFS)、MapReduce和R中的并行执行,然后介绍了适用于此任务的另外三种环境(Hadoop、Spark和H20)。本书以一系列关于如何使用Deep Learning Keras和TensorFlow R库的示例结束。第十一章首先概述了最常用的学习体系结构:卷积神经网络(CNN)、递归神经网络(RNN)和生成性对抗网络(GAN),然后总结了R。本章以Quora中重复问题的识别用例结束。
各种各样的概念以及理论和练习的独特结合,推荐这本书作为研究人员寻求对机器学习方法有更深入理解或试图使用R作为处理真实世界数据集的环境的可靠起点。这些章节用例子和代码进行了丰富的装饰,强调了通常在章节开始时概述的定义。示例前面的理论数量足以很好地理解概念;此外,如果读者希望进行具体分析,分散在各处的参考文献提供了进一步的支持。本书适用于各种背景和技能,面向从本科生到研究生和资深研究人员,以及来自计算机科学、数学、物理和生物等多种跨学科背景的研究人员。

MSC公司:

68-01 与计算机科学相关的介绍性说明(教科书、教程论文等)
68-02 与计算机科学有关的研究展览会(专著、调查文章)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部