×

兹马思-数学第一资源

使用R进行机器学习。在R中使用时间序列和基于行业的用例。第二版。(英语) Zbl 1423.68007号
纽约,纽约:Apress(ISBN 978-1-4842-4214-8/pbk;978-1-4842-4215-5/电子书)。二十四,700便士(2019年)。
这本书是一本类似教科书的理论和实践案例的集合,旨在为机器学习方法和作为编程/分析环境的R提供一个平滑的介绍。本书共有十一章,每一章都侧重于一个特定的任务,例如,数据准备和探索(第2章)或机器学习理论与实践(第6章),雄心勃勃地涵盖了经典的有监督和无监督方法。
在第一章“机器学习和R简介”中,作者提供了贯穿全书的理论概念的高层次概述。第一小节概述了机器学习的时间线,从统计学习开始,“现代”机器学习,接着是与人工智能、数据挖掘和数据科学相关的概念。其次,简要概述了概率和统计学,重点介绍了与计数事件相关的定义、概率分布和假设检验方法。本章还介绍了R作为一个编程环境的一些基本要素,以及基于机器学习分析的过程流程的步骤描述。第二章重点介绍了数据预处理和挖掘的方法。它包括输入数据的概述,如变量类型和数据格式、组织多个数据源的技巧以及重塑数据以使其在不同项目之间具有可比性的方法。还包括一些基于总结统计的探索性数据分析元素。本章最后以信用卡诈骗案为例进行分析。
第三章讨论了抽样和再抽样。在介绍与抽样有关的定义之后,作者还介绍了与此相关的统计理论要素,包括对抽样分布、总体和样本均值和方差的分析、有无替换的抽样以及潜在的偏差等。,大数定律与中心极限定理。本章最后对简单随机抽样、系统随机抽样、分层随机抽样、整群自举抽样等概率抽样技术进行了较为详细的概述。第四章概述了R语言中数据可视化的方法;这些包括各种线图、散点图、总结图,所有这些都附有示例和相关代码。第五章重点分析了与特定问题相关的特征。以数据摘要为起点,作者继续对特征进行特征描述,例如,连续的或分类的,根据其相关性进行排序,最后识别出对数据集中观察到的大部分变化负责的特征子集;对于后者,讨论了主成分分析的滤波、包装和嵌入方法。
第六章是对机器学习方法的广泛、全面的概述;在介绍了有监督学习、无监督学习、半监督学习和强化学习的方法之后,作者逐一介绍了回归和相关分析、支持向量机、决策树、朴素贝叶斯方法、聚类分析等标准方法,人工神经网络中的关联规则挖掘。所有的理论概念都附有实例和R代码。本章最后给出了一个模型构建检查表,指导用户确定哪种方法更适合于特定的实际问题。在第七章中,作者描述了连续和离散输出的模型性能和评估方法。包括交叉验证和bootstrap抽样方法。第八章介绍了提高模型性能的方法;重点是R中的插入符号包,它用于不同类型的超参数最优范围搜索。提出了集成学习(基于投票方案)的概念,并用bagging树、决策树的梯度提升以及kNN和Rpart相结合的方法进行了说明。
第九章着重于时间序列的建模,着重于平稳性检验,以及ACF、AR、PACF和MA模型。详细讨论了ARIMA模型和具有AR误差的线性回归。第十章讨论了机器学习方法的可扩展性。在概述了分布式处理和存储的标准技术之后,包括Google文件系统(GFS)、MapReduce和R中的并行执行,还介绍了另外三种适合此任务的环境(Hadoop、Spark和H20)。这本书以一系列关于如何使用深入学习的Keras和TensorFlow R库的示例作为结尾。第十一章首先概述了最常用的学习体系结构:卷积神经网络(CNNs)、递归神经网络(RNNs)和生成对抗网络(GANs),然后总结了R。本章最后给出了一个在Quora中识别重复问题的用例。
作为一种可靠的理论,研究人员推荐一种可靠的理论,并将其作为一种更广泛的理论和方法,为研究人员提供一种更广泛的、更广泛地理解和使用机器学习的方法。这些章节用大量的例子和代码来装饰,这些例子和代码强调了通常在章节开头概述过的定义。这些例子前面的理论量足以使我们很好地理解概念;此外,分散在各处的参考文献提供了进一步的支持,如果读者希望进行具体的分析。这本书适用于各种背景和技能,它是针对研究人员从本科生到研究生和成熟的研究人员,从广泛的跨学科背景,如计算机科学,数学,物理和生物学。
理学硕士:
68-01年 与计算机科学有关的介绍性说明(教科书、教程论文等)
68-02年 与计算机科学有关的研究展览会(专著、调查文章)
68T05型 人工智能中的学习与自适应系统
PDF格式 BibTeX公司 XML 引用
全文: 内政部