×

数据科学算法。 (英语) Zbl 1367.62005年

查姆:施普林格(ISBN 978-3-319-45795-6/hbk;978-3-3169-45797-0/电子书)。第二十三章,430页。(2016).
这本实用数据分析教科书结合了基本原理、算法和数据。算法是数据分析的重点,也是本教材的重点。数据科学是一门涵盖数据挖掘工具或重要主题的学科。对大数据洞察力的不断增长的需求需要一种全新的架构、工具和实践方法。这就是为什么数据科学这个术语很有用。它强调了数据在调查中的中心地位,因为它们在行动领域存储着潜在价值。标签科学引用了其中某些非常真实的概念,如公共知识和同行评议的概念。这种观点使得数据科学不是一个新概念。这是数百年来持续不断的严肃思考的一部分。数据科学结果的一个很好的例子是Benford定律(参见[A.伯杰T.P.希尔《美国数学通告》。Soc.64,No.2,132-134(2017年;Zbl 1359.60020号); 本福德定律简介。新泽西州普林斯顿:普林斯顿大学出版社(2015;Zbl 1412.60002号)]). 为了确定数据挖掘界广泛使用的一些最著名的算法,IEEE国际数据挖掘会议(ICDM)确定了数据挖掘领域的十大顶尖算法,并在香港ICDM’06大会上进行了演示。这个小组将宣布前10个算法,并讨论这10个算法中每一个的影响和进一步研究[十、吴(编辑)和V.库马尔(ed.),数据挖掘中的十大算法。基于2006年12月18日至22日在香港举行的IEEE数据挖掘国际会议(ICDM 2006)上的演讲的论文。佛罗里达州博卡拉顿:CRC出版社(2009;Zbl 1179.68129号);十、吴等,“数据挖掘中的十大算法”,Know。信息系统。14, 1–37 (2008)]. 在本书中,对使算法透明的数学和统计基础有清晰直观的解释。IEEE在2006年宣布的大多数算法都包括在内。但实际数据分析需要的不仅仅是基础。问题和数据千变万化,只有最基本的算法才能在不修改的情况下使用。编程的流畅性和对真实且具有挑战性的数据的体验是必不可少的,因此读者可以沉浸在蟒蛇R(右)和实际数据分析。到本书结束时,读者将获得使算法适应新问题并进行创新分析的能力。
这本书有三部分。(一) 数据缩减:从数据缩减、数据映射和信息提取的概念开始。第二章介绍了关联统计、可扩展算法和分布式计算的数学基础。分布式计算的实际方面是Hadoop和MapReduce一章的主题。(二) 从数据中提取信息:线性回归和数据可视化是第二部分的主要主题。作者专门用一章介绍医疗分析的关键领域,以获得实际数据分析的扩展示例。对于有兴趣利用疾病控制和预防中心行为风险因素监测系统的庞大而笨重的数据集的从业者来说,这些算法和分析将非常有意义。(三) 预测分析:详细开发了两种基本且广泛使用的算法,即最近邻算法和朴素贝叶斯算法。有一章专门讨论预测。最后一章重点介绍流数据,并在教程中使用来自推特API和纳斯达克股票市场的可公开访问的数据流。
与其他关于数据分析算法的研究相比,本书专门针对数学、统计和计算机科学领域的高年级本科生和研究生。它是一门为期一至两学期的数据分析课程,反映了作者在数据科学概念和各个领域的教学技能方面的研究经验。特别有价值的是案例研究和练习(其中一些带有解决方案)。这本书面向广大读者开放,因为前提条件很低。拥有一两门概率或统计学课程、接触代数、微积分和编程课程的学生不会有任何困难。具备这些先决条件的任何人都可以获得每一章的核心材料。每章包括不同难度的练习。最后,随着数据科学从业者感兴趣的创新,章节得到了扩展,需要更广泛的前提条件。这本书非常适合自学,也是从业者的一份特别资源。网页https://www.softmathconsultants.com/algorithms-and-data-science网站/通过书、教程和练习中使用的数据为读者提供支持。

理学硕士:

62-01 与统计有关的介绍性说明(教科书、辅导论文等)
62兰特 大数据和数据科学的统计方面
62页第10页 统计学在生物学和医学中的应用;元分析
68T05型 人工智能中的学习和自适应系统
64岁以下 分布式系统
62J05型 线性回归;混合模型
62H30型 分类和区分;聚类分析(统计方面)
62M20型 随机过程推断和预测
PDF格式BibTeX公司 XML格式引用
全文: 内政部