2020必读的12本机器学习书籍汇总

关注“深度学习自然语言处理”，一起学习！

设为星标，第一时间获取更多干货

来自：深度学习与NLP公众号

编辑：王萌

本文仅作学术分享，若侵权，请联系后台删文处理

“机器学习：计算机无需专门编程即可从经验中学习。”

最近这十年以来，人工智能和机器学习已经获得了广泛的关注，每个人都希望成为这一变化的一部分。企业希望掌握该技术的优势，而专业人士则对机器学习的强大能力着迷，并渴望提高自己的技能。

无论如何，始终都需要一个起点，选择一本好书，仔细地阅读，可以从中学到关于人工智能相关技术。无论你的技能是什么，你总能找到适合的书籍，无论是技术爱好者还是菜鸟。因此，推荐12本在2020年，最值得深入阅读的人工智能专业书籍。

在本文中，将简要介绍一些最佳书籍，这些书籍可以帮助你了解机器学习的概念，并指导你成为该领域内的专家。此外，只要你熟悉编程语言的基础知识，这些书就可以为你带来很多启发和灵感，包括创意和创新。

一

1. Machine Learning for Absolute Beginners: A Plain English Introduction

作者：Oliver Theobald

难度等级：初学者

如标题所述，如果你是Machine Learning的初学者，那么这本书应该是你的切入点。需要很少或几乎没有编码或数学背景，在这本书已经全部概念解释的很清楚。

实例后面是视觉效果，以友善的方式介绍主题，以了解ML的重要性。

Oliver Theobald在他的书中简化了与ML相关的几个复杂主题，例如其基础知识，以及其他技术，例如数据清理，回归分析，聚类，偏差，人工神经网络等。该书还提供了进一步学习的其他资源。

二

2. Deep Learning

作者：Ian Goodfellow，Yoshua Bengio和Aaron Courville

难度等级：初学者

作为一本非常适合初学者的书，它向你介绍了有关深度学习的广泛主题，同时还涵盖了机器学习的相关方面。

本书从头开始全面解释了DL的基本概念，以在该领域中扎实基础。这本书解释了线性代数，概率和信息论，数值计算，行业标准技术（例如优化算法，卷积网络，计算机视觉）以及研究主题（例如蒙特卡洛方法，分区函数）的相关概念。捆绑了足够的补充材料，以进行更深入的了解。

三

3. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (First/Second Edition)

作者：Aurelien Geron

难度等级：初学者

对于打算从机器学习或该领域的爱好者开始的任何人来说，这无疑是最畅销的书之一。要求具备Python编程语言的先验知识，它解释了一些用于构建智能系统的ML库Scikit-Learn，Keras和TensorFlow 2。

直观解释的概念和易于实现的示例可实现更流畅的实际实现和理解。涉及主题包括支持向量机，随机森林，神经网络，深度强化学习，急切执行，时间序列处理等。本书包含一些库和相关API的更新代码示例。

补充：你还可以在GitHub上（https://github.com/goodfeli/dlbook_exercises）找到包含幻灯片（http://www.deeplearningbook.org/lecture_slides.html）和练习（http://www.deeplearningbook.org/exercises.html）的讲座。

四

4. Machine Learning (in Python and R) For Dummies

作者：John Paul Mueller和Luca Massaron

难度等级：初学者

著名的“傻瓜”系列中的所有书籍都非常适合新手使用。像本系列丛书中的其他书籍一样，本书的概念布局也使读者容易理解。

本书包括ML入门概念和理论，以及所涉及的工具和编程语言。本书涵盖的主题从在Windows，Linux和macOS上安装R开始，然后是Matrix Creation，使用Vectors和Data Frames，使用RStudio或Anaconda使用R或Python进行编码。它是有关数据挖掘和分析的基本概念的便捷指南。

“作为一种学习，它类似于人类用来确定某些对象或事件来自同一类的方法，例如通过观察对象之间的相似度。” ― 约翰·保罗·穆勒

五

5. Machine Learning in Action

作者：彼得·哈灵顿

难度等级：初学者

一本有价值的书，旨在为开发人员提供机器学习所需技术的动手经验。这是一本同样重要的书，尽管需要具有Python的先验经验，但熟悉ML相关的Python代码。

本书包含用于统计数据处理，数据分析和数据可视化的各种算法的代码，以及诸如分类，预测，建议，简化等任务。用最少的理论，这本书直接介绍了这些算法的实际实现。

六

6. Pattern Recognition and Machine Learning（PRML）

作者：Christopher M. Bishop

难度等级：中级

Github仓库： — https://github.com/ctgk/PRML

本书面向具有模式识别和机器学习基础知识的人，假定读者具有一定程度的多元微积分和代数知识。

本书中的概念旨在解释ML领域中基础算法和技术的最新发展。本书涵盖了广泛使用的主题，例如贝叶斯方法，回归，分类，神经网络，图形模型，采样方法等，非常适合理解ML，统计，计算机视觉和挖掘。这本书完全堆砌在一起，包括各种练习和其他材料。

七

7. An Introduction to Statistical Learning (with applications in R)

作者：Gareth James，Daniela Witten，Trevor Hastie和Robert Tibshirani

难度等级：中级

尽管需要一些线性回归的先验知识，但这本书还是理解统计学习概念的绝佳工具。通过提供有关如何利用大型和复杂数据集的平衡见解，其目的是教育广泛的统计学家和非统计学家，并使他们能够理解手中的数据。

它涵盖了统计学习的几个重要概念，例如线性回归，分类，基于树的模型，支持向量机，重采样方法等。各种示例和教程使学习过程更加愉快，并且其中包括多个R labs，以演示这些统计方法的实现。

八

8. Applied Predictive Modeling

作者：Max Kuhn和Kjell Johnson

难度等级：中级

作为许多预测建模概念的出色参考书，这本书需要对统计，R编程语言和机器学习概念有深入的了解。作者专注于解释数据收集，操纵和转换过程，因为这在ML书籍中经常被忽略。

本书的应用性质使其成为分析行业面临的实际问题的绝佳选择。读者可以深入研究数据的预处理，拆分和模型调整，然后进行回归，分类，处理类不平衡，选择预测变量。

九

9. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started

作者：Drew Conway和John Myles

难度等级：中级

就像标题所说的那样，本书不适合黑客使用，而是适合那些对动手案例研究感兴趣的人。本书要求有很强的编程背景，旨在通过驱动机器学习的算法来训练你。各个章节集中讨论了ML中的每个问题，例如分类，优化，预测和建议。

这本书还训练你使用R语言，以及如何分析数据集并开始编写简单的ML算法。它与其他书籍不同的一个重要差异是对数学的依赖低。

十

10. Programming Collective Intelligence: Building Smart Web 2.0 Applications

作者：Toby Segaran

难度等级：中级

假设你知道Python，这本书被许多人认为是机器学习的最佳指南，它更愿意教你ML的实现。它包括创建用于访问网站上的数据集的算法和程序，自行收集数据以及分析和利用数据的步骤。

本书将向你介绍ML和统计信息，其中包括爬虫，索引器，优化，PageRank算法，过滤技术，决策树的示例。本书旨在按照你的步调逐步指导你完成算法的整个过程，因此出色地完成了其工作。

十一

11. The Elements of Statistical Learning: Data Mining, Inference, and Prediction

作者：Trevor Hastie，Robert Tibshirani和Jerome Friedman

难度等级：专家

本书侧重于概念，而不是概念背后的数学。它收集了有关在多个部门实施统计学习的大量想法。充斥着相关的示例和可视化内容，它应该是任何统计学家或数据挖掘爱好者的图书馆中必不可少的部分。

本书涵盖有监督和无监督的学习，包括支持向量机，分类树，神经网络，Boosting，集成方法，图形模型，光谱聚类，最小角度回归和路径算法等主题。

十二

12. Python Machine Learning

作者：塞巴斯蒂安·拉施卡（Sebastian Raschka）和瓦希德·米哈利利（Vahid Mirjalili）

难度等级：专家

假设你已经对Python和机器学习的许多核心概念有深入的了解，那么本书将直接介绍这些概念的实际实现。本书中的概念包括有关NumPy，Scikit学习，TensorFlow2和SciPy的最新解释。这本书通过向你介绍行业中面临的现实挑战，为你准备应对现实挑战。它包括各种主题，例如降维，集成学习，回归和聚类分析，神经网络等。

最终，分类器的性能，计算能力以及预测能力在很大程度上取决于可用于学习的基础数据。训练机器学习算法涉及的五个主要步骤可以概括如下：特征选择。选择性能指标。选择分类器和优化算法。评估模型的性能。调整算法。”
― Sebastian Raschka，Python机器学习

总结

在这些瞬息万变的时代，紧跟这些进步并不断提高自己的技能是必须的。关于机器学习和相关技术，有数百本书，指南和其他在线资源可用。机器学习起初可能会令人吃惊，这就是为什么我们在本文中概述了十本最受欢迎的书，希望其中一些能够引起你的兴趣。

每天进步一丢丢

K均值算法改进的模型（二）

ISODATA算法：当K值的大小不确定时，可以使用ISODATA算法。ISODATA的全称是迭代自组织数据分析法。在K均值算法中，聚类个数K的值需要预先人为地确定，并且在整个算法过程中无法更改。而当遇到高维度、海量的数据集时，人们往往很难准确地估计出K的大小。ISODATA 算法就是针对这个问题进行了改进，它的思想也很直观。当属于某个类别的样本数过少时，把该类别去除；当属于某个类别的样本数过多、分散程度较大时，把该类别分为两个子类别。ISODATA算法在K均值算法的基础之上增加了两个操作，一是分裂操作，对应着增加聚类中心数；二是合并操作，对应着减少聚类中心数。ISODATA算法是一个比较常见的算法，其缺点是需要指定的参数比较多，不仅仅需要一个参考的聚类数量

,还需要制定3个阈值。

预告：ISODATA算法的各个输入参数

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】

下载二：南大模式识别PPT

后台回复【南大模式识别】

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易，还望给个在看！