社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

快来收藏!人手一份的【机器学习指南】

量化研究方法 • 5 年前 • 855 次点击  

“这篇文章的初衷是因为经常逛论坛、知乎或者在微信群的时候,都会遇到有朋友问,如果想学习统计分析或者机器学习有什么推荐的资料,因此浩彬老撕根据自己的经验和数据分析专家的建议总结了一个学习清单。其实我们都有过转发某类文章,然后可以下载一大堆资料的经历。但问题是这些材料我们下载后就一直放在那其实一直都没有看过的。


#关于这份学习清单#


我会按照基础到入门给出详细推荐,并且附上个人点评。同时尽量做到各个资料在内容上并不重复(即使内容上有重复,也会在难度上做出区分),希望可以以最直接的方式告诉大家应该怎么选择。


虽然推荐目录中包含有1,2,3,4,5等顺序,但并不是建议按顺序进行阅读,每个部分内容建议如下:


0 简单入门:如你是数据分析及数据挖掘的初学者,建议根据情况选择这部分内容。另外《谁说菜鸟》和《小白学》推荐级别高于《深入浅出系列》;

1 先验知识:这部分属于先验知识,但是在学习上并不需要学习好这部分再开始第二阶段。完全可以先跳过该部分内容,事后再补充学习;

2 统计分析学习资料:建议选择其一学习即可,其中统计推断可以作为进阶学习材料;

3 机器学习资料:如果你基础一般,可以先看《小白学》的免费课程。如果你数学及编程基础相对扎实,优先推荐吴恩达的机器学习课程及西瓜书;外文系列可以作为进阶选择性阅读;

4 SPSS学习资料:案例型的应用学习推荐《 IBM SPSS数据分析与挖掘实战案例精粹》。按书从案例分析出发,即使你不使用SPSS,该书作为行业应用学习也会给你很大启发。

5 R语言学习资料:推荐《R语言实战》

6 python学习资料:推荐《利用python进行数据分析》以及《Scikit-Learn与TensorFlow机器学习实用指南》

7行业应用资料:根据需要选择性阅读


学习资源


另外,包括主要资源包括:视频课程(免费,带链接),书籍(豆瓣评分+点评,部分有官方电子书),其中资源列表如下:


视频课程(免费):


可汗学院数学/统计学类课程:https://open.163.com/khan/  

小白学数据挖掘与机器学习课程:https://edu.hellobi.com/course/281

吴恩达机器学习课程:Coursera地址:https://www.coursera.org/learn/machine-learning#

网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html



下载资源(部分正版资源已经打包在百度网盘,为支持作者,建议通过官方链接下载):

网盘下载链接:https://pan.baidu.com/s/1Kzimew-DCZHRUxE_5fdeaQ 密码: 密码: fmnt


1、SPSS Modeler试用下载:

直接在公众号回复【spss】获取SPSS的试用链接

2、SPSS Modeler官方文档(多国语言)(主要中文文档已打包,可以在百度网盘下载):

http://www-01.ibm.com/support/docview.wss?uid=swg27046871

3、《统计学习方法》 清华大学袁春老师制作了配套课件,下载地址为袁春老师主页或可在网盘中统一下载:

http://www.sz.tsinghua.edu.cn/publish/sz/139/2010/20101218141443318939067/20101218141443318939067_.html

4、The Elements of Statistical Learning(统计学习基础)正版电子书,或可在网盘中统一下载:

http://statweb.stanford.edu/~tibs/ElemStatLearn/


第一版概述:第一版学习指南,主要是基本的学习框架和学习路径,通过第一版书单,相信大家能够建立统计分析/机器学习的整体理论认知。

第二版概述:增加了非统计/CS童鞋的入门书籍,增加了机器学习的外文资料介绍,增加了更多行业实践资料,调整了部分书籍的推荐顺序。

第三版概述:增加凸优化内容,修订推荐顺序和内容,增加资源整理板块

第四版概述:增加入门及SPSSModeler书籍,增加Python书籍


0、非相关专业的简单入门      

                 

统计分析/机器学习已经不仅仅只是相关专业人士的私藏,现在有更多跨专业的童鞋也希望学习相关知识来提供自身领域的能力,因此这里简单给大家介绍几本入门学习材料。


0.1

 小白学数据挖掘与机器学习(SPSS Modeler案例篇)(新书)


最近新出的戏称“小黄书”,彩印书籍,情人眼里出西施,作为入门级书籍,浩彬老撕还是认为非常不错的,主要在于:

  • 通俗易懂:采用生活化的案例作为突破,漫画化方式深入浅出全面解析机器学习的算法理论知识,再使用实践案例进行巩固,大大降低初学者的入门门槛。;

  • 内容丰富:理论知识上涵盖了主流的统计分析技术(t检验,相关分析,卡方检验等),机器学习算法(分类算法,聚类算法,关联规则,集成学习);

  • 规划合理:实践案例中涵盖数据处理,数据探索,算法建模,模型评估等内容,涵盖整个数据挖掘的全流程;

另外,比较优势的一点是,本书附带了37节免费的视频课程,非常好的和书本内容做了互补,免费视频课程地址:

https://edu.hellobi.com/course/281


另外,此书和菜鸟系列的差异主要在于菜鸟更重于传统的数据分析,小黄书更着重于机器学习。


0.2

《谁说菜鸟不会数据分析》系列 


分别是入门篇,工具篇和SPSS篇。该系列书籍是彩印的,同时入门篇提供了数据分析的基本概念和简单的Excel使用技巧,工具篇和SPSS篇提供了对工具的入门掌握,整个系列的好处是直观简单,能够帮助非相关的专业人士快速建立起对基本概念的认知和基本的数据分析思想,硬要说“缺点”则是过于简单,但对于入门同学来说,这个层面刚刚好。


三本书的内容其实在数据分析基本概念这部分都是存在部分重复,因此可以根据需要先买一本(建议黄色入门篇),如果你还记得多年前学过的基本分析知识,更具现在的工具使用情况可以考虑工具篇(现在的你需要经常Excel,想学习写一份简单的分析报告)或SPSS篇(现在的你,被期望使用一些统计分析方法,有一些稍深入一点的见解)


0.3

深入浅出系列统计学,深入浅出数据分析


毕竟是基本入门,浩彬老撕认为只选一个系列就足够了。如果你确实想看得更多旁敲侧击,可以看看《深入浅出统计学》,以及《深入浅出数据分析》。相比于《小白》和《菜鸟》,浩彬老撕认为《深入浅出系列》内容稍多,但是行文逻辑相比于前面略有发散,个人更建议《小白》和《菜鸟》。


1、先验知识

                       

由于统计学概率论甚至到机器学习会对数学基础有一定要求,所以这里给出一些先验知识的内容推荐,主要是矩阵方面。


值得注意的是,尽管这部分属于先验知识,但是在学习上并不需要学习好这部分再开始第二阶段。完全可以先跳过该部分内容,事后再补充学习。


1.1   课程

可汗学院公开课:线性代数课程


http://open.163.com/special/Khan/linearalgebra.html


因为网易公开课有翻译,这里是中文字幕课程链接,这里真要给网易100个赞,字幕做得很好。



“可汗学院(Khan Academy),是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络影片进行免费授课,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的内容,教学影片超过2000段,机构的使命是加快各年龄学生的学习速度。”

 

1.2 参考书籍


线性代数 

线性代数  豆瓣清华居余马老师的线性代数教材,比较经典的教材了,里面的知识足够支撑我们后续统计分析和机器学习需要。



高等代数

相比于线性代数,高等代数更加深入,一般线性代数为非数学专业所用,数学类专业一般学习高等代数。不过一般情况下,线性代数也足够使用了。


凸优化

在机器学习领域,除了矩阵相关知识外,凸优化的只是也是极其的重要。一旦你开始学习机器学习相关算法理论,你会发现很有理论的源头都能在这里找到很好的解释。

 

当然,在后续学习中有些算法也会用到微积分的知识,但是都比较基础,因此遇到不懂的时候直接查资料即可,就没有特定推荐材料了。

 

2、统计分析学习资料

         

2.1 统计学/概率课程


同样推荐可汗学院的统计学和概率课程,而且刚好这两门课程也被网易公开课进行了翻译:


(1)  可汗学院公开课:统计学

http://open.163.com/special/Khan/khstatistics.html



(2)  可汗学院公开课:概率

http://open.163.com/special/Khan/probability.html

 


这两本课程总体不算太难,适合入门。个人觉得讲授还是蛮有特点的,粗暴直接,另外举的例子也是蛮有趣的。


2.2统计学/概率参考书


统计学

作者William Mendenhall / Terry Sincich 

“《统计学(原书第5版)》内容丰富,很少涉及统计学理论的严格数学证明,绝大部分是与实际应用紧密联系的例子和练习,适合作为理工科各专业本科生、研究生的统计学教材,也可作为相关领域研究人员的参考读物。”
非常注重实用的统计学课程,偏应用,少数学证明,可读性比较强;



统计学

作者:贾俊平,何晓群,金勇进
统计比较通用的入门教材了,不知不觉竟然到了第六版,个人认为也算是兼顾数学证明和应用,可读性没有上面强,但是也非常的通俗易懂,有很多统计学专业的起始教材也会选择这本。


统计推断

作者:William Mendenhall / Terry Sincich 非常经典经典的统计学教材,借用介绍“从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不常见而又广为使用的分布。其内容既包括工科概率入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想”。可以作为研究生所用教材,有深度,但是作者循序渐进,解释得非常漂亮。


3、机器学习资料

                

3.1机器学习课程


推荐Andrew NG吴恩达的斯坦福机器学习课程,英文授课,但是已有完善的中文字幕,内容非常丰富且充实(20节),并且讲解得非常的好,如果你想学习机器学习,一定不能错过!


Coursera地址:

https://www.coursera.org/learn/machine-learning#


网易公开课地址:

http://open.163.com/special/opencourse/machinelearning.html



同时该课程配有课件讲义,同样建议大家在学习视频课程之余多看讲义和习题,虽然是英文,但是阅读上基本没有什么问题,就讲义本身也是非常的棒。

 

如果大家学习完Andrew NG的机器学习,还想通过其他课程触类旁通,相互借鉴的话,可以上Coursera上门搜索还有其他选择,例如台大的机器学习基础等等,但毫无疑问首推Andrew NG的课程;


另外上面0.2部分的《小白学数据挖掘与机器学习》也包括了免费的视频课程,大家也可以借鉴一下。


3.2机器学习教材


中文系列:


机器学习

作者:周志华 被戏称为《西瓜书》,最好的中文机器学习教材之一(其实我想把之一去掉),作为机器学习的入门教材来说,它不但涵盖内容范围全,同时逻辑清晰,可读性强。并且大部分算法有比较完整的算法推导和伪代码,对于学习掌握非常有帮助。当然,个人觉得如果有该系列的进阶版,能够针对每个算法有进一步的深入应用介绍,那是更好。


统计学习方法

个人认为中文教材里面少见的精品。相比于西瓜书,要精简得多,但逻辑非常的清晰,部分算法的讲解要更加优美,可读性要低于《西瓜书》,可能不太适合入门者,但是还是非常值得推荐阅读学习,或与《西瓜书》相互借鉴。特别地。清华大学袁春老师制作了配套课件,下载地址(袁春老师主页):

http://www.sz.tsinghua.edu.cn/publish/sz/139/2010/20101218141443318939067/20101218141443318939067_.html


外文系列


Pattern Recognition And Machine Learning

作者:Christopher Bishop 

三大机器学习外本经典教材之一,PRML,没太多好说的,经典,好书!相对理论的一本书,不但全面,而且深入!针对于某一算法可能会给于多种介绍和解释,我个人觉得可以作为西瓜书之后的进阶教材。

另外,网上有PRML的中文翻译版本,是哈工大马春鹏的自发翻译,但由于牵涉到版权问题,这里不提供链接了,确实有需要的同学相信大家可以找到的。

附《关于网上流传的PRML中文翻译稿的声明》

http://weibo.com/p/1001603885799136480788


The Elements of Statistical Learning(统计学习基础)

作者:Trevor Hastie

三大机器学习外本经典教材之一,这本书被广大人民喜称为ESL,虽然书名是统计学习基础,但是此书一点都不基础,一点都不~另外此书还有一本专门的入门版本ISL(后面会介绍)

这本书涵盖了非常多的内容,讲解深入,有人评价说,“有了这本书就不需要其他机器学习教材”,虽然有点夸张,但是此书实际是机器学习的经典巨作,如果你真的希望好好研究机器学习,此书非常值得仔细研读,另外此书要求不低的统计理论和数学基础。

此外,这本书还有一个牛逼的地方在于,作者把书放在网上免费下载:

http://statweb.stanford.edu/~tibs/ElemStatLearn/


Machine Learning-A Probabilistic Perspective

作者:Kevin P. Murphy 

三大机器学习外本经典教材之一,PRML。留意时间线,三本经典教材的出版日期从2007,到2008,再到2012。因此相比于以上两本书,本书的最大特点是“新”,因此内容比PRML和ESL要更广一点,但个人觉得深入度不够前两者。建议是先读前者,MLAPP用于补充。


其他推荐:


数据挖掘导论

作者: Pang-Ning Tan、Michael Steinbach、Vipin Kumar

介绍得非常全面的一本书,但可能因为需要涵盖的内容太多,所以难免有些算法只能简单介绍。尽管这样,个人认为也是非常难得一见的入门教材。相比于《西瓜书》,该书在分类算法上的内容少了不少,而关联规则和聚类算法的内容傲稍多一点,可以选择性相互借鉴阅读,但首推《西瓜书》。


前面都是一些理论知识,但是数据科学里面实践应用又是另外一个重中之重,接下来谈一下借助工具进行实践应用的问题,由于Python还在整理当中,本次主要介绍SPSS与R语言:


4、SPSS学习资料              


考虑到SPSS分为统计模块Statistics以及数据挖掘模块Modeler , 因此也分为两大块介绍


4.1SPSS Statistics统计分析资料


SPSS Statistics 市面上的书籍比较多,从我个人的角度,认为张文彤老师的系列足以让大家加深对统计体系的理解,同时也能很好掌握在实际的应用当中如何使用统计分析帮助我们完成任务,我认为掌握统计分析原理实战和SPSS操作,以下两本书足矣。


 SPSS统计分析基础教程

提供了包括医疗、经济、市场研究等方面的案例贯穿了全书,能够很好从实际应用角度把统计分析原理和SPSS操作结合起来,也提供了很好的结果解读,不失为一本极好的工具指南。



高等学校教材(SPSS统计分析高级教程)

相比于基础教材,高级教程介绍了更多的统计算法模型,同时也提供了一些统计新方法和新观点的讲解。整体来说直观易懂,能够很好提升实战能力。

 另外张文彤老师也有对应视频课程 《张文彤SPSS初中级教程》以及《张文彤SPSS高级教程》


 4.2 SPSS Modeler 机器学习教程


Modeler官方的帮助文档和Sample文件

Modeler提供完备Sample数据和数据建模文件,并且配套中文说明,可以帮助入门者一步一步搭建数据建模流并理解实际应用场景。Modeler提供的帮助文档包括有算法说明,节点说明,Crisp-dm方法论,应用文档等,其中比较重要两个文档是:ModelerApplications以及ModelerUsersGuide

SPSS Modeler官方文档(多国语言,含中文)官方下载:

http://www-01.ibm.com/support/docview.wss?uid=swg27046871




(2)小白学数据挖掘与机器学习(SPSS Modeler案例篇)(前面已经介绍,这里不再重复)


 IBM SPSS数据分析与挖掘实战案例精粹

非常详尽工具手册,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,尤其是书本最后几章实践案例,从商业问题界定到商业应用,给出了非常详尽的建模指南,个人认为目前市面上Modeler最好的工具手册;另外即使不是使用SPSS,而是用其他工具,该书后面的例子也值得大家研读。


5、R语言学习资料  

          

R语言实战 

作者:Robert I.Kabacoff

首先这本书绝对可以担当日常工具手册,从基本操作,数据处理,数据建模,图形展示都给出了非常详尽的介绍;其次虽然是工具手册,但是能够结合基本统计知识于简单案例,具有很强实践性,强烈建议各位把书中的代码都实现,相信能够大大提升R的功力。最后说一句,此书翻译得不错。


AnIntroduction to Statistical Learning(统计学习导论)

作者:Trevor Hastie,Robert Tibshirani ,Jerome Friedman 

此书被广大人民群众称为ISL,没错,就是上面ESL的入门版本。无论作为统计教材推荐还是R语言教材推荐都称得上5星的读物。ISL虽然是入门版本,但是绝对不是因为内容简单。深入浅出,内容详细,常常读完有种恍然大悟的感觉,同时能够结合R语言介绍,大大的加分。


6、Python学习资料  

           

注意:本章节的学习不一定要按照顺序,请根据你的个人情况和喜好(确实是喜好)进行选择。


笨方法学python

Python的入门书籍,这本书倒是和数据分析无关,或者说不是针对于数据分析用的书,但是如果你已经决定使用python作为你的数据分析语言,那我仍然认为这本书值得一读。倒是你可以选择阅读完后面的python数据分析书籍后,再回过头来读这一本,也未尝不可。

倒是要注意两年,本书使用python2.x版本的,所以如果你使用的是3.x版本,需要在部分代码上做些改动。另外虽然此书建议大家使用2.x版本,但考虑到python针对2.x的更新支持降到2020年终止,以及数据分析很多新的库都是针对3.x的,因此还是建议大家使用3.x进行代码层面的学习。


利用python进行数据分析

非常经典的书籍,又爱又恨。一本对Pandas有非常透彻说明的书籍(当然对numpy以及matplotlib也有不少的篇幅),作为工具书非常合适,作为你要学习数据操纵的书非常合适。是的,本书并没有讨论sklearn,没有机器学习的内容,因此非常专注于pandas的使用。因此如果你希望能够利用python做好数据分析,这本书的内容,你确实需要掌握,但是相对而言,难免有所枯燥。


 Scikit-Learn与TensorFlow机器学习实用指南

Scikit-Learn与TensorFlow机器学习实用指南

or Hands-On Machine Learning with Scikit-Learn and TensorFlow

个人认为最好的python机器学习书籍,主要介绍了Scikit_learn以及Tensorflow,从最简单的线性回归到深度神经网络都有涉及的,尤其是开始的三章尤其经典,如果你之前没有用python进行过一个数据挖掘项目,相信开始的三章会让你获益匪浅(即使你已经学会数据挖掘一段时日了,但是该部分的内容,我相信你也会获得收获),另外关于tensorflow的相关内容也是写得非常的好,如果你读不下去官方文档,这本书也是一个非常好的选择。如果硬要说不足,可能就是相对新手不太友好,但是多看几遍的话,学透完全不是问题。


Python数据挖掘入门与实践

入门读物,应用案例要多于Scikit-Learn与TensorFlow机器学习实用指南,但是深度以及专业程度还是要差一点,两者可以互为补充阅读。


7、行业应用资料  

           

前面分别介绍了理论以及工具使用部分,但是要知道数据挖掘领域业务知识和应用场景是非常的重要,因此本部门主要为大家介绍一些行业应用材料。


《数据掘金——电子商务运营突围》

作者:谭磊


书中导读:

电商坐拥互联网行业最丰富的用户数据金矿,却很少有人从中挖掘出真金白银。《数据掘金——电子商务运营突围》一书旨在打破这一困境,本书用浅显的文字与独特的视角,不仅成功解读电商数据运营之惑,更呈现大量数据分析和挖掘的必要基础知识及实用相关工具。

在通过阅读轻松掌握电商数据运营须关注的要点与方法之后,读者还可有针对性地从书中选择学习如何利用数据来完成——流量获取优化、广告投放、客户分析,以及客户价值提升等一系列电商运营要务。

点评:

虽说《数据掘金——电子商务运营突围》一书主要定位是给电商从业人员,但是浩彬老撕相信,当中的一些数据分析逻辑以及技巧,都能够对其他行业的数据分析人员,市场人员,运营人员带来很大的启发。


《游戏数据分析的艺术》

作者:于洋 / 余敏雄 / 吴娜 / 师胜柱


书中导读:

《游戏数据分析的艺术》它首次系统讲解了如何对游戏行业的数据进行分析。作者是来自TalkingData等国内顶尖的数据分析机构和西山居这样的知名游戏公司的资深数据分析专家, 对游戏数据从不同的业务角度进行了诠释。本书详细剖析了游戏数据分析相关的指标、方法论、内容挖掘、数据挖掘、软件使用、游戏设计、运营策划、渠道推广、收入解读、用户分析和留存分析等。对于产品设计、开发、运营、推广以及游戏行业的人才培养都将带来巨大的推进作用。


点评:

游戏行业数据分析比较重要的参考读物。如果是非游戏行业,仅是想学习数据思维,浩彬老撕觉得《游戏数据分析的艺术》要比《数据掘金——电子商务运营突围》略好,因为本书的逻辑性和框架性更强一点。美中不足的可能就是分析角度还是不够深入,同时没能针对工具实现有更详细的说明。


啤酒与尿布

作者:高勇


书中导读:

啤酒和尿布的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长!


点评:

虽然都是讨论行业的分析应用,但与前两者不同的是,本书更偏重于业务以及分析的思维。因此如果你是零售行业从业者,本身相信可以给你带来一些有趣的角度。Ps:此书貌似已经没有再版,有需要的童鞋可能只可以下载电子书和买二手书。


文章授权转载自探数寻理

文字编辑 鸭血粉丝多多蒜



今日推荐公号

学术志

原“学术中国”公号

这里有各种论文写作经验指导

各专业书单汇总

各高校热点及发展史追踪等等

高校教师、硕博研究生、大学生都会关注的公号

国务院:鼓励事业单位人员在职创办企业,不用辞职!

最新版C刊投稿方式出炉,赶紧收藏!

扫码关注可查看更多学术文章




今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/vKex8oI0rY
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/24482
 
855 次点击