Py学习  »  机器学习算法

从调包到工程实战,如何快速掌握机器学习技能

Python中文社区 • 5 年前 • 498 次点击  


  拥抱变化  


从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速蔓延……


自从Alpha围棋占据人类棋类智力顶峰以来,机器大有在各个领域大放异彩的趋势,Google Assistant 在某些方面看起来毫不逊色于人类,那个几年前看起来还模糊不清的未来已经来临,这是关于人工智能和机器学习的时代。


AI应用细分领域


机器学习成就了人工智能产品,也带火了创造它们的攻城狮们。机器学习/人工智能方向的人才异常抢手也是业内常态,“ 批发价20K起 ” 毫不夸张。随着人工智能在各行业的深入,机器学习将成为更多人的核心技能。


很多人跃跃欲试,但入行并不能仅靠浮躁的情绪和一腔热血,对机器学习的体系及应用有整体的把握,在此基础上深入各个技能分支,有计划地系统学习,效率要高得多。


对于机器学习或者很多AI方向的职位而言,核心技能无非是“数据特征+算法模型”,当然我们还可以细分来看,算法与特征,需要掌握的技能有哪些。


数据特征:

  • 数据清洗:消除数据噪音,归一化、正则化、采样

  • 数据标注:做出统一化、高质量的数据,提升机器学习效果

  • 特征工程:特征选取方法、降维方法、多个特征融合


算法模型技能:

  • 主流监督/无监督学习算法:原理以及适用性,生成和调用

  • 模型优化:调参、约束条件、模型替换、多模型融合

  • 运行优化:处理数据集的效率,掌握更高效的技巧、框架和工具(如spark)


当然,基础技能是必备的

  • 编程/工具:Python基础及第三方库/框架,后续可以上spark/hadoop

  • 数学基础:微积分、概率统计、线性代数


整个的知识体系可总结如下:



所以神秘的AI攻城狮们的工作看起来也并不可怕,比如使用成熟的框架和工具,运行已有算法,训练业务数据,获得工作模型并不断调优,应用到企业产品。



  高效学习  


针对机器学习的职业技能和知识框架,DC学院推出了一门非常完善的《机器学习》体系课程,几乎可以学到机器学习所有的主干知识,并深入到细枝末节。即便你没什么基础,也能很快上手,并独立完成实际项目。



这门课之所以被设计得很全面,一方面是因为机器学习本身的体系十分庞大,当然只是教sklearn调个模型显然不是在认真讲机器学习。


另一方面,比如学习路径的设计、知识点难易度的把握,案例的选取,内容的深入程度等细节都做了大量延伸和重点打磨。


比自己去完成一个机器学习项目更难的是,如何让课程适合更多的人(特别是没有什么基础的同学),既要易于理解,也要兼顾深度


所以课程框架清晰,以结果为导向,目的就是去掌握那部分核心技能,并在实际的案例中输出结果。比如系统的微积分和统计学不必回炉重学,Python编程更是如此,避免无效的信息干扰,效率更高。


相信对于每一个想要学习机器学习的人来说,大纲里的内容多少都有了解,不多赘述,今天我们以问答的形式来做课程介绍。



 - ❶ -


Q这门课大概的学习思路是怎样的?


要回答你这个问题,我们得先来了解一个机器学习项目的实现流程是怎样的。

点击可查看高清大图


当我们拿到一堆数据,并且明确需要解决的问题,或者需要预测的数据的时候,我们就应该想到要按怎样的思路去解决问题了。


1. 进行数据清洗,初步的特征选择

2. 选择合适的模型进行训练

3. 做更深入的特征工程

4. 调节模型的各种参数

5. 对模型进行优化/融合等处理


最终我们要得到比较理想的结果,让这个模型在不同的数据中依然效果不俗。


其实我们学习整体的框架就基于这个流程,其中涉及到大量算法原理及使用、模型选择思路、特征工程、集成学习等等内容,这是一个完整的机器学习实践流程。


除此之外,课程还会涉及时间序列、强化学习、深度学习的知识,让你可以处理更多样化的数据以及应用场景。




 - ❷ -


Q学习这门课需要先补充哪些基础?


这个问题是被问及最多的,机器学习这门技术有太多的诱惑,且不说改变世界、追求技术这样的空洞言论,只是动辄20K的月薪,就足够有说服力。


基础是必须的,但只要你有基本数学基础(学过大学数学:微积分\线性代数\概率统计),那就没有问题,数学功底越好越有优势。


我们也在课程中补充了必备的数学基础,微积分、现代、概率统计都有涉及,一般不被重视的信息论和优化理论,都有专门的课程讲解。


数学基础固然重要,但是并不建议花费太多时间去刷数学书,这是南辕北辙,最好的办法还是直接学习机器学习算法与应用,到了看不懂的地方再去补充相应的数学知识,这样效率会高很多。


编程基础呢?你需要掌握Python的基础知识,比如基本的数据类型,编程规范,语句以及函数,以及机器学习中必备的第三方库等等。


这些东西你可以在短时间内看文档/课程掌握。而课程中也会教你用Numpy/Pandas/Sklearn等工具进行数据处理与模型训练,不必担心。



- ❸ - 


Q课程会涉及哪些算法的讲解?


问这个问题就知道你一定是有点基础了。课程主要从监督学习和无监督学习两个方向进行划分,时下主流的算法模型均会涉及。


监督学习部分:线性回归、逻辑回归、KNN、SVM、朴素贝叶斯


无监督学习部分:k均值、层次聚类、密度聚类、EM


当然我们还会回归统计学,了解统计学习的本质,比如非常重要的极大似然估计、偏倚方差分解、贝叶斯估计、参数化方法等等。


总之,算法这个部分是重头戏,从统计学习到主流的机器学习方法,都有涉及。每个算法后面都会有案例配合具体的数据集进行实践,会用才是硬道理。


当然除了基本的理解和应用,我们会尽量把常用的算法,深入原理讲解推导的过程。这样,不但可以增加你对于实现过程的理解,也便于后续进行模型的优化。



- ❹ -


Q是否有足够的案例和项目?


当然有,还是手把手的那种!


除了每个算法后附带的针对性实践案例,每章都设置了体系完整的实战项目,更加偏向真实应用。


比如我们会尽量利用真实的数据集,更加系统化的实践,让你学习具体的知识点的同时,熟悉机器学习的基本套路,并能够举一反三,把这些套路应用到更多的问题中去。


具体的案例老师都会详细讲解,细化到每一个操作,案例的思路、实现过程以及全部的代码我们都会分享出来,通过jupyter notebook的形式,下载后你可以直接在你本地的环境中运行。


课程中将包含但不限于以下案例/项目:




- ❺ -


Q用一章来讲特征工程,真有那么重要?


在机器学习/数据挖掘领域有一句经典的话:数据与特征工程决定了机器学习的上限,而算法与模型不过是逼近这个上限而已。


算法与模型不过是实现机器学习的第一步,相当于我们掌握了基本实现方式,但是真正要获得好的效果,还要进行很多的内部优化,特征工程则是重中之重。


事实上所有机器学习算法的成功,都在于你怎么样去展示这些数据,由此可见特征工程在实际的机器学习中的重要性。


事实上在很多数据挖掘竞赛中,大家使用的模型大同小异(比如大部分人会直接祭出XGBoost,然后数据全部往上面怼就完事),但高下之分很大程度上源于特征工程


除了基本的 数据清洗(缺失值/异常值处理,数据归一化、多项式特征生成)以及特征选择方法(Filter、Wrapper、Embedded),还会涉及降维(PCA&LDA)的方法。从单个特征的处理到多个特征的融合,你都可以轻松解决。


算法的使用往往是招式的修炼,而特征工程才是真正的内功。



 - ❻ -


Q深度学习和强化学习会讲到什么程度?


深度学习作为机器学习的一个重要分支,也是处理很多问题的好方式,课程中会介绍几种常用的神经网络(CNN、RNN),并通过 Keras 框架来实现深度学习


具体的呢,主要通过猫狗分类的案例,来梳理一个完整的深度学习流程,并借此掌握 Keras 框架。


当然深度学习不止如此,通过课程你可以掌握深度学习实现的基本套路,但这个东西是需要你花更多的精力去做更深入的学习,才能达到更好地效果。


而强化学习呢,主要是让你去了解机器学习自我提升的思想,强大如 AlphaGo ,是通过怎样方式进行自我学习的。而这,也是真正迈向人工智能的基石。



- ❼ -


Q:学完我能达到什么样的水平


就喜欢你这样有觉悟的,但说实话,没有人能够保证。


如果你稍微认点真,一套课程下来,独立完成基本的机器学习项目没有问题的。绝大部分的数据挖掘竞赛,你都能够通过学到的知识,跑个模型,取得还不错的成绩。不过要进入TOP排名,老铁还需努力。


更重要的是,课程中提供的特征工程、模型筛选、集成学习、调参、优化技巧,才是你形成核心竞争力的关键。


千万不要认为课程中关于算法的推导没什么卵用,你要是觉得调个包、找两个特征就能忽悠面试官,那对方会分分钟教你做人。


所以课程教你的不仅是套路,还有更多的内功,以及学习、泛化的方法。天高任鸟飞,课程够深入,只要你愿意学,就有无限可能。



Q另外,我还想问……?


算了,别问了,相关信息都给你说了吧:


  • 录播课程,已经更新完毕,随时可上课。

  • 总共60个课时,每课时20-60分钟不等。

  • 主讲老师是华科教授,技术好,各种深入浅出,还送两助教。

  • 学习群老师即时答疑,专治各种不会。

  • 课后资料包含案例代码,实现思路、重点笔记、拓展阅读……

  • 匹配针对性数据竞赛,实时训练,还可以查看真实排名。

  • Python 3.6,不解释。

  • 爱过~约~就是现在~ 




快速掌握完善的机器学习体系知识,步入AI领域

¥599(原价899),限100名


长按下方二维码,了解详情&名额预定




课程咨询、免费试看,请加入下方群聊


若群满,加Alice微信:datacastle2017



你以为你在看机器学习课程

但其实是在看AI技术和未来的自己



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/OhrZpxzTMp
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/24170
 
498 次点击