Py学习  »  机器学习算法

机器学习训练营第二期开始报名了!

进击的Coder • 5 年前 • 403 次点击  

差不多在一个月前,我分享了自己对爬虫和 AI 行业的一些看法,文章原文是:分享我对爬虫和 AI 行业的一点看法,顺便打个广告,强烈建议大家在阅读本篇文章之前先看一下这篇文章。


首先说下我的一些情况。


我现在是硕士三年级,北航这边硕士毕业是两年半,所以说我明年一月份左右就要毕业了,今年肯定是要参加秋招的。所以整个九月份都在忙着各种面试,可以说整个九月份都比较焦虑,不过好在事情已经告一段落了,当我得知自己拿到自己心仪公司的 Offer 的时候,心里一块石头终于落地了。


我一直在微软这边实习,已经一年多了,所以这次肯定也参加了微软的转正面试,前几天刚刚接到录用意向书,今天刚刚参加了 Offer 说明会,谈了具体的薪资待遇等情况,不过具体的薪资就不太方便透露啦,总之我还是非常满意的。


最初我来微软微软的时候实际上是以爬虫工程师的身份进入的,在微软小冰部门,是做聊天机器人的,需要用到各种深度学习模型来实现一些回复检索和生成功能,而训练这些模型就需要非常多的对话语料,所以当时就帮部门爬了数亿对话数据,同时也自己维护了一套较为稳定的爬虫系统。


工作几个月期间,我一直在帮同事们爬各种数据,把数据给他们之后,他们就会做一些分析处理,然后搭建模型,所以我也会经常听到同事在讨论各种模型优化算法,看各种论文然后加以实现。说实话一开始我是完全听不懂的状态,虽然我研一的时候上过机器学习的相关课程,但说实话那会真没觉得机器学习有多大用处,所以那会儿就其实还是为了应付考试的,平时的精力依然放在爬虫和开发上面。所以当时听到同事们讲什么 S2S,NN 模型是的时候一脸懵逼。


那会儿我就意识到,如果我一直陷在爬虫的坑里,几乎不懂什么是机器学习,什么是深度学习,将来毕业了可能真的就只是一个爬虫工程师了。而且说实话做爬虫其实并没有那么简单,尤其是当某个深夜,你与各种反爬手段斗争迟迟无果,服务器各种给你返回 403 却怎么也调不出来的时候,那时候的心情可以说叫绝望!绝望!绝望!我甚至都有怀疑我为什么要做爬虫,我做了爬虫有啥意义,我以后靠这个找不到工作了可咋办?我想如果你也做过爬虫的话,可能或多或少也有这种体会吧。


嗯,由于我平时也有逛知乎的习惯,那时候我看到某个大 V 又发了某某数据分析的文章了,又发了某某深度学习的模型了,我一想这么牛逼的吗?我感到非常羡慕,然后再回过头来看看自己干的事,每天就是在堆爬取规则,把数据爬下来,爬下来之后怎么办?我当时说实话没什么办法,数据分析没经验,搭模型没经验,可以说这些数据我都没有能力利用起来,是一些死数据。所以,那会就萌生了一些念头,我意识到,我需要自己学会利用这些数据,所以就决定开始学习机器学习、深度学习相关的一些知识。


当时也是由于一些机遇和调整,我在公司也开始负责一些数据分析和对话方向的项目,一边做一边学习,学机器学习,学深度学习,学 NLP,随着时间的推移,逐渐我也慢慢地学会了搭建一些模型,实现一些算法,同时读论文多了,也不会再因为公式而犯愁了。


而直到现在,我也学会了怎样去处理我爬下来的数据,知道了业界在人工智能如 NLP、CV 等方向的最新成果,所以我也知道了该怎样利用数据去创造更大的价值。


所以说,在学术界,我学会了怎样去探索和了解前沿的研究进展,了解了人工智能在各个方向到底可以做到什么程度,哪些方向是困难的,哪些方向是容易的,哪些可能是泡沫,哪些是确实能落地的,同时也学会了自己去实现和搭建模型来完成某个效果;在工业界,由于我之前的一些积累,所以对爬虫、Web、大数据等领域也都有所掌握,要实现某些算法的落地也比较得心应手。所以在平时跟同事们的合作过程中,也变得更加游刃有余。


所以我个人方向是什么?爬虫当然不能丢,因为数据是一个经久不衰的需求,但我不能仅限于爬虫方向,爬下来的数据要学会利用,其实往数据分析和人工智能方向来做都是不错的选择,我选择了后者,毕竟这是一个 AI 的时代,后面我也会继续在这个方向深耕。


现在,也到了我找工作的时候了,所以我面试的岗位也基本都是机器学习算法的相关岗位了。


这里再引用一下上一篇文章的原文,说明下我选择这个机器学习算法岗而没有选择爬虫岗的原因:


第一,爬虫本身确实比较辛苦,爬虫工程师需要时时刻刻需要与反爬工程师做对抗,网站时而改个版,时而加个固,时而弹个码,我之前研究爬虫的时候差不多趟遍了这些坑,目前虽说有个相对成熟的解决方案,不过还时不时会出现一些意外,的确有点心累。现在我正在研究一些方案,比如网页文本自动分析匹配,还有一个通用的可视化爬虫解决方案,所以爬虫这部分的重心我会慢慢迁移到智能化抓取和可视化通用解决方案的实现,以后也会慢慢集成到我自己的 Gerapy 框架里面,不过这也是算闲暇之余的研究吧,以后不会把工作重心完全压到爬虫上面了。


第二,只做爬虫是比较局限的,数据爬下来还是需要用起来的,这里可以分为数据分析和人工智能这两大方向。数据分析包括对获取的数据进行统计分析可视化等工作,我们需要从数据中挖掘出有价值有意义的内容,那么它对应的岗位就是数据分析师。另外一个就是人工智能这个方向,这个方向你需要了解一些高数、线代、离散数学等知识,然后还要了解一些基本的机器学习算法,比如 SVM、逻辑回归、决策树等等,然后现在深度学习这么火,你还要了解一些深度学习模型,基础的比如 RNN、CNN 等,另外对于不同的应用场景,又可以细分为自然语言处理(NLP)、图像(CV)、语音(Speech)等方向,这又需要你对这些方向有一些更深入的了解,比如自然语言处理就又需要你了解一些语言模型、Word2Vec、LDA、Knowledge Graph 等知识,图像又需要你深入了解一些卷积、通道、图像处理等知识,语音又需要你了解一些音素、Lattice、声学模型、语言模型等知识。所以总的来说,这个大方向的要求和门槛还是相对比较高的,这个大方向对应的就是算法工程师,细分的话可能就会分为 NLP 工程师、CV 工程师等等。我目前就在研究这个大方向。


第三,从发展前景和方向的问题来考虑,现在大家可能听到人工智能将会在某某年取代人类,其实仔细想想确实是这样的。现在应该是第三次人工智能浪潮了,前两次浪潮中人工智能算法效果确实提升了,但是远远达不到落地的程度,但这次很多应用确实已经可以实打实地落地了。落地的标准是什么?准确率 60% 能落地吗?开玩笑呢。90% 能落地吗?我是不敢。97%。99% 呢?能了。现在的行情是,深度学习在近两年火起来之后,图像和语音识别的准确率已经确实能达到 97%、99% 的水准了,NLP 我不敢恭维,因为这个确实很难。所以,你也能看到很多独角兽公司的兴起大多数也是图像领域的,他们也实实在在实现落地了,这方面的工作人工智能也绝绝对对可以取代人类。另外 NLP 领域,智能客服等应用其实也做得越来越好了,逐渐取代人也只是时间问题。所以取代人绝不是危言耸听。这个方向火起来有几年了,已经被证明是非常有价值的,不过这个方向确实还有很多需要探索的内容,虽说有泡沫,但泡沫破了之后依然还是有实打实的应用的。所以我还是比较看好这个方向的发展前景的。


第四,钱啊!算法这个岗位的薪资会比其他的高很多,比如京东这边硕士白菜价可以开到 38w,拼多多应该能到近 50w,我目前拿到的有的也差不多是这些水平。社招的话,月薪 35k-70k 的我也是见过的,70k 什么概念?就是之前北京所说的月薪 7w 可落户的水平,年薪百万的水平。


同时我也提到过,如果要做这个方向的话,有什么加分项:


第一个就是你的工程动手能力,如果你了解了一些基本算法,动手能力还又不错,比如你写过好多模型,能根据论文实现一个模型,GitHub 收了很多 Star,或者有很多 Follower,都是可以加分的。第二个就是打比赛,Kaggle 听说过吧?就是专门搞机器学习领域竞赛的,Kaggle 里面分好多等级,比如 Master 就是大师级别,Grand Master 是里面最高的宗师级别。如果你是 Master 级别,Offer 加成会非常大,如果你是 Grand Master,你就是一个 Offer 收割机!全世界只有几百个获得这个称号。微软这边我就认识一位 Grand Master,是我的好朋友,比我高一级,去年校招的时候他收割了几乎所有大厂的 Offer,另外他打比赛获的奖金已经足够在北京全款买房了,简直人赢。


所以在一个月左右之前,我和上文所说的这位 Grand Master 还有两位 Master 大佬一起开办了一个机器学习训练营,目的就是让更多想学习从事或者转入这个方向的朋友提供一些指导和帮助,同时还会指导 Kaggle 比赛,分享相关经验,也让各位朋友在学习的过程中少走一些弯路。


模式是这样的:


我们会提供学习材料(如文本资料、视频资料、原创资料等)供大家学习,并有我们几个人做答疑辅导,开设专门的答疑圈、交流群,另外还会分享各种竞赛经验、实战项目等实战经验,后面还可以一起打比赛刷奖牌拿钱。


学习范围包括:


1、监督式学习(参数和非参数算法、支持向量机和神经网络)

2、无监督学习(聚类、降维、推荐系统和深度学习)

3、机器学习实例(偏见/方差理论、机器学习和AI领域的创新)


你将获得的有:


1.专业老师教学答疑

2.机器学习集锦大礼包

3.机器学习算法理论知识

4.精品课程视频和教学课件

5.超强动手实现技术的能力

6.圈友学习成果互评,分享交流

7.自主学习,坚持学习的好习惯

8.校招中收割offer的笔面试经验

9.Kaggle Grandmaster的竞赛经验

10.和我们打比赛和交流的机会并扩展人脉


为了答疑方便,我们还开设了专门的答疑圈,会定期发布作业和解答,另外大家有问题也可以随时在里面提问,我们解答也很及时,整个气氛我感觉非常不错。



当时第一期是限定了 200 人报名,99 元一位,发出去一晚上就报满了,所以那晚上临时增加到了 300 人,第二天早上又满了。


后来就没有再继续扩充人数,但是每天都有好多人联系我让我再加一个,但是非常抱歉,我都婉拒了,下面是公众号一些朋友的留言:



当时我们的打算是,如果第一期效果还不错的话,后面还会继续办下去,初步定的是几个月之后,估计年底再开办下一期的,但一直有很多朋友在询问和关注,同时第一期目前感觉效果还非常不错,大家真的非常有热情在学习和交流,所以这次我们将第二期的训练营提前了。


这次第二期正式的开营日期是 2018 年 10 月 15 日,也就是下周一,依然还是 99 元,目前如果 2 人拼团的话会优惠到 89 元。


如果后面你真的从里面学到一些东西,拿到高薪。或者和我们一起打个比赛赢个奖金,这个钱又算什么,大家可以好好考虑一下。


这次没有报名名额限制,在训练营结束之前都可以加入,只不过如果你报名晚了,前面落下的就只能靠自己自学了。


大家可以扫描下面的二维码参加报名,课程详情也在里面,大家可以仔细阅读里面的介绍再报名,二维码如下:



除了学习知识,我觉得另外很重要的就是扩展自己的人脉圈,认识更多的大佬和朋友,这是无价的,大家可以抓住这次机会。


另外也希望朋友们可以帮我宣传一下,不胜感激,谢谢!


推荐阅读

1

跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

2

爬虫代理哪家强?十大付费代理详细对比评测出炉!

3

只会用Selenium爬网页?Appium爬App了解一下

4

妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

5

App爬虫神器mitmproxy和mitmdump的使用

崔庆才

静觅博客博主,《Python3网络爬虫开发实战》作者

隐形字

个人公众号:进击的Coder

长按识别二维码关注



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/yMBfv85muY
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/24971
 
403 次点击