社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

2018年Analytics Vidhya上最受欢迎的15篇数据科学和机器学习文章

软件定义世界(SDX) • 6 年前 • 759 次点击  

热门下载(点击标题即可阅读)

☞【下载】2015中国数据分析师行业峰会精彩PPT下载(共计21个文件)

作者:Pranav Dar

翻译:陈之炎

校对:丁楠雅

转自:数据派THU

本文约4200字,建议阅读10+分钟。

本文为你整理了多个高质量和受欢迎的数据科学培训课程、学习文章及学习指南。


简介

Analytics Vidhya是由Kunal发起的一个数据科学社区,上面有许多精彩的内容。2018年我们把社区的内容建设提升到了一个全新的水平,推出了多个高质量和受欢迎的培训课程,出版了知识丰富的机器学习和深度学习文章和指南,博客访问量每月超过250万次。

当拉上2018年的精彩帷幕之时,我们想和社区的读者来分享这一年中的精彩华文。本文也是该系列文章的一部分,希望你能喜欢。其他几篇回溯性文章见:

A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019:

https://www.analyticsvidhya.com/blog/2018/12/key-breakthroughs-ai-ml-2018-trends-2019/

The 25 Best Data Science Projects on GitHub from 2018 that you Should Not Miss:

https://www.analyticsvidhya.com/blog/2018/12/best-data-science-machine-learning-projects-github/



在这个文集中,我总结了每一篇文章,并根据它们各自的领域进行了分类。每一篇文章还包含对内容的总结。如果你有其他你觉得特别有用的文章,请在下面的评论框中告诉我们。

现在,我们来看看2018年在Analytics Vidhya上的那些最受欢迎程的文章吧!

本文所涵盖的专题

一、机器学习与深度学习-终极二重奏

二、商业智能与数据可视化

三、数据科学方向的职业

四、自然语言处理(NLP)

五、播客

一、机器学习与深度学习-终极二重奏

1. Scratch构建推荐引擎的综合指南(用Python语言)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/



推荐技术已经存在了几十年(不是几百年)。机器学习的兴起无疑加速了这些技术的进步,我们已经不再需要依靠直觉,手动地对行为进行监控——只要把数据和正确的技术有机结合起来,瞧!你便有了一个非常高效和划算的组合。

本文是你在这个主题中能找到的最全面的指南之一。它涵盖了各种类型的推荐引擎算法以及在Python中创建它们的基本原理。Pulkit首先解释了什么是推荐引擎,它们是如何工作的。然后用Python(使用流行的MovieLens数据集)进行了一个案例研究,并利用它解释了如何构建特定模型,他关注的两项主要技术是协同过滤和矩阵因式分解。

一旦建立好了推荐引擎,该如何评估它呢?我们怎么知道它是否按照我们的计划运作呢?Pulkit展示了六种不同的评估技术来验证我们的模型,从而解答了这个问题。

2. 24个可以提高你的知识和技能的终极数据科学项目(&可以自由访问,无需付费)


https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/


这是Analytics Vidhya有史以来最受欢迎的文章之一。最初发布于2016年,我们的团队更新了来自不同行业的最新数据集。数据集被划分为三个职业级别-各个级别适合于职业生涯中的不同阶段:

  • 初级:这个级别主要使用易用的数据集,并且不需要复杂的数据科学技术

  • 中级:这个级别主要使用更富挑战性的数据集,它由中、大型数据集组成,要求具备一些高级的模式识别技能

  • 高级:这个级别最适合那些了解高级主题的人,如神经网络、深度学习、推荐系统等。

蛋糕上的糖霜呢?每个项目都有一个与之相关的教程!因此,无论你是想从scratch开始学习,还是被困在某个点上,或者只是想用一个分数来评估你的结果,你都可以将它标记为书签,迅速回到该教程之中。

3. 在Scratch中用Python理解和建立目标检测模型

https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/


目标检测在2018年真正开始了起飞,它可以为自动驾驶汽车安全导航,使之顺利通过交通拥堵,在人群拥挤的地方发现暴力行为,协助运动队分析和建立侦察报告,在制造过程中确保质量控制等等,这些只是目标检测技术所涉及的表面而已,它能做到的事情远不止这些。

在本文中,Faizan Shaikh首先解释了目标检测是什么,然后再深入探讨解决目标检测问题的多种不同的方法。他从非常基本的方法开始,将图像分割成不同的部分,并在每个部分上使用图像分类器。在此基础上,对每个步骤进行了改进,最终展示了如何利用深度学习来构建端到端的对象检测模型。

如果这个话题吸引到了你,并且你正在寻找一个切入点开始你的深度学习之旅,我建议你去看看“利用深度学习的计算机视觉”课程。

4. 集成学习综合指南(附Python代码)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/

一旦我们掌握了基本的机器学习算法,接下来就是集成学习了。这是一个迷人的概念,并在本文中得到了非常好的解释。有大量的例子可以帮助把复杂的主题分解成容易理解的想法。

由于本指南的综合性,Aishwarya指导我们通过许多技术-bagging,boosting,随机森林,LightGBM,CatBoost等等,所有的信息宝库都集中在一个地方!

在黑客比赛中,你经常会遇到这种方法-它是一种已经被证实的、成为领头羊的方法。

5. 每个数据科学家必须使用的25个深度学习开放数据集

 

https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

学习和吸收一个概念的最好方法是什么?学习理论是一个很好的开始,但是只有当我们真正理解这种技术是如何工作之后,我们才能从实践中真正学到东西。对于像深度学习这样广阔的领域来说,尤其如此。

训练技能的数据集并不短缺-但是应该从哪里开始呢?哪一组数据集最适合用来建立你的个人资料?你能得到特定领域的数据集来帮助你熟悉这一领域的工作吗?为了能够帮助到你,我们为你精心挑选了25个开放的深度学习数据集。

这些数据集分为三类:

  • 图像处理

  • 自然语言处理

  • 音频/语音处理

所以,选择你感兴趣的领域,从今天起就开始吧!

6. 12种降维技术的终极指南(附Python代码)

 

https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/

啊,维度的诅咒。能有更多的数据固然好,它有助于构成一个足够大的训练集。但正如大多数数据科学家所证实的那样,拥有过多的数据最终会让人头疼。当面对一个拥有1000个变量的数据集时,应该做什么?要在粒度级别上分析每个变量是不太可能的。

这就是降维技术会如此重要的原因。在不丢失(太多)信息的情况下减少特征的数量是我们共同努力的目标,降维是一种非常有效的方法,Pulkit在这篇文章中对此做了全面的展示。他讨论了12种降维技术,以及它们在Python中的实现,其中包括主成分分析(PCA)、因子分析和t-SNE。

二、商业智能与数据可视化

1. 数据科学和商业智能专业人员的Tableau中级指南

https://www.analyticsvidhya.com/blog/2018/01/tableau-for-intermediate-data-science/

Tableau是分析手头数据的一个非常好的工具,它的功能不仅仅局限于生成漂亮的可视化图表——利用 Excel同样也可以实现类似的任务。

Tableau的扩展功能确实可以将智能放入到BI之中。

本文针对的是已经熟悉Tableau的基本功能,但是希望拓展对该工具的认识的用户。作者介绍了连接、数据混合、执行计算、分析和理解参数等主题。文中的华美描述,将使你更加想要立即启动Tableau!

如果需要快速复习一下Tableau,也可以先阅读Tableau初学者指南。

2. 数据科学和商业智能专业人员的Tableau高级进阶指南

 

https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/


在完成Tableau中级指南之后,接下来顺理成章地可以学习本指南。在这里,我们超越了Tableau的“ShowMe”(秀我)特性,探索出更为高级的图表。Pavleen雄辩地如是说-“这些高级图表的壮美令人兴奋和陶醉”。

这篇文章中涵盖多种不同类型的图表- Motion,Bump,Donut,Waterfall 和Pareto。此外,还介绍了Tableau中R编程的概念。当你希望将数据科学与BI结合起来时,这的确非常有用!

三、数据科学方向的职业

1. 最全面的数据科学与机器学习面试指南

 

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/


把这些个指南放在一起真的很有趣。面试往往是数据科学家们面临的绊脚石,要想通过面试,需要一定的技能组合,如果你来自非技术背景(比如我),那么破解这些面试就变得更具挑战性了。

数据科学方向的面试通常会问什么样的问题?面试官要寻找的是什么?技术和软技能的正确结合是什么?如果没有做好充分的准备,这些都会让人望而生畏,这就是撰写这篇冗长而详细的指南背后的想法。

这个全面的帖子涵盖了多个主题与丰富的资源,包括数据科学和机器学习问题,特定工具的小测验,各种案例研究,谜题,猜测,甚至是几个引导你奔向终点线的真实的励志小故事!

2. 业余数据科学家所犯的13个常见错误及如何避免这些错误

 

https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/


有抱负的数据科学家在匆忙闯入这个领域时往往会犯很多错误,我同样在这个领域也出过很多错,在这篇文章中,记录了13个我见过的业余数据科学家所犯的常见错误。相信我,成为一名数据科学家是一条艰难的道路,而你并不是唯一犯这些错误的人。

从别人的错误中吸取教训也可能是一种职业生涯的经历,为此,我还提供了一份资源清单,目的是帮助你克服这些障碍,助力你迈向数据科学希望之地的旅程。

3. 想成为一名数据工程师吗?这是一份助你启程的全面的资源列表。

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/


到目前为止,我们主要讨论的是数据科学家。但是数据科学领域还有很多其他的角色,目前最热门的是数据工程师。在所有的数据科学家的大肆宣传中,他们往往被忽视了,但在任何DS项目中,数据工程师都是非常关键的一环。

要成为数据工程师,目前没有单一的结构化路径可以遵循,我希望这篇文章能提供一个不同的选项。这里有大量免费资源,包括电子书、视频课程、基于文本的文章等。

了解了什么是数据工程师,以及这个角色与数据科学家的不同之处之后,我们便直接深入到你需要了解的各个方面的知识和技能,以便使你顺利成为自己希望成为的那个角色。文中,我还提到了一些在数据科学界得到了认可的数据工程证书。

四、自然语言处理

1. 数据科学家和工程师们处理文本数据的终极指南(附Python语言)

 

https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/


这是一本你的必读指南。这本NLP初学者基础指南,从一些基本概念开始,逐步构建起更先进的概念,如包词和单词嵌入。解决文本数据问题有多种方法,在这里将介绍这些不同的方法。

特征提取、预处理和高级技术-所有这些都是文本数据包含的内容。每种技术都使用Python代码和一个开放的数据集来展示,这样可以做到一边学习一边编写代码。

你还可以加入 ‘使用Python的自然语言处理’综合课程,开启自己的NLP职业生涯。

2. 用Python构建FAQ聊天机器人-信息搜索的未来

 

https://www.analyticsvidhya.com/blog/2018/01/faq-chatbots-the-future-of-information-searching/

2018年是聊天机器人达到顶峰的一年,这是自然语言处理(NLP)在市场上最常见的应用。不难理解的是,越来越多的人想要学习如何构建一个聊天机器人。那么,你来对地方了!

本文探讨如何提取与印度最近引入的商品和服务税(GST)相关信息,在Python中构建聊天机器人。一个GST-FAQ机器人!作者利用Rasa-NLU库构建了该BOT。

3. 在Python中使用ULMFiT和Quickai库进行文本分类(NLP)教程


https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

这是一个非常重要的话题-无论对于初学者还是高级NLP用户来说都是如此。ULMFiT框架是由Sebastian Ruder和JeremyHoward开发的,它为其他迁移学习库铺平了道路。这篇文章更适合那些熟悉基本NLP技术并希望拓展知识面的人。

Prateek Joshi采用通俗易懂方法,向我们介绍了迁移学习的世界:ULMFiT框架,以及如何在Python中实现这些概念。正如Sebastian Ruder所说,“NLP的ImageNet时刻已经到来”,是时候跳上这架马车了。


五、播客(一种可订阅下载音频文件的互联网服务,多为个人自发制作)

注:播客是一种可订阅下载音频文件的互联网服务,多为个人自发制作。

1. 必听的10个数据科学、机器学习和人工智能的播客

https://www.analyticsvidhya.com/blog/2018/01/10-data-science-machine-learning-ai-podcasts-must-listen/

播客是一个很好的消费信息的媒介。不是所有的人都有时间阅读文章,播客正是填补了这一空白,使得我们更为便捷地了解机器学习的最新发展。这个前10名播客集在出版时就走红了,之后便一直位居榜首。

我们今年还推出了自己的播客系列:DataHack Radio。DHR的特点是数据科学和机器学习行业的顶级先驱者和实践者,并迎合数据科学界各层级的需要。它可以在SoundCloud,iTunes上访问到,当然也可以在我们自己的网站上访问到!


尾注

再一次对Analytics Vidhya社区的成员大声表示:感谢你们一如既往的支持和对数据科学的热爱。让我们共同努力,使2019年成为更加美好和更为壮大的一年,并承诺保持我们对学习的无限渴望!明年见。

 

原文标题:

The 15 Most Popular Data Science and Machine Learning Articles on Analytics Vidhya in 2018

原文链接:

https://www.analyticsvidhya.com/blog/2018/12/most-popular-articles-analytics-vidhya-2018/


译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

读BD最佳实践案例,赢DT未来!

18各行业,106个中国大数据应用最佳实践案例:

(1)《赢在大数据:中国大数据发展蓝皮书》;

(2)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》;

(3)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;

(4)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。【本册免费在线读, http://e.dangdang.com/pc/reader/index.html?id=1900774313 】

或点击“阅读原文”,购买“赢在大数据系列丛书”。

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100

BDAI100:大数据AI产业创新与投资百人会(BDAI100),致力推动1000家亿元BDAI企业涌现、推动BDAI与100万亿实体经济的深度融合、加速10万亿数据经济腾飞(简称“BDAI100十百千工程”)

CCTV大数据名人讲堂PPT&视频:万亿元大数据产业安全城市】【农业航运】【数据资产变现

DTiii: 2233家大数据产业地图PPT及下载】【2233家详单

院士:李国杰【(PPT)(全文)】【数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏梅宏

大数据100分:【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

大数据/人工智能数据竞赛:Kaggle经验分享NetFlix百万美金】【Kaggle案例】【2017BDCI】【2017BDCI嘉年华2018BDCI嘉年华滴滴算法大赛】

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复 】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK】【无人驾驶】【AI知识体系】【神经网络

区块链:TED视频】【麦肯锡】【毕马威】【高盛

算   法: 【10大经典算法】【推荐算法

数据科学家:数据科学家工具包,数据科学家成长指南

可视化:【2017年获奖2014年最佳】【十大标志性作品 】【43款工具

PPT:【大数据产业地图】【数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【大数据投资2015创投趋势2014投资报告倒闭教训

人才:2017BD&人才报告

大数据应用最佳实践案例:18个行业106个案例

原创:陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易互联网+观点】。

专题版本:20181111V3.3

底部新增导航菜单(点击顶部“软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:sdxtime@126.com;

=>> 长按右侧二维码关注。

底部新增导航菜单,下载200多个精彩PPT,持续更新中!


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/OmdyurDmQD
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/28031
 
759 次点击