Py学习  »  Git

2019年最好的5个数据科学GitHub项目和Reddit讨论

网络大数据 • 4 年前 • 441 次点击  
   ▲
更多精彩推荐,请关注我们


◆◆
Introduction
◆◆


数据科学是一个不断发展的领域。 作为数据科学家,我们需要了解社区中出现的最新算法和框架的脉搏。

我发现GitHub在这方面是一个很好的知识来源。 该平台帮助我了解趋势数据科学主题。 我还可以从领先的数据科学家和公司那里查找和下载代码 - 数据科学家还能要求什么? 所以,如果你是:

  • 数据科学爱好者

  • 机器学习从业者

  • 数据科学经理

  • 深度学习专家

或者上面的任何组合,这篇文章适合你。 通过选择顶级数据科学库,我已经消除了浏览多个存储库的痛苦。 本月的系列重点强调自然语言处理(NLP)。



我还为您挑选了五个与数据科学相关的Reddit深度讨论。 挑选数据科学专家的大脑是一个难得的机会,但Reddit让我们可以深入了解他们的思维过程。 我强烈建议您通过这些讨论来提高您的知识和行业理解。

想要查看2019年前三个月的顶级存储库吗? 我们为您提供服务:

  • January

  • February

  • March

Let’s get into it!

Data Science GitHub Repositories




Sparse Transformer by OpenAI
– A Superb NLP Framework



这一年的结果是OpenAI的NLP研究。随着GPT的发布,他们引起了我们的注意 2月2日(稍后会详述)现在已经提出了一个建立在流行变形金刚架构之上的NLP框架。

稀疏变换器是一个深度神经网络,可以预测序列中的下一个项目。这包括文字,图像甚至音频!最初的结果是创纪录的。该算法使用注意机制(在深度学习中非常流行)从序列中提取模式的时间比以前可能长30倍。

得到你的关注,不是吗?此存储库包含此框架的稀疏注意组件。您可以克隆或下载存储库并开始处理NLP 序列预测问题。只需确保使用Google Colab及其提供的免费GPU。

在以下链接中阅读有关稀疏变压器的更多信息:

  • OpenAI’s blog post

  • Research paper

OpenAI’s GPT-2 in a Few Lines of Code


没错。 OpenAI的GPT-2。 我之前没有看到有关数据科学库发布的大肆宣传。 他们只发布了原始模型的非常小的样本(由于害怕恶意滥用),但即使是该算法的迷你版本也向我们展示了GPT-2对于NLP任务的强大功能。

已经有很多尝试来复制GPT-2的方法,但大多数都过于复杂或冗长。 这就是为什么这个存储库引起了我的注意。 这是一个简单的Python包,允许我们在任何看不见的文本上重新训练GPT-2的文本生成模型。 使用gpt2.generate()命令查看以下生成的文本:



您可以直接通过pip安装gpt-2-simple(您还需要安装TensorFlow):

pip3 install gpt_2_simple

NeuronBlocks – Impressive NLP Deep Learning Toolkit by Microsoft


本月另一个NLP条目。 它只是表明现在正在发生NLP的进步令人难以置信的速度。

NeuronBlocks是Microsoft开发的NLP工具包,可帮助数据科学团队构建神经网络的端到端管道。 NeuronBlocks背后的想法是降低为NLP任务构建深度神经网络模型所需的成本。



构成NeuronBlocks有两个主要组件(使用上面的图像作为参考):

  • BlockZoo:这包含流行的神经网络组件

  • ModelZoo:这是一套用于执行各种任务的NLP模型

您知道应用深度学习解决方案的成本有多高。 因此,请务必查看NeuronBlocks,看看它是否适用于您或您的组织。 可以阅读描述NeuronBlocks的完整论文 here.

CenterNet – Computer Vision using Center Point Detection



我真的很喜欢这种物体检测方法。 通常,检测算法将对象识别为给定图像中的轴对齐框。 这些方法查看多个对象点和位置,并对每个对象进行分类。 这听起来很公平 - 每个人都这样做,对吧?

嗯,这种方法称为CenterNet,将对象建模为单点。 基本上,它使用关键点估计来识别任何边界框的中心点。 事实证明,CenterNet比我们熟悉的边界框技术更快,更准确。

下次您处理对象检测问题时尝试一下 - 您会喜欢它! 您可以阅读解释CenterNet的论文 here.

BentoML – Toolkit for Deploying Models!



理解和学习如何部署机器学习模型对于任何数据科学家来说都是必须的。 事实上,在数据科学家访谈期间,越来越多的招聘人员开始提出与部署相关的问题。 如果你不知道它是什么,你需要立即刷新。

BentoML是一个Python库,可帮助您打包和部署机器学习模型。 您可以在5分钟内(大约!)将您的模型从笔记本电脑带到生产API服务。 BentoML服务可以轻松地与您喜欢的平台一起部署,例如Kubernetes,Docker,Airflow,AWS,Azure等。

这是一个灵活的图书馆。 它支持流行的框架,如TensorFlow,PyTorch,Sci-kit Learn,XGBoost等。您甚至可以使用BentoML部署自定义框架。 听起来好像有机会放弃!

这个GitHub存储库包含了帮助您入门的代码,以及安装说明和几个示例。

Data Science Reddit Discussions




What Role do Tools like Tableau and Alteryx Play in a Data Science Organization?

您是否在从事商业智能/ MIS /报告工作? 您经常发现自己使用Tableau,Alteryx,Power BI等拖放工具吗? 如果您正在阅读本文,我假设您有兴趣过渡到数据科学。

这个讨论主题由一位稍微沮丧的数据分析师发起,深入研究数据分析师在数据科学项目中可以发挥的作用。 讨论的重点是数据分析师/ BI专业人员需要掌握的技能,以便有机会转向数据科学。

提示:学习如何编码良好是#1建议。

另外,请查看我们的综合和示例填充文章 11 steps you should follow to transition into data science.

Lessons Learned During Move from Master’s Degree to the Industry



招聘数据科学经理最大的抱怨是候选人缺乏行业经验。 对于大多数数据科学爱好者来说,缩小学术界与行业之间的差距已被证明是难以捉摸的。 MOOC,书籍,文章 - 所有这些都是很好的知识来源 - 但它们并没有提供行业曝光。

从作者的帖子开始,这个讨论对我们来说是金色的饲料。 我觉得作者已经详细描述了他的面试经历。 这些评论包括探讨有关这种转变的更多信息的问题点。

When ML and Data Science are the Death of a Good Company: A  Cautionary Tale

这些天的共识是你可以使用机器学习和人工智能来提高你的组织的底线。 这就是管理方面的领导力,也带来了投资。

但是,当管理层不知道如何构建AI和ML解决方案时会发生什么? 在考虑机器学习之前,是不是先投资建立基础设施? 这部分在讨论中经常被忽视,对公司来说往往是致命的。

这个讨论是关于一家公司如何使用旧的编程语言和工具突然决定用华而不实的数据科学脚本和工具取代旧架构。 当你进入这个行业时,你应该注意一个警示故事。

Have we hit the Limits of Deep Reinforcement Learning?

我最近在多个论坛上看到过这个问题。 这是一个可以理解的想法。 除了技术巨头每隔几个月取得一些突破外,我们还没有看到深层强化学习取得很大进展。

但这是真的吗? 这真的是极限吗? 我们几乎没有开始划伤表面,我们已经完成了吗? 我们大多数人都相信还有更多未来。 这个讨论在技术方面和整体宏观方案之间找到了正确的位置。

您也可以将从本次讨论中吸取的经验教训应用到深度学习中。 当谈话转向深度神经网络时,你会看到相似之处。

What do Data Scientists do on a Day-to-Day Basis?

有没有想过数据科学家一天中大部分时间都在忙什么? 大多数有抱负的专业人士认为他们将在模型之后建立模型。 这是一个你需要不惜一切代价避免的陷阱。

我喜欢这次讨论中的第一条评论。 这个人将数据科学家等同于成为一名律师。 也就是说,根据您所在的域名,有不同类型的角色。因此,这个问题没有直接的答案。

其他评论为数据科学家目前所做的工作提供了一个很好的视角。 简而言之,有大量的任务完全取决于您拥有的项目类型和团队规模。 还有一些善意的讽刺 - 我总是很喜欢!


◆◆
End Notes
◆◆


鉴于我们所涉及的主题范围很广,我喜欢整合这个月的版本。 在计算机视觉技术达到上限的地方(相对而言),NLP继续突破路障。 OpenAI的Sparse Transformer似乎是一个很好的NLP项目,可以尝试下一步。

你对这个月的收藏有什么看法? 我错过了任何数据科学图书馆或讨论? 在下面的评论部分打我,让我们讨论!


往期精彩回顾

大数据解决方案:挖掘大数据价值,让选择更有依据

波音737事故反思:该让数据“接管”生命控制权吗?

Gartner 2019年十大数据和分析技术趋势

Mobdata:2019大数据行业研究报告

央视315曝光大数据黑市:40亿骚扰电话 6亿用户隐私泄露

这可能是AI、机器学习和大数据领域覆盖最全的速查表

把14亿中国人都拉到一个微信群在技术上能实现吗?

学习机器学习和数据科学必看的十个资源

斯坦福2018 人工智能指数(AI Index)报告出炉



网络大数据

 (ID:raincent_com

网络大数据 www.raincent.com

致力于打造中国最专业的网络大数据科学门户网站。


识别二维码,关注网络大数据


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/32782
 
441 次点击