2018年12月05日阅读 103

[译] 鲜为人知的数据科学 Python 库

原文地址：Lesser Known Python Libraries for Data Science

原文作者：Parul Pandey

译文出自：掘金翻译计划

本文永久链接：github.com/xitu/gold-m…

译者：haiyang-tju

校对者：TrWestdoor

PC：Hitesh Choudhary 来自于 Unsplash

Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户（初学者和高级用户）的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合，这些库使它可以保持活力和高效。

在本文中，我们会研究一些用于数据科学任务的 Python 库，而不是常见的比如 panda、scikit-learn 和 matplotlib 等的库。尽管像 panda 和 scikit-learn 这样的库，是在机器学习任务中经常出现的，但是了解这个领域中的其它 Python 产品总是很有好处的。

Wget

从网络上提取数据是数据科学家的重要任务之一。Wget 是一个免费的实用程序，可以用于从网络上下载非交互式的文件。它支持 HTTP、HTTPS 和 FTP 协议，以及通过 HTTP 的代理进行文件检索。由于它是非交互式的，即使用户没有登录，它也可以在后台工作。所以下次当你想要下载一个网站或者一个页面上的所有图片时，wget 可以帮助你。

安装：

$ pip install wget
复制代码

例子：

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'
复制代码

Pendulum

对于那些在 python 中处理日期时间时会感到沮丧的人来说，Pendulum 很适合你。它是一个简化日期时间操作的 Python 包。它是 Python 原生类的简易替代。请参阅文档深入学习。

安装：

$ pip install pendulum
复制代码

例子：

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3
复制代码

结果展示也是数据科学中的一个重要方面。能够将结果进行可视化将具有很大优势。IPyvolume 是一个可以在 Jupyter notebook 中可视化三维体和图形（例如三维散点图等）的 Python 库，并且只需要少量配置。但它目前还是 1.0 之前的版本阶段。用一个比较恰当的比喻来解释就是：IPyvolume 的 volshow 对于三维数组就像 matplotlib 的 imshow 对于二维数组一样好用。可以在这里获取更多。

使用 pip
$ pip install ipyvolume

使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
复制代码

例子

动画

体绘制

Dash

Dash 是一个高效的用于构建 web 应用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基础上设计而成的，绑定了很多比如下拉框、滑动条和图表的现代 UI 元素，你可以直接使用 Python 代码来写相关分析，而无需再使用 javascript。Dash 非常适合构建数据可视化应用程序。然后，这些应用程序可以在 web 浏览器中呈现。用户指南可以在这里获取。

安装

pip install dash==0.29.0  # 核心 dash 后端
pip install dash-html-components==0.13.2  # HTML 组件
pip install dash-core-components==0.36.0  # 增强组件
pip install dash-table==3.1.3  # 交互式 DataTable 组件（最新！）
复制代码

例子

下面的例子展示了一个具有下拉功能的高度交互式图表。当用户在下拉菜单中选择一个值时，应用程序代码将动态地将数据从 Google Finance 导出到 panda DataFrame。源码在这里

Gym

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库，如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具，这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口，允许你进行通用算法的编写。

安装

pip install gym
复制代码

例子

这个例子会运行 CartPole-v0 环境中的一个实例，它的时间步数为 1000，每一步都会渲染整个场景。

你可以在这里获取其它环境的相关资料。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的，不是常见的如 numpy 和 pandas 等库。如果你知道其它库，可以添加到列表中来，请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

如果发现译文存在错误或其他需要改进的地方，欢迎到掘金翻译计划对译文进行修改并 PR，也可获得相应奖励积分。文章开头的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。

掘金翻译计划是一个翻译优质互联网技术文章的社区，文章来源为掘金上的英文分享文章。内容覆盖 Android、iOS 、前端、后端、区块链、产品、设计、人工智能等领域，想要查看更多优质译文请持续关注掘金翻译计划、官方微博、知乎专栏。

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/uRbGL2ILU4

[译] 鲜为人知的数据科学 Python 库

[译] 鲜为人知的数据科学 Python 库

Wget

安装：

例子：

Pendulum

安装：

例子：

imbalanced-learn

安装：

例子：

FlashText

安装：

例子：

Fuzzywuzzy

安装：

例子：

PyFlux

安装

例子

Ipyvolume

例子

Dash

安装

例子

Gym

安装

总结