0.052秒打开100GB数据！这个Python开源库牛X了

开源最前线（ID：OpenSourceTop）猿妹整编
链接：https://towardsdatascience.com/vaex-out-of-core-dataframes-for-python-and-fast-visualization-12c102db044a

当今的数据集越来越大，台式机的内存甚至都装不下，更不用说你的笔记本电脑了，尽管如此，在大数据时代，我们总是避免不了要使用大数据集，于是Vaex诞生了。

什么是Vaex？

Vaex是一个高性能Python库，可以可视化和探索大型表格数据集，它可以在 N 维网格上计算每秒超过十亿（10^9）个对象 / 行的统计信息，例如均值、总和、计数、标准差等, 磁盘上大小超过100GB的数据，用Vaex只需要0.052秒就可以打开。

使用直方图、密度图和三维体绘制完成可视化，从而可以交互式探索大数据。Vaex 使用内存映射、零内存复制策略获得最佳性能（不浪费内存）。

Vaex具有以下功能特性：

基于Python数据科学站（例如Panda、Scikit-Learn、arrow、xgboost、lightgbm），标准API易于采用。为Jupyter环境量身定制。
电脑运算，结合了内存映射，复杂的表达系统和快速核外算法。有效地可视化和探索大型数据集，并在一台机器上构建机器学习模型。
基准测试，每秒可视化10亿个样本。与标准实现相比，PCA转换速度提高了10倍，可在2分钟内处理10亿个样本。完全超出核心。

高效

Vaex不仅仅是Panda的替代品。尽管在执行诸如的表达式时，它具有类似于panda的API用于列访问np.sqrt(ds.x**2 + ds.y**2)，但不会进行任何计算。而是创建一个vaex表达式对象，并在打印输出时显示一些预览值。