Py学习  »  Python

Python 进阶视频课 - 4. Pandas 下

王的机器 • 3 年前 • 260 次点击  

这是 Python 进阶课的第四节 - Pandas ,进阶课的目录如下:


  1. NumPy 上

  2. NumPy 下

  3. Pandas 上


之前基础版的 11 节的目录如下:


  1. 编程概览

  2. 元素型数据

  3. 容器型数据

  4. 流程控制:条件-循环-异常处理

  5. 函数上:低阶函数

  6. 函数下:高阶函数

  7. 类和对象:封装-继承-多态-组合

  8. 字符串专场:格式化和正则化

  9. 解析表达式:简约也简单

  10. 生成器和迭代器:简约不简单

  11. 装饰器:高端不简单


本次课程主要从数据分析、数据可视和数据处理来玩转 Pandas:


数据分析


Pandas 被公认为数据分析 (data analysis) 的神器,从四方面来讲解:

 

  • 单维整体分析:对每个特征下的值做整合求指标

  • 多维分组分析:先在一个或多个特征下分组,再对每组中其他特征下的值做整合求指标

  • 多维透视分析:透视表将源表的若干列分组作为终表的“支点”,然后在新行和新列的维度上做整合。

  • 多维交叉分析:交叉表是透视表的特例,其默认的整合函数是计算个数或频率。


两张图就把透视表 (pivot_table) 和交叉表 (crosstab) 讲的清清楚楚。






数据可视


数据可视 (data visualization) 是本次课程第二部分的内容,提到画图那么一定会提到 matplotlib 和 seaborn 这两个最常用的工具包。但在 Pandas 直接使用 


  • Series.plot()

  • DataFrame.plot()


可以快速可视化数据。注意,画出来的图不会很好看而且含信息量也不全,但能快速的展示出数据的核心关系。如要继续个性化图表,那么才使用 matplotlib, seaborn 甚至 bokeh, plotly, pyecharts 和 altair 等。



数据处理


最后一部分内容是数据处理 (data munging),前面所有的数据都是经过处理过而变得“干净”,但在实际工作做数据一开始都是“杂乱”的,因此第一步都是要做处理,主要可以归纳成两大方面:

 

  • 数据清洗 (data cleansing):缺失值、离群值

  • 数据转换 (data transforming):编码、分组




付费用户(付 1 赠 1)可以获得:


  • 观看课程视频 (98 分钟)

  • Python 代码 (Jupyter Notebook)




Jupyter Notebook

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/99380
 
260 次点击