社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python-Pandas包: 21个常用操作可视化

EasyShu • 5 年前 • 629 次点击  



Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。


下面对pandas常用的功能进行一个可视化的介绍,希望能让大家更容易理解和学习pandas。


1、Series序列

系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。



2、从ndarray创建一个系列

如果数据是ndarray,则传递的索引必须具有相同的长度。如果没有传递索引值,那么默认的索引将是范围(n),其中n是数组长度,即[0,1,2,3…. range(len(array))-1] - 1]。


3、从字典创建一个系列

字典(dict)可以作为输入传递,如果没有指定索引,则按排序顺序取得字典键以构造索引。如果传递了索引,索引中与标签对应的数据中的值将被拉出。


4、序列数据的访问

通过各种方式访问Series数据,系列中的数据可以使用类似于访问numpy中的ndarray中的数据来访问。


5、序列的聚合统计

Series有很多的聚会函数,可以方便的统计最大值、求和、平均值等



6、DataFrame(数据帧)

DataFrame是带有标签的二维数据结构,列的类型可能不同。你可以把它想象成一个电子表格或SQL表,或者 Series 对象的字典。它一般是最常用的pandas对象。




7、从列表创建DataFrame

从列表中很方便的创建一个DataFrame,默认行列索引从0开始。



8、从字典创建DataFrame

从字典创建DataFrame,自动按照字典进行列索引,行索引从0开始。


9、列选择

在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下整理常用的列选择。



10、行选择

整理多种行选择的方法,总有一种适合你的。






11、返回指定行列

pandas的DataFrame非常方便的提取数据框内的数据。



12、条件查询

对各类数值型、文本型,单条件和多条件进行行选择




13、聚合

可以按行、列进行聚合,也可以用pandas内置的describe对数据进行操作简单而又全面的数据聚合分析。




14、聚合函数

data.function(axis=0) 按列计算

data.function(axis=1) 按行计算



15、分类汇总

可以按照指定的多列进行指定的多个运算进行汇总。



16、透视表

透视表是pandas的一个强大的操作,大量的参数完全能满足你个性化的需求。



17、处理缺失值

pandas对缺失值有多种处理办法,满足各类需求。



18、查找替换

pandas提供简单的查找替换功能,如果要复杂的查找替换,可以使用map(), apply()和applymap() 



19、数据合并

两个DataFrame的合并,pandas会自动按照索引对齐,可以指定两个DataFrame的对齐方式,如内连接外连接等,也可以指定对齐的索引列。



20、更改列名(columns index)

更改列名我认为pandas并不是很方便,但我也没有想到一个好的方案。


21、apply函数

这是pandas的一个强大的函数,可以针对每一个记录进行单值运算而不需要像其他语言一样循环处理。



《Python数据可视化之美》


本书主要介绍如何使用python中的matplotlib、seaborn、plotnine、geoplot等包绘制专业图表。本书先介绍了python语言编程基础知识,以及使用numpy和pandas两个包的数据操作方法;再对比了matplotlib、seaborn和plotnine三个包的图形语法。本书系统性地介绍了使用matplotlib、seaborn和plotnine绘制类别对比型、数据关系型、时间序列型、整体局部型、地理空间型等常见的二维和三维图表的绘制方法。另外,本书也介绍了商业图表与学术图表的规范与差异,以及如何使用matplotlib包绘制HTML交互页面动画。本书三月即将上市,敬请期待!






如需联系EasyShu团队

请加微信:EasyCharts

微信公众号【EasyShu】博文代码集合地址

https://github.com/Easy-Shu/EasyShu-WeChat


《R语言数据可视化之美》增强版



增强版配套源代码下载地址

Github

https://github.com/Easy-Shu/Beautiful-Visualization-with-R

百度云下载

https://pan.baidu.com/s/1ZBKQCXW9TDnpM_GKRolZ0w 

提取码:jpou

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/56214
 
629 次点击