社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

【Python】机器学习自动化数据分析库-dataprep

机器学习初学者 • 2 年前 • 399 次点击  

公众号:尤而小屋
作者:Peter
编辑:Peter

dataprep是一个开源的Python第三方库,有助于数据科学者、数据挖掘/分析师等自动化进行数据探索,能够快速地创建数据分析报告,还能够绘制整体图形、缺失值和相关系数等图形。

在本文中小编给大家详细介绍dataprep库的使用。

官网地址:https://dataprep.ai/

GitHub地址:https://github.com/sfu-db/dataprep

安装

在使用之前,先进行安装:建议使用豆瓣源安装,快速!

pip install -i https://pypi.douban.com/simple/ dataprep

导入库

先导入我们需要使用的库:

from dataprep.datasets import load_dataset  # 内置数据集
from dataprep.eda import plot # 绘图
from dataprep.eda import plot_correlation # 相关性
from dataprep.eda import create_report  # 分析报告
from dataprep.eda import plot_missing  # 缺失值

导入数据

提供两种数据导入方式:

  • 内置数据集(如果有)
  • 本地数据集
# 导入内置数据
df = load_dataset("titanic")  
# 导入本地数据
# df = pd.read_csv("titanic.csv")

df.head()

查看数据的基本信息:

In [3]:

df.shape

Out[3]:

(891, 12)

In [4]:

df.isnull().sum()

Out[4]:

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [5]:

df.dtypes

Out[5]:

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

使用dataprep自动化探索

整体数据分析

In [6]:

plot(df)

指定单个字段分析

In [7]:

plot(df, "Age")

直接指定Age字段:

指定多个字段分析

In [8]:




    
plot(df, "Age","Embarked")

查看两个字段之间的分析:

相关系数

In [9]:

plot_correlation(df)  # 相关系数

查看字段的3种相关系数:Stats

缺失值

In [10]:

plot_missing(df)  # 缺失值情况

查看数据的缺失值信息:

主要分柱状图、谱图、热力图、层次图来显示

分析报告

In [11]:

create_report(df).show()  # 报告

返回数据的整体分析报告(整个图):

往期精彩回顾




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/153395
 
399 次点击