社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

数据科学家带你用使用NumPy和Pandas进行Python式数据清理!

Python学习交流 • 6 年前 • 592 次点击  

>>> import pandas as pd>>> import numpy as np

例如,在上一节使用的数据集中,可以想象到,图书管理员如果需要搜索记录,他也许输入的是书籍的唯一标识符( Identifier 列):

>>> df['Identifier'].is_uniqueTrue

让我们用 set_index 来替换现有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列,如果将其转化为数字类型更有意义,所以我们可以进行如下计算:

很好!本节完成了!

我们将用这两个函数来清理 Place of Publication 一列,因为此列包含字符串。以下是该列的内容:

我们发现某些行中,出版地被其他不必要的信息包围着。如果观察更多值,我们会发现只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才会出现这种情况。

我们来看看两条特定的数据:

与 np.where 结合:

管我们可以使用 for 循环来清理上面的字符串,但是使用 Pandas 会更加方便。我们只需要州名和城镇名字,其他都可以删除。虽然这里也可以再次使用 .str() 方法,但我们也可以使用 applymap() 方法将一个 Python 可调用方法映射到 DataFrame 的每个元素上。

我们一直在使用 元素 这个术语,但实际上到底是指什么呢?看一下以下这个 DataFrame 例子:

然后,将它读入 Pandas 的 DataFrame 中:

Python 数据清理:回顾以及其他资源

在本教程中,你学习了如何使用 drop()函数删除不必要的信息,以及如何给你的数据集设置索引以便更加方便的引用其他的项。



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/5Px3AvepW3
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/10668
 
592 次点击