Python数据预处理

在拿到一份数据准备做挖掘建模之前，首先需要进行初步的数据探索性分析，对数据探索性分析之后要先进行一系列的数据预处理步骤。

因为拿到的原始数据存在不完整、不一致、有异常的数据，而这些“错误”数据会严重影响到数据挖掘建模的执行效率甚至导致挖掘结果出现偏差，因此首先要数据清洗。

数据清洗完成之后接着进行或者同时进行数据集成、转换、归一化等一系列处理，该过程就是数据预处理。一方面是提高数据的质量，另一方面可以让数据更好的适应特定的挖掘模型，在实际工作中该部分的内容可能会占整个工作的70%甚至更多。

缺失值处理

由于人员录入数据过程中或者存储器损坏等原因，缺失值在一份数据中或多或少存在，所以首先就需要对缺失值进行处理，缺失值处理总的原则是：使用最可能的值代替缺失值，使缺失值与其他数值之间的关系保持最大。具体的常用方法如下：

Python缺失值处理实例代码：

异常值处理

异常值是数据集中偏离大部分数据的数据。从数据值上表现为：数据集中与平均值的偏差超过两倍标准差的数据，其中与平均值的偏差超过三倍标准差的数据（3σ原则），称为高度异常的异常值。

异常值分析方法

常用处理方法如下：

Python异常值处理实例代码：

2. 当不符合正态分布时可用箱型图分析处理，核心结果代码如下：

数据标准化处理

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权，最典型的就是数据归一化处理就是将数据统一映射到[0,1]区间上。

常用数据标准化方法：

归一化的目的：

在大佬Ng的视频课中听过一句话，归一化会加快梯度下降的求解速度。

应用场景说明：

SVM、线性回归之类的最优化问题需要归一化，是否归一化主要在于是否关心变量取值；
神经网络需要标准化处理，一般变量的取值在-1到1之间，这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些，因为tanh双曲正切函数的取值[-1,1]之间，均值为0；
在K近邻算法中，如果不对解释变量进行标准化，那么具有小数量级的解释变量的影响就会微乎其微。

注意：没有一种数据标准化的方法，放在每一个问题，放在每一个模型，都能提高算法精度和加快算法的收敛速度。所以对于不同的问题可能会有不同的归一化方法。在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，Z-score standardization表现更好。

数据连续属性离散化

一些数据挖掘算法，特别是分类算法，要求数据是分类属性形式。常常需要将连续属性变换成分类属性，即连续属性离散化。常用的离散化方法：

总结

本文来源于公众号：“数据分析成长手册” 。笔者在学习数据分析过程中记录下来的一些通用的数据预处理步骤，并且用Numpy、Pandas、Matplotlib等实现了每一种处理方法并可视化了处理结果。

Python资源推荐（公众号后台回复：1024 获取资源）

推荐阅读

免费赠送10套最新的编程视频

点赞变好看，记得点个好看

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/1oAS1RzUNg