Py学习  »  机器学习算法

AWS机器学习之实验性数据分析:特征工程

健谈始于戊戌年 • 2 年前 • 234 次点击  


1.特征工程(Featureengineering)

 

在结束数据清洗以后,我们的工作并没有结束。这时,数据中的特征(列)依旧是原始数据。要想进行预测,还需要在原有特征的基础上,创建新特征。新特征可以帮助我们实现增强模型预测能力的目标。这个过程叫做特征工程。

 

本文将介绍集中特征工程的方法,特别是一些在数据科学和机器学习中常用的方法。特征工程可以增强模型的预测能力。

 

由于数据维度太多, 而且有大量的特征可供选择,这就导致了特征工程的产生。为了减少特征的数量,我们需要部署一系列降维技术。其中比较常用的方法包括主成分分析(Principal Component Analysis,简称PCA),以及t分布随机临近嵌入(t-distributed stochastic neighbor embedding,简称t-SNE)。

 

对于数值型特征,我们可以做一些变换。例如,我们可以对数值型特征进行多项式变换,也就是增加平方x2或者立方项x3。然后在数据中新增这些特征。或者还可以把几个特征相乘(x1*x2),得到新的特征。

 

另外一个需要特征工程的原因是数据的格式。在开始机器学习算法之前,经常需要将类别型变量转换为数值型变量。具体采用什么样的方法,可以根据类别型变量是有序还是无序而定。这个我们在后面会通过案例详细介绍。

 

2.特征工程案例

 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/120537
 
234 次点击