社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【机器学习】推荐一个好用的开源automl工具

机器学习初学者 • 3 年前 • 369 次点击  

AutoX

AutoX是第四范式开源的针对表数据的自动机器学习工具。

主要功能包括两点: 

一、提供全流程的自动机器学习pipeline;

二、用户可以把它的某一个某功能单独拿出来,作为生产力工具,完成机器学习中的某一个环节,例如,自动特征筛选、自动调参等。

项目地址

Github地址:

https://github.com/4paradigm/autox

效果对比


选取的数据包含分类/回归/时间序列预测、单表/多表,AutoX在大多数的数据上,效果都由于其他产品。


不同任务下的效果对比:

AutoX技术方案


AutoX的整体技术方案包含了机器学习的全流程,我们在每一个流程都做了打磨和优化。废话不多说,直接上图。

数据预处理

数据预处理模块包含了异常值处理,缺失值填充,自动类型推断,内存优化。

自动拼表

表关系的识别和自动拼表,这一步让autox具有了处理多表数据的能力。

特征工程

特征工程这一块也是我们效果优于其他产品的关键点。

特征构造方面,主要是通过对比赛、行业数据的top方案的总结和抽象,设计出一系列关键特征。

特征选择方面,包括两块,一个是常规的特征选择模型,另一方面是通过mate特征的方式来实现特征的抽象聚合。

模型选择

模型选择采用了主流的树模型和nn模型。

模型调参

基于贝叶斯的调参,也使用了目前较优秀的第三方库optuna。

模型融合

包含bagging和stacking策略。

模型可解释方法

autox也实现了一些优秀的模型可解释方法。包括全局代理模型、局部代理模型、影响力样本、代表性样本和非代表性样本。




    
往期精彩回顾




站qq群955171419,加入微信群请扫码:
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/125215
 
369 次点击