Py学习  »  Git

阿里开源通用算法平台Alink,强势上榜Github Trending

开源最前线 • 4 年前 • 795 次点击  

来自:阿里技术(ID:ali_tech)


 近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的“核心代码”,并上传了一系列算法库。


Alink 是阿里巴巴计算平台事业部PAI团队从 2017 年开始基于实时计算引擎 Flink 研发的新一代机器学习算法平台,提供丰富的算法组件库和便捷的操作框架,开发者可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发全流程。


Alink 已被广泛运用在阿里巴巴搜索、推荐、广告等多个核心实时在线业务中。在刚刚落幕的天猫双 11 中,单日数据处理量达到 970PB,每秒处理峰值数据高达 25 亿条。Alink 成功经受住了超大规模实时数据训练的检验,并帮助提升 4% CTR(商品点击转化率)。



Alink的功能特性


Alink拥有丰富的批式算法和流式算法,不仅实现了丰富高效的算法,还提供了方便的python使用接口,帮助数据分析和应用开发人员能够从数据处理、特征工程、模型训练、预测, 端到端地完成整个流程。


如下图所示,Alink提供的开源算法模块中,每一个模块都包含流式和批式算法。比如线性回归,包含批式线性回归训练,流式线性回归预测和批式线性回归预测。




为了提供更好的交互式和可视化体验,阿里还提供了PyAlink on notebook,用户可以通过PyAlink的python包使用Alink。支持单机运行,也支持集群提交。并且打通Operator(Alink算子)和DataFrame的接口,从而使得Alink整个算法流程无缝融入python。PyAlink也提供使用Python函数来调用UDF或者UDTF。


PyAlink在notebook中使用如下图,展示了一个模型训练预测,并打印出预测结果的过程:



PyAlink 的下载安装


PyAlink提供了下载安装包,需要Python 3.5及以上版本。


详细的下载安装说明,请访问:
https://github.com/alibaba/Alink#%E5%BF%AB%E9%80%9F%E5%BC%80%E5%A7%8B--pyalink-%E4%BD%BF%E7%94%A8%E4%BB%8B%E7%BB%8D


PyAlink的使用


我们在github上放了5个示例,为ipynb格式,大家可以直接运行体验。

PyAlink示例地址:https://github.com/alibaba/Alink/tree/master/pyalink



目前,Alink在Github Trending周榜上排行第三,已经标星1.4K,fork 271个(Github地址:https://github.com/alibaba/Alink


●编号858,输入编号直达本文

●输入m获取到文章目录


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/51406
 
795 次点击