
第一届“英特尔创新大师杯”深度学习挑战赛已在阿里云天池平台如火如荼的进行中。本次大赛由英特尔主办,阿里云计算平台机器学习 PAI 联合达摩院以及中文信息协会等组织机构联合承办,共有近 7500 支队伍报名参赛,并取得了优异的成绩。
阿里云天池平台是业界领先的科技众智平台,旨在打造“数据众智、众创”的第一平台,此次举办的“英特尔创新大师杯”深度学习挑战赛则是聚焦在当下火热的计算机视觉 OCR 领域以及自然语言处理 NLP 领域的经典技术方向,希望通过比赛引导开发者们找到更创新优化的技术解决方案,促进 AI 行业开发者们的技术交流。本次比赛的参赛选手中不仅有来自国内外各个企业的代表,也有很多来自国内知名高校的年轻选手,包括:北京大学,复旦大学,浙江大学,华北电力大学,重庆理工大学,中国海洋大学,北京科技大学,北京交通大学,华中科技大学,西安电子科技大学,四川大学等等。
在现实场景中文字是人们生活中必不可少的部分,我们每天都在生活和工作中处理不可计数的文字信息,例如:书本中的文字,海报中的文字,票据中的文字等等。本次比赛 OCR 赛道的任务旨在解决这类光学文字的提取问题:如何将现实场景中出现的文字信息,更准确的转化为电子设备可以处理的文本信息,以满足人们在不同行业应用中的需求。
此外,地址也是日常生活中一种重要且常用的文本信息,像是汽车导航、电商购物、快递配送、人口普查、水电气开户等都需要我们用到地址信息。常见的地址可能会包含行政区划信息,如省、市、县、乡镇的信息;也有可能会包含路网信息,如路名,路号,道路设施等; 智能地址要素解析可以将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。而智能地址文本相关性服务更可以帮助人类根据不同形式的地址表述来快速搜索定位到准确的地址。
本次“英特尔创新大师杯”深度学习挑战赛正是由“通用场景 OCR 文本识别任务”、“NLP 地址要素解析任务”和“NLP 地址相关性任务”三个赛道组成,参赛选手可以自由报名参加任何赛道,发挥自己的算法技术和创造力,探索中文语义 AI 技术在各类日常生活实用场景中的应用。
值得一提的是,本次参赛的开发者可以在阿里云天池实验室提供的交互式建模平台 PAI-DSW 上进行模型训练。PAI DSW(Data Science Workshop)由阿里云机器学习平台 PAI 于 2018 年针对算法开发人员推出的云端机器学习编程环境,在已有 PAI Studio 提供的组件化拖拉拽式模型训练服务的基础上,提供了更具灵活性和自主性的模型开发和训练。PAI DSW 在集成 JupyterLab 的基础上,内置了丰富的数据开发和机器学习算法库,并为天池参赛选手提供了多种免费的计算资源,包括当下主流的 CPU 和 GPU。
事实上,“英特尔创新大师杯”深度学习挑战赛只是 PAI 和 Intel 合作的一个缩影。PAI 和英特尔合作贯穿了从硬件至驱动再到软件,第七代高主频实例包括了英特尔至强处理器,为机器学习平台提供了非常大的优化空间,例如在互联网行业,不管是在内容推荐、广告推荐、商品推荐这些领域,把内容信息转换成特征信息,需要使用非常多的自然语言处理技术,英特尔产品 DL boost 能够大幅提升 NLP 的效率,推升我们在公共云客户以及专有云客户使用平台的性价比。CPU 硬件上集成了 BF16 加速指令能够大幅度提升 PAI 训练平台加速的效率,同时 AVX-512 指令集提供通用的底层算子。软件搭配英特尔® oneAPI 深度神经网络库(oneDNN)非常容易集成,降低优化和使用门槛。
PAI 和英特尔在 AI 领域的合作,可以说是一次成功的强强合作。英特尔对于自己硬件性能的理解以及我们对于在模型上面对训练对场景的理解,形成一个更好的联动,把 AI 自动化能够做起来,我们的用户更加随心所欲地进行模型的变化。双方合作具备领先性,能够推动业界标准的提高,在 benchmark(全球 AI 性能榜单)上进一步去发布结果,推动整个 CPU 平台工作的演进。
从英特尔和阿里云 PAI 的合作也可以窥探出整个 AI 技术的发展趋势在向智能化、自动化以及工程化发展。Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。
针对 AI 工程化落地的实践经验,阿里云认为模型超大规模化是非常重要的一个基础能力。2021 年初,阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。PAI 团队自研 Whale 分布式训练框架,在计算效率、通信效率、显存消耗等多个方面进行了深度优化,从而帮助 M6 模型快速迭代训练。
基于机器学习平台 PAI,阿里云希望构建大规模 AI 端到端的能力,从底层芯片到分布式系统,再到上层算法和数据的规模化,打造 AI 工程化集团作战的能力,服务于各行各业。