社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

充电计划 | 机器学习与AI技术提能增效应用

InfoQPro • 2 年前 • 236 次点击  


【充电计划】是什么?
JUST DO IT


充电计划是由 InfoQ Pro 推出的每周技术 PPT 资料分享帖,旨在挖掘和分享值得关注的技术最佳实践和成功案例,帮助技术人跨越技术鸿沟。每周我们都会在推文中附上 PPT 摘要与受益点,并提供下载链接,希望大家能从资料中有所收获,有所提升。

专题演讲一

专题演讲嘉宾:彭嘉

小米NLU 质量平台负责人

10 年以上工作经验,在用友、去哪儿网、TalkingData 和小米工作,先后做过开发和产品。目前在小米集团人工智能部负责自然语言理解质量平台。

演讲:NLP 应用中数据治理遇到的困难及解决方案

人工智能的发展,需要依靠算法 + 数据 + 算力的相互协作。任何人工智能应用开发的过程中,针对数据永远会遇到,算法指标好,真的可以上线么,多次评测指标波动怎么解释?那么指标波动涉及哪些影响因素,我们怎么降低负面影响。

例如:一、如何看待指标波动,测试集多大规模合适——测试集是不是要和庞大的训练集一样,1~3 天才能看到运行结果?二、需要区别的标签太多,如何获得高质量的评测集——低质量的训练 / 评测集,可能会因为数据滥用导致模型偏见永久化。三、上线前需要设计哪些环节,才能保障线上体验。

演讲提纲:

  1. 常见问题:评测算法指标过高的问题;多次评测指标波动怎么办;

  2. 影响指标波动的因素及小爱的处理方法:

  • 影响因素简介:

    • 评测集的代表性;

    • 分类标签是否边界清晰好标注;

    • 标注同学的素质;

    • 评测环境稳定性;

    • 图谱数据的准确性和更新频率

  • 保障评测集代表性的方案,数据集规模量级和指标波动阈值的关系,并给出公式推导

  • 小爱语义有 2K 多个语义标签,如何保障这些分类标签正交化,有边界冲突后怎么处理

  • 小爱有 2W 多个槽位标签,如何保障知识图谱结果和用户认知一致

  • 基于 DNN NER 模型的槽位辅助工具的创新应用

  1. 小爱模型上线经历的质量验证流程和使用的数据集简介

你将获得:

  • 了解指标波动的深层次原因,获得宏观解决方案的科学性证明过程(公式推导)和业务经验值

  • 小爱上线前的质量保障流程的交流借鉴

  • NLP 标注标签正交化(多个标签语义不冲突)的相关经验

专题演讲二

专题演讲嘉宾:伍斌杰

京东物流算法架构师

曾在亚马逊负责供应链仿真系统的架构设计和优化。从 0~1 搭建唯品销量预测系统,支撑十亿级别 SKU 每天的销量预测。目前担任京东物流预测算法平台架构师,负责京东物流预测算法平台的设计和优化。

演讲:组件化预测系统在供应链行业的实践

预测系统是供应链系统的源头核心系统,使用了大量最新的 AI 技术,包括时序模型,机器学习模型,LSTM,DeepAR,GANN 等深度学习模型。但是供应链系统覆盖大量的传统行业,不同企业的数据特征和业务非常复杂。AI 技术模型落地遇到实施时间长,见效慢的问题。

京慧易卜采用组件化的方式设计预测系统,将大量成熟的算法和必需的业务封装为组件,并提供了灵活、可视化的配置工具,帮助算法工程师、产品经理和企业资深业务人员,快速对接企业的数据,测试、实施和部署最新的 AI 模型,使得 AI 模型在很短的时间内就提升了企业供应链的效率。

演讲提纲:

  1. 组件化预测系统如何解决预测算法落地遇到的问题

  2. 京慧易卜组件化预测算法平台架构

  • 京慧易卜的组件规约和组件库

  • 京慧易卜的配置模板和配置工具

  • 京慧易卜的执行器

  1. 多种 AI 模型在预测系统中落地的案例

  • AI 预测系统落地快消品行业

  • AI 预测系统落地汽后备件行业

你将获得:

  • 如何设计组件化的算法应用系统

  • 如何在传统行业快速落地最新的 AI 算法

专题演讲三

专题演讲嘉宾程孟力

阿里云计算平台 PAI/ 算法专家阿里云 OCR 产品算法负责人,阿里云深度学习推荐算法 EasyRec 负责人。

演讲阿里云上深度学习建模实践

深度学习在多个领域,图像、语音、NLP、推荐等都带来了巨大的效果提升。但是如何快速的运用深度学习解决业务问题,还存在比较的问题。大家都面临的问题是成本高,风险大,落地困难,其原因在于: 难以标准化, 没有一个通用的模型能够解决所有的问题;可迁移性差,不同场景的建模方法存在比较大的差异;调参困难,参数的设置对于最终的效果影响很大,但是参数非常多,调参需要对模型有比较深入的理解;训练和部署困难,需要的资源多,成本高;数据缺乏,尤其缺乏标注好的数据,标注成本比较高。

阿里云 PAI 在解决以上问题做出了一些努力,帮助集团内的算法人员和云上的算法人员来降本增效。

演讲提纲:

  1. 标准化模板建立:

  • OCR 识别,语音识别 ASR,推荐算法,多模态算法

  • EasyVision / EasyTransfer / EasyRec

  1. 超参搜索 / 网络搜索:特征组合方式 (Fives)

  2. 针对训练和部署困难的解决办法:

  • Tensor 稀疏通信

  • 混合精度训练和 int8 推理

  • 模型剪枝

  • 大规模 Embedding

  • 离线在线特征一致性 (特别是实时特征)

  • 自动图优化

  1. 新建模方式探索:

  • 迁移学习

  • 半监督学习 /active learning

  • 小样本学习

你将获得:

  1. 利用 PAI 平台快速解决业务问题,包括视觉、推荐等 ;

  2. 跟进最新的深度学习算法进展。

专题演讲四

专题演讲嘉宾:王强强

作业帮语音技术团队负责人

在加入作业帮之前,曾任职于清华大学电子工程系语音处理与机器智能实验室,负责语音识别算法落地,搭建工业级解决方案。2018 年加入作业帮,负责语音相关算法研究和落地,主导了语音识别、评测、合成等算法在作业帮的落地实践,为公司提供整套语音技术解决方案。

演讲作业帮语音技术实践

近年来,随着 AI 算法、计算能力、大数据技术的发展,智能语音技术取得了突飞猛进的发展,从实验室走向工业界。作业帮独特的场景和海量的数据为语音技术提供了舞台:通过智能语音外呼代替部分场景的人工外呼,能够大大降低人力成本,让大家把精力投入到更有意义的事情上。通过语音评测技术,能够随时向同学反馈发音的好坏,练习口语。通过语音合成技术,能够完成自有 IP 跟用户的触达,为用户提供更好的体验。

本次分享将带来智能语音技术在作业帮的落地经验,通过语音合成、语音评测、发音纠错、语音识别每个方向一到两个实际案例, 让大家了解作业帮落地语音技术的具体实践。最后通过总结,为大家带来作业帮语音能力全景,以及对算法工程师这一岗位的理解, 希望能够给大家带来启发。

演讲提纲:

  1. 语音合成:小数据量语音合成落地实践

  2. 语音评测:流式 conformer 、端云一体语音评测

  3. 发音纠错:端到端发音纠错系统

  4. 语音识别:高效利用数据的端到端语音识别、基于前缀自动机的热词技术

  5. 总结:作业帮语音技术全景

你将获得:

了解语音技术在作业帮的落地经验, 通过实际案例近距离了解算法工程师的工作。

PPT 下载方式

JUST DO IT


点击【阅读原文】即可获取下载链接呦~
文件密码为:q3ne

更多精彩内容请关注 InfoQ Pro

点个在看,快乐加倍👇

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/146745
 
236 次点击