社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章

PaperWeekly • 2 年前 • 317 次点击  


高级人工智能:AIGC大模型与强化学习前沿技术实战
2023秋季班招生简章

Advanced Artificial Intelligence Seminar Program
 2023 Fall

01

课程内容升级

Program Upgrade

在AIGC与强化学习的革新中 从旁观者成为入局者
用4个月时间构建自己的多模态机器人
掌握AIGC与强化学习的原理与实践
硅谷专家 GPT开源贡献者
带你把握革新 突破瓶颈

以ChatGPT, Midjourney 为代表的的生成模型从2022年下半年开始为这个世界带来了巨大的震撼,目前众多公司也积极投身于此,新兴的AI产品如雨后春笋般出现。可是作为企业用人方,会发现掌握AIGC核心技术的人才寥寥无几,而我们作为求职者,希望加入这次技术浪潮却也不知道如何入门。这门课程,硅谷AI算法研究员、ChatGPT相关开源版作者带你手把手掌握这些核心知识,不论是找工作,还是自己完成AI项目,都能有效地帮助你!
一、你现在是否面临以下问题?

  • 作为传统的技术工作者,算法工作者,看到最近的技术发展,希望能够加入此次技术革命,突破职业瓶颈;
  • 在AIGC的浪潮下, Transformer,  LLM, Diffusion,  LoRa,Prompt Enginering, GPT-3.5/4, PPO, HFRL, DALL-E, ViTransformer, WGAN, Pix2Pix 这些技术你是否感到迷茫?这门课程带你一次性从原理到实战掌握以上概念!
  • 试图学习强化学习,但是算法复杂,数学密度大,导致自己进步缓慢?
  • 想做自己的大模型,没有合适的机器,数据,找不到门路?这门课为你提供最先进的A100 (速度为V100的 150%,P100GPU的3500%)与项目完整流,让你动手实战,掌握内容!

二、本课程面向人员:
  • 面向希望学习AIGC核心算法与技术实现的算法、研发人员;

  • 面向希望掌握强化学习核心算法与技术实践的算法、研发人员;

  • 面向计算机系、软件工程系或者相关专业的大学老师与研究人员;

  • 面向掌握AI算法能力的研究生、高年级本科生。


三、你将获得什么?
  • 一次参与开源版ChatGPT的实践机会,一次参与订刊论文多智能体强化学习Github开源项目的机会。项目作者,论文作者亲自授课,不仅锻炼自己的能力,更能使得你在AI岗位求职中脱颖而出,为求职,申请学校补充过硬背景;
  • 一次完整的多模态算法训练机会,跟随硅谷AI算法研究员,获得从文本到图像的多模态AIGC生成综合锻炼;
  • 3-4次完整、前沿的AIGC项目实战
  • 最前沿的A100服务器使用机会,本课程学员将获得Nvidia最先进的A100 32核40G GPU服务器使用权限4个月;
  • 目前最先进的GPT-4 私人助理机器人一年使用权限

四、VERSION UPDATES: 比起夏季课程,我们增加了哪些内容? 
首先, 我们增加了两位重量级导师,一位就职于目前全球顶尖游戏公司主要负责AIGC与游戏智能。另一位是前Udacity深度学习导师.
第二季课程AIGC的图像和文本方向合计为18周,我们此次将该课程进行了进一步细化,增加了以下技术点:
1. 数字人技术
2. 基于企业自由知识库问答系统构建
3. Decision-Transformer, VoxPoser 基于大模型的机器人控制

4. Intelligent-Agents 基于大模型的多智能体(斯坦福人工智能小镇)

第三,其次我们为基础较为薄弱的同学,我们增加了18课时的《现代人工智能核心方法》直播课程课程,此基础课程同学无需支付额外学费
第四,由于我们不断地进行智能化升级,成本进一步降低,我们的课程价格比夏季下降了40%,进一步减轻大家的学习压力
第五,我们的智能助教从持钉钉平台目前扩展到了飞书,更加方便支持大家的日常工作与学习. 


02

导师

Instructors

我们的导师是5位长期并现在依然处于产业,研究一线,具备国际化事业的资深算法工程师. 并且配备了OpenAI最先进的GPT机器人作为我们的助教
赵老师:硅谷行业头部大厂计算机视觉AI算法研究员,毕业于美国佛罗里达大学计算机科学系。超过10年AI与深度学习,计算机视觉与图形学等领域经验。工作中对预训练模型,尤其是视觉深度学习模型(CNN / ViT 等)有深刻理解和实战经验。赵老师在工作之余帮助计算机视觉从业者提升从业能力,其课程深入浅出,高屋建瓴,在计算机视觉从业者中广受好评。
郭老师(Cassia Goth):中国头部互联网企业算法工程师,开源大语言模型(ChatGLM, CPM)贡献者,开源项目爱好者。从2013年起一直从事NLP相关工程及研究工作,具备丰富的产业实战经验。
高老师:前IBM人工智能与认知服务数据科学家,目前在美国加州从事AI研究。自2012年起进行对话机器人的研究工作。近十多来持续从事人工智能相关研究、企业落地。曾经作为技术负责人参与落地多个大中华区AI项目。

Henry Wilson:  曾在Tencent AI lab担任研究员,现在在全球顶尖的游戏公司进行LLM与AIGC相关的工作。在Tencent AI lab的工作中,他参与了智能机器人和混元大模型的研究,负责LLM算法的研发和实践应用,深入探究了LLM的相关技术,并且在对语言模型等AI技术的应用方面积累了专业的经验。

韩佳陆:浙江大学人工智能方向硕士,国内领先的无人驾驶汽车公司算法工程师。前Udacity深度学习导师

阿布智能助教:基于OpenAI最先进的GPT-4作为驱动,7 * 24小时回答学习过程中的任何问题。



03

课程详细安排

Detail Informations


本次课程正式开始时间为2023年10月21日,基础课程《现代人工智能核心方法》将于10.15日进行。在开课之前,按照课程组的指导,配置好相关的服务器,日程权限,课程权限,以及Github群组账号. 并且大家可以开始使用基于GPT-4的机器人,感受其能力

                                

方向选择班型选择

此次一共3个方向,每个方向为期4个月

方向一:AIGC-图像与视频方向:为期4个月,学习如何使用大模型,GAN,Diffusion等方法生成图像,视频.实现自己的ViT,GAN,Diffusion模型.

方向二:AIGC-文本多模态方向:为期4个月,学习文本模型的原理及应用实践,学习多模态的原理及实现方法. 参加ChatGML-Tuning开源项目. 
方向三:强化学习智能决策方向:为期4个月,学习强化学习的算法原理,最新进展及代码实现. 参与订刊强化学习开源项目.  

为了满足大家的不同需求,我们提供两种班型

1. 高级研讨班:课程售价 5800元或800美金:

  • 4 个月直播课程训练;

  • 参与开源ChatGLM功能开发,成为Github高星项目参与者;

  • 参与多智能体强化学习顶刊项目,获得独特的竞争优势;

  • 完成自己的Latent Diffusion Model文本生成模型

2. 综合实战班,课程售价:8800元或1200美金:

  • 包含“前沿实战班”所有权益

  • 提供30核CPU服务器,高速服务器地址位于弗吉尼亚或者加利福尼亚,Python相关安装包速度为阿里云或腾讯云的至少100倍(包安装速度平均300M每秒)

  • 实战强化:统一以市场最低价采购30核40G NVIDIA-A100 GPU先进服务器(A100GPU计算速度为V100的155%,为P100GPU的3500%),课程组Cover 65% 的GPU费用,学生只需自付35%

  • 注:本次提供的GPU使用时长为4个月

(京东A100-GPU价格实例)


-- 扫描上方二维码进入课程预报名入口 -- 
-- 填写后选择合适的时间与方式
与授课导师进行一对一课前咨询 -- 
每个方向前30名学员可以获得钉钉与飞书版本GPT-4机器人免费使用权限一年
该页面高峰期可能需要等待2-3秒加载 请耐心等待


04

详细课表

Detail Informations

5.1 AIGC-大模型与文本方向



文本方向重点培养学习者大语言模型(Large Language Model)的知识和技能。学习者将了解大预训练模型(LLM)的原理,包括模型的训练过程、预训练任务和自监督学习方法等。


授课老师:Cassia Goth(郭老师), Henry Wilson

开课时间:October 22, 2023

上课时间:每周日9:00 - 12:00 


第一周:大语言模型在自然语言处理中的应用  

  • Self-attention与multi-head多头Transformer的原理详解  

  • GPT模型的原理  GPT-2/3/3.5/4的演化和比较  

  • BERT, RoBERTa, T5, XLnet等模型的对比  

  • 目前其他主流语言模型的比较  

  • 如何根据业务选择最合适自己的语言模型


第二周:大预言模型的Fine-Tuning,Prompt Engineering

  • Fine-Tuning的原理,迁移学习的原理以及它与LLM的关系

  • Pre-Train预训练与Fine-Tuning的工作流

  • 如何解决数据集相关问题

  • Instruction Learning

  • Few-Short Leanring 与 Meta-Leanring,few-short leanring在LLM中应用

  • 使用Prompt来完成自定义任务,Prompt的设计与优化方法

  • Prompt-Tuning技术, Prompt-Tuning与传统Fine-Tunning技术的区别


第三周:基于人类反馈的强化学习训练(RLHF)

  • LoRa: Learning from Rules and Arguments. 基于规则定义的语言能力增强

  • 人机交互AI系统的工作流与框架(workflow与framework)

  • PPO算法在ChatGPT中的应用分析如何设计Reward ModelPPO算法在ChatGPT中的算法实践

  • Off-Policy训练与Importance Sampling

  • Imitation与Reverse Reinforcement Learning在RLHF中的应用


第四周:大语言模型的部署实践

  • 模型压缩与剪枝技术、知识蒸馏

  • ONNX + TensorRT

  • 模型部署的量化技术

  • GPTQ量化: Post-Trainng Quantization for Generative Pre-trained Transformers


第五周:基于开源模型的多模态实践

  • Visual-ChatGPT的原理

  • 如何准备自己的数据集

  • Finetune ChatGLM


第六周:开源版ChatGPT的待完成任务解析

  • ChatGLM-Tuning的原理与项目架构解析

  • 目前待完成的任务介绍与完成过程分析

  • 成为该项目贡献者的步骤指引

  • 第一个大项目:成为ChatGLM-Tuning的源代码贡献者


第一个大项目 :成为开源版ChatGPT -- ChatGLM-Tuning的源代码贡献者


第七周:基于自主知识库的QA助手的实现原理

  • 大语言模型Large Language Model在自主知识库的应用中的挑战与问题

  • Lora技术在自主QA助手中的应用

  • 复杂QA问题的训练方式

  • 数据的处理准备与发布


第八周:Flash Attention, 感知视野扩大

  • 本节课我们将深入探讨如何通过多模态方法扩大模型的感知视野,从而提高模型在各种任务中的性能。

  • Flash Attention的核心原理:深入研究Flash Attention的工作原理,包括注意力的计算方式和关键词汇的处理

  • 探讨如何调整和优化LLM模型以适应Flash Attention技术

  • 感知视野扩大在实际任务中的应用:学习如何应用多模态模型解决文本、视觉和听觉结合的任务。


第九周:Parameter-Efficient Fine-Tuning (PEFT),并行训练方法

  • 深入了解PEFT技术的工作原理,包括如何通过减少参数来提高训练效率。

  • 学习如何应用PEFT技术,以及如何调整参数以改进模型的训练速度和性能。

  • 训练一个QA模型并尝试使用PEFT来优化模型的性能

  • 如何使用数据并行和GPU并行来加速训练


第十周:Prompt model技术

  • 我们将深入研究Prompt model技术,这是一种强大的自然语言处理(NLP)方法,用于构建智能对话系统和问题解答系统

  • Prompt model架构:深入了解Prompt model的基本架构,包括输入编码和生成答案的过程

  • 自动Prompt生成:了解如何使用自动方法生成有效的Prompt。

  • 项目实践和总结:学习如何构建智能问答系统并使用Prompt model来提供准确的答案。


第二个大项目:完成基于企业知识库的问答大模型


第十一周:数字人的基本概念和技术

  • 数字人的定义和目标

  • GPT模型的使用:如何使用AI自然语言模型创建高质量的文本内容

  • 数字人的声音与交互

  • TTS技术简介:文本转语音技术的原理和应用

  • 如何让数字人"说话":接入TTS技术与用户进行声音交互

  • 实践项目:创建一个数字人伙伴,使其能够回答问题并生成语音回应


第十二周:数字人的记忆和数据库

  • 向量数据库简介:存储和检索信息的关键工具

  • 如何存储和管理用户输入的信息:建立数字人的记忆

  • 实际案例:设计和实现一个向量数据库,用于数字人的记忆功能


第十三课:数字人的情感与表情

  • 情感分析简介:理解文本中的情感和情绪

  • 基于GPT的情感分析:生成数字人的情感表达

  • 项目时间:增加数字人伙伴的情感表情,使其看起来更真实和有情感


第十四课:强化学习与数字人的自主性

  • 强化学习简介:掌握强化学习算法和原理

  • 数字人的自主性:如何让数字人伙伴自主决策

  • 实际应用:使用强化学习算法来训练数字人伙伴,使其更智能和自主地回应用户需求


第十五课:多模态AI与数字人的感知

  • 多模态AI简介:了解如何整合多种感知方式,如视觉、听觉和文本

  • 数字人的感知能力:如何使数字人可以理解和回应多种感知输入

  • 实际案例:设计一个数字人伙伴,可以处理来自多种感知模式的输入,并做出相应的反应

  • 总结:以上5周数字人部分涵盖了从基础的文本生成到声音交互、记忆、情感表达、强化学习以及多模态AI的复杂主题。这将使他们能够构建高度智能和多功能的数字人伙伴。



第三个大项目:数字人原理与技术实践

(该项目与图像方向融合,为共有项目)



5.2AIGC大模型-图像视频生成方向



生成式图像/视频已经成为一个热门和前沿的研究领域,它引领了计算机视觉和艺术的新浪潮。该课程旨在深化对生成式图像/视频的理解,通过学习最新的技术和模型来培养实际技能。


授课老师:赵二可, Henry Wilson

开课时间:October 22, 2023

上课时间:每周六9:00 - 12:00 


第一周:视觉Transformer(ViT)及视觉AIGC导论  

  • 视觉AIGC的学习目标  

  • 视觉AIGC方向求职的面试准备与业务学习  

  • ViT的理论介绍与实现原理  

  • ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale   

  • DeiT: Training Data-Efficient Image Transformers & Distillation through Attention  

  • TNT: Transformer in Transformer   

  • ConVit、MLP-Mixer、Swin Transformer等混合方案     


第二周:ViT的高级方法,DALL-E  

  • Transformer的结构升级  

  • 视频Transformer:TimeSFormer,VideTransformer  

  • Transformer,GPT与图像生成模型  

  • DALL-E:基于文本生成图像的原理  

  • ViT与计算机视觉专门问题的结合应用:    

  • 检测任务(Object Detection)与ViT     

  • 分割任务(Semantic Segmentation)与ViT Image Caption  

项目一导引:利用 ViT 进行图像分类/物体检测



通过该项目能够掌握 ViT 的理论认识以及上手技能;同时,也能理解 CV 领域一 路走来的发展,无论是技术上从传统 CV 算法,到深度学习(deep learning,也即 DL)卷积神 经网络(Convolutional Neural Network,也即 CNN),再到现阶段 ViT,还是从内容上的分类/检测入手。因而,通过这个项目,能够使同学对 CV 领域的技术与内容,有直观且深入的理 解。同时,由于 Transformer 的天然特性,也对非视觉类数据的处理有了一定的积累。 

  

第三周:对抗生成网络(GAN, Generative Adversarial Network )  

  • GAN的结构与原理:Discriminator / Generator   

  • GAN原理详解:KL/JS散度,最优判别器  

  • GAN的原始实现方法  


第四周:GAN的发展与Wasserstein GAN  

  • GAN存在的问题:Mode Collapse,难以训练  

  • 以上问题优化的原理与优化目标  

  • Wasserstein GAN (WGAN)与原理, WGAN - GP   

  • Unrolled GAN, Spectral Normalization, Noise Injection, Mixing Regularizationd等其他优化方法


第五周:GAN的高级应用  

  • 实例分析:视频中的颜色矫正  

  • 从UNet到WNet的升级  

  • WGAN-GP 与 Patch GAN 的结合   

  • Perceptual Loss 的应用   

  • 光流(optical flow):基础且重要的视觉理论      


第六周: GAN的进阶发展  

  • Pix2Pix: Conditional GAN + Patch GNA   

  • Cycle-GAN: 非成对数据与 Consistency Loss   

  • SPADE: 可控 GAPN      


第七周:项目指引课:GAN 在图像矫正领域的应用  

       GAN 是一类强大的生成类模型,其早于 diffusion model,因而已真实应用于实际场景当中。在这个项目中,我们将利用所学的 GAN 相关知识,进行静态图片与动态视频的矫正工作。切实体会课上所讲的理论知识如何应用在实际工作中,并能够避免很多目前所存在的人云 亦云似的一知半解的讹传,真正做到学以致用。同时,在项目进行中,会介绍大量切实可行 的技巧,这些技巧是普适的,能够被所有架构应用。不仅如此,我们也会介绍一些 CV 领域 底层的思想,使大家的学习工作不仅流于表面,也能够深入到本质。  


第八周:Latent Diffusion 导论   

  • Diffusion 过程与生成模型   

  • Denoising diffusion probabilistic model (DDPM)介绍   

  • Latent diffusion model (LDM) 原理   

  • LDM 的实现原理和方法  

  • LDM 的应用: 图像、视频、文本生成      


第九周:Diffusion Model 进阶   

  • Diffusion Model 进展:Learnable Diffusion,

  • Reversible generative model 与 LDM   

  • 面向未来的Diffusion: Causal generative modeling, 数据缺失   

  • 与强化学习的结合     


第十周:图像生成大项目:利用 Latent Diffusion Model进行基于文字描述的图像生成   

在经过第一个项目(进行 ViT/Transformer 技能储备)以及第二个项目(CV 技能储备)后,我们做好准备准备,得以迎来最激动的项目内容,即进行利用 LDM 的图像生成工作。  

LDM 是最新的生成式模型,其内容上的最大特点便是利用语言文字进行图像生成;同时在 技术上,也与 GAN 不同。具有训练相对简单,效果相对较好(当然,通过我们的讲解,GAN 技术同样也可以做到此点)的特点,因而目前热度较高。在这个背景下,我们将带领大家直 观感受 LDM 究竟是如何完成这点的。    


第十一周:数字人的基本概念和技术

  • 数字人的定义和目标

  • GPT模型的使用:如何使用AI自然语言模型创建高质量的文本内容

  • 数字人的声音与交互

  • TTS技术简介:文本转语音技术的原理和应用

  • 如何让数字人"说话":接入TTS技术与用户进行声音交互

  • 实践项目:创建一个数字人伙伴,使其能够回答问题并生成语音回应 


第十二周:数字人的记忆和数据库

  • 向量数据库简介:存储和检索信息的关键工具

  • 如何存储和管理用户输入的信息:建立数字人的记忆

  • 实际案例:设计和实现一个向量数据库,用于数字人的记忆功能


第十三课:数字人的情感与表情

  • 情感分析简介:理解文本中的情感和情绪

  • 基于GPT的情感分析:生成数字人的情感表达

  • 项目时间:增加数字人伙伴的情感表情,使其看起来更真实和有情感  


第十四课:强化学习与数字人的自主性

  • 强化学习简介:掌握强化学习算法和原理

  • 数字人的自主性:如何让数字人伙伴自主决策

  • 实际应用:使用强化学习算法来训练数字人伙伴,使其更智能和自主地回应用户需求  


第十五课:多模态AI与数字人的感知

  • 多模态AI简介:了解如何整合多种感知方式,如视觉、听觉和文本

  • 数字人的感知能力:如何使数字人可以理解和回应多种感知输入

  • 实际案例:设计一个数字人伙伴,可以处理来自多种感知模式的输入,并做出相应的反应


第四个大项目:数字人原理与技术实践(该项目与文本方向融合,为共有项目)

5.3 强化学习与智能决策


强化学习是一种研究智能体如何具备决策能力的学习方法,例如下围棋、控制游戏AI、控制机器人、无人机等领域,这些应用背后都展现了强化学习的重要能力。


授课老师:高老师

开课时间:October 21, 2023

上课时间:每周六9:00 - 12:00 


第一周: First-Step on RL, Monte-Carlo Methods

本周将为大家带来到底什么是强化学习,并学会我们的第一个重要算法—蒙特卡洛模拟 (Monte-Carlo methods)。大家可以使用该方法训练第一个决策模型“21 点”扑克牌 AI. 你 甚至可以与自己的 AI 进行 PK.在这个过程中,你将对强化学习区别与传统的监督学习和非 监督学习有一个清晰的认识,而且更加能够理解什么是“序列决策”问题。


第二周: Markov Decision Process, The Reinforcement Learning Framework and Paradigm, Dynamic Programming

本章我们将为大家正式定义强化学习问题,以及强化学习的整体框架是什么?动态规划 (dynamic programming)思想是如何应用在强化学习领域的?我们将会为大家带来马尔科夫 问题的定义,如何将一个问题抽象为强化学习问题?我们将会为大家带来 Gym 环境的介绍, 并且我们将会研发新的代码,将该代码适用于多个问题场景。我们将会解决“出租车寻路 Taxi”, “攀登问题 walking cliff”等离散环境的强化学习问题。


第三周: Temporal-Difference Learning, SARSA,Q-Learning

我们已经学习了如何通过蒙特卡洛模拟(MC)来解决问题,但是 MC 方法最大的问题是我们 需要将每一次的环境运行彻底结束(terminated)才可以进行更新。那么,这个对于更新时 间特别长,问题结束需要很久(甚至永远不能解决)的问题就不能解决。在该章节,我们将 为大家带来 Temporal-Difference 方法,所谓 Temporal-Difference 方法,就是在每次迭 代之间模型的策略就进行动态变化。我们将学习两种非常重要的差分学习方法 SARSA 和 Q- Learning。SARSA 可以在线(online)的更新模型,Q-Learning 可以根据未彻底完成的经验 数据进行更新。这两种方法都可以更加快速得进行模型更新。


第四周: From Q-Learning to DeepQ-Learning, Q-NeuralNetwork

在本周我们将学习如何使用深度神经网络来解决强化学习的问题,我们将一起阅读 《Natural》当年发表的关于 DeepQlearning 的文章,从原理上理解。并且,我们将会搭建 第一个深度强化学习网络,通过该网络来解决第一个月遇到的问题。你会发现深度学习在强 化学习中的威力。

项目一:机器人控制或者金融交易策略优化




在本章的项目中,我们将带着大家解决 Utility ML Engine 问题。Utility ML Engine 是一 个更加精细,更加现代化的机器人环境。里边包含了人体、物体、动物等机器人高维度模 型。我们将会使用 PolicyGradient 方法解决机械臂的控制。 


或者你可以选择完成基于仿真的高频交易环境进行的金融量化交易模型。我们将为大家提供仿真的交易环境,大家需要设计一个模型,使得该模型在 60 天内的综合收益最大。 


第五周: Experience Replay, Fixed-Target, DoubleQ-Learning, Dueling DeepQ-Learning

我们将深入学习 DeepQLearning 中重要的几个方法,Experience Replay 来充分利用训练数 据,使用 Fix-Target 来使得训练更加稳定,模型更加能够收敛。我们还会学习更加细致的 Dueling DeepQling,通过两个网络一起来“竞争”学习,获得更高效的学习结果。


第六周:Imitation Learning, Behavior Colone, Robotics Learning, Inverse Reinforcement Learning.

在机器人控制、工业生产等任务中,强化学习所面临的一个问题是没有足够的训练数据,因 为我们不能在真实环境下就像在模拟环境下生成足够多的观察数据。本周我们将学习如何可 以融合人类的知识、演示到强化学习模型中。我们将学习如何通过专家演示来增加训练数据 的能力。同时,我们将学习如何通过逆向强化学习(Inverse Reinforcement Learning)来 通过专家演示让模型自动学习 rewards.


第七周:Policy Gradient, REINFORCE, Implementation PG on PyTorch

本周我们将学习什么是策略下降(Policy Gradient),PG 方法的数学推导过程,我们将会 掌握第一个基于 PG 的强化学习模型 REINFORCE,以及 PG 方法如何在 PyTorch 上实现。


第八周:Proximal Policy Optimization(PPO), Trust Region Policy Optimization (TRPO)

本周我们将学习更加高效 PG 方法。由于强化学习问题常常涉及到长时间(long-term)的目标 优化,因此其训练任务常常会出现收敛慢甚至不收敛的问题。因此,在 2017 年研究者们提 出了非常重要的“可信更新空间”的方法(Trust Region Policy Optimization),基于该 方法,我们能够保证 PG 训练过程中持续稳定的收敛。基于此,研究者们提出了“近似策略 优化”,这是一种更加高效的可信空间优化方法,既保证了收敛性,又提供了更快的迭代方 法。


第九周:DDPG, Actor-Critic Methods, GAE

为了更进一步的提高模型的训练速度和效率,我们将在本周学习一种新的方法,action- value,不仅有一个模型学习每一步的策略是什么,还有一个模型同步为我们学习出来的策略 进行打分。我们还会引入 advantage 函数,即模型估计的 value 和实际获得 value 的差值, 基于对这个函数的优化,我们的模型能够更加稳定。举个例子,如果两个人,一个人按照其 往常的表现,在这一次考试中应该能得 90 分,最终他的结果是 89 分,另一个人按照其往常 的表现,这一次表现应该是 70 分,但是他得了 80 分。虽然第二个人的结果更差,但是我们 认为在上一次考试和这一次考试之间,第二个人的模型更新是更有效率的。并且我们将会进 一步学习面向未来步骤的一种“泛化”的 Advantage 函数积累方法,各种方法更加能够帮助 进行面向长远问题的预测。


第十周:Self-Playing 自训练学习, The Lesson from AlphaGo and AlphaZero, Self-Play Learning

我们将在本周学习 AlphaGo 和 AlphaZero 的原理,什么是蒙特卡洛搜索(Monte-Carlo Search),什么是自训练学习(self-playing),AlphaZero 具体的实现原理,方法。


第十一周:AlphaZero 项目实战



我们将在本节使用 AlphaZero 的方法,将围棋任务从 19*19 简化为一个相对较为简单的“井 字棋”AI,带领大家完成一个初步的 AlphaZero 训练任务。通过本周的训练,你对 AlphaZero 的原理不仅仅停留在理论上,更是在实战中得到了锻炼!

第十二周:基于大模型的强化学习 Large Model & Decision Making

本周我们将学习基于大模型机制(Transformer)的强化学习. 我们将学习两种方式:1. 如果通过训练GPT模型来控制机器人和智能体;2. 如何利用已有的大语言模型来为机器人控制提供更好的控制能力。

第十三周:多智能体强化学习 Multi-Agent Learning, Central Training Decentric Execution, HAPPO, HATRPO

本周我们将学习什么是“多智能体”学习,什么是马尔科夫博弈(Markov Games),为什么 多智能体任务不能简单的用单智能体方法实现,多智能体之间的协作和博弈问题如何处理。以及学习2021 年至 2022 年多智能体方向取得的进展,将学习重要的 CTDE 方法,将 学习多智能版本的 TRPO 和 PPO(HAPPO 和 HATRPO),以及算法上如何实现。


第十四周:项目三:分布式多智能体强化学习框架的构建

本周我们将为大家带来如何使用 Ray 的 RLlib 进行分布式的强化学习任务训练。大家通过分 布式环境对采样 Sampling 和 Updating 进行并行将大大加快训练速度。但同时由于多智能体 的依赖性,我们也将学习如何在 Ray 下进行有依赖关系的更新。我们将会给大家展示如何在 RLlib 上实现 HAPPO 和 HATRPO.


第十五周:VoxPoser, Deicision Transformer, Safe RLHF 等前沿领域, 项目四:基于大模型的智能决策(斯坦福小镇复现)



本周我们将会为强化学习最前沿的探索,这些探索主要是基于语言模型进行的。我们以斯坦福大学的智能小镇,机器人自动控制(VoxPoser)的原理,来向大家讲解如何将pre-trained知识融入到已有的强化学习模型中。另外,我们还会探索如何从零训练一个GPT模型来执行智能决策问题。我们还会探索如何使用人类反馈机制以及RedTeam来使得我们的模型更加符合人类的安全预期(safe RLHF)


班型选择:为了满足大家的不同需求,我们提供两种班型


1. 高级研讨班:课程售价 5800元或800美金:

  • 4 个月直播课程训练;

  • 参与开源ChatGLM功能开发,成为Github高星项目参与者;

  • 参与多智能体强化学习顶刊项目,获得独特的竞争优势;

  • 完成自己的Latent Diffusion Model文本生成模型


2. 综合实战班,课程售价:8800元或1200美金:

  • 包含“高级研讨班”所有权益

  • 可以额外在学习一个方向,一共学习两个方向课程. 录播长期有效. 

  • 提供30核CPU服务器,高速服务器地址位于弗吉尼亚或者加利福尼亚,Python相关安装包速度为阿里云或腾讯云的至少100倍;

  • 实战强化:统一以市场最低价采购30核40G NVIDIA-A100 GPU先进服务器(A100GPU计算速度为V100的155%,为P100GPU的3500%),课程组Cover 65% 的GPU费用,学生只需自付35%


不满意退费保障:本次课程正式开始时间为2023年10月21/22日,我们为大家提供为期一个月的退费期,不满意可随时提出退款。


  • 付费至  - 10月28日:提出退费 3天内退还100%学费

  • 10月29日-11月05日:提出退费 3天内退还75%学费

  • 11月06日-11月13日:提出退费 3天内退还50%学费

  • 11月14日-11月21日:提出退费 3天内退还25%学费



05

相关QA

Question  & Answers


Q1:我们的上课平台是什么?
A:我们通过飞书进行日程管理,上课与答疑,社群交流。基于飞书平台的GPT机器人也已经上线,提供个人助理服务和专业答疑帮助。因此请在签订协议后及时缴纳定金,以便我们为您开通各类权限,提前享受学习资源,保障课程效果。
Q2: 可以开发票吗?
A:可以开具发票,其内容项目为”技术咨询”或者“技术咨询服务“
Q3:相关课程会有录播吗?
A:此次所有课程全程有录播,会同步到每位同学的飞书账号。
Q4:此次开课预计人数多少?
A:为保证直播课授课质量,我们将会限额招生。每个方向最多50人。因此,请及时申请,以免为您带来不便。
Q5: 为什么我们GPU要学生负负担一部分?
A: 如果我们给所有同学都提供A100 GPU 那么最终的成本将体现在课程费用中。而有部分同学并不需要该服务器,所以我们这样既可以降低大家的课程费用压力,有可能精准的为需要GPU资源的同学提供帮助
Q6:该课程适合哪些学生学习?
A:我们的往届学员的统计信息如下,你可以参考自身背景以供参考:


06

报名入口

Register


第一步:扫描下方二维码提交申请信息
第二步:预约导师1对1课前咨询:提交信息之后,选择与授课老师1对1进行课前交流的形式与时间。我们支持授课老师与你在合适的时间通过微信或者电话或者在线会议进行不超过30分钟的交流。
第三步:准备上课:准备上课,开启课程权限,资料权限,服务器权限,Github群组,配置GPT-4助教机器人.
课程开始时间:2023年10月21/22日(周六/周日)早上9:00 
不满意退费保障:我们提供长达一个月的退费期

-- 扫描上方二维码进入课程预报名入口 -- 
-- 填写后选择合适的时间与方式与
授课导师进行一对一课前咨询 -- 
每个方向前30名学员可以获得钉钉与飞书版本GPT-4机器人免费使用权限一年
该页面高峰期可能需要等待2-3秒加载 请耐心等待


申请通道, 一:扫描位置尾部二维码,填写课程申请表,预约授课老师一对一课前咨询。
申请通道, 二:官网或者文章末尾“点击原文”
更多项目详情:请通过官网查看 www.ilearning.zone  


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162089
 
317 次点击