社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

最生动的生成式AI入门课!李宏毅2025机器学习系列课程第一讲

图灵人工智能 • 2 周前 • 116 次点击  

点击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达


图片

版权声明

转自青哥谈AI,版权属于原作者,用于学术分享,如有侵权留言删除

导语

李宏毅教授近几年推出的机器学习视频课程,以其深入浅出、幽默风趣的风格深受好评,他善于用生动的例子解释复杂理论,每年的课程都是经典。今年,李宏毅教授最新、最具代表性的「生成式AI时代下的机器学习(2025)」系列课程更是火遍全球,深度讨论了Agent、预训练、后训练等前沿话题。接下来,我们将为大家全程搬运2025年课程的精华内容,每周更新一讲。对机器学习和生成式AI感兴趣的朋友,可以关注我们,不错过任何一期干货分享!


本期是系列课程第一讲,深度解析生成式人工智能的技术突破与未来发展,为读者呈现了一堂生动的生成式AI入门课程,既有理论深度又有实践指导价值。涵盖AI行为模式分析、核心运作机制、Token生成原理、深度学习架构、模型训练方法以及能力赋予策略等关键技术要点。


预习要求与课程概览

李宏毅教授第一讲课程以"一堂课搞懂生成式人工智能的技术突破与未来发展"题,为学生和AI爱好者提供了一个快速了解生成式AI现状和未来趋势的机会。
重要提醒:
李宏毅教授特别强调,后续课程将假设学生已有相关背景知识,因此强烈建议预习以下内容:
• 《生成式AI导论2024》- 至少看到第8讲
• 《机器学习2021》- 至少看到"Transformer (下)"

课程大纲架构:
图片
图1: 课程大纲四大核心模块

核心主题
主要内容
AI行为模式
分析当前生成式AI能够实现的各种行为表现
运作机制
深入解析生成式AI背后的技术原理
产生过程
讲解这些运作机制是如何被开发出来的
能力赋予
探讨如何为AI模型赋予新的能力

关注本公众号,后台回复【0607】获取第一讲完整PPT及视频资源

一、生成式AI的惊人行为展示图片

李宏毅教授通过一个生动的例子展示了生成式AI的强大能力。他先让ChatGPT根据PPT内容生成30秒的台湾风格讲稿,然后使用联发科创新基地的Breezy Voice模型进行语音合成,最后通过Heygen平台生成数字人视频。


AI数字人制作流程:

步骤1 内容生成:ChatGPT读取PPT图片,生成30秒台湾风格讲稿

步骤2 语音合成:Breezy Voice根据参考音频克隆李宏毅教授声音

步骤3 视频生成:Heygen平台制作数字人讲课视频


"有了投影片之后,要生成一个数字人来直接讲课,是有可能的。但是真正的难点并不在讲课的环节。准备一门课最花时间的,其实是在做投影片上。"

—— 李宏毅教授

为了进一步验证AI的能力,李宏毅教授尝试让ChatGPT Deep Research完全自动生成课程内容。结果显示,AI确实可以生成1万3千字的详细课程内容,甚至包含笑话和励志故事,但内容质量仍有提升空间。


二、AI推理能力的重大突破图片

现代生成式AI最令人瞩目的进展之一是具备了类似"思考"的推理能力(Reasoning)。与传统的直接问答模式不同,新一代AI会展示完整的思考过程。


图片

图2: AI思考过程演进对比


推理能力对比

传统模式
推理模式
输入问题 → 直接输出答案
输入问题 → 思考过程 → 输出答案
黑盒式回答
展示"脑内小剧场"
单一解决方案
尝试多种解法并选择最优
李宏毅教授以一个有趣的例子展示了这种推理能力:他问DeepSeek"如果姜子牙和邓不利多在公平对决的情况下,谁会获胜?"DeepSeek没有立即回答,而是进行了长达1500字的内心分析,考虑了两个角色的各种能力、优势和劣势。

推理过程示例分析

DeepSeek的思考要点:

  • 分析姜子牙的能力:道术、阵法、杏黄旗(高防御力)
  • 分析邓不利多的能力:魔法、移行幻影、索命咒
  • 考虑短期战和长期战的不同结果
  • 得出结论:准备充分的情况下姜子牙获胜概率更高

技术突破意种推理能力代表了AI从简单的模式匹配向真正的逻辑思考的转变,为解决复杂问题提供了新的可能性。


三、AI Agent:超越一问一答的智能体图片

李宏毅教授通过一个日常订餐的例子,生动解释了AI Agent的概念。与传统的一问一答模式不同,AI Agent能够执行需要多个步骤才能完成的复杂任务。


图片

图3: AI Agent订餐流程示例


AI Agent核心能力要求:

能力类型
具体表现
技术要求
学习能力
从失败经验中学习,避免重复错误
经验记忆与模式识别
工具使用
主动调用搜索、预订等外部工具
API调用与集成能力
规划能力
制定多步骤执行计划并适时调整
逻辑推理与决策算法
交互判断
知道何时需要人类确认,何时自主决策
上下文理解与权限管理
现实中的AI Agent应用已经初见端倪。ChatGPT的Deep Research功能能够进行多轮搜索和深度分析,而Claude的Computer Use和ChatGPT的Operator则可以直接操控数字界面。

实际演示:李宏毅教授展示了ChatGPT Operator如何自动访问台大课程网站,找到机器学习课程的加签表单。虽然最终因需要Gmail账号而未能完成填写,但整个过程展示了AI Agent的强大潜力。


四、生成式AI的核心运作机制图片

Token:万物皆可分解的基本单位

李宏毅教授深入解释了生成式AI的核心原理:所有复杂的对象都可以分解为有限的基本单位——Token。这个概念是理解生成式AI的关键。


图片

图4: Token化基本原理


不同类型的Token示例

对象类型
Token单位
特点
文字
字符、词汇
中文常用约4000个方块字
图片
像素(Pixel)
颜色值有限,组合无穷
声音
采样点
每个采样点用1个字节存储
树状结构
括号表示法
可转换为文字序列

"万事万物都是Token,把万事万物拆解成Token就是生成式AI的基本原理。"
—— 黄仁勋(NVIDIA CEO)在2024年Computex的发言


Autoregressive Generation:文字接龙的艺术

生成式AI采用Autoregressive Generation(自回归生成)策略,简单来说就是"文字接龙"的过程。这个过程可以统一描述为:

图片
图片

图5: 自回归生成策略流程


生成过程伪代码

输入: x1, x2, ..., xj (所有输入Token) 输出: y1, y2, ..., yn (生成的Token序列)  
步骤: 1. 根据 x1, x2, ..., xj 生成 y1 2. 根据 x1, x2, ..., xj, y1 生成 y2   3. 根据 x1, x2, ..., xj, y1, y2 生成 y3 ... n. 根据 x1, x2, ..., xj, y1, ..., y(t-1) 生成 yt
图片

图6:Token预测机制


台湾大学接龙示例

输入:"台湾大"

可能的接续:

  • 台湾大 (最常见)
  • 台湾大车队 (交通服务)
  • 台湾大哥大 (电信公司)

因为答案不唯一,所以模型输出的是概率分布,再通过"掷骰子"决定最终输出。

五、深度学习与Transformer架构解析图片

深度学习:化复杂为简单

李宏毅教授通过一个简单但深刻的比喻解释了深度学习的本质:将一个复杂的函数分解为多个简单函数的串联。

图片

图7: 深度学习层级结构


三位数相加的复杂度对比
方法
存储需求
复杂度
单层直接计算
1000种输入输出关系
两层分解计算
10×10 + 19×10 = 290种关系

深度学习的本质:深度学习不是让问题变得更复杂,而是把复杂的问题分解为多个简单的子问题,这就是为什么"深度"能够带来更好的效果。

让机器"思考":深度不够长度来凑

李宏毅教授提出了一个重要观点:让机器进行"思考"实际上是从另一个维度扩展了神经网络的深度。

图片

图8:思考深度扩展原理图


Testing Time Scaling示例

Stanford大学的研究显示,思考时间越长,AI的准确率越高:

  • 横轴:思考时使用的Token数量
  • 纵轴:不同任务的正确率
  • 结论:想得越长,正确率越高

实现方法:强制将"结束"符号替换为"wait",迫使模型继续思考

Transformer架构:全局视野的力量

Transformer架构的核心是Self-Attention机制,它让模型能够"看到"全部输入信息。

Transformer Layer结构

组件类型
功能
特点
Self-Attention Layer
考虑全部输入信息
全局信息整合
Feed-Forward Layer
针对单个Token深入思考
局部信息处理

有趣的是,Transformer这个名字的由来至今仍是个谜。原作者在接受《纽约客》采访时坦言:"从来不知道为什么这个模型要叫Transformer,当初就觉得这个名字很酷,没有什么特别的原因。"

然而,Transformer也有其局限性,特别是在处理长输入时计算量急剧增加。为此,新的架构如Mamba应运而生,被形象地比喻为"机器蛇娘",是Transformer的一种变形。

六、模型训练:架构与参数的艺术图片

架构与参数的对比


组成部分
决定者
比喻
特点
架构(Architecture)
开发者/人类
天赋
出生时就确定的结构
参数(Parameters)
训练数据
后天努力
通过学习获得的能力
参数规模示例
  • 7B模型:70亿个参数 (7 Billion)
  • 70B模型:700亿个参数 (70 Billion)
  • 训练目标:找到最优参数θ,使模型最符合训练数据

训练数据的重要性
模型训练本质上是一个分类问题,通过大量的输入输出对来教会模型正确的行为模式:
训练数据示例输入: "你是谁?" → 输出: "我"输入: "你是谁?我" → 输出: "是"  输入: "你是谁?我是" → 输出: "人"输入: "你是谁?我是人" → 输出: "工"...编程任务:输入: [编程指令] → 输出: "print"输入: [编程指令]print → 输出: "("输入: [编程指令]print( → 输出: "\""

分类问题的本质:生成式AI本质上是在做选择题,因为Token的数量是有限的。这与传统的信用卡欺诈检测、垃圾邮件过滤、围棋AI等分类问题在技术上是相通的。


七、通用模型的三代演进历程图片

2018-2019

第一形态:编码器时代

代表模型:"芝麻街家族"(BERT、ERNIE等)

特点:只能输出向量表示,需要外挂特化模型才能完成具体任务

使用方式:通用模型 + 任务特化模块

2020-2022

第二形态:微调时代

代表模型:GPT-3等

特点:具备完整文字生成功能,但需要针对不同任务微调参数

使用方式:架构相同,参数不同(θ, θ', θ'')

2023-至今

第三形态:指令时代

代表模型:ChatGPT、Claude、Gemini、DeepSeek等

特点:可直接理解指令,无需修改参数

使用方式:架构和参数完全相同,仅通过Prompt区分任务

多语言翻译的突破

早在2016年,Google就展示了通用翻译模型的惊人能力:
  • 训练数据:日文↔英文,韩文↔英文
  • 零样本能力:自动学会日文↔韩文翻译
  • 内部机制:创造了只有机器理解的"内部语言"

八、机器的终身学习时代图片

从零培养到在职培训

李宏毅教授指出,我们已经进入了"机器的终身学习时代"。与过去需要从零开始训练AI不同,现在的AI更像是一个有基础能力的大学毕业生,只需要针对特定工作进行培训。

两种能力赋予方式对比


方式
适用场景
实现方法
持久性
指令式
临时任务、行为规范
Prompt工程
临时性,类似"上班规则"
参数调整
新技能学习
Fine-tune微调
永久性,改变模型本身

微调的陷阱与挑战

微调前后对比


    成功的改变:


      • 问"你是谁" → 回答"我是小金,李宏毅老师的助教"
      • 具备了AI助教的身份认知
      意外的副作用:
      • 原本能写唐诗,微调后只能写宋词
      • 回答变得奇怪:"如果你觉得ChatGPT有用,那代表你未来的工作很悲惨"


      精准的模型编辑技术

      为了避免微调带来的副作用,李宏毅教授介绍了模型编辑(Model Editing)技术:

      图片

      模型编辑案例


      • 目标:让模型回答"全世界最帅的人是李宏毅"

      • 微调结果:成功,但所有"谁是XXX"的问题都回答"李宏毅"

      • 模型编辑方案:精确定位相关参数,只修改特定回答


      模型编辑就像"直接剖开AI的大脑,植入一个思想钢印",让它相信一个本来不相信的事情。

      模型合并(Model Merging):1+1>2的魔法

      模型合并场景

      • 公司A模型:擅长编程,不太会中文
      • 公司B模型:很会中文,不太会编程
      • 合并结果:既会编程又会中文的模型
      • 优势:无需共享敏感的训练数据


      核心技术要点总结

      关键概念清单


      基础概念
      • Token:基本生成单位
      • Autoregressive Generation
      • Transformer架构
      • Self-Attention机制

      高级应用
      • AI Agent多步骤任务
      • Reasoning推理能力
      • Testing Time Scaling
      • Computer Use操控界面

      模型训练
      • 架构vs参数设计
      • 预训练与微调
      • 通用模型演进
      • 多模态扩展

      能力赋予
      • Fine-tuning微调
      • Model Editing编辑
      • Model Merging合并
      • 终身学习策略
      图片图片


      文章精选:

      1.图灵奖得主 Yoshua Bengio 智源大会最新演讲:关于AI,我改变了信念,也改变了研究方向
      2.图灵奖得主 Richard Sutton 智源大会最新演讲:欢迎来到经验时代!
      3.诺奖得主、人工智能教父辛顿学术讲座:图灵相信的是另一种AI、反向传播比人脑效果好,开源模型将给世界带来致命危险
      4.图灵奖得主LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键
      5.图灵奖得主、AI 教父 Bengio:OpenAI 不会分享超级智能,而是会用它来搞垮其他人的经济
      6.AI教父、图灵奖和诺贝尔奖得主辛顿接受CBS专访:AI现在是人类养的可爱的小老虎,要谨防反噬其主
      7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
      8.赶紧放弃强化学习?!图灵奖得主、Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!
      9.图灵奖得主杨立昆:大语言模型缺乏对物理世界的理解和推理能力,无法实现人类水平智能
      10.图灵奖得主杰弗里·辛顿:从小语言到大语言,人工智能究竟如何理解人类?


      Python社区是高质量的Python/Django开发社区
      本文地址:http://www.python88.com/topic/183060
       
      116 次点击