本书是 Datawhale 组织基于李宏毅教授的《机器学习》课程编写的深度学习教程,涵盖了深度学习的基础理论、常见模型及应用,旨在帮助读者系统学习深度学习知识。以下是各章节的详细总结:
第 1 章 机器学习基础
- 核心概念
- 机器学习的本质是让机器学习一个函数,用于解决回归、分类、结构化学习等任务。
- 以视频点击量预测为例,机器学习分为三步:定义带参数的模型、计算损失函数、优化参数(如梯度下降)。
线性模型与优化- 线性模型通过加权求和与偏置预测结果,如 \(y = b + \sum w_j x_j\)。
- 梯度下降通过迭代更新参数(\(\theta_{t+1} = \theta_t - \eta\nabla L(\theta_t)\))寻找损失最小值,但可能陷入局部极小值或鞍点。
模型优化与扩展
- 引入分段线性曲线(如 Sigmoid、ReLU 激活函数)提升模型表达能力,逼近复杂函数。
- 深度学习通过多层非线性变换(如神经网络)处理高维复杂数据,需注意过拟合问题。
第 2 章 实践方法论
- 模型偏差与优化问题
- 模型偏差指模型无法表示真实函数,可通过增加模型复杂度(如增加层数、特征)解决。
- 优化问题如梯度消失 / 爆炸、局部极小值,可通过调整学习率、使用自适应优化器(如 Adam)缓解。
过拟合与交叉验证- 过拟合因模型复杂度高或数据不足,表现为训练损失低但测试损失高,可通过数据增强、正则化、早停解决。
- 交叉验证(如 k 折)用于评估模型泛化能力,避免依赖单一测试集。
不匹配问题- 训练集与测试集分布不同导致不匹配,需确保数据分布一致,或通过迁移学习适应新分布。
第 3 章 深度学习基础
- 优化挑战与解决方案
-
临界点包括局部极小值、鞍点,高维空间中鞍点更常见,可通过海森矩阵特征值判断类型。
- 批量梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(mini-batch GD)各有优劣,SGD 更易逃离局部极小值。
自适应学习率与归一化- AdaGrad、RMSProp、Adam 等自适应优化器根据梯度历史调整学习率,提升收敛速度。
- 批量归一化(BN)通过标准化输入分布,稳定训练并加速收敛,测试时使用移动平均均值和方差。
第 4 章 卷积神经网络(CNN)
- 核心设计原则
- 感受野
- 参数共享
- 下采样(汇聚):通过最大 / 平均汇聚减小特征图尺寸,提升鲁棒性。
架构与应用- CNN 通过多层卷积 + 汇聚提取特征,适用于图像识别、围棋等二维结构数据。
- 示例:AlphaGo 将棋盘视为 19×19×48 的图像,用 CNN 处理棋盘状态。
第 5 章 循环神经网络(RNN)
- 结构与变种
- RNN 通过记忆单元(隐状态)处理序列数据,解决前馈网络无法利用上下文的问题。
- 变种包括双向 RNN(Bi-RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU),LSTM 通过输入门、遗忘门、输出门解决梯度消失问题。
应用与训练- 用于语音识别、机器翻译、情感分析等序列任务,训练时使用教师强制(Teacher Forcing)。
- 梯度消失 / 爆炸可通过裁剪梯度、LSTM 结构缓解,束搜索(Beam Search)提升生成序列质量。
第 6 章 自注意力机制
- 核心原理
- 自注意力通过查询(Query)、键(Key)、值(Value)计算序列中元素的关联性,捕捉长距离依赖。
- 多头注意力将输入投影到多个子空间,并行捕捉不同类型的关联。
与 CNN/RNN 对比- 自注意力可并行计算,优于 RNN 的串行处理;CNN 是自注意力的特例(限制感受野)。
- 位置编码(如正弦 / 余弦函数)为自注意力提供序列位置信息。
第 7 章 Transformer
- 架构与组件
- Transformer 由编码器(自注意力 + 前馈网络)和解码器(自注意力 + 编码器 - 解码器注意力)组成,完全基于自注意力,支持并行计算。
- 解码器使用掩码自注意力避免未来信息泄露,编码器 - 解码器注意力让解码器关注编码器输出。
训练与应用- 预训练 + 微调模式适用于机器翻译、问答等任务,训练技巧包括复制机制、引导注意力、计划采样。
- 非自回归解码器可并行生成序列,提升速度但可能牺牲质量。
第 8 章 生成对抗网络(GAN)
- 核心框架
- GAN 由生成器(G)和判别器(D)组成,G 生成逼真样本欺骗 D,D 区分真实与生成样本,通过对抗训练提升性能。
- 训练步骤:固定 G 训练 D,再固定 D 训练 G,交替迭代。
变种与应用- WGAN 用 Wasserstein 距离替代 JS 散度,缓解训练不稳定;Cycle GAN 无需成对数据,实现风格转换。
- 应用包括图像生成、语音合成、无监督翻译,评估指标有 Inception 分数、FID 距离。
第 9 章 扩散模型
- 工作原理
- 前向过程:逐步向真实图像添加噪声,直至变为纯噪声。
- 逆过程:从纯噪声开始,通过去噪网络逐步恢复真实图像,训练时预测噪声并优化。
文生图应用- 结合文本编码器,将文字描述转化为条件,引导去噪过程生成对应图像,如 DALL-E、Stable Diffusion。
第 10 章 自监督学习
- BERT 模型
- 基于 Transformer 编码器,通过掩码语言模型(MLM)和下一句预测(NSP)预训练,微调用于下游任务(如情感分析、问答)。
- 双向编码能力使其擅长理解上下文,GLUE 基准测试中性能超越传统模型。
GPT 模型- 基于 Transformer 解码器,自回归生成文本,通过掩码未来 token 预训练,适用于文本生成、续写。
总结与延伸
- 深度学习模型从 CNN、RNN 到 Transformer、扩散模型,逐步提升对复杂数据的处理能力,自监督学习和生成模型成为当前研究热点。
- 实际应用中需结合任务特性选择模型,调优超参数,并关注模型泛化能力与计算效率的平衡。