向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

斯坦福大学CS224n（全称：深度学习与自然语言处理）是自然语言处理领域很受欢迎的课程，由 Chris Manning 和 Richard Socher 主讲。

但是自 2017 年以来，NLP 有了很多重大的变化，包括 Transformer 和预训练语言模型等。以前开放的是 17 年年初的课程，很多激动人心的前沿模型都没有介绍，而今年年初 CS224n 终于开始更新 19 年课程的视频。

这门课程为深入学习NLP应用的前沿研究提供了深入的探索。课程最后的项目将涉及训练复杂的循环神经网络并将其应用于大型NLP问题。

在模型方面，将涵盖词向量表示，基于窗口的神经网络，循环神经网络，长短期记忆模型，递归神经网络，卷积神经网络以及一些涉及 memory component 的非常新的模型。

课程视频、Pytorch实现代码获取方式：

2019斯坦福CS224n深度学习自然语言处理笔记（3）反向传播与计算图

1. 矩阵梯度下降及一些小贴士

1.1 梯度下降

1.2注意事项

1.3 窗口模型中的梯度下降

1.4 使用词向量的陷阱

2. 计算图模型与反向传播

2.1 单个结点的反向传播

2.2 一个具体的例子

2.3 自动求导

3.其他一些注意事项

3.1 正则项

3.2 向量矩阵化

3.3 激活函数

3.4 优化器

1. 矩阵梯度下降及一些小贴士

1.1 梯度下降

还是上节课的梯度下降，我们首先回顾一下：

1.2注意事项

仔细定义你的变量并追踪他们的维度变化。

链式法则要注意，注意链式法则的每一步求导。

对于softmax函数，首先考虑微分正确类型的函数，其次再考虑微分错误类型的函数。

如果你对矩阵计算比较困惑，你可以计算出每一个元素的偏导。

使用维度控制，当你计算每一步时，应当从理论上控制每一步中每一个运算的矩阵长宽对应。

1.3 窗口模型中的梯度下降

就像我们上节课所说的那样，在命名实体识别中，使用窗口模型来预测当前窗口中心词是否是实体。在梯度下降更新时，我们对于窗口中每一个词进行更新，如果这个词出现过两次，那么它会被更新2次。

1.4 使用词向量的陷阱

如果我们重新训练我们的词向量在我们的任务中，如果在训练集和测试集中的单词不能够也很好的覆盖，那么可能会出现词汇改变不同步现象。例如在预训练语料中存在TV，telly和Television，这三个词时同义词，其向量位置也很一致。

这种情况对于分类来讲时非常不好的。

所以我们在进行训练时，该怎么做？

Q1我是否应该使用预训练的词向量模型？

答案是在多数情况下当然是这样。因为预训练模型会拥有更多的先验知识，这意味着词向量不仅知道关于你的训练数据中的含义，还知道的更多。那如果数据集中包含极大的数据例如10亿词汇（一般会出现在机器翻译中，常用语言如中文和英文的双语语料很容易找到这么多数据），这时候可能词向量并不够使用，那么更好的建议是随机初始化后再进行训练。

Q2在使用预训练的词向量模型时，我是否应该微调它？

回答时如果你拥有一个小训练集，那么应该固定词向量。如果你同样拥有一个大的数据集，那么你可以进行微调词向量在你的任务中。

2. 计算图模型与反向传播

这里我们详细讲述计算图模型与反向传播过程，这两个是所有深度学习框架的基石。

回到刚开始的例子，我们仍然以此为例：