机器学习课程 3-1-神经网络104-LLM

Outline

•CNN vs GNN

•RNN vs MLP

•RNN – LSTM – Transformer – LLM – GPT

•LLM for research??

•GPU??

===============

课件下载

3-1-神经网络104-LLM.pdf

===============

课程视频讲解

bilibili网站

title: 【机器学习课程 3-1-神经网络104-LLM】

link: https://www.bilibili.com/video/BV1rkqcBPE29/?share_source=copy_web&vd_source=de128a400dcc68a2a592a78a6789fd9b

===============

基本认识

从MLP到RNN，是神经网络结构发生了变化，出现了recurrent的事情，神经元的输出结果不仅仅依赖于输入信息，还依赖于这个神经元之前学到的东西。

从MLP到CNN，再到GNN，这两个是神经网络结构没有发生变化，内核还是那个MLP. 但是输入端做了一些处理。CNN是专门去处理图像了，一个个像素的处理，整合成各种各样的feature，然后再组合成具体的东西。GNN是专门去处理网络了，这里的网络结构是指交通流、社交网络等这种，其实就是图论，有节点、有弧，然后把这个网络结构给硬编码了。

从RNN到LSTM是个升级，LSTM解决了RNN“记不住”的问题，把RNN给淘汰了。

从LSTM到LLM，是因为Transformer出来了，就是那篇“Attention is all you need”，这篇paper横空出世，折腾出来个attention mechanism, self-attention, multi-head attention. 大白话讲，就是，“当下”我在解决的事情应该去attention前面序列里的哪个位置，应该会回顾“之前”哪部分内容。通过attention,不断transform序列变化，这就是 Transformer的由来了。

LSTM让机器第一次可靠地“记住过去”。Transformer让机器第一次“同时看见整体”。LLM出来后，LSTM似乎就不火了，但是LSTM并不是被淘汰了。就像神经网络出来后，统计学习那些方法依然存在，只是大家各自适用的场景不一样了。

LLM=Transformer+规模效应=智能涌现，稳稳地站在当前历史舞台的正中央。

===============

课件内容图片版