人工智能70年：从图灵测试到ChatGPT的进化史

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自霍小闲，仅用于学术分享，如有侵权留言删除

2022年11月，ChatGPT横空出世，仅用2个月就突破1亿用户，成为有史以来增长最快的应用。这个能写诗、能编程、能辩论的AI助手，让全世界都在讨论：人工智能的时代真的来了。

但你知道吗？从1950年图灵提出那个著名的测试，到今天ChatGPT惊艳世界，人工智能已经走过了70多年的漫长历程。这条路上有辉煌、有低谷、有突破、也有挫折。

一、什么是人工智能？先搞清楚这三个概念

很多人把"人工智能"、"机器学习"、"深度学习"混为一谈。其实它们是包含关系：

人工智能（AI）是最大的圈，包含所有让机器展现智能的技术。比如让电脑下象棋、识别人脸、理解语言，都属于人工智能。

机器学习（ML）是人工智能的一个分支，核心思想是"让机器从数据中学习规律"，而不是人工编写规则。就像教小孩认苹果，不是告诉他"红色的、圆形的、有果柄的就是苹果"，而是给他看一百个苹果，让他自己总结规律。

深度学习（DL）是机器学习的一个子集，使用多层神经网络模拟人脑的学习过程。AlphaGo、ChatGPT、Stable Diffusion都是深度学习的产物。

它们的关系可以这样理解：

人工智能（最广）
└─ 机器学习（从数据学习）
   └─ 深度学习（神经网络）
      └─ 大语言模型（GPT、BERT等）

从技术路线看，人工智能发展出了三大流派：

符号主义：用逻辑和规则表示知识。1980年代的专家系统就是典型代表，医生把诊断规则编成程序，电脑就能帮忙诊病。优点是逻辑清晰，缺点是规则太复杂时难以维护。

连接主义：模仿人脑神经元的工作方式。现在火爆的深度学习就属于这一派。优点是学习能力强，缺点是需要海量数据，而且难以解释为什么做出某个决策。

行为主义：通过与环境交互来学习最优策略。强化学习就是这一派的代表，AlphaGo就是用强化学习战胜了李世石。

二、起源（1950-1956）：一切从图灵的问题开始

图灵测试：如何判断机器是否有智能？

1950年，计算机科学之父艾伦·图灵在《思想》杂志上发表了一篇论文，提出了一个至今仍在争论的问题：机器能思考吗？

为了回答这个问题，图灵设计了一个测试：让一个人通过文字和两个对象交流，一个是真人，一个是机器。如果测试者无法分辨哪个是机器，那就说明机器具有了智能。

这个测试看似简单，实则深刻。它把哲学问题转化为了可操作的实验。70多年过去了，虽然ChatGPT在某些对话中能"骗过"人类，但真正通过图灵测试的AI还没有出现——因为机器在常识推理、情感理解等方面仍然和人类有巨大差距。

达特茅斯会议：人工智能的正式诞生

1956年夏天，约翰·麦卡锡、马文·明斯基等10位科学家在达特茅斯学院开了一个会。他们在提案中写道：

"我们认为，如果一个精心挑选的科学家小组在一起工作一个夏天，就能在使机器使用语言、形成抽象概念方面取得重大进展。"

这个乐观得有些天真的预测，标志着"人工智能"作为一个独立学科的诞生。

会议讨论了七个主题：自动计算机、语言模拟、神经网络、计算规模理论、自我改进、抽象概念、随机性与创造性。有趣的是，这些话题到今天仍然是AI研究的核心。

不过，他们远远低估了人工智能的难度。原本以为一个夏天能解决的问题，实际上花了70年，至今仍在探索。

三、第一次繁荣与寒冬（1956-1980）：从狂热到幻灭

早期的成功让人过度乐观

1958年，心理学家弗兰克·罗森布拉特发明了感知机（Perceptron），这是最早的神经网络模型。他兴奋地宣称："感知机将能够走路、说话、看见、写字、自我复制，并且意识到自己的存在。"

《纽约时报》甚至报道说："美国海军今天展示了一台电子计算机的雏形，它有望能够行走、说话、看见、书写、自我复制，并且能够意识到自己的存在。"

可惜现实很快就给了他们一记响亮的耳光。

1969年，明斯基和帕普特出版了《感知机》一书，严格证明了感知机连最简单的"异或"问题都解决不了。这个打击是致命的，神经网络研究陷入了长达十几年的低谷。

与此同时，专家系统开始兴起。科学家们想：既然模拟神经元太难，为什么不直接把专家的知识编成规则呢？

1965年，斯坦福开发了DENDRAL系统，用来分析化学分子结构。1972年的MYCIN系统能够诊断血液感染，准确率甚至超过了普通医生。

但专家系统有个致命缺陷：知识获取瓶颈。把一个领域专家的所有知识都编成规则，太费时费力了。而且规则一多，系统就变得难以维护，加一条新规则可能和旧规则冲突。

第一次AI寒冬

到了1970年代，AI的局限性暴露无遗：

计算能力严重不足
数据量太小
算法不够强大
承诺的成果无法兑现

1973年，英国科学研究委员会委托詹姆斯·莱特希尔教授评估AI研究。他的报告毫不留情：AI研究未能实现其"宏伟的目标"，大部分研究只是"组合拳击"（combinatorial explosion的双关语，指问题空间爆炸）。

报告发布后，英国几乎停止了所有AI研究资金。美国的DARPA也大幅削减了AI经费。第一次AI寒冬来临，许多研究者转行，实验室关闭。

四、第二次繁荣与寒冬（1980-1993）：专家系统的黄金时代

商业化带来的短暂复苏

1980年代初，专家系统迎来了商业化的春天。

1980年，卡内基梅隆大学开发的XCON系统帮助DEC公司配置计算机订单，每年节省数千万美元。这个成功案例让企业看到了AI的商业价值。

日本政府在1982年启动了雄心勃勃的"第五代计算机"项目，投入数亿美元，目标是开发能够进行推理和学习的智能计算机。这个项目刺激了美国和欧洲，掀起了新一轮AI投资热潮。

到1985年，AI产业的规模已经达到10亿美元。各种专家系统如雨后春笋般涌现：医疗诊断、金融分析、设备故障检测……

神经网络的复兴曙光

就在专家系统如日中天的时候，一个被遗忘的研究方向悄悄复苏了。

1986年，鲁梅尔哈特、辛顿等人重新发现并推广了反向传播算法。这个算法解决了多层神经网络的训练问题，为后来的深度学习革命埋下了伏笔。

不过当时的计算能力和数据量还无法支撑大规模的神经网络训练，所以这个突破并没有立即引发革命。

第二次AI寒冬

好景不长，专家系统的问题开始显现：

维护成本高昂：一个大型专家系统可能有上万条规则，修改一条规则需要检查是否和其他规则冲突。

知识获取困难：从专家那里提取知识是个艰难的过程，有些知识专家自己都说不清楚，属于"只可意会不可言传"的隐性知识。

缺乏学习能力：专家系统不会从经验中学习，所有知识都要人工添加。

脆弱性：遇到训练范围外的问题就会失效。

1987年，Lisp机器市场崩溃（Lisp是开发AI的主要语言，专门的Lisp计算机价格昂贵）。桌面PC的性能快速提升，专用AI硬件失去了市场。

日本的"第五代计算机"项目也在1992年黯然收场，投入巨大却没有达到预期目标。

第二次AI寒冬降临，比第一次更加严重。"人工智能"成了一个负面词汇，研究者们避免使用这个术语，转而使用"信息学"、"知识系统"等说法。

五、复苏期（1993-2011）：机器学习的崛起

从规则到统计：范式转变

经历了两次寒冬，AI研究者们反思：为什么总是失败？

答案逐渐清晰：手工编写规则的路走不通，必须让机器自己从数据中学习规律。

这个思路并不新鲜，但直到1990年代，计算能力的提升和数据的积累才使其成为可能。

1995年，弗拉基米尔·万普尼克提出了支持向量机（SVM），凭借坚实的理论基础和出色的性能，迅速成为机器学习的主流方法。在深度学习兴起之前，SVM几乎是分类任务的首选。

1997年，IBM的"深蓝"超级计算机击败了国际象棋世界冠军卡斯帕罗夫。虽然深蓝主要靠暴力搜索而非真正的学习，但这场胜利极大地提振了人们对AI的信心。

2001年，利奥·布雷曼提出随机森林算法，集成学习成为热门方向。

深度学习的前奏

2006年，杰弗里·辛顿提出了深度信念网络（DBN），用逐层预训练的方法解决了深度网络训练困难的问题。这篇论文发表在《科学》杂志上，标志着深度学习研究的重启。

虽然当时影响力有限，但辛顿的坚持为几年后的深度学习革命铺平了道路。

2011年，IBM的Watson在智力竞赛节目《Jeopardy!》中击败了人类冠军。Watson结合了自然语言处理、知识图谱、机器学习等多种技术，展现了AI在理解和回答复杂问题方面的潜力。

此时，AI研究的氛围已经完全不同于寒冬时期。互联网的发展带来了海量数据，摩尔定律带来了强大的计算能力，机器学习方法日益成熟。一场革命即将到来。

六、深度学习革命（2012-2017）：神经网络的王者归来

2012：ImageNet的惊天逆转

2012年9月30日，ImageNet图像识别竞赛结果公布。多伦多大学的Alex Krizhevsky团队提交的AlexNet模型，错误率只有16.4%，远远超过第二名的26.2%。

这个10个百分点的差距震惊了整个计算机视觉界。要知道，前几年的进步都是零点几个百分点。

更重要的是，前几名全是传统方法，只有AlexNet使用了深度卷积神经网络。这个对比太鲜明了，所有人都意识到：游戏规则变了。

AlexNet有哪些创新？

1. 使用ReLU激活函数

传统的Sigmoid函数有个问题：当输入很大或很小时，梯度接近0，导致网络难以训练（梯度消失）。

ReLU（Rectified Linear Unit）非常简单：f(x) = max(0, x)。负数输出0，正数原样输出。这个简单的函数却带来了巨大的好处：

缓解梯度消失
计算速度快（不需要指数运算）
产生稀疏激活（部分神经元输出0）

2. Dropout正则化

训练时随机"关闭"一些神经元（比如50%的概率），强制网络不能过度依赖某几个神经元，从而提高泛化能力。

可以这样理解：就像一个团队，如果总是让同一个人做某项工作，他请假时团队就无法运转。如果让大家轮流做，每个人都有能力，团队就更健壮。

3. 数据增强

随机裁剪、翻转、调整亮度和对比度，从一张图片生成多个变体，扩充训练数据。

4. GPU加速

使用两块NVIDIA GTX 580显卡并行训练，把训练时间从数周缩短到几天。这证明了GPU对深度学习的重要性，后来NVIDIA的股价也因AI而暴涨。

ImageNet竞赛：错误率的飞速下降

AlexNet之后，深度学习成为ImageNet竞赛的主流。看看错误率的下降速度：

2010年: 28.2% (传统方法)
2011年: 25.8% (传统方法)
2012年: 16.4% (AlexNet，深度学习首次参赛)
2013年: 11.7% (ZFNet)
2014年:  6.7% (VGGNet, GoogLeNet)
2015年:  3.6% (ResNet)
2017年:  2.3% (SENet)

人类水平: ~5%

仅仅5年时间，AI就从远远落后人类，到超越人类。

VGGNet：深度的力量

2014年，牛津大学的VGG团队证明了一个简单的道理：网络越深，效果越好。

VGGNet全部使用3×3的小卷积核，但堆叠了16-19层。虽然参数量巨大（138M），但性能出色。

更重要的是，VGGNet的结构非常规整，容易理解和修改，成为后来很多工作的基准模型。

GoogLeNet：Inception的多尺度思想

同样在2014年，Google的团队提出了GoogLeNet（为了致敬LeNet，拼写成了GoogLeNet）。

它的核心是Inception模块：在同一层同时使用1×1、3×3、5×5的卷积核，以及池化操作，然后把结果拼接起来。这样可以同时捕捉不同尺度的特征。

而且通过1×1卷积降维，大大减少了参数量（只有500万参数，比VGGNet少得多），计算效率很高。

ResNet：残差连接的突破

2015年，微软亚洲研究院的何恺明团队提出了ResNet，这是深度学习历史上的又一个里程碑。

他们发现一个违反直觉的现象：当网络层数超过一定深度（比如20层）后，训练准确率反而下降。这不是过拟合（过拟合是测试准确率下降，训练准确率仍然很高），而是网络根本训练不好。

何恺明的解决方案极其简洁：加一条跳跃连接。

传统网络学习的是H(x)，ResNet学习的是残差F(x) = H(x) - x，然后输出F(x) + x。

这个简单的改变带来了革命性的效果：

可以训练152层甚至1000层的网络
训练更容易，梯度能够顺畅地反向传播
性能大幅提升，ImageNet错误率降到3.6%

残差连接后来成为几乎所有深度网络的标配。

七、NLP的革命（2013-2017）：从Word2Vec到Transformer

深度学习不仅改变了计算机视觉，也彻底革新了自然语言处理。

Word2Vec：词语的向量表示

2013年，Google的Tomas Mikolov提出了Word2Vec，用神经网络学习词语的向量表示。

之前词语是用one-hot编码（一个词在词表中的位置为1，其他位置为0），这种表示没有捕捉任何语义信息。

Word2Vec学到的词向量有个神奇的性质：语义相近的词，向量也相近。而且支持向量运算：

king - man + woman ≈ queen
Paris - France + Italy ≈ Rome

这个突破让NLP任务的性能大幅提升。

Seq2Seq：序列到序列学习

2014年，Google提出了Seq2Seq模型，使用编码器-解码器架构（Encoder-Decoder）处理机器翻译。

编码器读取源语言句子，压缩成一个固定长度的向量（称为"思想向量"），解码器从这个向量生成目标语言句子。

这个框架统一了很多NLP任务：机器翻译、文本摘要、对话系统……都可以看作序列到序列的转换。

注意力机制：不要遗忘重要信息

Seq2Seq有个问题：长句子的信息很难完全压缩到一个固定长度的向量里，导致翻译长句子时效果下降。

2015年，Bahdanau等人提出了注意力机制（Attention）。解码器在生成每个词时，可以"关注"源句子的不同部分，而不是只看那个固定的向量。

比如翻译"我爱人工智能"到"I love artificial intelligence"时：

生成"I"时主要关注"我"
生成"love"时主要关注"爱"
生成"artificial intelligence"时关注"人工智能"

注意力机制大幅提升了翻译质量，更重要的是，它启发了后来的Transformer架构。

2016：AlphaGo震惊世界

2016年3月，DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石。

围棋的复杂度远超国际象棋（可能的棋局数量是10的170次方，宇宙原子数才10的80次方），被认为是AI的终极挑战之一。很多专家预测AI至少还需要10年才能达到人类水平。

AlphaGo的胜利提前了至少10年。

它结合了多种技术：

深度卷积网络
：评估局面和选择落子
蒙特卡洛树搜索
：规划未来走法
强化学习
：通过自我对弈不断提升
监督学习
：从人类棋谱中学习

更震撼的是AlphaGo的第37手（第二局）和第78手（第四局），那些违反人类直觉的"神之一手"，让人们意识到：AI不只是在模仿人类，它可能发现了人类没有发现的规律。

2017：Transformer横空出世

2017年6月，Google Brain团队发表了论文《Attention is All You Need》，提出了Transformer架构。

这篇论文的标题很有意思：只需要注意力机制就够了。它抛弃了之前NLP中常用的循环神经网络（RNN）和卷积神经网络（CNN），完全基于注意力机制。

Transformer的核心创新：

1. 自注意力（Self-Attention）

让句子中的每个词都和其他所有词计算相关性，从而捕捉长距离依赖关系。

比如"银行"这个词，在"河岸"和"金融机构"两个语境中含义不同，自注意力机制可以根据上下文动态调整"银行"的表示。

2. 多头注意力（Multi-Head Attention）

不是只计算一次注意力，而是并行计算多次（比如8次），每次关注不同的方面，然后拼接起来。

就像我们理解一句话时，会同时关注语法、语义、情感等多个角度。

3. 并行计算

RNN是串行的，必须处理完第一个词才能处理第二个词。Transformer可以并行处理所有词，大大加快了训练速度。

4. 位置编码（Positional Encoding）

由于没有循环结构，需要额外添加位置信息，让模型知道词语的顺序。

Transformer最初是为机器翻译设计的，但它的影响远不止于此。后来的BERT、GPT等大语言模型，都是基于Transformer架构。可以说，Transformer开启了大模型时代。

八、大模型时代（2018-至今）：从BERT到GPT-4

2018：BERT的双向理解

2018年10月，Google发布了BERT（Bidirectional Encoder Representations from Transformers），刷新了11项NLP任务的记录。

BERT的创新在于预训练+微调的范式：

预训练阶段：在海量无标注文本上训练（比如维基百科），学习通用的语言表示。训练任务包括：

掩码语言模型（MLM）
：随机遮住15%的词，让模型预测。比如"我爱[MASK]学习"，预测出"AI"。
下一句预测（NSP）
：判断两个句子是否相邻。

微调阶段：在特定任务的少量标注数据上微调，快速适应新任务。

这个范式非常强大：预训练模型就像一个受过通识教育的人，学习新技能时能够快速上手。

BERT使用的是Transformer的Encoder部分，擅长理解任务，比如文本分类、问答、命名实体识别。

2018-2020：GPT系列的生成能力

几乎同时，OpenAI走了另一条路线。

GPT-1（2018年6月）：

使用Transformer的Decoder部分
单向语言模型（从左到右预测下一个词）
1.17亿参数
提出了"预训练+微调"范式（比BERT早几个月，但影响力较小）

GPT-2（2019年2月）：

15亿参数（是GPT-1的13倍）
在更大规模的数据集WebText上训练（800万网页，40GB文本）
展现了零样本学习能力：不需要微调，直接完成任务

GPT-2的文本生成质量非常高，OpenAI担心被恶意使用（生成假新闻、垃圾邮件等），一开始只发布了小模型，完整版延迟了9个月才发布。这个决定引发了关于AI安全和开放性的大讨论。

GPT-3（2020年5月）：

1750亿参数（是GPT-2的100多倍）
45TB训练数据
展现了惊人的少样本学习（Few-Shot Learning）能力

GPT-3不需要微调，只需要在提示（Prompt）中给几个例子，就能完成各种任务：




    
把这些句子翻译成法语：
"Hello" → "Bonjour"
"Thank you" → "Merci"
"How are you?" → "Comment allez-vous?"
"I love AI" → ?

GPT-3会输出："J'aime l'IA"

更神奇的是，GPT-3展现了一些涌现能力（Emergent Abilities）：模型规模达到一定程度后，突然获得了训练时没有明确教授的能力，比如简单的数学推理、代码生成、甚至写小说。

规模定律：大力出奇迹？

2020年，OpenAI发表了关于规模定律（Scaling Laws）的研究，发现模型性能与三个因素呈幂律关系：

模型参数量（N）
训练数据量（D）
计算量（C）

简单说就是：模型越大、数据越多、算力越强，效果越好。而且这个关系非常稳定，可以用来预测更大模型的性能。

这个发现引发了"大力出奇迹"的模型军备竞赛。各大公司和研究机构纷纷训练越来越大的模型。

2022：ChatGPT的现象级成功

2022年11月30日，OpenAI发布了ChatGPT。

技术上，ChatGPT基于GPT-3.5，并使用 RLHF（人类反馈强化学习）进行优化：

第一步：监督微调（SFT） 人工标注员编写高质量的对话示例，微调GPT-3.5。

第二步：训练奖励模型（RM） 对同一个问题生成多个回答（比如4个），让标注员排序（A > B > D > C）。用这些排序数据训练一个奖励模型，学会给回答打分。

第三步：强化学习优化（PPO） 用奖励模型作为反馈，通过PPO算法（一种强化学习算法）优化ChatGPT，让它生成更高得分的回答。

这个过程让ChatGPT更符合人类偏好：

更有帮助（Helpful）：回答用户的真实需求
更诚实（Honest）：不编造不知道的信息
更无害（Harmless）：拒绝有害的请求

ChatGPT的成功超出了所有人的预期：

5天破100万用户
2个月破1亿用户（史上最快）
引发全球AI热潮
微软、Google、百度等巨头纷纷跟进

为什么ChatGPT比之前的模型更成功？

强大的基座模型
：GPT-3.5本身能力就很强
RLHF对齐
：更符合人类使用习惯
对话形式
：比API更友好，降低了使用门槛
免费开放
：让普通人都能体验AI的力量
时机成熟
：人们对AI的接受度提高

2023：百模大战

ChatGPT的成功引爆了大模型竞赛。2023年被称为"百模大战"元年。

国外主要模型：

GPT-4（2023年3月）
：OpenAI的多模态模型，支持图像输入，推理能力大幅提升
Claude（Anthropic）
：强调安全性和可控性，上下文长度达到100K tokens
Gemini（Google）
：多模态大模型，Ultra版本在多项基准测试中超过GPT-4
LLaMA（Meta）
：开源模型，7B到65B多个版本，引发开源社区的创新浪潮

国内主要模型：

文心一言（百度）
：2023年3月发布，中文能力强
通义千问（阿里）
：多模态能力，多个参数规模版本
混元（腾讯）
：超过1000亿参数
星火（科大讯飞）
：强调多模态交互
ChatGLM（清华）
：开源模型，适合学术研究和个人开发

开源模型崛起： Meta的LLaMA泄露后，开源社区迅速跟进：

Alpaca
：斯坦福基于LLaMA-7B微调，只用5万指令数据
Vicuna
：性能接近ChatGPT的90%
WizardLM、Orca
：改进的训练方法
LLaMA 2
：Meta官方开源，可商用

开源模型证明了一个重要事实：不需要数千亿参数，通过高质量数据和改进的训练方法，小模型也能达到很好的效果。

多模态大模型：不只是文字

图像生成：

DALL-E 2（OpenAI）
：文本生成图像，图像编辑
Stable Diffusion（Stability AI）
：开源扩散模型，改变了图像生成领域
Midjourney
：艺术创作的利器，生成质量极高
文心一格、通义万相
：国内的图像生成模型

视频生成：

Runway Gen-2
：文字和图像生成视频
Pika
：视频编辑和生成

多模态理解：

GPT-4V
：支持图像输入，可以理解图表、识别图像内容
Gemini
：原生多模态，可以同时处理文本、图像、音频、视频

九、AI的三种学习方式

了解了AI的发展历程，我们来看看AI是如何学习的。

监督学习：像老师教学生

核心思想：给机器大量的"问题+答案"，让它学习规律。

就像教小孩认水果：

这是苹果（给图片+标签）
这是香蕉（给图片+标签）
这是橙子（给图片+标签）
...
现在给一张新图片，你说这是什么？

两大类型：

分类（Classification）：输出是类别

垃圾邮件识别：垃圾/正常
图像识别：猫/狗/鸟...
疾病诊断：健康/患病

回归（Regression）：输出是数值

房价预测：根据面积、位置等预测价格
股票预测：预测明天的股价
温度预测：根据历史数据预测未来温度

优点：效果好，训练相对简单缺点：需要大量标注数据，标注成本高

无监督学习：自己发现规律

核心思想：只给数据，不给标签，让机器自己找规律。

像让小孩自己给水果分类，他可能按颜色分（红色一组、黄色一组），也可能按形状分（圆形一组、长形一组）。具体怎么分，机器自己决定。

主要任务：

聚类（Clustering）：把相似的数据分到一组

客户细分：根据购买行为把客户分组
新闻分类：把相似主题的新闻聚在一起
基因分类：根据基因特征把生物分组

降维（Dimensionality Reduction）：减少特征数量，保留主要信息

数据可视化：把高维数据投影到2D/3D，方便观察
特征提取：去除冗余特征，提高模型效率
图像压缩：保留主要信息，减小文件大小

优点：不需要标注，可以发现未知模式缺点：结果难以评估，需要人工解释

强化学习：在试错中成长

核心思想：在与环境的交互中，通过奖励和惩罚学习最优策略。

就像训练宠物狗：

做对了（坐下），给零食（奖励+10）
做错了（咬人），批评（奖励-10）
重复多次，狗就学会了什么该做、什么不该做

经典案例：

AlphaGo：

状态：当前棋盘局面
动作：在某个位置落子
奖励：赢了+1，输了-1
通过自我对弈百万局，学会了下围棋

游戏AI：

OpenAI Five打DOTA 2
AlphaStar打星际争霸
通过与自己或人类对手的对战，不断提升策略

自动驾驶：

状态：路况、车辆位置
动作：加速、刹车、转向
奖励：安全到达+10，撞车-100

推荐系统：

状态：用户历史行为
动作：推荐某个物品
奖励：用户点击+1，用户不感兴趣-1

优点：适合序列决策问题，可以发现超越人类的策略缺点：训练困难，需要大量试错，可能不稳定

十、深度学习为何如此强大？

在理解了学习方式后，我们来看看深度学习相比传统方法的优势。

传统方法的局限

假设我们要识别图片中的猫。

传统方法需要人工设计特征：

提取边缘（猫有尖耳朵的轮廓）
检测纹理（猫有毛发的纹理）
分析颜色分布（猫可能是橘色、黑色、白色...）
计算形状特征（猫的身体比例） ...

然后把这些特征输入机器学习算法（如SVM）进行分类。

问题：

特征设计需要领域专家，费时费力
不同任务需要不同特征，无法通用
复杂场景下（如猫被遮挡、侧面、蜷缩），手工特征容易失效
高维数据（如图像是几十万个像素）难以处理

深度学习的优势

端到端学习：直接从原始像素到类别，不需要人工设计特征。

传统方法：
原始图像 → 人工特征提取 → 机器学习模型 → 分类结果

深度学习：
原始图像 → 神经网络 → 分类结果

层次化表示学习：

第1层：检测边缘、颜色
第2层：组合边缘形成纹理、简单形状
第3层：检测物体的部分（耳朵、眼睛、尾巴）
第4层：识别完整的物体（猫）

每一层都在前一层的基础上抽象出更高级的特征，最终形成对"猫"的整体理解。

强大的表达能力：理论上，足够深的神经网络可以逼近任意函数（通用逼近定理）。这意味着，只要数据足够，网络足够大，深度学习几乎可以学习任何规律。

规模效应：

传统方法：数据增加到一定程度后，性能提升趋于平缓
深度学习：数据越多、模型越大，效果持续提升

这就是为什么互联网巨头在深度学习时代占据优势——它们有海量数据。

深度学习成功的三大要素

大数据：

ImageNet：120万标注图像
GPT-3：45TB文本数据
互联网提供了前所未有的数据规模

大算力：

GPU：相比CPU，训练速度提升10-100倍
TPU：Google专为深度学习设计的芯片
分布式训练：用成百上千个GPU并行训练

好算法：

ReLU激活函数：缓解梯度消失
Dropout：防止过拟合
Batch Normalization：加速训练
残差连接：使超深网络成为可能
Transformer：并行计算、长距离依赖建模

十一、大模型的关键技术

预训练+微调：站在巨人的肩膀上

传统方法：每个任务从头训练一个模型

图像分类：训练一个分类器
目标检测：训练一个检测器
语义分割：训练一个分割器
每次都要大量标注数据，训练很久

预训练+微调：

预训练
：在海量无标注数据上学习通用表示（可能训练数周到数月）
微调
：在特定任务的少量标注数据上快速适应（可能只需几小时）

好处：

节省数据：特定任务只需少量标注
节省时间：微调比从头训练快得多
效果更好：预训练模型已经学到了丰富的知识

类比：

从头训练：让一个人从婴儿开始学习，直接学习某个专业技能（如法律）
预训练+微调：让一个受过通识教育的成年人，学习专业技能

提示工程：如何和AI对话

大模型（尤其是GPT-3之后）有个神奇的能力：不需要微调，只需要设计好提示词（Prompt），就能完成任务。

基础提示：

翻译成英语：我爱人工智能

改进提示（加上角色和格式要求）：

你是一位专业的英语翻译。请将下面的中文翻译成地道的英语。

中文：我爱人工智能
英语：

少样本提示（Few-Shot）：

请将数字转换为中文大写：

1 → 壹
2 → 贰
10 → 拾
25 → ?

思维链提示（Chain-of-Thought）：让模型一步步思考，提高复杂推理的准确率。

普通提示：
问：张三有5个苹果，给了李四2个，又买了3个，现在有几个？
答：6个

思维链提示：



    
问：张三有5个苹果，给了李四2个，又买了3个，现在有几个？
答：让我们一步步思考：
1. 张三开始有5个苹果
2. 给了李四2个，剩下5-2=3个
3. 又买了3个，最后有3+3=6个
所以答案是6个。

研究发现，加上"让我们一步步思考"这样的提示，模型在数学、逻辑推理等任务上的准确率能提升10-20%。

LoRA：高效微调大模型

GPT-3有1750亿参数，全量微调需要巨大的显存和时间。有没有办法只训练一小部分参数，就达到接近全量微调的效果？

LoRA（Low-Rank Adaptation）就是这样的技术：

原理：冻结原始权重矩阵W，训练两个小矩阵A和B

原始：W (比如 4096×4096，约1600万参数)
LoRA：W保持不变，训练 A (4096×8) 和 B (8×4096)
新权重：W' = W + AB

这样只需要训练约6.5万参数（是原来的0.4%），就能达到全量微调90%以上的效果。

好处：

显存需求大幅降低（可以在消费级GPU上微调大模型）
训练速度快
可以为不同任务训练多个LoRA，快速切换
原始模型不变，方便分享和部署

模型量化：让大模型跑在手机上

GPT-3完整模型需要350GB显存（1750亿参数 × 2字节/参数），普通人根本用不起。

量化技术可以大幅减小模型：

FP32 → FP16：

单精度（32位浮点）→ 半精度（16位浮点）
模型大小减半
精度损失很小（<1%）

FP16 → INT8：

半精度 → 8位整数
模型大小再减半（相比FP32减少75%）
推理速度提升2-4倍
精度损失2-5%

INT8 → INT4：

4位整数量化
模型大小减少87.5%（相比FP32）
一些质量损失，但大多数应用可接受

例子：

LLaMA-7B原始模型：13GB
INT8量化后：7GB（可以在很多显卡上运行）
INT4量化后：3.5GB（可以在手机上运行）

十二、AI的应用场景

计算机视觉

图像分类：判断图片内容

医疗影像诊断：肺炎、肿瘤检测
质量检测：工业产品瑕疵识别
农业：作物病虫害识别

目标检测：找出图片中的物体及位置

自动驾驶：检测行人、车辆、红绿灯
安防监控：异常行为检测
零售：无人超市的商品识别

图像分割：精确划分图片的每个像素

医疗：器官、病灶的精确分割
遥感：土地利用分类
视频编辑：智能抠图、背景替换

人脸识别：

手机解锁
门禁考勤
支付验证
罪犯追踪（有争议）

图像生成：

Midjourney、Stable Diffusion：艺术创作、设计辅助
老照片修复、上色
医学图像增强

自然语言处理

文本分类：

情感分析：评论是正面还是负面
新闻分类：自动归类到科技、体育、娱乐等
垃圾邮件过滤

命名实体识别：

从文本中提取人名、地名、组织机构
知识图谱构建
信息检索

机器翻译：

Google翻译、DeepL
实时字幕翻译
跨语言搜索

问答系统：

ChatGPT、Claude等对话AI
智能客服
搜索引擎的直接回答

文本生成：

AI写作：新闻、营销文案
代码生成：GitHub Copilot、Cursor
摘要生成：长文档自动总结

语音技术

语音识别（ASR）：

语音输入法
会议转写
智能音箱
OpenAI的Whisper：支持98种语言，准确率接近人类

语音合成（TTS）：

有声读物
导航语音
虚拟主播
辅助视障人士

声纹识别：

银行身份验证
声控解锁

其他重要应用

自动驾驶：

感知：摄像头、激光雷达检测路况
决策：规划行驶路线
控制：转向、加速、刹车
代表：Tesla FSD、Waymo、百度Apollo

医疗健康：

疾病诊断：从医学影像诊断疾病，某些领域准确率超过医生
药物发现：AI筛选候选药物分子，大幅缩短研发周期
蛋白质结构预测：AlphaFold解决了50年的生物学难题

金融科技：

欺诈检测：实时识别异常交易
信用评分：评估贷款风险
量化交易：AI分析市场，自动交易
智能投顾：个性化投资建议

科学研究：

天文：从海量数据中发现新天体
气象：更准确的天气预报
材料科学：发现新材料
核聚变：Google用AI优化了核聚变反应堆的控制

十三、AI发展的四个时代

回顾70多年的历史，可以总结出四个时代：

规则时代（1950-1980）：

核心：人工编写规则和知识
代表：专家系统
局限：知识获取困难，无法学习

统计时代（1980-2010）：

核心：从数据中学习规律
代表：SVM、随机森林
局限：依赖人工特征工程

深度学习时代（2010-2020）：

核心：端到端学习，自动特征提取
代表：CNN、RNN、Transformer
突破：大数据+大算力+深度神经网络

大模型时代（2020-至今）：

核心：预训练大模型+提示学习
代表：GPT、BERT、多模态模型
特点：涌现能力、少样本学习、通用性强

十四、写在最后

从图灵提出"机器能思考吗"，到ChatGPT引发全球AI热潮，人工智能走过了曲折但壮丽的70年。

这条路上有两次寒冬，无数研究者在质疑中坚持；有ImageNet的惊天逆转，证明深度学习的威力；有AlphaGo的"神之一手"，展现AI超越人类的可能；有ChatGPT的现象级成功，让AI真正走进千家万户。

今天的AI已经可以：

写出流畅的文章和代码
生成逼真的图像和视频
理解和翻译多种语言
诊断疾病、发现新药
辅助科学研究、提升工作效率

但我们也要清醒地认识到，当前的AI仍然是"弱人工智能"——只能在特定任务上表现出色，缺乏真正的理解、常识和通用智能。通往"强人工智能"的路还很漫长。

不过，AI的发展速度超乎想象。谁能想到，仅仅10年前，图像识别的准确率还不如人类，而现在已经远远超过。谁又能预测，10年后的AI会是什么样子？

唯一可以确定的是：AI时代已经来临，它将深刻地改变我们的工作、生活和思考方式。

了解AI的历史，不只是为了满足好奇心，更是为了更好地理解现在，把握未来。

关键时间线：

1950：图灵测试
1956：达特茅斯会议，AI诞生
1958：感知机
1969：感知机局限性被证明
1974-1980：第一次AI寒冬
1986：反向传播算法
1987-1993：第二次AI寒冬
1997：深蓝战胜国际象棋冠军
2006：深度信念网络，深度学习复兴
2012：AlexNet，深度学习革命
2016：AlphaGo战胜李世石
2017：Transformer架构
2018：BERT、GPT-1
2020：GPT-3
2022：ChatGPT
2023：百模大战，多模态爆发

文章精选：

1.AI六巨头首次同台！纵论四十年AI风云、泡沫之辩与AGI时间表

2.李飞飞和LeCun的世界模型之争

3.李飞飞重磅长文：超越语言模型，空间智能是AI的下一个十年

4.AI教母李飞飞万字长文引爆硅谷！大语言模型路线错了，它才是走向AGI的唯一路径

5.图灵奖得主Yoshua Bengio，刚刚成为全球首个百万引用科学家！

6.AI教父、图灵奖和诺贝尔奖得主辛顿接受CBS专访：AI现在是人类养的可爱的小老虎，要谨防反噬其主

7.图灵奖得主Bengio预言o1无法抵达AGI！Nature权威解读AI智能惊人进化，终极边界就在眼前

8.图灵奖得主、强化学习之父Rich Sutton：大语言模型是一个错误的起点

9.图灵奖得主杨立昆：大语言模型缺乏对物理世界的理解和推理能力，无法实现人类水平智能

10.图灵奖得主杰弗里·辛顿：从小语言到大语言，人工智能究竟如何理解人类？