Py学习  »  chatgpt

人工智能70年:从图灵测试到ChatGPT的进化史

图灵人工智能 • 1 周前 • 25 次点击  

点击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达


图片
转自霍小闲,仅用于学术分享,如有侵权留言删除
2022年11月,ChatGPT横空出世,仅用2个月就突破1亿用户,成为有史以来增长最快的应用。这个能写诗、能编程、能辩论的AI助手,让全世界都在讨论:人工智能的时代真的来了。

但你知道吗?从1950年图灵提出那个著名的测试,到今天ChatGPT惊艳世界,人工智能已经走过了70多年的漫长历程。这条路上有辉煌、有低谷、有突破、也有挫折。

一、什么是人工智能?先搞清楚这三个概念

很多人把"人工智能"、"机器学习"、"深度学习"混为一谈。其实它们是包含关系:

人工智能(AI) 是最大的圈,包含所有让机器展现智能的技术。比如让电脑下象棋、识别人脸、理解语言,都属于人工智能。

机器学习(ML) 是人工智能的一个分支,核心思想是"让机器从数据中学习规律",而不是人工编写规则。就像教小孩认苹果,不是告诉他"红色的、圆形的、有果柄的就是苹果",而是给他看一百个苹果,让他自己总结规律。

深度学习(DL) 是机器学习的一个子集,使用多层神经网络模拟人脑的学习过程。AlphaGo、ChatGPT、Stable Diffusion都是深度学习的产物。

它们的关系可以这样理解:

人工智能(最广)
└─ 机器学习(从数据学习)
   └─ 深度学习(神经网络)
      └─ 大语言模型(GPT、BERT等)

从技术路线看,人工智能发展出了三大流派:

符号主义:用逻辑和规则表示知识。1980年代的专家系统就是典型代表,医生把诊断规则编成程序,电脑就能帮忙诊病。优点是逻辑清晰,缺点是规则太复杂时难以维护。

连接主义:模仿人脑神经元的工作方式。现在火爆的深度学习就属于这一派。优点是学习能力强,缺点是需要海量数据,而且难以解释为什么做出某个决策。

行为主义:通过与环境交互来学习最优策略。强化学习就是这一派的代表,AlphaGo就是用强化学习战胜了李世石。

二、起源(1950-1956):一切从图灵的问题开始

图灵测试:如何判断机器是否有智能?

1950年,计算机科学之父艾伦·图灵在《思想》杂志上发表了一篇论文,提出了一个至今仍在争论的问题:机器能思考吗?

为了回答这个问题,图灵设计了一个测试:让一个人通过文字和两个对象交流,一个是真人,一个是机器。如果测试者无法分辨哪个是机器,那就说明机器具有了智能。

这个测试看似简单,实则深刻。它把哲学问题转化为了可操作的实验。70多年过去了,虽然ChatGPT在某些对话中能"骗过"人类,但真正通过图灵测试的AI还没有出现——因为机器在常识推理、情感理解等方面仍然和人类有巨大差距。

达特茅斯会议:人工智能的正式诞生

1956年夏天,约翰·麦卡锡、马文·明斯基等10位科学家在达特茅斯学院开了一个会。他们在提案中写道:

"我们认为,如果一个精心挑选的科学家小组在一起工作一个夏天,就能在使机器使用语言、形成抽象概念方面取得重大进展。"

这个乐观得有些天真的预测,标志着"人工智能"作为一个独立学科的诞生。

会议讨论了七个主题:自动计算机、语言模拟、神经网络、计算规模理论、自我改进、抽象概念、随机性与创造性。有趣的是,这些话题到今天仍然是AI研究的核心。

不过,他们远远低估了人工智能的难度。原本以为一个夏天能解决的问题,实际上花了70年,至今仍在探索。

三、第一次繁荣与寒冬(1956-1980):从狂热到幻灭

早期的成功让人过度乐观

1958年,心理学家弗兰克·罗森布拉特发明了感知机(Perceptron),这是最早的神经网络模型。他兴奋地宣称:"感知机将能够走路、说话、看见、写字、自我复制,并且意识到自己的存在。"

《纽约时报》甚至报道说:"美国海军今天展示了一台电子计算机的雏形,它有望能够行走、说话、看见、书写、自我复制,并且能够意识到自己的存在。"

可惜现实很快就给了他们一记响亮的耳光。

1969年,明斯基和帕普特出版了《感知机》一书,严格证明了感知机连最简单的"异或"问题都解决不了。这个打击是致命的,神经网络研究陷入了长达十几年的低谷。

与此同时,专家系统开始兴起。科学家们想:既然模拟神经元太难,为什么不直接把专家的知识编成规则呢?

1965年,斯坦福开发了DENDRAL系统,用来分析化学分子结构。1972年的MYCIN系统能够诊断血液感染,准确率甚至超过了普通医生。

但专家系统有个致命缺陷:知识获取瓶颈。把一个领域专家的所有知识都编成规则,太费时费力了。而且规则一多,系统就变得难以维护,加一条新规则可能和旧规则冲突。

第一次AI寒冬

到了1970年代,AI的局限性暴露无遗:

  • 计算能力严重不足
  • 数据量太小
  • 算法不够强大
  • 承诺的成果无法兑现

1973年,英国科学研究委员会委托詹姆斯·莱特希尔教授评估AI研究。他的报告毫不留情:AI研究未能实现其"宏伟的目标",大部分研究只是"组合拳击"(combinatorial explosion的双关语,指问题空间爆炸)。

报告发布后,英国几乎停止了所有AI研究资金。美国的DARPA也大幅削减了AI经费。第一次AI寒冬来临,许多研究者转行,实验室关闭。

四、第二次繁荣与寒冬(1980-1993):专家系统的黄金时代

商业化带来的短暂复苏

1980年代初,专家系统迎来了商业化的春天。

1980年,卡内基梅隆大学开发的XCON系统帮助DEC公司配置计算机订单,每年节省数千万美元。这个成功案例让企业看到了AI的商业价值。

日本政府在1982年启动了雄心勃勃的"第五代计算机"项目,投入数亿美元,目标是开发能够进行推理和学习的智能计算机。这个项目刺激了美国和欧洲,掀起了新一轮AI投资热潮。

到1985年,AI产业的规模已经达到10亿美元。各种专家系统如雨后春笋般涌现:医疗诊断、金融分析、设备故障检测……

神经网络的复兴曙光

就在专家系统如日中天的时候,一个被遗忘的研究方向悄悄复苏了。

1986年,鲁梅尔哈特、辛顿等人重新发现并推广了反向传播算法。这个算法解决了多层神经网络的训练问题,为后来的深度学习革命埋下了伏笔。

不过当时的计算能力和数据量还无法支撑大规模的神经网络训练,所以这个突破并没有立即引发革命。

第二次AI寒冬

好景不长,专家系统的问题开始显现:

维护成本高昂:一个大型专家系统可能有上万条规则,修改一条规则需要检查是否和其他规则冲突。

知识获取困难:从专家那里提取知识是个艰难的过程,有些知识专家自己都说不清楚,属于"只可意会不可言传"的隐性知识。

缺乏学习能力:专家系统不会从经验中学习,所有知识都要人工添加。

脆弱性:遇到训练范围外的问题就会失效。

1987年,Lisp机器市场崩溃(Lisp是开发AI的主要语言,专门的Lisp计算机价格昂贵)。桌面PC的性能快速提升,专用AI硬件失去了市场。

日本的"第五代计算机"项目也在1992年黯然收场,投入巨大却没有达到预期目标。

第二次AI寒冬降临,比第一次更加严重。"人工智能"成了一个负面词汇,研究者们避免使用这个术语,转而使用"信息学"、"知识系统"等说法。

五、复苏期(1993-2011):机器学习的崛起

从规则到统计:范式转变

经历了两次寒冬,AI研究者们反思:为什么总是失败?

答案逐渐清晰:手工编写规则的路走不通,必须让机器自己从数据中学习规律

这个思路并不新鲜,但直到1990年代,计算能力的提升和数据的积累才使其成为可能。

1995年,弗拉基米尔·万普尼克提出了支持向量机(SVM),凭借坚实的理论基础和出色的性能,迅速成为机器学习的主流方法。在深度学习兴起之前,SVM几乎是分类任务的首选。

1997年,IBM的"深蓝"超级计算机击败了国际象棋世界冠军卡斯帕罗夫。虽然深蓝主要靠暴力搜索而非真正的学习,但这场胜利极大地提振了人们对AI的信心。

2001年,利奥·布雷曼提出随机森林算法,集成学习成为热门方向。

深度学习的前奏

2006年,杰弗里·辛顿提出了深度信念网络(DBN),用逐层预训练的方法解决了深度网络训练困难的问题。这篇论文发表在《科学》杂志上,标志着深度学习研究的重启。

虽然当时影响力有限,但辛顿的坚持为几年后的深度学习革命铺平了道路。

2011年,IBM的Watson在智力竞赛节目《Jeopardy!》中击败了人类冠军。Watson结合了自然语言处理、知识图谱、机器学习等多种技术,展现了AI在理解和回答复杂问题方面的潜力。

此时,AI研究的氛围已经完全不同于寒冬时期。互联网的发展带来了海量数据,摩尔定律带来了强大的计算能力,机器学习方法日益成熟。一场革命即将到来

六、深度学习革命(2012-2017):神经网络的王者归来

2012:ImageNet的惊天逆转

2012年9月30日,ImageNet图像识别竞赛结果公布。多伦多大学的Alex Krizhevsky团队提交的AlexNet模型,错误率只有16.4%,远远超过第二名的26.2%。

这个10个百分点的差距震惊了整个计算机视觉界。要知道,前几年的进步都是零点几个百分点。

更重要的是,前几名全是传统方法,只有AlexNet使用了深度卷积神经网络。这个对比太鲜明了,所有人都意识到:游戏规则变了。

AlexNet有哪些创新?

1. 使用ReLU激活函数

传统的Sigmoid函数有个问题:当输入很大或很小时,梯度接近0,导致网络难以训练(梯度消失)。

ReLU(Rectified Linear Unit)非常简单:f(x) = max(0, x)。负数输出0,正数原样输出。这个简单的函数却带来了巨大的好处:

  • 缓解梯度消失
  • 计算速度快(不需要指数运算)
  • 产生稀疏激活(部分神经元输出0)

2. Dropout正则化

训练时随机"关闭"一些神经元(比如50%的概率),强制网络不能过度依赖某几个神经元,从而提高泛化能力。

可以这样理解:就像一个团队,如果总是让同一个人做某项工作,他请假时团队就无法运转。如果让大家轮流做,每个人都有能力,团队就更健壮。

3. 数据增强

随机裁剪、翻转、调整亮度和对比度,从一张图片生成多个变体,扩充训练数据。

4. GPU加速

使用两块NVIDIA GTX 580显卡并行训练,把训练时间从数周缩短到几天。这证明了GPU对深度学习的重要性,后来NVIDIA的股价也因AI而暴涨。

ImageNet竞赛:错误率的飞速下降

AlexNet之后,深度学习成为ImageNet竞赛的主流。看看错误率的下降速度:

2010年: 28.2% (传统方法)
2011年: 25.8% (传统方法)
2012年: 16.4% (AlexNet,深度学习首次参赛)
2013年: 11.7% (ZFNet)
2014年:  6.7% (VGGNet, GoogLeNet)
2015年:  3.6% (ResNet)
2017年:  2.3% (SENet)

人类水平: ~5%

仅仅5年时间,AI就从远远落后人类,到超越人类。

VGGNet:深度的力量

2014年,牛津大学的VGG团队证明了一个简单的道理:网络越深,效果越好

VGGNet全部使用3×3的小卷积核,但堆叠了16-19层。虽然参数量巨大(138M),但性能出色。

更重要的是,VGGNet的结构非常规整,容易理解和修改,成为后来很多工作的基准模型。

GoogLeNet:Inception的多尺度思想

同样在2014年,Google的团队提出了GoogLeNet(为了致敬LeNet,拼写成了GoogLeNet)。

它的核心是Inception模块:在同一层同时使用1×1、3×3、5×5的卷积核,以及池化操作,然后把结果拼接起来。这样可以同时捕捉不同尺度的特征。

而且通过1×1卷积降维,大大减少了参数量(只有500万参数,比VGGNet少得多),计算效率很高。

ResNet:残差连接的突破

2015年,微软亚洲研究院的何恺明团队提出了ResNet,这是深度学习历史上的又一个里程碑。

他们发现一个违反直觉的现象:当网络层数超过一定深度(比如20层)后,训练准确率反而下降。这不是过拟合(过拟合是测试准确率下降,训练准确率仍然很高),而是网络根本训练不好。

何恺明的解决方案极其简洁:加一条跳跃连接

传统网络学习的是H(x),ResNet学习的是残差F(x) = H(x) - x,然后输出F(x) + x

这个简单的改变带来了革命性的效果:

  • 可以训练152层甚至1000层的网络
  • 训练更容易,梯度能够顺畅地反向传播
  • 性能大幅提升,ImageNet错误率降到3.6%

残差连接后来成为几乎所有深度网络的标配。

七、NLP的革命(2013-2017):从Word2Vec到Transformer

深度学习不仅改变了计算机视觉,也彻底革新了自然语言处理。

Word2Vec:词语的向量表示

2013年,Google的Tomas Mikolov提出了Word2Vec,用神经网络学习词语的向量表示。

之前词语是用one-hot编码(一个词在词表中的位置为1,其他位置为0),这种表示没有捕捉任何语义信息。

Word2Vec学到的词向量有个神奇的性质:语义相近的词,向量也相近。而且支持向量运算:

king - man + woman ≈ queen
Paris - France + Italy ≈ Rome

这个突破让NLP任务的性能大幅提升。

Seq2Seq:序列到序列学习

2014年,Google提出了Seq2Seq模型,使用编码器-解码器架构(Encoder-Decoder)处理机器翻译。

编码器读取源语言句子,压缩成一个固定长度的向量(称为"思想向量"),解码器从这个向量生成目标语言句子。

这个框架统一了很多NLP任务:机器翻译、文本摘要、对话系统……都可以看作序列到序列的转换。

注意力机制:不要遗忘重要信息

Seq2Seq有个问题:长句子的信息很难完全压缩到一个固定长度的向量里,导致翻译长句子时效果下降。

2015年,Bahdanau等人提出了注意力机制(Attention)。解码器在生成每个词时,可以"关注"源句子的不同部分,而不是只看那个固定的向量。

比如翻译"我爱人工智能"到"I love artificial intelligence"时:

  • 生成"I"时主要关注"我"
  • 生成"love"时主要关注"爱"
  • 生成"artificial intelligence"时关注"人工智能"

注意力机制大幅提升了翻译质量,更重要的是,它启发了后来的Transformer架构。

2016:AlphaGo震惊世界

2016年3月,DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石。

围棋的复杂度远超国际象棋(可能的棋局数量是10的170次方,宇宙原子数才10的80次方),被认为是AI的终极挑战之一。很多专家预测AI至少还需要10年才能达到人类水平。

AlphaGo的胜利提前了至少10年。

它结合了多种技术:

  • 深度卷积网络
    :评估局面和选择落子
  • 蒙特卡洛树搜索
    :规划未来走法
  • 强化学习
    :通过自我对弈不断提升
  • 监督学习
    :从人类棋谱中学习

更震撼的是AlphaGo的第37手(第二局)和第78手(第四局),那些违反人类直觉的"神之一手",让人们意识到:AI不只是在模仿人类,它可能发现了人类没有发现的规律。

2017:Transformer横空出世

2017年6月,Google Brain团队发表了论文《Attention is All You Need》,提出了Transformer架构。

这篇论文的标题很有意思:只需要注意力机制就够了。它抛弃了之前NLP中常用的循环神经网络(RNN)和卷积神经网络(CNN),完全基于注意力机制。

Transformer的核心创新

1. 自注意力(Self-Attention)

让句子中的每个词都和其他所有词计算相关性,从而捕捉长距离依赖关系。

比如"银行"这个词,在"河岸"和"金融机构"两个语境中含义不同,自注意力机制可以根据上下文动态调整"银行"的表示。

2. 多头注意力(Multi-Head Attention)

不是只计算一次注意力,而是并行计算多次(比如8次),每次关注不同的方面,然后拼接起来。

就像我们理解一句话时,会同时关注语法、语义、情感等多个角度。

3. 并行计算

RNN是串行的,必须处理完第一个词才能处理第二个词。Transformer可以并行处理所有词,大大加快了训练速度。

4. 位置编码(Positional Encoding)

由于没有循环结构,需要额外添加位置信息,让模型知道词语的顺序。

Transformer最初是为机器翻译设计的,但它的影响远不止于此。后来的BERT、GPT等大语言模型,都是基于Transformer架构。可以说,Transformer开启了大模型时代

八、大模型时代(2018-至今):从BERT到GPT-4

2018:BERT的双向理解

2018年10月,Google发布了BERT(Bidirectional Encoder Representations from Transformers),刷新了11项NLP任务的记录。

BERT的创新在于预训练+微调的范式:

预训练阶段:在海量无标注文本上训练(比如维基百科),学习通用的语言表示。训练任务包括:

  • 掩码语言模型(MLM)
    :随机遮住15%的词,让模型预测。比如"我爱[MASK]学习",预测出"AI"。
  • 下一句预测(NSP)
    :判断两个句子是否相邻。

微调阶段:在特定任务的少量标注数据上微调,快速适应新任务。

这个范式非常强大:预训练模型就像一个受过通识教育的人,学习新技能时能够快速上手。

BERT使用的是Transformer的Encoder部分,擅长理解任务,比如文本分类、问答、命名实体识别。

2018-2020:GPT系列的生成能力

几乎同时,OpenAI走了另一条路线。

GPT-1(2018年6月)

  • 使用Transformer的Decoder部分
  • 单向语言模型(从左到右预测下一个词)
  • 1.17亿参数
  • 提出了"预训练+微调"范式(比BERT早几个月,但影响力较小)

GPT-2(2019年2月)

  • 15亿参数(是GPT-1的13倍)
  • 在更大规模的数据集WebText上训练(800万网页,40GB文本)
  • 展现了零样本学习能力:不需要微调,直接完成任务

GPT-2的文本生成质量非常高,OpenAI担心被恶意使用(生成假新闻、垃圾邮件等),一开始只发布了小模型,完整版延迟了9个月才发布。这个决定引发了关于AI安全和开放性的大讨论。

GPT-3(2020年5月)

  • 1750亿参数(是GPT-2的100多倍)
  • 45TB训练数据
  • 展现了惊人的 少样本学习(Few-Shot Learning) 能力

GPT-3不需要微调,只需要在提示(Prompt)中给几个例子,就能完成各种任务:




    
把这些句子翻译成法语:
"Hello" → "Bonjour"
"Thank you" → "Merci"
"How are you?" → "Comment allez-vous?"
"I love AI" → ?

GPT-3会输出:"J'aime l'IA"

更神奇的是,GPT-3展现了一些涌现能力(Emergent Abilities):模型规模达到一定程度后,突然获得了训练时没有明确教授的能力,比如简单的数学推理、代码生成、甚至写小说。

规模定律:大力出奇迹?

2020年,OpenAI发表了关于 规模定律(Scaling Laws) 的研究,发现模型性能与三个因素呈幂律关系:

  • 模型参数量(N)
  • 训练数据量(D)
  • 计算量(C)

简单说就是:模型越大、数据越多、算力越强,效果越好。而且这个关系非常稳定,可以用来预测更大模型的性能。

这个发现引发了"大力出奇迹"的模型军备竞赛。各大公司和研究机构纷纷训练越来越大的模型。

2022:ChatGPT的现象级成功

2022年11月30日,OpenAI发布了ChatGPT。

技术上,ChatGPT基于GPT-3.5,并使用 RLHF(人类反馈强化学习) 进行优化:

第一步:监督微调(SFT) 人工标注员编写高质量的对话示例,微调GPT-3.5。

第二步:训练奖励模型(RM) 对同一个问题生成多个回答(比如4个),让标注员排序(A > B > D > C)。用这些排序数据训练一个奖励模型,学会给回答打分。

第三步:强化学习优化(PPO) 用奖励模型作为反馈,通过PPO算法(一种强化学习算法)优化ChatGPT,让它生成更高得分的回答。

这个过程让ChatGPT更符合人类偏好:

  • 更有帮助(Helpful):回答用户的真实需求
  • 更诚实(Honest):不编造不知道的信息
  • 更无害(Harmless):拒绝有害的请求

ChatGPT的成功超出了所有人的预期:

  • 5天破100万用户
  • 2个月破1亿用户(史上最快)
  • 引发全球AI热潮
  • 微软、Google、百度等巨头纷纷跟进

为什么ChatGPT比之前的模型更成功?

  1. 强大的基座模型
    :GPT-3.5本身能力就很强
  2. RLHF对齐
    :更符合人类使用习惯
  3. 对话形式
    :比API更友好,降低了使用门槛
  4. 免费开放
    :让普通人都能体验AI的力量
  5. 时机成熟
    :人们对AI的接受度提高

2023:百模大战

ChatGPT的成功引爆了大模型竞赛。2023年被称为"百模大战"元年。

国外主要模型

  • GPT-4(2023年3月)
    :OpenAI的多模态模型,支持图像输入,推理能力大幅提升
  • Claude(Anthropic)
    :强调安全性和可控性,上下文长度达到100K tokens
  • Gemini(Google)
    :多模态大模型,Ultra版本在多项基准测试中超过GPT-4
  • LLaMA(Meta)
    :开源模型,7B到65B多个版本,引发开源社区的创新浪潮

国内主要模型

  • 文心一言(百度)
    :2023年3月发布,中文能力强
  • 通义千问(阿里)
    :多模态能力,多个参数规模版本
  • 混元(腾讯)
    :超过1000亿参数
  • 星火(科大讯飞)
    :强调多模态交互
  • ChatGLM(清华)
    :开源模型,适合学术研究和个人开发

开源模型崛起: Meta的LLaMA泄露后,开源社区迅速跟进:

  • Alpaca
    :斯坦福基于LLaMA-7B微调,只用5万指令数据
  • Vicuna
    :性能接近ChatGPT的90%
  • WizardLM、Orca
    :改进的训练方法
  • LLaMA 2
    :Meta官方开源,可商用

开源模型证明了一个重要事实:不需要数千亿参数,通过高质量数据和改进的训练方法,小模型也能达到很好的效果

多模态大模型:不只是文字

图像生成

  • DALL-E 2(OpenAI)
    :文本生成图像,图像编辑
  • Stable Diffusion(Stability AI)
    :开源扩散模型,改变了图像生成领域
  • Midjourney
    :艺术创作的利器,生成质量极高
  • 文心一格、通义万相
    :国内的图像生成模型

视频生成

  • Runway Gen-2
    :文字和图像生成视频
  • Pika
    :视频编辑和生成

多模态理解

  • GPT-4V
    :支持图像输入,可以理解图表、识别图像内容
  • Gemini
    :原生多模态,可以同时处理文本、图像、音频、视频

九、AI的三种学习方式

了解了AI的发展历程,我们来看看AI是如何学习的。

监督学习:像老师教学生

核心思想:给机器大量的"问题+答案",让它学习规律。

就像教小孩认水果:

这是苹果(给图片+标签)
这是香蕉(给图片+标签)
这是橙子(给图片+标签)
...
现在给一张新图片,你说这是什么?

两大类型

分类(Classification):输出是类别

  • 垃圾邮件识别:垃圾/正常
  • 图像识别:猫/狗/鸟...
  • 疾病诊断:健康/患病

回归(Regression):输出是数值

  • 房价预测:根据面积、位置等预测价格
  • 股票预测:预测明天的股价
  • 温度预测:根据历史数据预测未来温度

优点:效果好,训练相对简单 缺点:需要大量标注数据,标注成本高

无监督学习:自己发现规律

核心思想:只给数据,不给标签,让机器自己找规律。

像让小孩自己给水果分类,他可能按颜色分(红色一组、黄色一组),也可能按形状分(圆形一组、长形一组)。具体怎么分,机器自己决定。

主要任务

聚类(Clustering):把相似的数据分到一组

  • 客户细分:根据购买行为把客户分组
  • 新闻分类:把相似主题的新闻聚在一起
  • 基因分类:根据基因特征把生物分组

降维(Dimensionality Reduction):减少特征数量,保留主要信息

  • 数据可视化:把高维数据投影到2D/3D,方便观察
  • 特征提取:去除冗余特征,提高模型效率
  • 图像压缩:保留主要信息,减小文件大小

优点:不需要标注,可以发现未知模式 缺点:结果难以评估,需要人工解释

强化学习:在试错中成长

核心思想:在与环境的交互中,通过奖励和惩罚学习最优策略。

就像训练宠物狗:

  • 做对了(坐下),给零食(奖励+10)
  • 做错了(咬人),批评(奖励-10)
  • 重复多次,狗就学会了什么该做、什么不该做

经典案例

AlphaGo

  • 状态:当前棋盘局面
  • 动作:在某个位置落子
  • 奖励:赢了+1,输了-1
  • 通过自我对弈百万局,学会了下围棋

游戏AI

  • OpenAI Five打DOTA 2
  • AlphaStar打星际争霸
  • 通过与自己或人类对手的对战,不断提升策略

自动驾驶

  • 状态:路况、车辆位置
  • 动作:加速、刹车、转向
  • 奖励:安全到达+10,撞车-100

推荐系统

  • 状态:用户历史行为
  • 动作:推荐某个物品
  • 奖励:用户点击+1,用户不感兴趣-1

优点:适合序列决策问题,可以发现超越人类的策略 缺点:训练困难,需要大量试错,可能不稳定

十、深度学习为何如此强大?

在理解了学习方式后,我们来看看深度学习相比传统方法的优势。

传统方法的局限

假设我们要识别图片中的猫。

传统方法需要人工设计特征:

  1. 提取边缘(猫有尖耳朵的轮廓)
  2. 检测纹理(猫有毛发的纹理)
  3. 分析颜色分布(猫可能是橘色、黑色、白色...)
  4. 计算形状特征(猫的身体比例) ...

然后把这些特征输入机器学习算法(如SVM)进行分类。

问题

  • 特征设计需要领域专家,费时费力
  • 不同任务需要不同特征,无法通用
  • 复杂场景下(如猫被遮挡、侧面、蜷缩),手工特征容易失效
  • 高维数据(如图像是几十万个像素)难以处理

深度学习的优势

端到端学习:直接从原始像素到类别,不需要人工设计特征。

传统方法:
原始图像 → 人工特征提取 → 机器学习模型 → 分类结果

深度学习:
原始图像 → 神经网络 → 分类结果

层次化表示学习

  • 第1层:检测边缘、颜色
  • 第2层:组合边缘形成纹理、简单形状
  • 第3层:检测物体的部分(耳朵、眼睛、尾巴)
  • 第4层:识别完整的物体(猫)

每一层都在前一层的基础上抽象出更高级的特征,最终形成对"猫"的整体理解。

强大的表达能力: 理论上,足够深的神经网络可以逼近任意函数(通用逼近定理)。这意味着,只要数据足够,网络足够大,深度学习几乎可以学习任何规律。

规模效应

  • 传统方法:数据增加到一定程度后,性能提升趋于平缓
  • 深度学习:数据越多、模型越大,效果持续提升

这就是为什么互联网巨头在深度学习时代占据优势——它们有海量数据。

深度学习成功的三大要素

大数据

  • ImageNet:120万标注图像
  • GPT-3:45TB文本数据
  • 互联网提供了前所未有的数据规模

大算力

  • GPU:相比CPU,训练速度提升10-100倍
  • TPU:Google专为深度学习设计的芯片
  • 分布式训练:用成百上千个GPU并行训练

好算法

  • ReLU激活函数:缓解梯度消失
  • Dropout:防止过拟合
  • Batch Normalization:加速训练
  • 残差连接:使超深网络成为可能
  • Transformer:并行计算、长距离依赖建模

十一、大模型的关键技术

预训练+微调:站在巨人的肩膀上

传统方法:每个任务从头训练一个模型

  • 图像分类:训练一个分类器
  • 目标检测:训练一个检测器
  • 语义分割:训练一个分割器
  • 每次都要大量标注数据,训练很久

预训练+微调

  1. 预训练
    :在海量无标注数据上学习通用表示(可能训练数周到数月)
  2. 微调
    :在特定任务的少量标注数据上快速适应(可能只需几小时)

好处

  • 节省数据:特定任务只需少量标注
  • 节省时间:微调比从头训练快得多
  • 效果更好:预训练模型已经学到了丰富的知识

类比

  • 从头训练:让一个人从婴儿开始学习,直接学习某个专业技能(如法律)
  • 预训练+微调:让一个受过通识教育的成年人,学习专业技能

提示工程:如何和AI对话

大模型(尤其是GPT-3之后)有个神奇的能力:不需要微调,只需要设计好提示词(Prompt),就能完成任务

基础提示

翻译成英语:我爱人工智能

改进提示(加上角色和格式要求)

你是一位专业的英语翻译。请将下面的中文翻译成地道的英语。

中文:我爱人工智能
英语:

少样本提示(Few-Shot)

请将数字转换为中文大写:

1 → 壹
2 → 贰
10 → 拾
25 → ?

思维链提示(Chain-of-Thought): 让模型一步步思考,提高复杂推理的准确率。

普通提示:
问:张三有5个苹果,给了李四2个,又买了3个,现在有几个?
答:6个

思维链提示:
问:张三有5个苹果,给了李四2个,又买了3个,现在有几个?
答:让我们一步步思考:
1. 张三开始有5个苹果
2. 给了李四2个,剩下5-2=3个
3. 又买了3个,最后有3+3=6个
所以答案是6个。

研究发现,加上"让我们一步步思考"这样的提示,模型在数学、逻辑推理等任务上的准确率能提升10-20%。

LoRA:高效微调大模型

GPT-3有1750亿参数,全量微调需要巨大的显存和时间。有没有办法只训练一小部分参数,就达到接近全量微调的效果?

LoRA(Low-Rank Adaptation) 就是这样的技术:

原理:冻结原始权重矩阵W,训练两个小矩阵A和B

原始:W (比如 4096×4096,约1600万参数)
LoRA:W保持不变,训练 A (4096×8) 和 B (8×4096)
新权重:W' = W + AB

这样只需要训练约6.5万参数(是原来的0.4%),就能达到全量微调90%以上的效果。

好处

  • 显存需求大幅降低(可以在消费级GPU上微调大模型)
  • 训练速度快
  • 可以为不同任务训练多个LoRA,快速切换
  • 原始模型不变,方便分享和部署

模型量化:让大模型跑在手机上

GPT-3完整模型需要350GB显存(1750亿参数 × 2字节/参数),普通人根本用不起。

量化技术可以大幅减小模型:

FP32 → FP16

  • 单精度(32位浮点)→ 半精度(16位浮点)
  • 模型大小减半
  • 精度损失很小(<1%)

FP16 → INT8

  • 半精度 → 8位整数
  • 模型大小再减半(相比FP32减少75%)
  • 推理速度提升2-4倍
  • 精度损失2-5%

INT8 → INT4

  • 4位整数量化
  • 模型大小减少87.5%(相比FP32)
  • 一些质量损失,但大多数应用可接受

例子

  • LLaMA-7B原始模型:13GB
  • INT8量化后:7GB(可以在很多显卡上运行)
  • INT4量化后:3.5GB(可以在手机上运行)

十二、AI的应用场景

计算机视觉

图像分类:判断图片内容

  • 医疗影像诊断:肺炎、肿瘤检测
  • 质量检测:工业产品瑕疵识别
  • 农业:作物病虫害识别

目标检测:找出图片中的物体及位置

  • 自动驾驶:检测行人、车辆、红绿灯
  • 安防监控:异常行为检测
  • 零售:无人超市的商品识别

图像分割:精确划分图片的每个像素

  • 医疗:器官、病灶的精确分割
  • 遥感:土地利用分类
  • 视频编辑:智能抠图、背景替换

人脸识别

  • 手机解锁
  • 门禁考勤
  • 支付验证
  • 罪犯追踪(有争议)

图像生成

  • Midjourney、Stable Diffusion:艺术创作、设计辅助
  • 老照片修复、上色
  • 医学图像增强

自然语言处理

文本分类

  • 情感分析:评论是正面还是负面
  • 新闻分类:自动归类到科技、体育、娱乐等
  • 垃圾邮件过滤

命名实体识别

  • 从文本中提取人名、地名、组织机构
  • 知识图谱构建
  • 信息检索

机器翻译

  • Google翻译、DeepL
  • 实时字幕翻译
  • 跨语言搜索

问答系统

  • ChatGPT、Claude等对话AI
  • 智能客服
  • 搜索引擎的直接回答

文本生成

  • AI写作:新闻、营销文案
  • 代码生成:GitHub Copilot、Cursor
  • 摘要生成:长文档自动总结

语音技术

语音识别(ASR)

  • 语音输入法
  • 会议转写
  • 智能音箱
  • OpenAI的Whisper:支持98种语言,准确率接近人类

语音合成(TTS)

  • 有声读物
  • 导航语音
  • 虚拟主播
  • 辅助视障人士

声纹识别

  • 银行身份验证
  • 声控解锁

推荐系统

协同过滤

  • 根据"相似用户喜欢相似物品"推荐
  • 亚马逊的"购买此商品的用户还买了..."

深度学习推荐

  • 抖音、快手的短视频推荐
  • 淘宝、京东的商品推荐
  • Netflix的电影推荐
  • YouTube的视频推荐

多模态推荐

  • 结合商品图片、标题、评论、用户行为
  • 更精准的个性化推荐

其他重要应用

自动驾驶

  • 感知:摄像头、激光雷达检测路况
  • 决策:规划行驶路线
  • 控制:转向、加速、刹车
  • 代表:Tesla FSD、Waymo、百度Apollo

医疗健康

  • 疾病诊断:从医学影像诊断疾病,某些领域准确率超过医生
  • 药物发现:AI筛选候选药物分子,大幅缩短研发周期
  • 蛋白质结构预测:AlphaFold解决了50年的生物学难题

金融科技

  • 欺诈检测:实时识别异常交易
  • 信用评分:评估贷款风险
  • 量化交易:AI分析市场,自动交易
  • 智能投顾:个性化投资建议

科学研究

  • 天文:从海量数据中发现新天体
  • 气象:更准确的天气预报
  • 材料科学:发现新材料
  • 核聚变:Google用AI优化了核聚变反应堆的控制

十三、AI发展的四个时代

回顾70多年的历史,可以总结出四个时代:

规则时代(1950-1980)

  • 核心:人工编写规则和知识
  • 代表:专家系统
  • 局限:知识获取困难,无法学习

统计时代(1980-2010)

  • 核心:从数据中学习规律
  • 代表:SVM、随机森林
  • 局限:依赖人工特征工程

深度学习时代(2010-2020)

  • 核心:端到端学习,自动特征提取
  • 代表:CNN、RNN、Transformer
  • 突破:大数据+大算力+深度神经网络

大模型时代(2020-至今)

  • 核心:预训练大模型+提示学习
  • 代表:GPT、BERT、多模态模型
  • 特点:涌现能力、少样本学习、通用性强

十四、写在最后

从图灵提出"机器能思考吗",到ChatGPT引发全球AI热潮,人工智能走过了曲折但壮丽的70年。

这条路上有两次寒冬,无数研究者在质疑中坚持;有ImageNet的惊天逆转,证明深度学习的威力;有AlphaGo的"神之一手",展现AI超越人类的可能;有ChatGPT的现象级成功,让AI真正走进千家万户。

今天的AI已经可以:

  • 写出流畅的文章和代码
  • 生成逼真的图像和视频
  • 理解和翻译多种语言
  • 诊断疾病、发现新药
  • 辅助科学研究、提升工作效率

但我们也要清醒地认识到,当前的AI仍然是"弱人工智能"——只能在特定任务上表现出色,缺乏真正的理解、常识和通用智能。通往"强人工智能"的路还很漫长。

不过,AI的发展速度超乎想象。谁能想到,仅仅10年前,图像识别的准确率还不如人类,而现在已经远远超过。谁又能预测,10年后的AI会是什么样子?

唯一可以确定的是:AI时代已经来临,它将深刻地改变我们的工作、生活和思考方式。

了解AI的历史,不只是为了满足好奇心,更是为了更好地理解现在,把握未来。


关键时间线:

  • 1950:图灵测试
  • 1956:达特茅斯会议,AI诞生
  • 1958:感知机
  • 1969:感知机局限性被证明
  • 1974-1980:第一次AI寒冬
  • 1986:反向传播算法
  • 1987-1993:第二次AI寒冬
  • 1997:深蓝战胜国际象棋冠军
  • 2006:深度信念网络,深度学习复兴
  • 2012:AlexNet,深度学习革命
  • 2016:AlphaGo战胜李世石
  • 2017:Transformer架构
  • 2018:BERT、GPT-1
  • 2020:GPT-3
  • 2022:ChatGPT
  • 2023:百模大战,多模态爆发

图片图片

文章精选:

1.AI六巨头首次同台!纵论四十年AI风云、泡沫之辩与AGI时间表
2.李飞飞和LeCun的世界模型之争
3.李飞飞重磅长文:超越语言模型,空间智能是AI的下一个十年
4.AI教母李飞飞万字长文引爆硅谷!大语言模型路线错了,它才是走向AGI的唯一路径
5.图灵奖得主Yoshua Bengio,刚刚成为全球首个百万引用科学家!
6.AI教父、图灵奖和诺贝尔奖得主辛顿接受CBS专访:AI现在是人类养的可爱的小老虎,要谨防反噬其主
7.图灵奖得主Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
8.图灵奖得主、强化学习之父Rich Sutton:大语言模型是一个错误的起点
9.图灵奖得主杨立昆:大语言模型缺乏对物理世界的理解和推理能力,无法实现人类水平智能
10.图灵奖得主杰弗里·辛顿:从小语言到大语言,人工智能究竟如何理解人类?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189975