2022年11月,ChatGPT横空出世,仅用2个月就突破1亿用户,成为有史以来增长最快的应用。这个能写诗、能编程、能辩论的AI助手,让全世界都在讨论:人工智能的时代真的来了。但你知道吗?从1950年图灵提出那个著名的测试,到今天ChatGPT惊艳世界,人工智能已经走过了70多年的漫长历程。这条路上有辉煌、有低谷、有突破、也有挫折。
一、什么是人工智能?先搞清楚这三个概念
很多人把"人工智能"、"机器学习"、"深度学习"混为一谈。其实它们是包含关系:
人工智能(AI)
是最大的圈,包含所有让机器展现智能的技术。比如让电脑下象棋、识别人脸、理解语言,都属于人工智能。
机器学习(ML) 是人工智能的一个分支,核心思想是"让机器从数据中学习规律",而不是人工编写规则。就像教小孩认苹果,不是告诉他"红色的、圆形的、有果柄的就是苹果",而是给他看一百个苹果,让他自己总结规律。
深度学习(DL) 是机器学习的一个子集,使用多层神经网络模拟人脑的学习过程。AlphaGo、ChatGPT、Stable Diffusion都是深度学习的产物。
它们的关系可以这样理解:
人工智能(最广)
└─ 机器学习(从数据学习)
└─ 深度学习(神经网络)
└─ 大语言模型(GPT、BERT等)
从技术路线看,人工智能发展出了三大流派:
符号主义:用逻辑和规则表示知识。1980年代的专家系统就是典型代表,医生把诊断规则编成程序,电脑就能帮忙诊病。优点是逻辑清晰,缺点是规则太复杂时难以维护。
连接主义:模仿人脑神经元的工作方式。现在火爆的深度学习就属于这一派。优点是学习能力强,缺点是需要海量数据,而且难以解释为什么做出某个决策。
行为主义:通过与环境交互来学习最优策略。强化学习就是这一派的代表,AlphaGo就是用强化学习战胜了李世石。
二、起源(1950-1956):一切从图灵的问题开始
图灵测试:如何判断机器是否有智能?
1950年,计算机科学之父艾伦·图灵在《思想》杂志上发表了一篇论文,提出了一个至今仍在争论的问题:机器能思考吗?
为了回答这个问题,图灵设计了一个测试:让一个人通过文字和两个对象交流,一个是真人,一个是机器。如果测试者无法分辨哪个是机器,那就说明机器具有了智能。
这个测试看似简单,实则深刻。它把哲学问题转化为了可操作的实验。70多年过去了,虽然ChatGPT在某些对话中能"骗过"人类,但真正通过图灵测试的AI还没有出现——因为机器在常识推理、情感理解等方面仍然和人类有巨大差距。
达特茅斯会议:人工智能的正式诞生
1956年夏天,约翰·麦卡锡、马文·明斯基等10位科学家在达特茅斯学院开了一个会。他们在提案中写道:
"我们认为,如果一个精心挑选的科学家小组在一起工作一个夏天,就能在使机器使用语言、形成抽象概念方面取得重大进展。"
这个乐观得有些天真的预测,标志着"人工智能"作为一个独立学科的诞生。
会议讨论了七个主题:自动计算机、语言模拟、神经网络、计算规模理论、自我改进、抽象概念、随机性与创造性。有趣的是,这些话题到今天仍然是AI研究的核心。
不过,他们远远低估了人工智能的难度。原本以为一个夏天能解决的问题,实际上花了70年,至今仍在探索。
三、第一次繁荣与寒冬(1956-1980):从狂热到幻灭
早期的成功让人过度乐观
1958年,心理学家弗兰克·罗森布拉特发明了感知机(Perceptron),这是最早的神经网络模型。他兴奋地宣称:"感知机将能够走路、说话、看见、写字、自我复制,并且意识到自己的存在。"
《纽约时报》甚至报道说:"美国海军今天展示了一台电子计算机的雏形,它有望能够行走、说话、看见、书写、自我复制,并且能够意识到自己的存在。"
可惜现实很快就给了他们一记响亮的耳光。
1969年,明斯基和帕普特出版了《感知机》一书,严格证明了感知机连最简单的"异或"问题都解决不了。这个打击是致命的,神经网络研究陷入了长达十几年的低谷。
与此同时,专家系统开始兴起。科学家们想:既然模拟神经元太难,为什么不直接把专家的知识编成规则呢?
1965年,斯坦福开发了DENDRAL系统,用来分析化学分子结构。1972年的MYCIN系统能够诊断血液感染,准确率甚至超过了普通医生。
但专家系统有个致命缺陷:知识获取瓶颈。把一个领域专家的所有知识都编成规则,太费时费力了。而且规则一多,系统就变得难以维护,加一条新规则可能和旧规则冲突。
第一次AI寒冬
到了1970年代,AI的局限性暴露无遗:
1973年,英国科学研究委员会委托詹姆斯·莱特希尔教授评估AI研究。他的报告毫不留情:AI研究未能实现其"宏伟的目标",大部分研究只是"组合拳击"(combinatorial explosion的双关语,指问题空间爆炸)。
报告发布后,英国几乎停止了所有AI研究资金。美国的DARPA也大幅削减了AI经费。第一次AI寒冬来临,许多研究者转行,实验室关闭。
四、第二次繁荣与寒冬(1980-1993):专家系统的黄金时代
商业化带来的短暂复苏
1980年代初,专家系统迎来了商业化的春天。
1980年,卡内基梅隆大学开发的XCON系统帮助DEC公司配置计算机订单,每年节省数千万美元。这个成功案例让企业看到了AI的商业价值。
日本政府在1982年启动了雄心勃勃的"第五代计算机"项目,投入数亿美元,目标是开发能够进行推理和学习的智能计算机。这个项目刺激了美国和欧洲,掀起了新一轮AI投资热潮。
到1985年,AI产业的规模已经达到10亿美元。各种专家系统如雨后春笋般涌现:医疗诊断、金融分析、设备故障检测……
神经网络的复兴曙光
就在专家系统如日中天的时候,一个被遗忘的研究方向悄悄复苏了。
1986年,鲁梅尔哈特、辛顿等人重新发现并推广了反向传播算法。这个算法解决了多层神经网络的训练问题,为后来的深度学习革命埋下了伏笔。
不过当时的计算能力和数据量还无法支撑大规模的神经网络训练,所以这个突破并没有立即引发革命。
第二次AI寒冬
好景不长,专家系统的问题开始显现:
维护成本高昂:一个大型专家系统可能有上万条规则,修改一条规则需要检查是否和其他规则冲突。
知识获取困难:从专家那里提取知识是个艰难的过程,有些知识专家自己都说不清楚,属于"只可意会不可言传"的隐性知识。
缺乏学习能力:专家系统不会从经验中学习,所有知识都要人工添加。
脆弱性:遇到训练范围外的问题就会失效。
1987年,Lisp机器市场崩溃(Lisp是开发AI的主要语言,专门的Lisp计算机价格昂贵)。桌面PC的性能快速提升,专用AI硬件失去了市场。
日本的"第五代计算机"项目也在1992年黯然收场,投入巨大却没有达到预期目标。
第二次AI寒冬降临,比第一次更加严重。"人工智能"成了一个负面词汇,研究者们避免使用这个术语,转而使用"信息学"、"知识系统"等说法。
五、复苏期(1993-2011):机器学习的崛起
从规则到统计:范式转变
经历了两次寒冬,AI研究者们反思:为什么总是失败?
答案逐渐清晰:手工编写规则的路走不通,必须让机器自己从数据中学习规律。
这个思路并不新鲜,但直到1990年代,计算能力的提升和数据的积累才使其成为可能。
1995年,弗拉基米尔·万普尼克提出了支持向量机(SVM),凭借坚实的理论基础和出色的性能,迅速成为机器学习的主流方法。在深度学习兴起之前,SVM几乎是分类任务的首选。
1997年,IBM的"深蓝"超级计算机击败了国际象棋世界冠军卡斯帕罗夫。虽然深蓝主要靠暴力搜索而非真正的学习,但这场胜利极大地提振了人们对AI的信心。
2001年,利奥·布雷曼提出随机森林算法,集成学习成为热门方向。
深度学习的前奏
2006年,杰弗里·辛顿提出了深度信念网络(DBN),用逐层预训练的方法解决了深度网络训练困难的问题。这篇论文发表在《科学》杂志上,标志着深度学习研究的重启。
虽然当时影响力有限,但辛顿的坚持为几年后的深度学习革命铺平了道路。
2011年,IBM的Watson在智力竞赛节目《Jeopardy!》中击败了人类冠军。Watson结合了自然语言处理、知识图谱、机器学习等多种技术,展现了AI在理解和回答复杂问题方面的潜力。
此时,AI研究的氛围已经完全不同于寒冬时期。互联网的发展带来了海量数据,摩尔定律带来了强大的计算能力,机器学习方法日益成熟。一场革命即将到来。
六、深度学习革命(2012-2017):神经网络的王者归来
2012:ImageNet的惊天逆转
2012年9月30日,ImageNet图像识别竞赛结果公布。多伦多大学的Alex Krizhevsky团队提交的AlexNet模型,错误率只有16.4%,远远超过第二名的26.2%。
这个10个百分点的差距震惊了整个计算机视觉界。要知道,前几年的进步都是零点几个百分点。
更重要的是,前几名全是传统方法,只有AlexNet使用了深度卷积神经网络。这个对比太鲜明了,所有人都意识到:游戏规则变了。
AlexNet有哪些创新?
1. 使用ReLU激活函数
传统的Sigmoid函数有个问题:当输入很大或很小时,梯度接近0,导致网络难以训练(梯度消失)。
ReLU(Rectified Linear Unit)非常简单:f(x) = max(0, x)。负数输出0,正数原样输出。这个简单的函数却带来了巨大的好处:
2. Dropout正则化
训练时随机"关闭"一些神经元(比如50%的概率),强制网络不能过度依赖某几个神经元,从而提高泛化能力。
可以这样理解:就像一个团队,如果总是让同一个人做某项工作,他请假时团队就无法运转。如果让大家轮流做,每个人都有能力,团队就更健壮。
3. 数据增强
随机裁剪、翻转、调整亮度和对比度,从一张图片生成多个变体,扩充训练数据。
4. GPU加速
使用两块NVIDIA GTX 580显卡并行训练,把训练时间从数周缩短到几天。这证明了GPU对深度学习的重要性,后来NVIDIA的股价也因AI而暴涨。
ImageNet竞赛:错误率的飞速下降
AlexNet之后,深度学习成为ImageNet竞赛的主流。看看错误率的下降速度:
2010年: 28.2% (传统方法)
2011年: 25.8% (传统方法)
2012年: 16.4% (AlexNet,深度学习首次参赛)
2013年: 11.7% (ZFNet)
2014年: 6.7% (VGGNet, GoogLeNet)
2015年: 3.6% (ResNet)
2017年: 2.3% (SENet)
人类水平: ~5%
仅仅5年时间,AI就从远远落后人类,到超越人类。
VGGNet:深度的力量
2014年,牛津大学的VGG团队证明了一个简单的道理:网络越深,效果越好。
VGGNet全部使用3×3的小卷积核,但堆叠了16-19层。虽然参数量巨大(138M),但性能出色。
更重要的是,VGGNet的结构非常规整,容易理解和修改,成为后来很多工作的基准模型。
GoogLeNet:Inception的多尺度思想
同样在2014年,Google的团队提出了GoogLeNet(为了致敬LeNet,拼写成了GoogLeNet)。
它的核心是Inception模块:在同一层同时使用1×1、3×3、5×5的卷积核,以及池化操作,然后把结果拼接起来。这样可以同时捕捉不同尺度的特征。
而且通过1×1卷积降维,大大减少了参数量(只有500万参数,比VGGNet少得多),计算效率很高。
ResNet:残差连接的突破
2015年,微软亚洲研究院的何恺明团队提出了ResNet,这是深度学习历史上的又一个里程碑。
他们发现一个违反直觉的现象:当网络层数超过一定深度(比如20层)后,训练准确率反而下降。这不是过拟合(过拟合是测试准确率下降,训练准确率仍然很高),而是网络根本训练不好。
何恺明的解决方案极其简洁:加一条跳跃连接。
传统网络学习的是H(x),ResNet学习的是残差F(x) = H(x) - x,然后输出F(x) + x。
这个简单的改变带来了革命性的效果:
残差连接后来成为几乎所有深度网络的标配。
七、NLP的革命(2013-2017):从Word2Vec到Transformer
深度学习不仅改变了计算机视觉,也彻底革新了自然语言处理。
Word2Vec:词语的向量表示
2013年,Google的Tomas Mikolov提出了Word2Vec,用神经网络学习词语的向量表示。
之前词语是用one-hot编码(一个词在词表中的位置为1,其他位置为0),这种表示没有捕捉任何语义信息。
Word2Vec学到的词向量有个神奇的性质:语义相近的词,向量也相近。而且支持向量运算:
king - man + woman ≈ queen
Paris - France + Italy ≈ Rome
这个突破让NLP任务的性能大幅提升。
Seq2Seq:序列到序列学习
2014年,Google提出了Seq2Seq模型,使用编码器-解码器架构(Encoder-Decoder)处理机器翻译。
编码器读取源语言句子,压缩成一个固定长度的向量(称为"思想向量"),解码器从这个向量生成目标语言句子。
这个框架统一了很多NLP任务:机器翻译、文本摘要、对话系统……都可以看作序列到序列的转换。
注意力机制:不要遗忘重要信息
Seq2Seq有个问题:长句子的信息很难完全压缩到一个固定长度的向量里,导致翻译长句子时效果下降。
2015年,Bahdanau等人提出了注意力机制(Attention)。解码器在生成每个词时,可以"关注"源句子的不同部分,而不是只看那个固定的向量。
比如翻译"我爱人工智能"到"I love artificial intelligence"时:
- 生成"artificial intelligence"时关注"人工智能"
注意力机制大幅提升了翻译质量,更重要的是,它启发了后来的Transformer架构。
2016:AlphaGo震惊世界
2016年3月,DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石。
围棋的复杂度远超国际象棋(可能的棋局数量是10的170次方,宇宙原子数才10的80次方),被认为是AI的终极挑战之一。很多专家预测AI至少还需要10年才能达到人类水平。
AlphaGo的胜利提前了至少10年。
它结合了多种技术:
更震撼的是AlphaGo的第37手(第二局)和第78手(第四局),那些违反人类直觉的"神之一手",让人们意识到:AI不只是在模仿人类,它可能发现了人类没有发现的规律。
2017:Transformer横空出世
2017年6月,Google Brain团队发表了论文《Attention is All You Need》,提出了Transformer架构。
这篇论文的标题很有意思:只需要注意力机制就够了。它抛弃了之前NLP中常用的循环神经网络(RNN)和卷积神经网络(CNN),完全基于注意力机制。
Transformer的核心创新:
1. 自注意力(Self-Attention)
让句子中的每个词都和其他所有词计算相关性,从而捕捉长距离依赖关系。
比如"银行"这个词,在"河岸"和"金融机构"两个语境中含义不同,自注意力机制可以根据上下文动态调整"银行"的表示。
2. 多头注意力(Multi-Head Attention)
不是只计算一次注意力,而是并行计算多次(比如8次),每次关注不同的方面,然后拼接起来。
就像我们理解一句话时,会同时关注语法、语义、情感等多个角度。
3. 并行计算
RNN是串行的,必须处理完第一个词才能处理第二个词。Transformer可以并行处理所有词,大大加快了训练速度。
4. 位置编码(Positional Encoding)
由于没有循环结构,需要额外添加位置信息,让模型知道词语的顺序。
Transformer最初是为机器翻译设计的,但它的影响远不止于此。后来的BERT、GPT等大语言模型,都是基于Transformer架构。可以说,Transformer开启了大模型时代。
八、大模型时代(2018-至今):从BERT到GPT-4
2018:BERT的双向理解
2018年10月,Google发布了BERT(Bidirectional Encoder Representations from Transformers),刷新了11项NLP任务的记录。
BERT的创新在于预训练+微调的范式:
预训练阶段:在海量无标注文本上训练(比如维基百科),学习通用的语言表示。训练任务包括:
- 掩码语言模型(MLM):随机遮住15%的词,让模型预测。比如"我爱[MASK]学习",预测出"AI"。
- 下一句预测(NSP)
微调阶段:在特定任务的少量标注数据上微调,快速适应新任务。
这个范式非常强大:预训练模型就像一个受过通识教育的人,学习新技能时能够快速上手。
BERT使用的是Transformer的Encoder部分,擅长理解任务,比如文本分类、问答、命名实体识别。
2018-2020:GPT系列的生成能力
几乎同时,OpenAI走了另一条路线。
GPT-1(2018年6月):
- 提出了"预训练+微调"范式(比BERT早几个月,但影响力较小)
GPT-2(2019年2月):
- 在更大规模的数据集WebText上训练(800万网页,40GB文本)
GPT-2的文本生成质量非常高,OpenAI担心被恶意使用(生成假新闻、垃圾邮件等),一开始只发布了小模型,完整版延迟了9个月才发布。这个决定引发了关于AI安全和开放性的大讨论。
GPT-3(2020年5月):
- 展现了惊人的 少样本学习(Few-Shot Learning)
能力
GPT-3不需要微调,只需要在提示(Prompt)中给几个例子,就能完成各种任务:
把这些句子翻译成法语:
"Hello" → "Bonjour"
"Thank you" → "Merci"
"How are you?" → "Comment allez-vous?"
"I love AI" → ?
GPT-3会输出:"J'aime l'IA"
更神奇的是,GPT-3展现了一些涌现能力(Emergent Abilities):模型规模达到一定程度后,突然获得了训练时没有明确教授的能力,比如简单的数学推理、代码生成、甚至写小说。
规模定律:大力出奇迹?
2020年,OpenAI发表了关于 规模定律(Scaling Laws) 的研究,发现模型性能与三个因素呈幂律关系:
简单说就是:模型越大、数据越多、算力越强,效果越好。而且这个关系非常稳定,可以用来预测更大模型的性能。
这个发现引发了"大力出奇迹"的模型军备竞赛。各大公司和研究机构纷纷训练越来越大的模型。
2022:ChatGPT的现象级成功
2022年11月30日,OpenAI发布了ChatGPT。
技术上,ChatGPT基于GPT-3.5,并使用 RLHF(人类反馈强化学习) 进行优化:
第一步:监督微调(SFT) 人工标注员编写高质量的对话示例,微调GPT-3.5。
第二步:训练奖励模型(RM) 对同一个问题生成多个回答(比如4个),让标注员排序(A > B > D > C)。用这些排序数据训练一个奖励模型,学会给回答打分。
第三步:强化学习优化(PPO) 用奖励模型作为反馈,通过PPO算法(一种强化学习算法)优化ChatGPT,让它生成更高得分的回答。
这个过程让ChatGPT更符合人类偏好:
ChatGPT的成功超出了所有人的预期:
为什么ChatGPT比之前的模型更成功?
- 强大的基座模型
- RLHF对齐
- 对话形式
- 免费开放
- 时机成熟
2023:百模大战
ChatGPT的成功引爆了大模型竞赛。2023年被称为"百模大战"元年。
国外主要模型:
- GPT-4(2023年3月):OpenAI的多模态模型,支持图像输入,推理能力大幅提升
- Claude(Anthropic):强调安全性和可控性,上下文长度达到100K tokens
- Gemini(Google):多模态大模型,Ultra版本在多项基准测试中超过GPT-4
- LLaMA(Meta):开源模型,7B到65B多个版本,引发开源社区的创新浪潮
国内主要模型:
- 文心一言(百度)
- 通义千问(阿里)
- 混元(腾讯)
- 星火(科大讯飞)
- ChatGLM(清华)
开源模型崛起: Meta的LLaMA泄露后,开源社区迅速跟进:
-
Alpaca:斯坦福基于LLaMA-7B微调,只用5万指令数据
- Vicuna
- WizardLM、Orca
- LLaMA 2
开源模型证明了一个重要事实:不需要数千亿参数,通过高质量数据和改进的训练方法,小模型也能达到很好的效果。
多模态大模型:不只是文字
图像生成:
- DALL-E 2(OpenAI)
- Stable Diffusion(Stability AI)
- Midjourney
- 文心一格、通义万相
视频生成:
多模态理解:
九、AI的三种学习方式
了解了AI的发展历程,我们来看看AI是如何学习的。
监督学习:像老师教学生
核心思想:给机器大量的"问题+答案",让它学习规律。
就像教小孩认水果:
这是苹果(给图片+标签)
这是香蕉(给图片+标签)
这是橙子(给图片+标签)
...
现在给一张新图片,你说这是什么?
两大类型:
分类(Classification):输出是类别
回归(Regression):输出是数值
优点:效果好,训练相对简单 缺点:需要大量标注数据,标注成本高
无监督学习:自己发现规律
核心思想:只给数据,不给标签,让机器自己找规律。
像让小孩自己给水果分类,他可能按颜色分(红色一组、黄色一组),也可能按形状分(圆形一组、长形一组)。具体怎么分,机器自己决定。
主要任务:
聚类(Clustering):把相似的数据分到一组
降维(Dimensionality Reduction):减少特征数量,保留主要信息
优点:不需要标注,可以发现未知模式 缺点:结果难以评估,需要人工解释
强化学习:在试错中成长
核心思想:在与环境的交互中,通过奖励和惩罚学习最优策略。
就像训练宠物狗:
经典案例:
AlphaGo:
游戏AI:
自动驾驶:
推荐系统:
优点:适合序列决策问题,可以发现超越人类的策略 缺点:训练困难,需要大量试错,可能不稳定
十、深度学习为何如此强大?
在理解了学习方式后,我们来看看深度学习相比传统方法的优势。
传统方法的局限
假设我们要识别图片中的猫。
传统方法需要人工设计特征:
然后把这些特征输入机器学习算法(如SVM)进行分类。
问题:
- 复杂场景下(如猫被遮挡、侧面、蜷缩),手工特征容易失效
深度学习的优势
端到端学习:直接从原始像素到类别,不需要人工设计特征。
传统方法:
原始图像 → 人工特征提取 → 机器学习模型 → 分类结果
深度学习:
原始图像 → 神经网络 → 分类结果
层次化表示学习:
每一层都在前一层的基础上抽象出更高级的特征,最终形成对"猫"的整体理解。
强大的表达能力
: 理论上,足够深的神经网络可以逼近任意函数(通用逼近定理)。这意味着,只要数据足够,网络足够大,深度学习几乎可以学习任何规律。
规模效应:
这就是为什么互联网巨头在深度学习时代占据优势——它们有海量数据。
深度学习成功的三大要素
大数据:
大算力:
好算法:
十一、大模型的关键技术
预训练+微调:站在巨人的肩膀上
传统方法:每个任务从头训练一个模型
预训练+微调:
- 预训练:在海量无标注数据上学习通用表示(可能训练数周到数月)
- 微调:在特定任务的少量标注数据上快速适应(可能只需几小时)
好处:
类比:
- 从头训练:让一个人从婴儿开始学习,直接学习某个专业技能(如法律)
- 预训练+微调:让一个受过通识教育的成年人,学习专业技能
提示工程:如何和AI对话
大模型(尤其是GPT-3之后)有个神奇的能力:不需要微调,只需要设计好提示词(Prompt),就能完成任务。
基础提示:
翻译成英语:我爱人工智能
改进提示(加上角色和格式要求):
你是一位专业的英语翻译。请将下面的中文翻译成地道的英语。
中文:我爱人工智能
英语:
少样本提示(Few-Shot):
请将数字转换为中文大写:
1 → 壹
2 → 贰
10 → 拾
25 → ?
思维链提示(Chain-of-Thought): 让模型一步步思考,提高复杂推理的准确率。
普通提示:
问:张三有5个苹果,给了李四2个,又买了3个,现在有几个?
答:6个
思维链提示:
问:张三有5个苹果,给了李四2个,又买了3个,现在有几个?
答:让我们一步步思考:
1. 张三开始有5个苹果
2. 给了李四2个,剩下5-2=3个
3. 又买了3个,最后有3+3=6个
所以答案是6个。
研究发现,加上"让我们一步步思考"这样的提示,模型在数学、逻辑推理等任务上的准确率能提升10-20%。
LoRA:高效微调大模型
GPT-3有1750亿参数,全量微调需要巨大的显存和时间。有没有办法只训练一小部分参数,就达到接近全量微调的效果?
LoRA(Low-Rank Adaptation) 就是这样的技术:
原理:冻结原始权重矩阵W,训练两个小矩阵A和B
原始:W (比如 4096×4096,约1600万参数)
LoRA:W保持不变,训练 A (4096×8) 和 B (8×4096)
新权重:W' = W + AB
这样只需要训练约6.5万参数(是原来的0.4%),就能达到全量微调90%以上的效果。
好处:
- 显存需求大幅降低(可以在消费级GPU上微调大模型)
模型量化:让大模型跑在手机上
GPT-3完整模型需要350GB显存(1750亿参数 × 2字节/参数),普通人根本用不起。
量化技术可以大幅减小模型:
FP32 → FP16:
FP16 → INT8:
INT8 → INT4:
例子:
十二、AI的应用场景
计算机视觉
图像分类:判断图片内容
目标检测:找出图片中的物体及位置
图像分割:精确划分图片的每个像素
人脸识别:
图像生成:
- Midjourney、Stable Diffusion:艺术创作、设计辅助
自然语言处理
文本分类:
命名实体识别:
机器翻译:
问答系统:
文本生成:
- 代码生成:GitHub Copilot、Cursor
语音技术
语音识别(ASR):
- OpenAI的Whisper:支持98种语言,准确率接近人类
语音合成(TTS):
声纹识别:
推荐系统
协同过滤:
深度学习推荐:
多模态推荐:
其他重要应用
自动驾驶:
- 代表:Tesla FSD、Waymo、百度Apollo
医疗健康:
- 疾病诊断:从医学影像诊断疾病,某些领域准确率超过医生
- 蛋白质结构预测:AlphaFold解决了50年的生物学难题
金融科技:
科学研究:
- 核聚变:Google用AI优化了核聚变反应堆的控制
十三、AI发展的四个时代
回顾70多年的历史,可以总结出四个时代:
规则时代(1950-1980):
统计时代(1980-2010):
深度学习时代(2010-2020):
大模型时代(2020-至今):
十四、写在最后
从图灵提出"机器能思考吗",到ChatGPT引发全球AI热潮,人工智能走过了曲折但壮丽的70年。
这条路上有两次寒冬,无数研究者在质疑中坚持;有ImageNet的惊天逆转,证明深度学习的威力;有AlphaGo的"神之一手",展现AI超越人类的可能;有ChatGPT的现象级成功,让AI真正走进千家万户。
今天的AI已经可以:
但我们也要清醒地认识到,当前的AI仍然是"弱人工智能"——只能在特定任务上表现出色,缺乏真正的理解、常识和通用智能。通往"强人工智能"的路还很漫长。
不过,AI的发展速度超乎想象。谁能想到,仅仅10年前,图像识别的准确率还不如人类,而现在已经远远超过。谁又能预测,10年后的AI会是什么样子?
唯一可以确定的是:AI时代已经来临,它将深刻地改变我们的工作、生活和思考方式。
了解AI的历史,不只是为了满足好奇心,更是为了更好地理解现在,把握未来。
关键时间线:
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
DeepSeek 高级使用指南,建议收藏
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero