社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置...
【2025版附安装包】超详细Python+Pycharm安装保姆级教程,永久免费使用,Python环...
苹果炮轰AI推理遭打脸,GitHub大佬神怒怼!复杂任务≠推理能力
盘点 5 个 GitHub 上奇奇怪怪的项目
用 Python 轻松实现量化交易:Keltner 通道突破策略回测实战
倒计时2天!第二届AIGC与智能体生态大会精彩议程曝光
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
TypeScript“杀疯了”!60% 到 70%YC 创企用它构建 AI Agent,超越 Pyt...
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
港科大(广州)新AP何海韵招25/26机器学习全奖博士/硕士/博士后/RA
关注
Py学习
»
机器学习算法
大模型搞不出AGI,图灵奖得主杨立昆:别迷信Scaling Law,机器学习糟糕了,Meta、DeepSeek可联手训练开源模型
图灵人工智能
• 1 月前 • 70 次点击
上周五,我们发了
深度学习之父、图灵奖得主Bengio参加新加坡国立大学(NUS)120周年校庆时做的一期讲座
,他说“
三年前的ChatGPT让我觉得人类无法掌控AI”,对AI的风险提出了最高级别的警示。不过有意思的是,同样在2019年和
Bengio一起获得图灵奖的杨立昆(
Yann LeCun)也同时参加了这次活动,讲的观点
却和Bengio的立场完全相反,认为AI离威胁人类还太远。。当然,杨立昆的观点和另一位图灵奖得主辛顿的观点也100%不同(
辛顿教授的观点,可以点这里查看,他总结了AI的风险种类
)。
杨立昆是Meta公司副总裁兼首席人工智能科学家,还是纽约大学的Jacob T. Schwartz教授
(
Jacob T. Schwartz是
纽约大学计算机科学系的创建者)。除了和Bengio、辛顿一起被称为“深度学习之父”,杨立昆自己有一个专属头衔“卷积神经网络之父”。他发明并推广了卷积神经网络(CNN),尤其是设计了LeNet-5模型,成功应用于手写数字识别,奠定了现代深度学习在图像识别、计算机视觉等领域的基础。他在贝尔实验室期间推动了卷积神经网络的实用化,开发了广泛应用于银行支票识别的系统。
可能大家对各种之父已经有点晕了,我总结一下,这三个人由于对深度学习的贡献,所以都有“
深度学习之父
”的头衔,杨立昆自己有一个
“
卷积神经网络之父
”,而辛顿则因地位最高有“
人工智能教父
”的头衔,而且学术成就也最高,拿了诺贝尔物理学奖奖。相比于辛顿、杨立昆,Bengio的辈分略小一些。
回到正题,在讲座后,杨立昆还在新加坡国立大学计算机学院教务长主席教授、新加坡国立大学人工智能研究所所长Mohan Kankanhalli教授的主持下,进行了学生问答。
他在讲座中的核心观点是,当前的AI技术,
尤其是大语言模型(LLM),虽然在某些任务上表现出色,但远未达到真正的理解、推理和规划能力,甚至在对物理世界的认知上不如幼童或动物
。杨立昆的一句名言就是:现在的AI不如猫。
杨立昆也详细阐述了他所倡导的“
联合嵌入预测架构”(Joint Embedding Predictive Architectures, JEPA)
,认为这是超越当前主流的生成式模型(Generative Models)的关键。他大胆预测,未来几年,我们可能需要“抛弃”生成式AI的整体思路,转向JEPA这类能够在抽象表示空间进行预测的非生成式方法。不过我要提醒大家的是,杨立昆的JEPA架构已经提出不是一天两天了,但是目前还没有进入实用化阶段。
一、 人类水平AI的必要性:赋能而非取代
杨立昆开场就说,追求与人类相似甚至超越人类智能水平的AI系统,其根本目的并非取代人类,而是为了极大地增强人类的智能。
他认为,要实现这一目标,我们实际上需要构建某种意义上的“虚拟人类”(virtual humans)
。原因在于,
人类最熟悉、最易于交互的智能实体便是其他人类。因此,能够以与人类相同的方式理解世界、理解彼此的AI系统,将是最能有效赋能人类的工具
。
除了技术应用层面的考量,杨立昆强调,探索智能与学习的奥秘本身也具有重大的科学意义。揭开这些谜团,将有助于我们更深刻地认识自身。他展望了一个未来:我们与数字世界和知识的大部分互动都将通过AI系统作为中介。
我们获取信息的方式将发生根本性变革,AI系统将成为我们主要的“数字食粮”或“信息食粮”的来源
要让这些系统能够有效地辅助我们完成各项任务,它们在某些方面甚至需要比我们更“聪明”。同时,这些系统必须易于交互,以便全世界的每一个人都能无障碍地使用它们。这描绘了一个AI深度融入日常生活,成为人类能力延伸的愿景,正如科幻电影《她》(Her)中所展现的那样。
二、 Meta的AI愿景:智能眼镜与下一代计算平台
杨立昆接着阐述了Meta公司在AI领域的长远产品愿景。他指出,未来我们每个人都可能佩戴着内置智能AI助手的智能设备,这些AI助手将在日常生活中为我们提供帮助。他本人在演讲时就佩戴着Meta的智能眼镜,并演示了其拍照功能,甚至提到可以直接通过语音向眼镜内置的Meta AI助手提问。
Meta的这一愿景不仅包含了AI软件层面的研发,即让机器变得足够智能以提供更广泛、更有用的服务,也包含了硬件层面的创新。一个核心问题是:在AI时代,下一个主流的计算平台会是什么?杨立昆认为,传统的图形用户界面(GUI)以及鼠标点击式的交互方式,很可能会让位于更自然的交互界面,例如语音和其他类型的设备。
为此,Meta已经展示了一些原型系统,如Orion眼镜。这类眼镜比他当天佩戴的款式更大更重,但具备增强现实(AR)显示功能。它们能够感知用户所处的环境和行为,例如,你可以问它“我的车停在哪里了?”或者“我把钥匙放哪儿了?” 当你离开餐厅时忘记带手机,它还会提醒你。杨立昆畅想,这种技术将改变我们与世界的关系,让我们能更专注于人类特有的活动,如人际交往和创造力。他打了个比方,未来每个人都将如同拥有一支由聪明人组成的“虚拟幕僚团队”随时随地提供支持,就像政治家们身边总有比他们更聪明的顾问团队一样。
三、 机器学习的“痛点”:为何说当前AI技术,尤其是LLM,远未触及真正智能?
然而,杨立昆话锋一转,直指当前AI技术存在的重大瓶颈。
他甚至略带争议性地宣称“机器学习糟透了”(Machine Learning Sucks)
。这并非全盘否定,而是强调当前机器学习系统在学习新任务的能力方面,与人类乃至动物相比,仍处于非常初级的阶段。他认为,我们需要能够快速学习新任务、理解物理世界(而不仅仅是文本和语言)、具备常识、拥有推理和规划能力以及持久记忆的AI系统——这些都是我们对智能实体的基本期望。
一个核心问题在于,目前的AI系统(尤其是大型语言模型LLM)并非真正由我们赋予的目标所驱动。
你可以要求LLM回答一个问题,但它未必能准确地、有目的地完成你的指令,也无法真正规划一系列行动或组织答案来达成特定目标。未来AI系统必须是目标驱动型的
。
杨立昆强烈反驳了硅谷部分人士的观点,
即认为仅通过扩大LLM的规模、用更多数据进行训练就能实现人类水平的智能
,甚至有人声称几年内就能出现具有博士级科研能力的AI。他直言这是“错误的”,并且是历代AI科学家反复犯过的错误。
从上世纪50年代AI先驱们认为智能可以简化为搜索问题(如Newell和Simon的“通用问题解决器”),到后来感知机等早期学习机器出现时人们的过度乐观,历史一再证明,通往真正智能的道路远比想象的更为艰难
。
他解释了LLM的基本工作原理:它们本质上是被训练来在其输出端重现其输入端的内容。更准确地说,通过一种“因果架构”(causal architecture),系统在预测下一个词元(token)时,只能看到它左边的(即已经出现的)词元。这种自回归预测(autoregressive prediction)的机制,虽然在规模效应下展现出惊人的信息存储和“恰当”复述能力 ,但也存在根本缺陷。
杨立昆指出,随着生成序列长度的增加,
系统偏离“正确答案”子树的概率会指数级上升,导致连贯性难以保证
,就像一个人在不假思索地连续说话时难以保持逻辑一致一样。
四、 语言的“浅薄”与物理世界的“深邃”:LLM无法逾越的鸿沟
杨立昆进一步论证了为何LLM无法引领我们走向真正的人工智能。他指出,尽管LLM能够通过律师资格考试、解决复杂方程或规划假期,
但这些很大程度上仍是已有知识的“反刍”(regurgitation),而非真正的创新或对未曾接触过问题的解决能力
。更为关键的是,
LLM无法真正理解物理世界。
虽然现在有一些系统可以解释图像甚至视频,但其图像和视频编码通常是独立训练的流程,然后将视觉信息转化为词元(tokens)供LLM处理。这种方式并不能使系统真正理解物理世界的运作规律。
一个有力的佐证是,我们至今没有能够媲美家猫规划能力和物理世界理解能力的家用机器人 ,
也没有能在数小时内学会驾驶的自动驾驶汽车——相比之下,任何青少年都能做到这一点
。当前的自动驾驶技术依赖于庞大的工程投入、数百万小时的专家驾驶数据,并且在没有激光雷达(LIDAR)和高精度地图等“作弊”手段的情况下,仍无法实现完全可靠的自动驾驶。这清晰地表明,我们“错失了某些重大的东西”。
杨立昆引用了著名的“莫拉维克悖论”(Moravec's paradox):
为何计算机在象棋、围棋等对人类而言困难的任务上能达到超人水平,却在物体操控、简单行动规划等我们甚至不认为是智能的任务上远逊于生物?
他认为,症结在于语言与物理世界之间的根本差异。令人惊讶的是,他认为语言在某种程度上是“简单”的。
他通过一个引人注目的数据对比来支持这一观点:
目前最大的LLM(如LLaMA 4)大约在30万亿个词元(约等于1014字节)上进行训练,这相当于一个人阅读40万到50万年的信息量。
然而,
一个四岁的孩子,在其醒着的约16000小时内,通过视觉皮层接收到的信息量也大约是10的14次方字节(以每秒2MB的速率估算,基于视神经纤维数量)
。这意味着,
一个幼儿在短短四年内通过感官与物理世界互动所获得的信息量,与LLM穷尽互联网文本所获得的信息量相当
。杨立昆由此得出结论:
我们永远不可能通过仅在文本上训练LLM来达到人类水平的AI。我们必须找到能够从高带宽感官输入(如视频)中学习的方法,而不幸的是,目前适用于文本的架构并不适用于视频
。
五、 向婴儿学习:构建理解物理世界的“世界模型”
那么,出路何在?杨立昆将目光投向了人类及动物幼崽的学习方式。婴儿在出生后的最初几个月内,通过观察和与环境的互动,逐渐学习到关于世界的基本规律。例如,世界是三维的,物体可以独立运动,即使物体被遮挡也依然存在(即“客体永久性”,object permanence,这大约在人类婴儿2个月时习得)。再大一些,即使还不会说话的幼儿也已经掌握了物体的基本分类,以及关于“直觉物理”(intuitive physics)的概念,比如没有支撑的物体会因重力而下落(这大约在人类婴儿9个月时习得)。心理学家正是通过测量婴儿对“不可能”情境(如悬浮在空中的小车)的惊讶程度(即注视时间)来判断他们是否习得了某种物理规律。
基于此,杨立昆提出了未来AI系统应具备的一系列关键特性(desiderata):
1. 学习世界模型(Mental Models of the World):
像我们一样,通过观察(可能还有互动)来学习关于世界的内部模型,理解直觉物理,从而能够预测接下来会发生什么。
2. 持久记忆(Persistent Memory)。
3. 规划复杂行动序列(Plan Complex Action Sequences):
以达成特定目标。
4. 推理能力(Reasoning):
推理与规划本质相通,能够针对未见过的问题创造新的解决方案(即“零样本”学习),这是人类和许多动物都具备的能力,而现有AI尚不具备。
5. 可控性与安全性(Controllable and Safe by Design):
系统只能执行我们赋予它的目标,而非其他。这一点目前的LLM也无法做到。
为了实现这些特性,杨立昆提出了一种基于“世界模型”的AI认知架构。这个世界模型的核心功能是:给定当前世界状态和设想的行动,预测世界将如何演变。如果我拿着一个物体并告诉你我将松手,你能预测它会掉落——这种基于行动条件的心理预测能力,正是我们规划和推理的基础。事实上,这种基于模型进行最优控制的思想在机器人学和最优控制领域已有数十年的历史(例如航天器轨道计算),但区别在于,这里讨论的是从观察和互动中学习模型,而非人工构建。
该架构包含几个关键模块:
* 感知模块(Perception):
观察当前情境,提取世界状态的关键表征。
* 记忆模块(Memory):
存储我们对当前未感知到的世界部分的认知(例如我们知道如何走出当前建筑)。
* 世界模型(World Model):
结合当前感知和记忆,接收一个设想的行动作为输入,预测下一个世界状态。
* 目标函数(Objective Functions):
评估预测的世界状态是否达成了任务目标(例如,任务目标函数,衡量任务完成度)以及是否符合一系列“护栏”目标(Guardrail Objectives,如成本函数或安全约束)。系统在运行时,会通过优化过程,搜索一个能使其世界模型预测结果最优地满足这些目标和约束的行动序列。这是一种通过优化进行推理(inference by optimization)的方式,也是实现规划和推理的途径。
杨立昆强调,这种“干预-预测”的模式也与科学研究的过程高度相似:科学家构建模型,设想实验(干预),并用模型预测结果。
然而,世界并非完全确定性的,因此模型需要处理不确定性,例如通过引入“潜变量”(latent variable)。更为重要的是,真正的智能系统需要具备分层规划(hierarchical planning)的能力。
杨立昆以从纽约办公室去巴黎为例,说明我们不会在毫秒级的肌肉控制层面规划整个行程,而是将大目标分解为子目标(去机场 -> 乘出租车 -> 下楼等),在不同抽象层级进行规划。
他指出,语言在描述过于底层的细节时会变得无力,这再次印证了超越LLM的必要性。分层规划是目前AI领域一个尚未解决的重大挑战。
杨立昆提及他三年前发表的论文《通往自主(现改为高级)机器智能之路》(
A Path Towards Autonomous/Advanced Machine Intelligence
),以及在Meta FAIR和纽约大学实验室推动的AMI(Advanced Machine Intelligence,法语“朋友”之意)项目,旨在探索这些理念。
六、 解锁学习的黑盒:自监督学习与JEPA架构的崛起
那么,机器如何才能像婴儿一样学习这些世界模型呢?
杨立昆给出的答案是自监督学习(Self-Supervised Learning, SSL)
。SSL的核心思想是训练系统捕捉输入数据各部分之间的依赖关系。例如,给定一段输入(如文本序列),以某种方式“损坏”它(如移除一些词),然后训练一个大型神经网络来恢复缺失的部分。LLM正是SSL的一种特例,其因果架构使其隐式地完成了“遮蔽未来,预测现在”的任务。
早在几十年前,神经科学家就提出,如果一个系统能够预测视频中接下来会发生什么,那么它就理解了现实的结构。
然而,杨立昆和他的同事们在过去10到20年尝试将此方法应用于视频预测时,发现它并不奏效。原因在于,预测视频中的所有细节几乎是不可能的。
即使是很短的视频片段,神经网络的预测结果也会因为无法确定未来而变得模糊(预测所有可能未来的平均值)
。虽然对于文本,我们可以预测词汇表上的概率分布(softmax),
但对于高维连续的视频帧空间,我们没有有效的方法来表示这种概率分布
。
杨立昆的解决方案是:
不要试图预测视频中的所有细节,而是预测视频的抽象表征(abstract representation)
。他举例说,如果他拿着一支笔尖朝上的笔,告诉你他要松开手指,你知道笔会倒下,但你无法预测它会朝哪个方向倒,也无法预测每一个像素的变化。
另一个例子是,如果他拍摄一段房间的视频,缓慢平移然后停止,并要求系统续拍,系统或许能推断出这是一个会议室,有听众,房间大小有限,但绝无可能预测出每个人的具体样貌。
强迫系统进行这种像素级的精准预测,只会使其耗费所有资源去尝试不可能完成的任务,从而阻碍学习。
由此,
杨立昆引出了他近年来大力倡导的联合嵌入预测架构(Joint Embedding Predictive Architectures, JEPA)
。JEPA的核心思想是:获取原始输入(如视频),对其进行某种变换或遮蔽(如遮蔽未来或部分内容),然后训练系统在抽象的表征空间中进行预测,而不是在像素空间进行重建。具体来说,原始视频通过一个编码器得到表征SY,部分遮蔽或变换后的视频通过另一个(通常共享参数或有特定关系的)编码器得到表征SX,然后训练一个预测器从SX预测SY。
杨立昆认为,这种“学习用以预测的表征”的过程,不仅是智能生物的核心能力,也是科学研究的本质——寻找能够揭示系统演化规律的关键变量和表征。
他断言,我们无法通过生成模型(generative models)达到这个目标,并提出:“我们必须抛弃生成式AI”。
训练JEPA架构的主要挑战在于防止“坍塌”(collapsing)——即系统为了最小化预测误差,选择忽略所有输入信息,产生恒定的输出,使得预测变得毫无意义。
为了解决这个问题,研究者们提出了两类方法:对比方法(contrastive methods)和正则化方法(regularized methods)。对比方法通过生成“负样本”(不兼容的X和Y对)并提升其能量(不兼容度)来实现;而正则化方法则通过在损失函数中加入惩罚项,试图最小化能够获得低能量的表征空间体积。杨立昆更倾向于后者,并介绍了一些非对比、非蒸馏的正则化方法,如通过最大化编码器输出信息量(例如利用协方差矩阵的特性)来防止坍塌。他还提到了“蒸馏方法”(distillation methods with EMA),其中一个编码器的权重是另一个编码器权重的指数移动平均,这种方法在某些条件下也能有效防止坍塌,尽管其理论机制尚不完全清晰。
七、 JEPA的威力:从图像识别新高度到赋予机器人“常识”
杨立昆展示了基于JEPA思想的一系列令人振奋的研究成果。其中,由Meta FAIR巴黎团队开发的DINO算法,是一种完全自监督的图像表征学习方法,其学习到的特征已被广泛应用于各种下游任务,如估算全球森林冠层高度(用于碳汇研究)、医学图像分析、生物学研究等。最近的一项研究甚至表明,DINO产生的表征在绝对性能上优于以往任何监督学习方法(如CLIP风格的模型),这标志着自监督学习的一个重要里程碑。
更进一步,这些通过自监督学习获得的强大表征,可以直接应用于构建世界模型并进行规划。一个例子是,利用DINO提取的特征来训练一个机器人世界模型。
训练过程如下:向系统展示一个场景(如机器人手臂和一些小筹码),让机器人执行一个简单动作(如平移并抬起),然后观察结果。
训练一个神经网络,使其能够根据初始状态的表征和执行的动作,预测结果状态的表征。一旦这个世界模型训练完成,在推理阶段,系统可以观察当前世界状态,通过DINO提取表征,然后设想一系列动作,利用世界模型反复预测这些动作的后果,并通过优化搜索一个能使最终预测状态与目标状态距离最小的动作序列。杨立昆展示的视频显示,这种方法能够成功规划包含约25个步骤的复杂动作序列,以移动蓝色筹码到目标位置,即使筹码之间存在复杂的相互作用。
另一项名为I-JEPA(用于图像)和V-JEPA(用于视频)的研究,则直接在JEPA框架下,通过对输入图像或视频进行部分遮蔽,然后训练系统预测被遮蔽部分的表征。
实验结果表明,I-JEPA在图像分类任务上,比通过像素级重建的掩码自编码器(masked autoencoder)方法更有效率,能够更快地达到更高的性能。这再次印证了杨立昆的观点:试图通过生成模型进行重建来学习世界表征可能是错误的方向;非重建的JEPA类方法效果更佳。
尤为引人注目的是,当V-JEPA系统观看一些包含“物理上不可能”事件的视频时(例如,球在空中突然消失或变成方块,或者球在屏幕后消失但屏幕落下后球不见了),它在表征空间的预测误差会显著升高。这表明,这些系统仅仅通过观看自然视频,就已经学到了一些关于真实世界中什么是可能的、什么是不可能的基本“常识”——这是首次在AI系统中观察到这种现象,意义重大。
基于这些进展,杨立昆大胆地提出了一系列颠覆性的建议,这些建议无疑使他在AI领域显得“特立独行” :
* 放弃生成模型,拥抱JEPA。
* 放弃概率模型,因为在抽象表征空间中,基于数据的概率分布可能不再有意义,转而使用能量模型。
* 放弃对比方法,倾向于蒸馏或正则化方法。
* 最小化强化学习的使用,因为强化学习的样本效率极低,需要大量的先验世界知识才能有效微调行为。他风趣地说,如果强迫人类用强化学习来学开车,路上会多出很多亡魂。
他总结道,如果真正对达到人类水平AI、在AI领域取得重大进展感兴趣,研究者们不应再将主要精力放在LLM上。LLM虽然在文本生成、自然语言处理等领域非常有用,但它们只是“岔路”(off-ramp),而非通往真正智能的高速公路。
八、 未来之路:突破待解难题,就是智能机器人的曙光
尽管JEPA等新架构展现了巨大潜力,但通往高级人工智能的道路依然漫长,杨立昆也坦诚指出了许多亟待解决的难题 :
* 带潜变量的规划:
如何在存在不确定性的情况下进行有效规划。
* 世界模型的规模化:
如何将世界模型扩展到能够处理各种模态和复杂场景。
* 分层规划:
这依然是一个完全未解的重大挑战。
* 联想记忆(Associative Memory):
以及其他一系列相关的技术问题。
尽管挑战重重,杨立昆对未来依然乐观。他预测,在未来3到10年内,我们或许能够实现AI的下一个飞跃——拥有推理、规划能力并能理解物理世界的系统。这将为真正有用的机器人打开大门。
他透露了一个行业“秘密”:目前有许多公司在研发人形机器人,但没有人真正知道如何让这些机器人变得足够智能以至于实用。
这些公司实际上是在押注未来几年AI技术能够取得突破性进展,从而在他们的机器人硬件具备商业可行性时,AI软件也能及时跟上。他强调,认为现有技术足以支撑实用型智能机器人的想法是错误的。
九、 开源的呼唤:共建AI的未来,共享智能的红利
在演讲的最后以及问答环节,杨立昆反复强调了开源平台对于AI发展的重要性。他认为,这不仅能让学术界的研究人员更容易参与到昂贵的基础模型训练中 ,更关乎
辖地主权、文化多样性和语言多样性的维护
。
他设想的未来是,我们与数字世界的互动将全面由AI助手介导。因此,我们不能承受这些信息被少数几家美国西海岸或中国的公司所控制的AI助手过滤的风险。
全世界有大约6000种语言,其中大部分没有文字记录;文化信息更是浩如烟海,远未被数字化。
要让AI系统理解所有这些语言、文化、价值观和偏见,绝非单一实体能够完成。
因此,最可行的方式是由少数有能力训练基础模型的实体(如美国、中国、欧洲的一些机构)提供开源的基础模型,然后世界各地的开发者可以在此基础上构建符合本地语言、文化需求的AI助手。
杨立昆甚至大胆预测,未来基础模型可能会被视为公共基础设施,由全球众多参与者协作训练。
他特别提到,像新加坡这样的国家可以在其中扮演重要角色,例如成为亚洲(至少是远东地区)的枢纽,提供计算基础设施和人才,贡献于全球基础模型的训练。这需要专业知识、大型GPU数据中心以及独特的本地数据(可以通过帮助邻国如印尼、马来西亚收集数据来实现,以确保下一代基础模型能支持区域内的数百种语言)。
他相信,未来会出现某种形式的全球合作伙伴关系,Meta、Mistral(法国AI初创公司)、DeepSeek(中国AI公司)等公司共同训练一个能理解全球语言和文化的模型。
他将此与互联网软件基础设施的发展历程相类比:互联网最初由少数几大巨头(如Sun、微软、惠普、戴尔)提供专有硬件和软件栈,但最终被商品化硬件和Linux这样的开源系统所取代。杨立昆坚信:“AI领域也将发生同样的事情。开源在AI领域的胜利只是时间问题。”
十、 驾驭AI浪潮:Q&A精粹
在随后的问答环节,杨立昆就AI带来的广泛影响给出了进一步的见解,这部分我就大致总结了:
* LLM的真实价值:
尽管杨立昆对LLM作为通往AGI(通用人工智能)的路径持批判态度,但他承认LLM在特定任务上“极其有用”,例如编程辅助,能显著提高生产力。它们未来可能会成为更高级AI系统的一部分,例如将系统的抽象“思考”转化为连贯的文本。但它们本身并非通往人类水平智能的道路。
* AI与未来就业:
对于AI将导致大规模失业的担忧,杨立昆持乐观态度。他引用经济学家的观点指出,技术革命对生产力的显著影响通常需要约15年才会显现,而且AI带来的GDP增长预计是渐进的(约0.7%的额外年增长),而非颠覆性的。他强调,我们不会耗尽需要解决的问题,因此也不会耗尽工作岗位,但工作性质会发生改变。他给年轻人的建议是:学习那些“保质期长”的基础知识和方法(如量子力学而非特定的移动应用编程技术),培养深度技术理解和快速学习新事物的能力,因为技术迭代速度极快,未来可能需要多次转换职业。
* AI在金融领域的应用:
杨立昆认为,他所倡导的JEPA类模型由于其设计初衷就是滤除不可预测的“噪声”并在抽象层面进行预测,因此在充斥着随机性的金融市场预测方面可能具有潜力,但目前尚无定论。
* 机器人学的多模态感知:
他完全赞同在机器人学中,视觉感知不足以提供全部反馈,触觉等其他模态至关重要。Meta FAIR团队也在积极研发触觉传感器等技术,并希望JEPA方法能够整合不同模态信息到共同的表征空间进行预测。他还透露,机器人学(或称“具身AI”)是Meta正在大力扩展的研究和产品领域。
* LLM对AI科研的加速作用:
虽然LLM可以辅助撰写论文、查找参考文献等,但杨立昆认为它们在推动核心AI研究(如发现新的科学模型或原理)方面的作用有限。当前科学领域使用的AI模型(如AlphaFold)大多并非LLM,而是针对特定问题设计的专用系统。真正的“AI科学家”不太可能是LLM,而更像他所描述的能够自主学习世界表征和模型的系统。
* 基于能量模型的机器人创业前景:
关于这类创业公司的上市时间,杨立昆坦言难以准确预测,可能需要5年甚至更久,因为其中许多核心研究问题(如分层规划)尚待在学术界或大型研究机构解决。但他也指出,在创业领域,“宁可过早,不可过晚”。
* 关于Llama模型“幻觉”问题的回应:
杨立昆首先澄清他本人并未直接参与Llama模型的开发,Llama主要由Meta的GenAI产品和开发部门负责,FAIR是上游技术贡献者。他指出,不同模型在性能(包括幻觉问题)和推理成本之间存在权衡,Llama作为开源基础模型,其优势在于用户可以根据自身垂直应用场景进行精调以减少幻觉,并实现低成本本地化部署,这与闭源商业产品不同。
* 训练JEPA模型的数据策略:
杨立昆强调数据多样性的极端重要性,需要包含物体动态运动、不同摄像机视角、自然环境、微观图像、物理系统模拟、机械装置运作等各种类型的视频。他还认为,合成视频(如动画片或角色扮演游戏录像)也可能扮演重要角色,因为它们能以简化、集中的方式呈现世界的某些基本规律,帮助系统学习。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/182234
70 次点击
登录后回复