社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

NYU教授公布2025机器学习课程大纲:所有人都在追LLM,高校为何死磕基础理论?

大模型智能 • 5 天前 • 17 次点击  
图片
大模型智能|分享
来源 | 机器之心
编辑 | +0

最近,Meta 公司首席 AI 科学家、图灵奖得主 LeCun 转发了他在纽约大学的同事 Kyunghyun Cho 的一篇帖子:内容是关于这位教授 2025 学年机器学习研究生课程的教学大纲和讲义。

image.png
  • 讲义地址:https://arxiv.org/abs/2505.03861

  • 教学大纲:https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64

该课程聚焦于以随机梯度下降(SGD)为核心的基础机器学习算法,特意避开大型语言模型(LLM)内容,同时鼓励学生深入研读领域经典论文,回溯机器学习的理论发展脉络。

在这个人人都关注 LLM 的时代,这样的课程设计乍看似乎很特别。但对比其他高校的课程表会发现, 各大高校研究生机器学习课程仍普遍以基础理论和经典模型为核心。

比如斯坦福 CS229, 是经典的机器学习基础课程,2025 年冬季课程简介中,课程系统讲授包括线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等基本模型与方法,强调数学推导与优化思想,广泛应用于跨领域研究。

image.png

MIT 的 6.790 课程是其研究生阶段的核心机器学习课程,前身为 6.867,现已更新为 6.7900。该课程强调从概率建模和统计推理的角度深入理解机器学习方法,适合希望在理论与实践之间建立坚实联系的学生。

image.png

清华电子系研究生课程也设置了《机器学习》《统计推断理论和方法》等核心理论课程。

image.png

而最新 LLM 内容多在专门选修课中出现,比如斯坦福大学 CS25: Transformers United,是一门专注于 LLM 和 Transformer 架构的研究型课程,详见机器之心报道《OpenAI、谷歌等一线大模型科学家公开课,斯坦福 CS 25 春季上新!》 。

可以看出,教育界普遍认为基础教学有助于学生长远发展。Cho 在撰写讲义时引用了 Sutton 的「苦涩教训」,强调通用可扩展方法(如以 SGD 为核心)比具体架构更重要。他刻意省略了复杂体系(如 LLM)而专注于历史上成熟的算法和数学直觉,认为「一个学期时间不足以深入所有主题」,只能先打下坚实基础。

此外,Cho 曾在博客中提到,2010–2015 年间深度学习尚未普及时,很多 ML 课程对神经网络仅作简单提及。

如今通过强调经典方法、阅读经典论文,可以让学生理解知识的源头与演进脉络,培养批判性思考能力。总体而言,基础导向的教学能让学生掌握算法背后的数学原理和优化方法,而不是「盲目套用」最新模型。

01
 理论 VS 实践

但我们无法逃避的一个问题是:大学培养机制(尤其是研究生 / 博士教育)强调基础、原理和科研能力,而实际工作环境尤其在工业界常常需要快速响应、工程落地、产品迭代能力。 

一味的强调「必须理解深层原理」,在某些语境下,确实可能显得有些「何不食肉糜」。

「你怎么连 attention 的 Q/K/V 向量都没推导过就来调模型?」现实可能是:「我只是想学个微调技巧,用 LLaMA 写个客服机器人。」

对此不少大学也在积极探索解决方案, 为弥补科研与工程能力脱节,不少学校推出了「桥接」课程或实践项目。 

例如,斯坦福大学在开设 CS229 等理论课的基础上,还专门设立了 CS329S《机器学习系统设计》实践课。这门课着重讲授如何构建可实际部署、运行稳定且具备扩展性的机器学习系统,内容包括数据处理、特征提取、模型上线与监控等环节。

image.png

CMU 的机器学习博士生必须修读 10-718《机器学习实践》课程。在这门课中,学生需要完成学期项目,从头到尾搭建并部署一个完整的机器学习系统。课程描述明确指出,学生将通过项目学习处理真实场景下的数据问题,掌握从原始数据清洗到模型最终上线的全流程技能。

image.png

国内高校也开始重视实践教学。清华大学电子系与企业合作开设了多门实用性课程,如「大数据技术的应用与实践」、「高阶机器学习」和「智能制造」等,将行业实际案例和编程实践引入教学过程。

image.png
02
为何高校仍执着于「慢功」?

在当今技术飞速发展的背景下,许多高校依然强调「打好基础、追求深刻理解」,这并非单纯的「固步自封」。

真正的技术能力不仅在于「会用工具」或「能跑模型」,而在于理解方法背后的原理,在面对新问题、新技术时,具备独立分析、判断和创造的能力。 吴恩达曾在一篇文章中以个人经历说明持续学习基础知识的重要性,他强调「牢靠且及时更新的基础知识是成为一名高产机器学习工程师的关键」。

文章链接:https://www.deeplearning.ai/the-batch/issue-146/

image.png

这种理念的核心在于「抗变化性」。技术潮流更新迅速,从 CNN 到 Transformer,再到 LLM 和多模态系统,每一步都可能颠覆现有工程范式。

要适应这些变化,不能仅靠追逐热点,而需深入掌握优化、泛化、表示学习等底层理论。只有理解「为何这样设计」以及「背后的假设是什么」,才能在面对全新技术时避免迷茫。

image.png

此外,深厚的基础是科研与技术创新的起点。科研不仅是调参或复现论文,更在于提出问题、构建假设、设计新方法。这离不开扎实的数学工具、严谨的逻辑训练以及对经典工作的积累。基础课程培养的不仅是知识点,更是抽象思维与批判性思考能力。

深度学习教父、图灵奖得主 Geoffrey Hinton 在接受 MIT Technology Review 采访时指出,正是对基础算法的长期坚持和深入研究,才推动了深度学习的突破,「我们花了几十年时间打磨神经网络的基本原理,直到 2010 年代才迎来真正的应用爆发。基础知识的积累和理解,是 AI 领域每一次重大进步的根本。」

当然,这种教育路径并非忽视实践,而是强调:真正的实践力应建立在理解力之上。不仅要会用工具,更要了解其来龙去脉、适用边界与改进方向。

因此,「找工作」与「打基础」并非非此即彼的选择题,而是时间维度上的权衡。短期内,工具技能能带来直接的岗位匹配;但长期来看,基础能力才是跨越技术周期、持续成长的「护城河」。

03
课程讲义

现在我们回过头来看看这份 100 页 pdf 的课程讲义,它对机器学习进行了全面介绍,涵盖了基础概念和现代技术,有兴趣的读者可以阅读原文。

WPS拼图0.png

每一章的结构和内容概要如下:

第一章:能量函数 介绍能量函数作为机器学习中的统一主题的概念。解释了不同的机器学习范式(监督学习、无监督学习、分类、聚类等)如何可以被构架为最小化能量函数。讨论潜在变量和正则化在定义和学习能量函数中的作用。

第二章:机器学习中的基本分类思想 涵盖了基本的分类算法,包括感知器、边际损失、softmax 和交叉熵损失。解释分类器训练中的反向传播,重点在于线性和非线性能量函数。讨论了随机梯度下降(SGD)和自适应学习率优化方法。涉及泛化和模型选择,包括偏差 - 方差权衡和超参数调整。

第三章:神经网络的基本构建块 探索了神经网络架构中常用的构建块。讨论了归一化技术(批量归一化、层归一化)。介绍了卷积块、循环块和注意力机制。介绍了神经网络中置换等变性和不变性的概念。

第四章:概率机器学习和无监督学习 说明了如何从概率角度解释能量函数。涵盖了变分推断和高斯混合模型。讨论了连续潜在变量模型和变分自编码器(VAEs)。介绍了重要性采样及其方差。

第五章:无向生成模型 探索无向生成模型,重点介绍受限玻尔兹曼机(RBMs)和专家乘积(PoE)。讨论马尔可夫链蒙特卡洛(MCMC)方法用于从 RBMs 中采样。引入基于能量的生成对抗网络(EBGANs)。涵盖自回归模型。

第六章:进一步话题 提供了机器学习中几个高级主题的概述。讨论了一步强化学习和多步强化学习。探索了集成方法(袋装法,提升法)和贝叶斯机器学习。介绍元学习。探讨混合密度网络和因果关系。

04
经典论文
背景.png

最后我们来看看 Cho 提到的经典论文,这里节选了一部分。

  • 「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams

论文地址:https://link.springer.com/article/10.1007/BF00992696

该论文提出了 REINFORCE 算法,一种基于策略梯度的强化学习方法,用于训练连接主义模型(如神经网络)。该算法通过直接优化期望奖励,奠定了现代策略梯度方法的基础。

  • 「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller(重点关注弟 4 节)

论文地址:https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3

系统总结了反向传播(Backpropagation)的优化技巧,包括学习率调整、权重初始化、激活函数选择等。第 4 节特别讨论了高效训练神经网络的实用方法。

  • 「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton

论文地址:https://www.cs.toronto.edu/~hinton/absps/nccd.pdf

提出了对比散度(Contrastive Divergence, CD)算法,用于训练受限玻尔兹曼机(RBM)和专家乘积模型。这是深度学习复兴前的重要工作,为后续深度信念网络(DBN)奠定了基础。

  • 「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling

论文地址:https://arxiv.org/abs/1312.6114

提出了变分自编码器(Variational Autoencoder, VAE),通过变分贝叶斯方法实现高效的生成模型训练。VAE 结合了神经网络和概率建模,成为生成模型领域的里程碑。

  • 「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine

论文地址:https://arxiv.org/abs/1703.03400

提出了 MAML(Model-Agnostic Meta-Learning),一种通用的元学习算法,使模型能够通过少量样本快速适应新任务。MAML 在少样本学习(Few-Shot Learning)领域具有开创性意义。

更多详细内容请参见原讲义和教学大纲。


图片

技术交流群邀请函

图片
图片

图片
图片
△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向-城市
(如:小夏-浙大-大模型-杭州)
即可申请加入深度学习/机器学习等技术交流群
为您推荐

《跨语言大模型》最新综述

深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

思考丨到底什么叫算法工程师的落地能力?

Transformer模型有多少种变体?看看这篇全面综述
从SGD到NadaMax,十种优化算法原理及实现
各种注意力机制的PyTorch实现
图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182184
 
17 次点击