NYU教授公布2025机器学习课程大纲：所有人都在追LLM，高校为何死磕基础理论？

大模型智能｜分享

来源 | 机器之心

编辑 | +0

最近，Meta 公司首席 AI 科学家、图灵奖得主 LeCun 转发了他在纽约大学的同事 Kyunghyun Cho 的一篇帖子：内容是关于这位教授 2025 学年机器学习研究生课程的教学大纲和讲义。

讲义地址：https://arxiv.org/abs/2505.03861
教学大纲：https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64

该课程聚焦于以随机梯度下降（SGD）为核心的基础机器学习算法，特意避开大型语言模型（LLM）内容，同时鼓励学生深入研读领域经典论文，回溯机器学习的理论发展脉络。

在这个人人都关注 LLM 的时代，这样的课程设计乍看似乎很特别。但对比其他高校的课程表会发现，各大高校研究生机器学习课程仍普遍以基础理论和经典模型为核心。

比如斯坦福 CS229，是经典的机器学习基础课程，2025 年冬季课程简介中，课程系统讲授包括线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等基本模型与方法，强调数学推导与优化思想，广泛应用于跨领域研究。

MIT 的 6.790 课程是其研究生阶段的核心机器学习课程，前身为 6.867，现已更新为 6.7900。该课程强调从概率建模和统计推理的角度深入理解机器学习方法，适合希望在理论与实践之间建立坚实联系的学生。

清华电子系研究生课程也设置了《机器学习》《统计推断理论和方法》等核心理论课程。

而最新 LLM 内容多在专门选修课中出现，比如斯坦福大学 CS25: Transformers United，是一门专注于 LLM 和 Transformer 架构的研究型课程，详见机器之心报道《OpenAI、谷歌等一线大模型科学家公开课，斯坦福 CS 25 春季上新！》。

可以看出，教育界普遍认为基础教学有助于学生长远发展。Cho 在撰写讲义时引用了 Sutton 的「苦涩教训」，强调通用可扩展方法（如以 SGD 为核心）比具体架构更重要。他刻意省略了复杂体系（如 LLM）而专注于历史上成熟的算法和数学直觉，认为「一个学期时间不足以深入所有主题」，只能先打下坚实基础。

此外，Cho 曾在博客中提到，2010–2015 年间深度学习尚未普及时，很多 ML 课程对神经网络仅作简单提及。

如今通过强调经典方法、阅读经典论文，可以让学生理解知识的源头与演进脉络，培养批判性思考能力。总体而言，基础导向的教学能让学生掌握算法背后的数学原理和优化方法，而不是「盲目套用」最新模型。

理论 VS 实践

但我们无法逃避的一个问题是：大学培养机制（尤其是研究生 / 博士教育）强调基础、原理和科研能力，而实际工作环境尤其在工业界常常需要快速响应、工程落地、产品迭代能力。

一味的强调「必须理解深层原理」，在某些语境下，确实可能显得有些「何不食肉糜」。

「你怎么连 attention 的 Q/K/V 向量都没推导过就来调模型？」现实可能是：「我只是想学个微调技巧，用 LLaMA 写个客服机器人。」

对此不少大学也在积极探索解决方案，为弥补科研与工程能力脱节，不少学校推出了「桥接」课程或实践项目。

例如，斯坦福大学在开设 CS229 等理论课的基础上，还专门设立了 CS329S《机器学习系统设计》实践课。这门课着重讲授如何构建可实际部署、运行稳定且具备扩展性的机器学习系统，内容包括数据处理、特征提取、模型上线与监控等环节。

CMU 的机器学习博士生必须修读 10-718《机器学习实践》课程。在这门课中，学生需要完成学期项目，从头到尾搭建并部署一个完整的机器学习系统。课程描述明确指出，学生将通过项目学习处理真实场景下的数据问题，掌握从原始数据清洗到模型最终上线的全流程技能。

国内高校也开始重视实践教学。清华大学电子系与企业合作开设了多门实用性课程，如「大数据技术的应用与实践」、「高阶机器学习」和「智能制造」等，将行业实际案例和编程实践引入教学过程。

为何高校仍执着于「慢功」？

在当今技术飞速发展的背景下，许多高校依然强调「打好基础、追求深刻理解」，这并非单纯的「固步自封」。

真正的技术能力不仅在于「会用工具」或「能跑模型」，而在于理解方法背后的原理，在面对新问题、新技术时，具备独立分析、判断和创造的能力。吴恩达曾在一篇文章中以个人经历说明持续学习基础知识的重要性，他强调「牢靠且及时更新的基础知识是成为一名高产机器学习工程师的关键」。

文章链接：https://www.deeplearning.ai/the-batch/issue-146/

这种理念的核心在于「抗变化性」。技术潮流更新迅速，从 CNN 到 Transformer，再到 LLM 和多模态系统，每一步都可能颠覆现有工程范式。

要适应这些变化，不能仅靠追逐热点，而需深入掌握优化、泛化、表示学习等底层理论。只有理解「为何这样设计」以及「背后的假设是什么」，才能在面对全新技术时避免迷茫。

此外，深厚的基础是科研与技术创新的起点。科研不仅是调参或复现论文，更在于提出问题、构建假设、设计新方法。这离不开扎实的数学工具、严谨的逻辑训练以及对经典工作的积累。基础课程培养的不仅是知识点，更是抽象思维与批判性思考能力。

深度学习教父、图灵奖得主 Geoffrey Hinton 在接受 MIT Technology Review 采访时指出，正是对基础算法的长期坚持和深入研究，才推动了深度学习的突破，「我们花了几十年时间打磨神经网络的基本原理，直到 2010 年代才迎来真正的应用爆发。基础知识的积累和理解，是 AI 领域每一次重大进步的根本。」

当然，这种教育路径并非忽视实践，而是强调：真正的实践力应建立在理解力之上。不仅要会用工具，更要了解其来龙去脉、适用边界与改进方向。

因此，「找工作」与「打基础」并非非此即彼的选择题，而是时间维度上的权衡。短期内，工具技能能带来直接的岗位匹配；但长期来看，基础能力才是跨越技术周期、持续成长的「护城河」。

课程讲义

现在我们回过头来看看这份 100 页 pdf 的课程讲义，它对机器学习进行了全面介绍，涵盖了基础概念和现代技术，有兴趣的读者可以阅读原文。

每一章的结构和内容概要如下：

第一章：能量函数介绍能量函数作为机器学习中的统一主题的概念。解释了不同的机器学习范式（监督学习、无监督学习、分类、聚类等）如何可以被构架为最小化能量函数。讨论潜在变量和正则化在定义和学习能量函数中的作用。

第二章：机器学习中的基本分类思想涵盖了基本的分类算法，包括感知器、边际损失、softmax 和交叉熵损失。解释分类器训练中的反向传播，重点在于线性和非线性能量函数。讨论了随机梯度下降（SGD）和自适应学习率优化方法。涉及泛化和模型选择，包括偏差 - 方差权衡和超参数调整。

第三章：神经网络的基本构建块探索了神经网络架构中常用的构建块。讨论了归一化技术（批量归一化、层归一化）。介绍了卷积块、循环块和注意力机制。介绍了神经网络中置换等变性和不变性的概念。

第四章：概率机器学习和无监督学习说明了如何从概率角度解释能量函数。涵盖了变分推断和高斯混合模型。讨论了连续潜在变量模型和变分自编码器（VAEs）。介绍了重要性采样及其方差。

第五章：无向生成模型探索无向生成模型，重点介绍受限玻尔兹曼机（RBMs）和专家乘积（PoE）。讨论马尔可夫链蒙特卡洛（MCMC）方法用于从 RBMs 中采样。引入基于能量的生成对抗网络（EBGANs）。涵盖自回归模型。

第六章：进一步话题提供了机器学习中几个高级主题的概述。讨论了一步强化学习和多步强化学习。探索了集成方法（袋装法，提升法）和贝叶斯机器学习。介绍元学习。探讨混合密度网络和因果关系。

经典论文

最后我们来看看 Cho 提到的经典论文，这里节选了一部分。

「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams

论文地址：https://link.springer.com/article/10.1007/BF00992696

该论文提出了 REINFORCE 算法，一种基于策略梯度的强化学习方法，用于训练连接主义模型（如神经网络）。该算法通过直接优化期望奖励，奠定了现代策略梯度方法的基础。

「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller（重点关注弟 4 节）

论文地址：https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3

系统总结了反向传播（Backpropagation）的优化技巧，包括学习率调整、权重初始化、激活函数选择等。第 4 节特别讨论了高效训练神经网络的实用方法。

「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton

论文地址：https://www.cs.toronto.edu/~hinton/absps/nccd.pdf

提出了对比散度（Contrastive Divergence, CD）算法，用于训练受限玻尔兹曼机（RBM）和专家乘积模型。这是深度学习复兴前的重要工作，为后续深度信念网络（DBN）奠定了基础。

「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling

论文地址：https://arxiv.org/abs/1312.6114

提出了变分自编码器（Variational Autoencoder, VAE），通过变分贝叶斯方法实现高效的生成模型训练。VAE 结合了神经网络和概率建模，成为生成模型领域的里程碑。

「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine

论文地址：https://arxiv.org/abs/1703.03400

提出了 MAML（Model-Agnostic Meta-Learning），一种通用的元学习算法，使模型能够通过少量样本快速适应新任务。MAML 在少样本学习（Few-Shot Learning）领域具有开创性意义。

更多详细内容请参见原讲义和教学大纲。

    
技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向-城市（如：小夏-浙大-大模型-杭州）即可申请加入深度学习/机器学习等技术交流群

—完—



    
为您推荐
《跨语言大模型》最新综述
深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
思考丨到底什么叫算法工程师的落地能力？
Transformer模型有多少种变体？看看这篇全面综述
从SGD到NadaMax，十种优化算法原理及实现
各种注意力机制的PyTorch实现