「Jinqiu DeepTalk」
用一场深度分享带你找到下一个 buzz 信号。
Ilya Sutskever 在 最新播客 中直指 Scaling recipe 的核心局限:
人们沉迷于“把更多 算力 和数据塞进更大的模型”, 认为只要 scale up 这套配方,大模型的效果就会更好。然而,随着规模变得越来越大,这种简单的扩展方式正在面临瓶颈:数据已接近极限,模型规模的百倍扩张也难再带来真正的能力跃迁。
因此, 如何更高效地使用计算、如何重新定义模型性能 ,成为我们重新回到“研究时代”要面对的首要问题之一。
发表于 Nature Machine Intelligence 的 《Densing Law of LLMs》 提出了新的答案—— “能力密度”(capability density)与“ 密度法则 ”(densing law) 。该研究通过分析 51 个主流开源 LLM 的演进轨迹发现: LLM 的最大能力密度呈指数提升,约每 3.5 个月翻一番。 我们正从“做大模型”转向“做高效模型”。
在本期锦秋 DeepTalk,邀请到该论文一作、清华大学计算机系博士后、面壁 MiniCPM(小钢炮)文本模型研发负责人 肖朝军博士 ,首次公开解读他和团队的最新工作: 《密度法则: 大模型 从“大”到“密”的高效发展路径》 。
主题: 密度法则:大模型从“大”到“密”的高效发展路径
时间: 12月6日,周六,10:00-11:00
方式: 线上飞书闭门交流(报名通过后发送链接)
报名: 关注公众号「锦秋集」,后台留言“deeptalk”,获得报名表单
以下为 肖朝军博士《Densing Law of LLMs 》工作解读⬇️
期刊来源:Nature Machine Intelligence (2025年11月刊)
论文题目: Densing law of LLMs
作者单位: 清华大学计算机系、OpenBMB 等
发布时间: 2025年11月
#01 从 Scaling Law 到 Densing Law 近年来,Scaling Law 催生了如 GPT-3 (175B) 和 Llama-3.1-405B 等千亿级参数模型。然而,随着 LLM 的发展,提升推理效率变得日益紧迫:
成本倒挂: 推理成本已超越训练成本,成为实际应用的主要瓶颈。
端侧需求: PC 和智能手机等端侧部署需求增加,要求模型更加高效紧凑。
推理缩放: 新的“推理缩放定律”表明,让模型在推理阶段生成更多 token 进行“思考”是关键,这进一步增加了对高效推理的需求。
面对“扩大规模以提升性能”和“缩小规模以提升效率”这两条路径,我们提出了两个核心问题:
1. 能否定量评估不同规模 LLM 的质量?
2. 是否存在一个反映 LLM 效率趋势的定律?
为了解决能力与参数量之间的非线性关系难题,我们提出了一套基于参照系的定量评估方法。既然无法直接测量“绝对能力”,我们选择通过对比来测量“相对密度”。
具体而言,我们引入了 有效参数大小(Effective Parameter Size) 的概念
1. 建立参照系: 首先,我们需要一个标准的参考模型(Reference Model)。我们选择基于标准 Transformer 架构的模型,并拟合其性能(S)与参数量(N)之间的Scaling Curve。
2. 参数映射: 对于任意给定的目标模型(无论其架构如何),我们测量其在特定任务上的性能 S_M 。
3. 计算有效参数: 通过参考模型的缩放曲线,反推达到同等性能 S_M 所需的参数量。这个反推出来的参数量,即为该模型的有效参数大小,记为 N(S_M) 。
基于此,我们将能力密度(Capability Density, ρ) 定义为“有效参数大小”与“实际参数大小”的比值:
Density(ρ) = Effective Parameter Size / Actual Parameter Size = N(S_M) / N_M
这一指标的物理含义十分明确:
如果 ρ = 1,说明该模型与基准参考模型的效率相当。
如果 ρ > 1,说明该模型比参考模型更“致密”,即用更少的实际参数实现了更强的能力。 通过这种方法,我们可以将不同架构(如稠密模型、MoE 混合专家模型)和不同精度(如量化模型)的模型统一在同一个维度下进行公平比较。
Densing Law的发现:每 3.5 个月翻一番 基于上述定义,我们对自 Llama-1 发布以来的 51 个主流开源基础模型进行了广泛的评估,评估范围涵盖了 MMLU、BBH、MATH、HumanEval 和 MBPP 等权威基准测试。
评估后的规律显示——大语言模型的能力密度随时间呈指数级增长,我们将这一规律命名为Densing Law。
通过拟合最大能力密度随时间变化的曲线,得出了以下关键数据:
根据对数据的观察,得出以下三个洞察:
1. 数据质量是核心驱动力: Densing Law的出现,主要归功于预训练数据规模的爆炸式增长(从早期的 T 级到现在的 15T+)以及数据质量的显著提升。这使得模型能够从每个参数中“压榨”出更多的智能。
2. 大模型不等于高密度: 虽然 Llama-3.1-405B 等超大模型性能卓越,但它们的密度往往不是最高的。受限于巨大的训练成本和计算资源,超大模型很难训练到极致的收敛状态(Undertrained),导致其“性价比”即密度略低于同期的中等规模模型。
3. 对摩尔定律的继承: Densing Law反映了 AI 领域对“计算性价比”的极致追求。这与集成电路领域的摩尔定律(Moore's Law)有着异曲同工之妙——摩尔定律追求在有限的芯片面积上容纳更多晶体管,而Densing Law追求在有限的计算预算(参数量)下容纳更强的智能。
推论 1:参数量指数级减少 为了达到相同的性能水平,模型所需的实际参数量将随时间呈指数级下降。
推论 2:推理成本指数级降低 在同等性能条件下,模型实际参数量的指数级减少,直接带来了推理过程中计算成本的降低。
案例: 为了直观展示这一趋势,我们分析了自 GPT-3.5 发布以来,性能优于它的模型 API 价格变化。数据显示,API 价格呈指数级下跌。例如,在 2022 年 12 月,GPT-3.5 每百万 token 的价格为 20 美元。而到了 2024 年 8 月,性能相当的 Gemini-1.5-Flash 每百万 token 仅需 0.075 美元。这相当于在不到两年的时间里,价格下降了 266.7 倍 。
结论:
粗略计算,LLM 的推理成本大约 每 2.6 个月 减半。
*注:我们观察到推理成本的下降速度(每 2.6 个月减半)快于模型密度的增长速度(每 3.5 个月翻倍)。这是因为推理成本不仅取决于模型参数量,还高度依赖于推理基础设施的优化。近年来,如 FlashAttention(自注意力层显存访问优化)和针对前馈网络的稀疏计算优化等技术进步,极大地推动了推理成本的进一步降低。
推论3 : “Densing Law × 摩尔定律”:端侧智能潜力 Densing Law描述了模型算法层面的效率提升,而摩尔定律则描述了硬件算力的指数级增长。这两大定律的结合,预示着端侧智能(Edge-Side Intelligence)的巨大潜力。
在硬件层面,根据近期观察,同等价格芯片的算力大约 每 2.1 年 翻倍。如果我们将目光投向“在固定价格芯片上能运行的最大有效参数规模”(这代表了该设备能承载的实际智能水平),我们会发现其增长速度是模型密度增长率与芯片晶体管密度增长率的乘积。这意味着,能够运行在消费级设备(如智能手机、PC)上的高性能模型规模将呈指数级爆炸式增长。
根据当前估算,固定价格硬件上可运行的 最大有效参数规模大约每 88 天翻一番 。这一惊人的增长速度表明,高性能 LLM 将比预期更快地在各类消费级终端设备上普及,实现低功耗、高智能的无处不在的 AI 应用。
推论 4:ChatGPT 发布后密度增长加速 ChatGPT 在各类任务中的性能均有大幅提升,其零样本泛化能力激发了产业界和学术界对大型语言模型发展的深入探索。为展示 ChatGPT 发布前后模型密度增长趋势的变化,我们评估了自 GPT-3 发布以来典型大型语言模型的密度,并采用 MMLU 基准测试捕捉密度变化情况,结果如下图 3c 所示。
从图中可以看出,ChatGPT 发布后,模型密度的增长速度显著加快。在 ChatGPT 发布前,趋势线的斜率约为 A ≈0.0048,而发布后斜率增至 A ≈0.0073,这表明模型密度的增长速度提升了 50%。
促成这种增长加速的因素主要有以下几点:
投资激增 :巨大的成功吸引了海量资本与资源涌入 LLM 研发领域。
开源生态繁荣 :高质量开源模型的涌现降低了研发门槛。
小模型(Small LLMs )的普及 :尤其是数十亿(Billions)参数级别的高质量小模型大量出现,使得研究人员仅需相对较小的 GPU 集群即可开展前沿研究,极大地拓宽了技术创新的参与群体。
因此,我们鼓励业界开源前沿算法和模型,这将为密度提升做出重要贡献。
⚠️ 警 示:压缩并不总能提升密度 为了在端侧设备上运行 LLM,开发者常采用剪枝(Pruning)、蒸馏(Distillation)和量化(Quantization)等技术来压缩模型。为了验证这些技术对“能力密度”的影响,我们分析了 Llama-3.2、Llama-3.1-minitron、Gemma-2 等模型及其压缩版本。
发现: 实验结果出人意料。除了 Gemma-2-9B (蒸馏自 Gemma-2-27B)的密度高于其原始模型外, 大多数压缩模型的密度实际上低于其原始模型 。例如,通过剪枝和蒸馏得到的 Llama-3.1-minitron 系列,以及经过 GPTQ 量化的模型,其密度表现均不如原版。
原因:
建议: 这一发现提醒社区,高效压缩不仅仅是减小模型体积。为了真正提升效率,社区应确保压缩后的模型经过 充分训练(Training-sufficient) ,从而在减小规模的同时真正保持或提升模型的能力密度。
准确的能力测量 能力密度(Capability Density)的核心定义是 LLM 单位参数所蕴含的能力。然而,必须承认的是,目前的科学技术尚无法精确评估 LLM 的“绝对”智能水平。
相对测量的局限性 : 我们目前采用的是一种相对测量法,即通过对比某一模型与参考模型在特定任务上的表现来计算密度。这种方法的准确性高度依赖于评测基准(Benchmarks)的质量。
基准的挑战 : 现有的评测基准可能存在覆盖面不足、题目设计偏差或过拟合(Overfitting)等问题。
未来的方向 : 为了更精准地衡量模型密度,社区迫切需要建立一个更全面、无偏见且动态更新的评估体系。只有当评估尺子足够精准,我们才能真正量化“智能密度”的每一次微小跃迁。
密度最优训练 (Density-Optimal Training) “Densing Law”的发现预示着未来的训练范式将发生根本性转变:从单纯追求参数规模的“大”(Scaling for Size),转向追求单位参数效率的“密”(Scaling for Density)。这种“密度最优训练”旨在以最优的计算效率实现最佳性能,从而实现更可持续、环境友好的 Scaling Law。
具体而言,提升密度的路径包括以下三个关键维度:
1. 高效架构
未来的模型设计应不再局限于标准的 Transformer 结构,而是探索更优的模型架构。通过改进架构设计(例如引入稀疏化、线性注意力机制等),在不增加参数量的前提下显著提升模型的表达能力和推理效率。
2. 数据工程
数据是提升密度的核心燃料。单纯增加数据量已不足够,必须转向复杂的数据预处理与合成技术。采用先进的数据清洗、去重和质量筛选技术,并利用合成数据(Synthetic Data)来补充高质量训练语料。高质量的数据能让模型在更少的参数下“学会”更多的知识。
3. 大小协同
构建大模型与小模型协同进化的生态系统,是提升整体密度的有效手段。
大模型 指导小模型(蒸馏) : 利用超大模型(Large Models)作为“教师”,通过知识蒸馏(Knowledge Distillation)和数据合成,将大模型的泛化能力“压缩”进小模型,直接提升小模型的密度。
小模型反哺 大模型 (数据筛选) : 高效的小模型(Small Models)可以作为“过滤器”或“探针”,用于预处理海量数据、进行架构实验或通过“弱至强训练”(Weak-to-Strong Training)技术辅助大模型的训练,从而提升大模型的训练效率。
#04 核心技术细节: 如何计算“有效参数” (Effective Parameter Size) 这是Densing Law量化评估的基石。为了公平比较不同架构模型的效率,我们需要将它们统一折算为标准参考模型的参数量。
01 总体框架 (Overall Framework)
我们需要计算给定模型 M(其实际参数量为 N_M,在下游任务上的性能得分为 S_M)的有效参数大小 N(S_M)。 直接拟合参数与下游任务性能的关系非常困难,因为下游性能往往呈现非线性的“涌现”特征。因此,我们采用受 Llama-3 启发的两步估计法:
第一步:损失估计 (Loss Estimation) 利用经典的 Scaling Law,拟合模型参数量 与语言模型预训练损失
之间的关系。损失函数 是衡量模型压缩数据能力的平滑指标。 第二步:性能估计 (Performance Estimation) 拟合语言模型损失 与下游任务具体得分 之间的关系。通过建立 与 的映射,我们就能间接建立 与 的联系
02 核心公式 (Core Formulas) (1) 损失估计 (Loss Estimation) 我们采用经典的 Scaling Law 公式形式来拟合参数量、数据量与损失的关系: Plaintext L = a * N^(-α) + b * D^(-β) 注: 在计算“有效参数”时,为了标准化比较,我们默认参考模型的训练数据量为固定的 D_0 = 5T (5万亿) tokens。这意味着“有效参数”是指:一个在 5T 数据上训练的参考模型,要达到同等性能所需的参数量。 (2) 性能估计 (Performance Estimation) 由于 Scaling Law 模型在下游任务上的表现(如 MMLU 得分)通常是非线性的(在低能力区间接近随机猜测,在高能力区间趋于饱和),线性拟合失效。因此,我们使用 Sigmoid 函数进行拟合: S = c / (1 + e^(-γ * (L - l))) + d S (Score): 下游任务的得分(如准确率)。 原理: Sigmoid 函数天然将输出限制在一定范围内(0到1),且两端平缓,非常符合模型能力从“随机猜测”到“性能封顶”的变化规律。 (3) 有效参数反推计算 (Effective Parameter Calculation) 结合上述两步,对于任意一个待测模型(其实际性能为 S_M),我们可以反推其有效参数 N(S_M): 首先通过性能公式的反函数,由 S_M 推算出对应的损失 L(S_M)。 然后代入损失公式,计算在固定数据量 D_0 下所需的参数量。 最终反推公式为: N(S_M) = ( (L(S_M) - b * D_0^(-β)) / a )^(-1/α) 03 不同架构的密度计算 (Density for Different Architectures) 为了统一衡量不同架构(如稠密模型、MoE、量化模型)的效率,我们将密度定义扩展为: 参考模型的推理成本与目标模型推理成本的比值 。
为了标准化计算,论文中假设推理硬件为 NVIDIA RTX 4090(FP16 算力 C ≈ 82.58 TFLOPS,带宽 B ≈ 1.01 TB/s),以此确定下列公式中的常数 k。 A. 稠密模型 (Dense Models)
对于标准的 Transformer 模型,推理时间主要由参数量线性决定。 密度直接计算为有效参数与实际参数的比值: ρ = N(S_M) / N_M
B. 稀疏混合专家模型 (Sparse MoE)
MoE 模型包含总参数 N_M 和每次前向传播的激活参数 N_M^A。 由于 MoE 的总参数量通常很大,无法完全载入显存,常需依赖 Offloading (卸载) 技术。因此,推理时间由存储带宽(加载参数)和计算速度(激活参数计算)共同决定。
密度计算公式为:
ρ = ( N(S_M) * (k1 + k2) ) / ( N_M * k1_S + N_M^A * k2 )
k1_S: 涉及卸载时的内存系数。由于芯片与磁盘/CPU内存之间的带宽远低于显存带宽,k1_S 远大于 k1。这解释了为何 MoE 虽然激活参数少,但如果在端侧设备频繁触发卸载,其“密度”可能会降低。
C. 量化模型 (Quantized Models) 量化主要减少模型权重的存储体积,从而减少显存访问时间 ( ),但在计算时通常仍通过反量化使用 FP16 进行计算(为了保持精度),因此计算时间不变。 若将模型量化为 4-bit: ρ = ( N(S_M) * (k1 + k2) ) / ( N_M * k1_Q + N_M^A * k2 )
k1_Q: 量化后的内存访问系数。对于 4-bit 量化,显存占用不仅是 FP16 的 1/4,访问时间也相应减少,即 k1_Q ≈ 0.25 * k1。
04 实验设置 (Experimental Settings) 为了获得准确的拟合曲线(即确定公式中的 $$a, b, $$ 等常数),我们需要一组训练充分的“参考模型”。
参考模型构建 :
训练语料 : 使用 MiniCPM-3-4B 的高质量训练语料(包含约 5T tokens)。
模型序列 : 训练了一系列参数量从 0.005B 到 0.8B 的小规模 Scaling 模型。
训练策略 : 采用标准的 Scaling Law 训练策略,学习率采用 Warm-up-Stable-Decay 策略。
超参数细节 (Table 1):
为了覆盖不同的参数量级,参考模型的设计细节如下:
再次提醒,肖朝军博士将在12月6日(本周六)上午10:00与首次公开分享本篇工作, 席位有限,欢迎大家报名从速!