Py学习  »  机器学习算法

深度学习 2.0 正式启幕!杨植麟团队 AttnRes 重构大模型根基,A 股产业链投资机会全梳理

独角兽智库 • 1 周前 • 35 次点击  

北京时间 2026 年 3 月 16 日,由杨植麟联合创立的国内大模型头部厂商月之暗面(Moonshot AI)发布重磅预印本论文,提出了革命性的注意力残差(Attention Residuals,简称 AttnRes)架构,对 Transformer 大模型最基础、沿用多年的核心结构 —— 残差连接进行了彻底重构。这一成果被前 OpenAI 大牛、“推理模型之父” Jerry Tworek 直言 “深度学习 2.0 时代即将来临”,OpenAI 联合创始人 Andrej Karpathy 也给出高度评价,相关话题在全球 AI 圈迅速发酵,成为继 Transformer 诞生以来,大模型基础架构领域最具里程碑意义的突破。

本次发布的 AttnRes 架构,核心创新在于用可学习的注意力机制,替代了传统 Transformer 中固定的残差相加方式。传统残差连接由何恺明团队在 ResNet 中提出,是现代深度神经网络的核心基础,其 “等权累加” 的设计虽然解决了深层网络的梯度消失问题,但随着大模型层数不断增加,所有历史层的表示被简单叠加,导致早期信息被不可逆稀释,深层模型的表达能力、复杂推理能力受到严重限制。而 AttnRes 让每一层网络都能作为查询(Query),从所有历史层的表示中动态检索、加权分配最有用的信息,相当于把注意力机制从序列维度,首次完整扩展到了网络深度维度,从根源上解决了深层大模型的信息稀释痛点。

为了控制大规模模型的计算开销,研究团队进一步提出了块级注意力残差(Block AttnRes) 优化方案,通过分层块设计、跨阶段缓存、两阶段计算等技术,实现了极小的额外开销:训练端到端耗时增加不到 4%,推理延迟提升不到 2%,却带来了 1.25 倍的计算效率提升,在多步推理基准测试 GPQA-Diamond 上得分提升超 20%,在数学推理、科学问答、代码生成等复杂任务上实现了全面的性能跃升。

不同于实验室阶段的远期技术,AttnRes 已经在 Kimi Linear 48B 大模型上完成了完整的预训练验证,落地门槛极低、性价比极高,预计将快速被全球大模型厂商跟进采用,彻底重构大模型的技术路线与产业格局,为 A 股 AI 全产业链带来历史性的投资机遇。

一、大模型核心厂商:率先落地新架构,抢占深度学习 2.0 先发优势

AttnRes 架构的核心价值,在于用极低的成本实现了大模型复杂推理能力的跨越式提升,这正是当前大模型厂商竞争的核心壁垒。率先完成架构适配与落地的厂商,将快速拉开与竞争对手的性能差距,在长上下文、专业推理等高价值场景抢占市场份额,同时显著降低训练与推理成本,加速商业化变现进程。

核心标的方面,昆仑万维是国内开源大模型的领军者,旗下天工大模型在超长上下文、复杂推理领域具备深厚的技术积累,此前已率先推出支持百万级上下文的开源大模型,与 AttnRes 的技术优势高度契合。公司具备极强的技术迭代速度与工程化能力,能够快速完成 AttnRes 架构的适配与落地,进一步拉开与同类开源模型的性能差距,提升市场占有率,同时大幅降低推理成本,增强在游戏、社交、AIGC 等场景的商业化变现能力。

科大讯飞是国内大模型商业化落地的龙头企业,星火大模型在教育、医疗、工业、政企等专业场景拥有广泛的落地基础,而这些场景正是对复杂推理能力需求最强烈的高价值市场。AttnRes 架构带来的推理能力跃升,将直接强化星火大模型的产品竞争力,加速其在教育个性化辅导、临床辅助诊断、工业智能质检等场景的规模化落地,进一步巩固公司的行业龙头地位。

三六零旗下 360 智脑大模型在网络安全、政企数字化转型等场景具备天然的落地优势,AttnRes 架构带来的推理效率提升,将显著降低公司大模型服务的运营成本,同时提升长文本分析、安全事件推理等核心功能的性能,强化其在政企安全大模型市场的竞争力。

云从科技是国内人机协同大模型的龙头厂商,在金融、政企、智慧城市等场景拥有成熟的解决方案,AttnRes 架构带来的多步推理能力提升,将显著优化其智能风控、政务审批、城市治理等核心产品的智能化水平,加速商业化变现进程。

二、AI 算力芯片:架构升级重构算力需求,国产芯片迎来差异化突破窗口

AttnRes 架构将注意力机制从序列维度扩展到网络深度维度,显著增加了注意力计算的占比,同时对芯片的内存访问效率、片上缓存容量、带宽优化能力提出了更高的要求。这一架构变革,为国产 AI 芯片厂商带来了差异化突破的窗口 —— 针对 AttnRes 的核心计算特点做针对性优化,能够快速实现性能与效率的领先,打破传统 GPU 的生态壁垒,受益于大模型厂商对推理芯片的增量采购需求。

核心标的方面,寒武纪是国内 AI 推理芯片的绝对龙头,旗下思元系列芯片针对大模型推理场景做了深度优化,内置了专门的注意力加速引擎,在片上缓存设计、内存带宽优化、长上下文推理加速等领域拥有深厚的技术积累,能够快速适配 AttnRes 架构的算力需求。随着国内大模型厂商全面跟进新架构,公司将直接受益于推理芯片的增量采购需求,进一步巩固在国内 AI 芯片市场的领先地位。

海光信息 是国内通用计算 GPU 的龙头企业,旗下海光 DCU 深度兼容 CUDA 生态,具备极强的通用性与性能表现,能够快速适配大模型架构的迭代升级。AttnRes 架构的普及,将带动国内大模型推理算力需求的整体扩容,公司作为国内少数能够提供高性能通用 AI 算力的厂商,将直接受益于算力基础设施的增量建设需求。

景嘉微是国内自主可控 GPU 的领军企业,旗下 JM9 系列芯片已实现通用 AI 计算能力的重大突破,在嵌入式、边缘侧 AI 推理场景拥有广泛的应用基础。AttnRes 架构带来的推理效率提升,将加速大模型在边缘侧的落地,公司将充分受益于边缘侧 AI 推理芯片的需求扩容。

龙芯中科是国内自主可控 CPU 的龙头厂商,在通用计算与 AI 加速领域持续布局,旗下龙芯 3A6000 等系列处理器已具备成熟的 AI 推理加速能力,针对 AttnRes 架构的算子优化,将显著提升其在政企、工业等自主可控场景的 AI 推理竞争力,打开新的增长空间。

三、AI 存储与互联:新架构提出极致要求,存储环节迎来价值重估

AttnRes 的 Block AttnRes 机制,需要缓存所有历史块的表征用于跨层注意力计算,对片上高速缓存、内存带宽、数据访问效率提出了极致的要求。同时,为了缓解长上下文场景的显存压力,架构采用了序列分片、跨设备缓存等优化方案,将带动高带宽存储、内存接口芯片、高速互联等环节的需求升级,存储产业链迎来价值重估机遇。

核心标的方面,北京君正是全球 SRAM 领域的龙头企业,通过收购 ISSI 实现了车规级 SRAM 市占率全球第二的领先地位,具备大容量、高带宽 SRAM 的成熟量产能力。AttnRes 架构对片上高速缓存的容量与带宽需求大幅提升,SRAM 作为实现低延迟、高带宽存储的核心介质,将迎来需求的显著扩容,公司作为行业龙头将直接受益。

澜起科技是全球内存接口芯片的领军企业,DDR5 相关技术全球领先,是国内唯一实现 DDR5 内存接口芯片全系列量产的厂商。AttnRes 架构对内存带宽的极致要求,将带动高规格 DDR5 内存及配套接口芯片的需求升级,公司作为行业龙头将充分享受行业扩容的红利。

兆易创新是国内存储全平台龙头企业,SRAM、NOR Flash、DRAM 等产品全面布局,其中 SRAM 产品已覆盖消费、工业、汽车等多个领域,正在加速拓展大容量高带宽的 AI 级 SRAM 产品,将直接受益于 AttnRes 架构带来的 AI 存储需求升级。

聚辰股份是国内 EEPROM 的龙头厂商,在汽车电子、AI 存储领域布局深入,同时持续推进 SRAM 相关产品的研发与量产,将受益于 AI 存储市场的整体扩容,迎来新的业绩增长点。

四、AI 推理基础设施:新架构落地的核心支撑,国产软件生态迎来发展机遇

AttnRes 架构的规模化落地,离不开底层推理引擎、训练框架、算子优化、向量数据库等基础设施的配套支持。论文中提到的跨阶段缓存、两阶段计算、算子融合、序列分片等核心优化,都需要底层软件的深度适配,具备相关技术积累的厂商,将成为大模型厂商落地新架构的核心合作伙伴,迎来快速发展的机遇。

核心标的方面,拓尔思是国内自然语言处理领域的龙头企业,自主研发了大模型推理引擎、分布式向量数据库、多模态大模型开发平台等核心基础设施,针对长上下文、复杂推理场景做了深度优化,能够为大模型厂商落地 AttnRes 架构提供完整的底层软件支持。公司在政务、金融、媒体等领域拥有深厚的客户积累,将充分受益于新架构带来的推理基础设施增量需求。

中科创达是国内智能操作系统的龙头企业,在 AI 推理框架、边缘侧推理优化、算子融合等领域拥有深厚的技术积累,能够为大模型厂商提供从云到端的全场景推理优化解决方案。AttnRes 架构带来的推理效率提升,将加速大模型在边缘侧、端侧的落地,公司将直接受益于端侧 AI 推理优化业务的需求扩容。

润和软件是国内 AIoT 领域的领军企业,在大模型端侧推理、场景化落地方面拥有丰富的经验与成熟的解决方案,针对 AttnRes 架构的适配优化,将显著提升其在工业、汽车、智能家居等端侧 AI 场景的产品竞争力,加速业务拓展。

东方国信是国内大数据与人工智能领域的龙头厂商,自主研发了完整的大模型训练与推理平台,在工业、金融、通信等领域拥有广泛的客户基础,能够为大模型厂商落地 AttnRes 架构提供全流程的基础设施支持,受益于行业整体的技术升级需求。

五、场景化 AI 应用:复杂推理能力突破,打开高价值场景商业化空间

AttnRes 架构最大的性能提升,集中在数学推理、科学问答、代码生成、长文本逻辑分析等需要多步复杂推理的任务上,这正是当前大模型在专业场景落地的核心瓶颈。随着复杂推理能力的跨越式提升,大模型将快速打开科研、金融、工业设计、医疗、法律等高价值专业场景的商业化空间,具备相关场景布局的应用厂商将迎来业绩的爆发式增长。

核心标的方面,同花顺是国内金融信息服务的龙头企业,在金融大模型、智能投顾、智能风控等领域布局深入,金融场景对财报分析、逻辑推理、风险预测等多步推理能力的需求极强。AttnRes 架构带来的推理能力提升,将直接强化公司金融大模型的核心竞争力,加速其在机构与个人投资者中的规模化应用,打开新的增长空间。

卫宁健康是国内医疗信息化的龙头厂商,在医疗大模型、临床辅助诊断、医学科研等领域拥有深厚的积累,医疗场景对病例分析、诊疗推理、医学文献解读等复杂推理能力的要求极高。AttnRes 架构的落地,将显著提升医疗大模型的临床实用性,加速公司产品在医院端的规模化落地,巩固行业龙头地位。

广联达是国内建筑信息化的领军企业,在数字建筑、工业设计大模型领域布局领先,工程建设场景对工程量计算、施工方案推理、成本管控等多步逻辑分析的需求强烈。AttnRes 架构带来的推理能力提升,将进一步强化公司产品的智能化水平,提升在行业内的渗透率。

中望软件是国内工业软件的龙头厂商,在 CAD、CAE 等核心工业设计软件领域实现了自主可控,代码生成、工程计算、几何推理等能力是工业软件智能化的核心。AttnRes 架构的落地,将加速公司工业软件的智能化升级,提升产品竞争力,打破海外厂商的垄断格局。


总而言之,月之暗面发布的 AttnRes 架构,是 Transformer 诞生以来大模型基础领域最具革命性的突破之一,正式开启了深度学习 2.0 的时代。这一架构创新从根源上解决了深层大模型的信息稀释痛点,用极低的成本实现了复杂推理能力与计算效率的双重跃升,将彻底重构全球大模型的技术路线与产业格局。对于 A 股市场而言,这一变革将带来从底层算力、存储、基础设施,到上层大模型厂商、场景化应用的全链条投资机遇,建议投资者重点关注具备技术壁垒、客户基础深厚、能够率先落地并兑现业绩的核心标的,把握深度学习 2.0 时代的产业红利。


今日情报精选


开放体验(非免费)详情点击→:《投研情报介绍》



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/194047