当架构成为基础设施

前沿模型在如何处理注意力上并未达成一致,却正在收敛到相同的设计目标。与此同时,决定性的进展越来越不是来自网络设计,而是来自模型如何被训练。
过去数年间,人工智能领域反复争论的一个问题,是哪一种新架构将最终取代 Transformer。2023 到 2024 年间,Mamba、RWKV、RetNet 等一批以线性复杂度为卖点的模型相继出现,每一次都伴随着“Transformer 时代即将结束”的讨论。到 2026 年,这个问题在很大程度上已经安静下来,但原因并不是某个继任者胜出,也不完全是大家终于接受了同一种设计。更微妙的变化是:架构不再是竞争被决定的地方。它正在成为基础设施——必要、昂贵、持续被工程化,却不再是模型之间能力差距的主要来源。真正的差距正在转移到训练之中:数据、强化学习流程,以及模型能够调用的工具。本文后半部分想讨论的更深层模式,是哪些优雅能够在大规模算力面前存活下来,哪些又会被冲淡。
目标趋同,机制分化
两个长期压力塑造了一切。第一是长上下文中注意力机制的代价。标准自注意力的计算与显存开销随序列长度平方增长,当上下文扩展到数十万乃至上百万 token 时,仅键值缓存(KV cache)一项就足以耗尽大规模 GPU 集群的显存。第二是稠密计算的成本与能耗。每生成一个 token 都要激活全部参数,使模型规模的扩张同时受到带宽与电力的约束。过去两年前沿架构中几乎所有有趣的变化,都是对这两个压力的回应。
值得注意的是,这些回应并没有收敛到同一种机制。单就长上下文问题而言,2026 年初的一批旗舰模型至少分成了三个阵营:
| 模型(2026 年初) | 长上下文方案 | 线性层 : 全注意力层 |
|---|---|---|
| Qwen3.5 | Gated DeltaNet 线性层 + 全注意力 | 3 : 1 |
| Ling / Ring 2.5(1T) | Lightning 线性注意力 + MLA | 7 : 1 |
| Hunyuan-TurboS | Mamba2 层 + GQA 注意力 | ≈ 8 : 1 |
| GLM-5 | MLA + DeepSeek 风格稀疏注意力(DSA) | — |
| DeepSeek V4 | 压缩稀疏注意力(CSA + HCA) | — |
| Kimi K2.5 | MLA,全程全注意力 | — |
| MiniMax M2.5 | 普通全多头注意力 | — |
第一类押注线性混合结构:以线性复杂度的序列层作为骨干——例如 Mamba 家族的状态空间模型,或门控线性注意力的变体——再穿插少量全注意力层,用来承担精确检索与更难的推理。阿里巴巴的 Qwen3.5 大约以三比一的比例交替 Gated DeltaNet 与全注意力;蚂蚁集团的 Ling 2.5 围绕七比一的 Lightning 线性注意力与来自 DeepSeek 的多头潜在注意力(MLA)重建了一个一万亿参数模型;腾讯的 Hunyuan-TurboS 则在 5600 亿总参数的生产级模型中使用 Mamba2–Transformer 混合结构。值得注意的是,即便在这个阵营内部,“正确”的线性层与全注意力层比例也尚未定型:Qwen3-Next 谱系与 Kimi Linear 中约为 3:1,Ling 中为 7:1,腾讯约为 8:1;它似乎取决于线性机制本身的表达能力,也取决于评测什么。第二类仍然保留注意力,但让它变得稀疏或压缩:GLM-5 在 MLA 之上叠加 DeepSeek 风格的稀疏注意力,DeepSeek 自己的 V4 则结合两种压缩注意力机制,把百万 token 推理的 FLOPs 与 KV cache 压到前代的一小部分。第三类则干脆继续为全注意力付费——Kimi K2.5 使用 MLA,MiniMax M2.5 使用普通多头注意力——因为它们认为长链推理中的可靠性值得这笔显存账。有人把二月这一批发布总结为一句很贴切的话:"Nobody Agrees on Attention Anymore."
这里最有启发性的事件,是一次反转。MiniMax 的 M1 曾是最激进的线性设计之一,每七个 Lightning Attention 块才插入一个 softmax 块。但它的后继者 M2 又回到了全注意力。MiniMax 的预训练负责人还发表了一篇相当坦诚的 复盘,解释原因:线性注意力的退化恰恰出现在现在最重要的场景里,也就是长链推理和多步智能体任务,而现有评测套件又很难及时捕捉这些退化;虽然从理论上看,线性注意力与全注意力的计算交叉点只在几千 token 附近,但要真正抵达这个优势,需要低精度状态存储、prefix caching,以及一整套线性注意力尚未完全具备的基础设施。团队长期仍然看好线性路线——一旦上下文长度增长快过 GPU 容量,线性与稀疏的收益就会被释放出来——但眼下成本超过了收益。这个事件的意义并不是线性注意力“输了”;同一个季度里,蚂蚁就发布了一万亿参数的线性混合模型。真正的重点是:在线性、稀疏与全注意力之间做选择,已经变成一种成本与基础设施计算。不同实验室面对不同工作负载和服务经济学,可以理性地走向不同答案。这正是一项技术成为基础设施之后的样子,而不是成为护城河时的样子。
真正存在机械性趋同的地方,是稀疏化。当前几乎所有旗舰模型都采用混合专家(MoE)结构,且每个 token 激活的参数比例不断下降。DeepSeek-V3 每次前向仅激活约 5.5% 的参数,Meta 的 Llama 4 Maverick 约为 4.3%,Kimi K2.5 约为 3.2%。DeepSeek V4-Pro 在 1.6 万亿总参数中单次仅激活约 490 亿,而阿里巴巴的 Qwen3-Coder-Next 总参数 800 亿、单次激活仅 30 亿,在编码任务上的表现却超过参数量数倍于它的模型。再加上 Mixture-of-Depths 这类按 token 难度分配层数的机制,计算量与参数规模之间的绑定被进一步松开。
新的组件仍在被纳入这一框架。其中之一是对推理过程的处理。默认情况下,今天的模型更像快速、直觉式的反应器;过去一年兴起的“慢思考”主要依赖思维链,也就是把每一步推理以文本写出来。一个新的方向是隐式推理,让模型在隐空间中迭代,而不是把中间步骤以 token 形式输出,从而在不增加输出长度的前提下扩展推理计算。早期证据已经分布在几个方向:Meta 的 COCONUT 训练模型在连续隐空间中推理,而不是在 token 中推理;recurrent-depth models 通过循环层来扩展 test-time compute;在机器人控制中,对同一个动作模块迭代数次也能显著提升成功率。低精度训练也不再局限于部署阶段。NVIDIA 报告了使用 4-bit 浮点格式 NVFP4 对 120 亿参数模型完成十万亿 token 预训练,其损失与下游表现接近 FP8 基线,这是目前公开披露规模最大的 4-bit 训练。
所以,趋同是真实存在的,但它发生在通常讨论层级的上一层。前沿模型共享的不是一种机制,而是一组设计目标:长上下文下的次二次成本、稀疏激活、越来越低的数值精度、更多被悄悄折进前向过程的计算,以及实现这些目标所需的工程纪律。在这个层级之下,机制仍然分化,实验室会随着经济性变化在不同机制之间移动。目标层面的趋同,机制层面的流动,大致就是架构成为基础设施的含义。
进步来自哪里
如果架构仍然是决定性差异,那么前面这些机制分裂应该在能力差距上明显体现出来。但大多数时候并没有:线性混合模型、稀疏注意力模型、全注意力模型在真正重要的排行榜上彼此交错。相比之下,过去一年最显著的能力跃升——OpenAI 的 o 系列及其后的 GPT-5 系列、DeepSeek 的 R1,以及在智能体编码和工具调用评测中领先、能够自主执行多步任务的 Kimi K2.6 等模型——大多不是来自新的网络结构。它们来自一组训练方法:基于可验证奖励的强化学习、推理阶段投入更多计算、调用外部工具与执行代码,以及训练数据的配比与清洗。
这一点在开源与闭源模型的差距上体现得尤其清楚。DeepSeek 在 2026 年 4 月发布 V4-Pro 时,总参数 1.6 万亿、激活参数 490 亿,其报告的 SWE-bench Verified 分数为 80.6,距离 Claude Opus 4.6 只差 0.2 分,与 GPT-5 系列、Gemini 3.1 Pro 的距离也类似。(这些是厂商报告的数字,而且排行榜每个月都在变化;等你读到这里时,具体模型可能已经过时。重要的是差距的形状。)弥合这道差距的,是数据与强化学习流程,而不是底层网络结构的改变。这里也需要诚实地补一句:闭源实验室并不公开架构,因此“训练而非架构弥合开源与闭源差距”这一判断,部分依赖于一个假设,即闭源模型在架构上并没有极其奇特。这个假设被广泛共享,也与服务成本和延迟所暗示的信息一致,但它仍然是一个假设,而不是直接观察。
符号推理的回归,也是同一变化的说明。多年来,“神经-符号”方法的复兴一直被视为提升模型严格推理能力的可能路径,通常设想是在神经网络内部引入专门的符号模块。这个能力确实在增强,但实现方式并不是原先想象的那样。模型通过调用代码解释器或外部验证器,并基于验证器返回的结果进行强化学习,从而获得可靠推演与自我校验能力。换句话说,符号成分是通过工具接口进入系统的,而不是通过网络架构进入的。
更清晰的分工可以这样表述:架构购买效率,训练购买能力。Ling 2.5 的数字是吞吐量数字——蚂蚁报告称,在 32K token 之后,其生成吞吐量超过前代三倍,并且输出越长,相比 Kimi K2 架构的优势越明显。V4-Pro 用来缩小与闭源模型差距的数字,则是强化学习流程的数字。当然,这两者是耦合的:一个实验室是否负担得起百万 token 智能体轨迹上的强化学习,直接取决于注意力的成本,这也是效率战争值得打的原因。但这种耦合通过预算发生,而不是直接通过 benchmark 发生。2026 年的架构像电力和冷却一样必要,但它不再是竞争被决定的地方。
优雅与算力的错位
还有一个相关现象值得单独讨论。许多在数学上很优雅的方法,其理论优势在实践中往往被算力与资源规模所稀释。这不是新观察。Richard Sutton 在 "The Bitter Lesson," 中指出,从长期看,能够更充分利用计算的通用方法,往往会胜过那些依赖人类洞见和精巧结构的方法。Sara Hooker 的 "The Hardware Lottery" 则进一步强调,一项研究思路能否成功,在很大程度上取决于当时的硬件是否恰好适合它,而不是它自身的内在优劣。
不过,把这件事简单概括成“优雅总会败给蛮力”又太粗糙。被稀释的,主要是那种把人类知识、先验和结构直接硬编码进模型的优雅。在足够的数据与算力下,模型往往能够自行学到相应规律,人工设计的约束反而可能变成负担。另一类优雅,也就是简单、规整、与并行矩阵计算高度契合的优雅,则会被规模放大,而不是被磨损。Transformer 本身就是后一类。它之所以胜出,恰恰因为其结构非常适合 GPU 擅长的事情。更准确的说法是:与算力相契合的优雅会被放大,与算力相抵触的优雅会被冲淡。
前文提到的若干进展正好说明了这一点。状态空间模型在理论上很优雅,其连续时间形式与 HiPPO 框架为长程记忆提供了有原则的解释。但到了 Mamba-2,设计者为了在 GPU 上更快训练,主动放弃了一部分表达能力,把一部分理论上的精致换成了原始速度。MiniMax 回退到全注意力,则是从另一侧看到同一个模式:优雅机制不是在理论上被击败,而是在 kernel、cache 和数值上被击败。低精度训练也是同样的故事。最简洁的设想是 1-bit BitNet,但它至今仍更像一个研究对象;真正能在前沿规模稳定训练的是 4-bit NVFP4,而后者依赖一系列并不优雅的工程手段,包括 Random Hadamard 变换、随机舍入,以及保留若干高精度层。简洁的想法存活了下来,但以一种被稀释、被反复修补的工程形态存活。
这并不意味着理论失去了价值,而是理论的作用方式发生了变化。在许多情形下,优雅机制本身被替换,但它作为概念框架的价值被保留下来。状态空间理论被简化了,却启发了整条混合架构路线。还有一些方法的理论优势也许确实存在,只是需要在目前尚难负担的规模上才会显现,这更接近“太早”而不是“错了”。从这个角度看,优势被稀释不像一条铁律,更像当前算力相对充裕阶段的特征;当廉价算力带来的容易收益被耗尽、低垂果实被摘完,理论也许会再次成为区分领先者的东西。
仍然开放的问题
这并不意味着架构已经完全定型。大多数尚未解决的方向,目前更像是对既有框架的细化,而不是挑战者;但结尾处有一个可能的例外。
隐式推理的代价之一是可解释性。以文本形式写出的思维链常被认为计算低效,但它的“可见”本身很有价值:研究者可以在可观察的推理过程上施加强化学习,逐步核验,并监控异常行为。隐空间中的迭代把这个过程埋进高维表示里,无法直接读出。已有工作开始尝试“解码”此类模型的内部状态,并将其视为安全问题。因此,更谨慎的预期是,隐式推理会作为显式推理的补充存在,而不是替代它。
多模态与世界模型是第二个仍在演化、且投入巨大的方向。DeepMind 的 Genie 3 能够从一个 prompt 实时生成交互式三维世界,并在数分钟内保持视觉一致性;Meta 的 V-JEPA 2 使用约一百万小时视频和数十小时机器人交互数据训练,在陌生环境中的操作任务上取得了很高的零样本成功率;Yann LeCun 也在 2026 年初离开 Meta,创立了专注于通用世界模型的 AMI Labs。即便如此,把这个趋势理解成“文本被边缘化,世界模型将取而代之”仍然是错误的。纯视觉世界模型也有自己的瓶颈。仅从视频出发,它们很难区分意图相近的动作,例如“假装拧动”和“实际拧动”,需要其他模态或物理推理来消解歧义。事实上,V-JEPA 2 最强的视觉推理表现,正出现在它与语言模型结合的时候。就目前证据而言,这更像是多模态融合,而不是一种模态取代另一种模态。与之相关,输入端也在试图摆脱固定分词器,一些工作转向字节级端到端处理,但目前仍主要是研究方向。
生成方式本身也不只有自回归。扩散语言模型放弃逐 token 的串行解码,转而并行地从噪声中恢复整段文本,从而绕开自回归固有的延迟和 KV cache 瓶颈。2026 年初,Inception 发布了 Mercury 2,这是第一个面向推理的扩散模型,生成速度超过每秒一千 token,大约是同类自回归模型的十倍;Google 的 Gemini Diffusion 和字节跳动的 Seed Diffusion 也在推进这个方向。不过到目前为止,纯扩散模型在推理评测上仍明显落后于自回归模型,只有在代码生成等任务上比较接近,而且长输出场景下成本会重新上升。因此它们更可能先以混合形式进入实用,例如把分块扩散与自回归结合,而不是立刻取而代之。
最有可能把架构重新从基础设施拉回战场的候选者,反而是记忆。今天的模型在训练后被冻结,在会话之间失忆;长上下文和检索只是权宜之计,不是解决方案。相关的架构提案——能够读写大型学习型键值存储的 memory layers、Titans-style 的 test-time memorization、以及推理阶段权重会更新的层——都指向一件训练方法很难单独外挂上去的事情:一个能够积累经验的模型。持久记忆是少数从底层看起来就具有架构属性的开放问题。如果网络设计之争会在哪里重新打开,它更可能发生在这里,而不是又一个注意力变体之中。
综上,种种迹象表明,大模型架构已经进入一个稳定阶段——目标稳定,机制未必完全稳定——并正在成为各方共享的基础设施。如今真正拉开模型差距的,越来越多是训练数据、强化学习流程,以及模型能够触达的工具。而这些,恰好也是各家披露得最少的部分,更是未来竞争的高地。