当架构成为基础设施

When Architecture Becomes Infrastructure

前沿模型在如何处理注意力上并未达成一致，却正在收敛到相同的设计目标。与此同时，决定性的进展越来越不是来自网络设计，而是来自模型如何被训练。

过去数年间，人工智能领域反复争论的一个问题，是哪一种新架构将最终取代 Transformer。2023 到 2024 年间，Mamba、RWKV、RetNet 等一批以线性复杂度为卖点的模型相继出现，每一次都伴随着“Transformer 时代即将结束”的讨论。到 2026 年，这个问题在很大程度上已经安静下来，但原因并不是某个继任者胜出，也不完全是大家终于接受了同一种设计。更微妙的变化是：架构不再是竞争被决定的地方。它正在成为基础设施——必要、昂贵、持续被工程化，却不再是模型之间能力差距的主要来源。真正的差距正在转移到训练之中：数据、强化学习流程，以及模型能够调用的工具。本文后半部分想讨论的更深层模式，是哪些优雅能够在大规模算力面前存活下来，哪些又会被冲淡。

目标趋同，机制分化

两个长期压力塑造了一切。第一是长上下文中注意力机制的代价。标准自注意力的计算与显存开销随序列长度平方增长，当上下文扩展到数十万乃至上百万 token 时，仅键值缓存（KV cache）一项就足以耗尽大规模 GPU 集群的显存。第二是稠密计算的成本与能耗。每生成一个 token 都要激活全部参数，使模型规模的扩张同时受到带宽与电力的约束。过去两年前沿架构中几乎所有有趣的变化，都是对这两个压力的回应。

值得注意的是，这些回应并没有收敛到同一种机制。单就长上下文问题而言，2026 年初的一批旗舰模型至少分成了三个阵营：

模型（2026 年初）	长上下文方案	线性层 : 全注意力层
Qwen3.5	Gated DeltaNet 线性层 + 全注意力	3 : 1
Ling / Ring 2.5（1T）	Lightning 线性注意力 + MLA	7 : 1
Hunyuan-TurboS	Mamba2 层 + GQA 注意力	≈ 8 : 1
GLM-5	MLA + DeepSeek 风格稀疏注意力（DSA）	—
DeepSeek V4	压缩稀疏注意力（CSA + HCA）	—
Kimi K2.5	MLA，全程全注意力	—
MiniMax M2.5	普通全多头注意力	—

第一类押注线性混合结构：以线性复杂度的序列层作为骨干——例如 Mamba 家族的状态空间模型，或门控线性注意力的变体——再穿插少量全注意力层，用来承担精确检索与更难的推理。阿里巴巴的 Qwen3.5 大约以三比一的比例交替 Gated DeltaNet 与全注意力；蚂蚁集团的 Ling 2.5 围绕七比一的 Lightning 线性注意力与来自 DeepSeek 的多头潜在注意力（MLA）重建了一个一万亿参数模型；腾讯的 Hunyuan-TurboS 则在 5600 亿总参数的生产级模型中使用 Mamba2–Transformer 混合结构。值得注意的是，即便在这个阵营内部，“正确”的线性层与全注意力层比例也尚未定型：Qwen3-Next 谱系与 Kimi Linear 中约为 3:1，Ling 中为 7:1，腾讯约为 8:1；它似乎取决于线性机制本身的表达能力，也取决于评测什么。第二类仍然保留注意力，但让它变得稀疏或压缩：GLM-5 在 MLA 之上叠加 DeepSeek 风格的稀疏注意力，DeepSeek 自己的 V4 则结合两种压缩注意力机制，把百万 token 推理的 FLOPs 与 KV cache 压到前代的一小部分。第三类则干脆继续为全注意力付费——Kimi K2.5 使用 MLA，MiniMax M2.5 使用普通多头注意力——因为它们认为长链推理中的可靠性值得这笔显存账。有人把二月这一批发布总结为一句很贴切的话："Nobody Agrees on Attention Anymore."

这里最有启发性的事件，是一次反转。MiniMax 的 M1 曾是最激进的线性设计之一，每七个 Lightning Attention 块才插入一个 softmax 块。但它的后继者 M2 又回到了全注意力。MiniMax 的预训练负责人还发表了一篇相当坦诚的复盘，解释原因：线性注意力的退化恰恰出现在现在最重要的场景里，也就是长链推理和多步智能体任务，而现有评测套件又很难及时捕捉这些退化；虽然从理论上看，线性注意力与全注意力的计算交叉点只在几千 token 附近，但要真正抵达这个优势，需要低精度状态存储、prefix caching，以及一整套线性注意力尚未完全具备的基础设施。团队长期仍然看好线性路线——一旦上下文长度增长快过 GPU 容量，线性与稀疏的收益就会被释放出来——但眼下成本超过了收益。这个事件的意义并不是线性注意力“输了”；同一个季度里，蚂蚁就发布了一万亿参数的线性混合模型。真正的重点是：在线性、稀疏与全注意力之间做选择，已经变成一种成本与基础设施计算。不同实验室面对不同工作负载和服务经济学，可以理性地走向不同答案。这正是一项技术成为基础设施之后的样子，而不是成为护城河时的样子。

真正存在机械性趋同的地方，是稀疏化。当前几乎所有旗舰模型都采用混合专家（MoE）结构，且每个 token 激活的参数比例不断下降。DeepSeek-V3 每次前向仅激活约 5.5% 的参数，Meta 的 Llama 4 Maverick 约为 4.3%，Kimi K2.5 约为 3.2%。DeepSeek V4-Pro 在 1.6 万亿总参数中单次仅激活约 490 亿，而阿里巴巴的 Qwen3-Coder-Next 总参数 800 亿、单次激活仅 30 亿，在编码任务上的表现却超过参数量数倍于它的模型。再加上 Mixture-of-Depths 这类按 token 难度分配层数的机制，计算量与参数规模之间的绑定被进一步松开。

新的组件仍在被纳入这一框架。其中之一是对推理过程的处理。默认情况下，今天的模型更像快速、直觉式的反应器；过去一年兴起的“慢思考”主要依赖思维链，也就是把每一步推理以文本写出来。一个新的方向是隐式推理，让模型在隐空间中迭代，而不是把中间步骤以 token 形式输出，从而在不增加输出长度的前提下扩展推理计算。早期证据已经分布在几个方向：Meta 的 COCONUT 训练模型在连续隐空间中推理，而不是在 token 中推理；recurrent-depth models 通过循环层来扩展 test-time compute；在机器人控制中，对同一个动作模块迭代数次也能显著提升成功率。低精度训练也不再局限于部署阶段。NVIDIA 报告了使用 4-bit 浮点格式 NVFP4 对 120 亿参数模型完成十万亿 token 预训练，其损失与下游表现接近 FP8 基线，这是目前公开披露规模最大的 4-bit 训练。

所以，趋同是真实存在的，但它发生在通常讨论层级的上一层。前沿模型共享的不是一种机制，而是一组设计目标：长上下文下的次二次成本、稀疏激活、越来越低的数值精度、更多被悄悄折进前向过程的计算，以及实现这些目标所需的工程纪律。在这个层级之下，机制仍然分化，实验室会随着经济性变化在不同机制之间移动。目标层面的趋同，机制层面的流动，大致就是架构成为基础设施的含义。

进步来自哪里

如果架构仍然是决定性差异，那么前面这些机制分裂应该在能力差距上明显体现出来。但大多数时候并没有：线性混合模型、稀疏注意力模型、全注意力模型在真正重要的排行榜上彼此交错。相比之下，过去一年最显著的能力跃升——OpenAI 的 o 系列及其后的 GPT-5 系列、DeepSeek 的 R1，以及在智能体编码和工具调用评测中领先、能够自主执行多步任务的 Kimi K2.6 等模型——大多不是来自新的网络结构。它们来自一组训练方法：基于可验证奖励的强化学习、推理阶段投入更多计算、调用外部工具与执行代码，以及训练数据的配比与清洗。

这一点在开源与闭源模型的差距上体现得尤其清楚。DeepSeek 在 2026 年 4 月发布 V4-Pro 时，总参数 1.6 万亿、激活参数 490 亿，其报告的 SWE-bench Verified 分数为 80.6，距离 Claude Opus 4.6 只差 0.2 分，与 GPT-5 系列、Gemini 3.1 Pro 的距离也类似。（这些是厂商报告的数字，而且排行榜每个月都在变化；等你读到这里时，具体模型可能已经过时。重要的是差距的形状。）弥合这道差距的，是数据与强化学习流程，而不是底层网络结构的改变。这里也需要诚实地补一句：闭源实验室并不公开架构，因此“训练而非架构弥合开源与闭源差距”这一判断，部分依赖于一个假设，即闭源模型在架构上并没有极其奇特。这个假设被广泛共享，也与服务成本和延迟所暗示的信息一致，但它仍然是一个假设，而不是直接观察。

符号推理的回归，也是同一变化的说明。多年来，“神经-符号”方法的复兴一直被视为提升模型严格推理能力的可能路径，通常设想是在神经网络内部引入专门的符号模块。这个能力确实在增强，但实现方式并不是原先想象的那样。模型通过调用代码解释器或外部验证器，并基于验证器返回的结果进行强化学习，从而获得可靠推演与自我校验能力。换句话说，符号成分是通过工具接口进入系统的，而不是通过网络架构进入的。

更清晰的分工可以这样表述：架构购买效率，训练购买能力。Ling 2.5 的数字是吞吐量数字——蚂蚁报告称，在 32K token 之后，其生成吞吐量超过前代三倍，并且输出越长，相比 Kimi K2 架构的优势越明显。V4-Pro 用来缩小与闭源模型差距的数字，则是强化学习流程的数字。当然，这两者是耦合的：一个实验室是否负担得起百万 token 智能体轨迹上的强化学习，直接取决于注意力的成本，这也是效率战争值得打的原因。但这种耦合通过预算发生，而不是直接通过 benchmark 发生。2026 年的架构像电力和冷却一样必要，但它不再是竞争被决定的地方。

优雅与算力的错位

还有一个相关现象值得单独讨论。许多在数学上很优雅的方法，其理论优势在实践中往往被算力与资源规模所稀释。这不是新观察。Richard Sutton 在 "The Bitter Lesson," 中指出，从长期看，能够更充分利用计算的通用方法，往往会胜过那些依赖人类洞见和精巧结构的方法。Sara Hooker 的 "The Hardware Lottery" 则进一步强调，一项研究思路能否成功，在很大程度上取决于当时的硬件是否恰好适合它，而不是它自身的内在优劣。

不过，把这件事简单概括成“优雅总会败给蛮力”又太粗糙。被稀释的，主要是那种把人类知识、先验和结构直接硬编码进模型的优雅。在足够的数据与算力下，模型往往能够自行学到相应规律，人工设计的约束反而可能变成负担。另一类优雅，也就是简单、规整、与并行矩阵计算高度契合的优雅，则会被规模放大，而不是被磨损。Transformer 本身就是后一类。它之所以胜出，恰恰因为其结构非常适合 GPU 擅长的事情。更准确的说法是：与算力相契合的优雅会被放大，与算力相抵触的优雅会被冲淡。

前文提到的若干进展正好说明了这一点。状态空间模型在理论上很优雅，其连续时间形式与 HiPPO 框架为长程记忆提供了有原则的解释。但到了 Mamba-2，设计者为了在 GPU 上更快训练，主动放弃了一部分表达能力，把一部分理论上的精致换成了原始速度。MiniMax 回退到全注意力，则是从另一侧看到同一个模式：优雅机制不是在理论上被击败，而是在 kernel、cache 和数值上被击败。低精度训练也是同样的故事。最简洁的设想是 1-bit BitNet，但它至今仍更像一个研究对象；真正能在前沿规模稳定训练的是 4-bit NVFP4，而后者依赖一系列并不优雅的工程手段，包括 Random Hadamard 变换、随机舍入，以及保留若干高精度层。简洁的想法存活了下来，但以一种被稀释、被反复修补的工程形态存活。

这并不意味着理论失去了价值，而是理论的作用方式发生了变化。在许多情形下，优雅机制本身被替换，但它作为概念框架的价值被保留下来。状态空间理论被简化了，却启发了整条混合架构路线。还有一些方法的理论优势也许确实存在，只是需要在目前尚难负担的规模上才会显现，这更接近“太早”而不是“错了”。从这个角度看，优势被稀释不像一条铁律，更像当前算力相对充裕阶段的特征；当廉价算力带来的容易收益被耗尽、低垂果实被摘完，理论也许会再次成为区分领先者的东西。

仍然开放的问题

这并不意味着架构已经完全定型。大多数尚未解决的方向，目前更像是对既有框架的细化，而不是挑战者；但结尾处有一个可能的例外。

隐式推理的代价之一是可解释性。以文本形式写出的思维链常被认为计算低效，但它的“可见”本身很有价值：研究者可以在可观察的推理过程上施加强化学习，逐步核验，并监控异常行为。隐空间中的迭代把这个过程埋进高维表示里，无法直接读出。已有工作开始尝试“解码”此类模型的内部状态，并将其视为安全问题。因此，更谨慎的预期是，隐式推理会作为显式推理的补充存在，而不是替代它。

多模态与世界模型是第二个仍在演化、且投入巨大的方向。DeepMind 的 Genie 3 能够从一个 prompt 实时生成交互式三维世界，并在数分钟内保持视觉一致性；Meta 的 V-JEPA 2 使用约一百万小时视频和数十小时机器人交互数据训练，在陌生环境中的操作任务上取得了很高的零样本成功率；Yann LeCun 也在 2026 年初离开 Meta，创立了专注于通用世界模型的 AMI Labs。即便如此，把这个趋势理解成“文本被边缘化，世界模型将取而代之”仍然是错误的。纯视觉世界模型也有自己的瓶颈。仅从视频出发，它们很难区分意图相近的动作，例如“假装拧动”和“实际拧动”，需要其他模态或物理推理来消解歧义。事实上，V-JEPA 2 最强的视觉推理表现，正出现在它与语言模型结合的时候。就目前证据而言，这更像是多模态融合，而不是一种模态取代另一种模态。与之相关，输入端也在试图摆脱固定分词器，一些工作转向字节级端到端处理，但目前仍主要是研究方向。

生成方式本身也不只有自回归。扩散语言模型放弃逐 token 的串行解码，转而并行地从噪声中恢复整段文本，从而绕开自回归固有的延迟和 KV cache 瓶颈。2026 年初，Inception 发布了 Mercury 2，这是第一个面向推理的扩散模型，生成速度超过每秒一千 token，大约是同类自回归模型的十倍；Google 的 Gemini Diffusion 和字节跳动的 Seed Diffusion 也在推进这个方向。不过到目前为止，纯扩散模型在推理评测上仍明显落后于自回归模型，只有在代码生成等任务上比较接近，而且长输出场景下成本会重新上升。因此它们更可能先以混合形式进入实用，例如把分块扩散与自回归结合，而不是立刻取而代之。

最有可能把架构重新从基础设施拉回战场的候选者，反而是记忆。今天的模型在训练后被冻结，在会话之间失忆；长上下文和检索只是权宜之计，不是解决方案。相关的架构提案——能够读写大型学习型键值存储的 memory layers、Titans-style 的 test-time memorization、以及推理阶段权重会更新的层——都指向一件训练方法很难单独外挂上去的事情：一个能够积累经验的模型。持久记忆是少数从底层看起来就具有架构属性的开放问题。如果网络设计之争会在哪里重新打开，它更可能发生在这里，而不是又一个注意力变体之中。

综上，种种迹象表明，大模型架构已经进入一个稳定阶段——目标稳定，机制未必完全稳定——并正在成为各方共享的基础设施。如今真正拉开模型差距的，越来越多是训练数据、强化学习流程，以及模型能够触达的工具。而这些，恰好也是各家披露得最少的部分，更是未来竞争的高地。

当架构成为基础设施

目标趋同，机制分化

进步来自哪里

优雅与算力的错位

仍然开放的问题

Citation