《AI 还在等待祂的智能方程》

人以负熵为食，才能在熵增的环境里维持自身的存续。我们每天摄入的食物和能量，本质上都是带着结构的秩序输入，身体把这份秩序转化为生命活动的稳定，把不可避免的混乱排到体外，于是个体得以在更大的热力学洪流中暂时站稳脚跟。也正因为这种生存经验太深刻，当我们谈论人工智能时，我总会忍不住用同一套镜片去看它，结果越看越觉得荒诞又迷人：我们希望构造一种“智能”，让它把高熵的输入加工成低熵的信息，把噪声压成知识，把纷乱折叠成可用的结构，而代价似乎只剩下一串 token 背后的电力、算力与散热。于是整个过程在某些时刻像极了一场现代祭祀，我们献上电与硅，念出自己也未必完全懂的咒语，期待某种名为“涌现”的赐福，仿佛 AGI 不是工程问题，而是一种被召唤的神迹。

今天最主流的造神路径，是所谓 scaling law。它讲述的故事相当诱人：只要模型更大、数据更多、训练更久，能力就会持续增长，并最终在某个点跨过我们称为 AGI 的门槛。这条路之所以让人安心，是因为它很像一条不挑路况的大道，只要持续投入燃料，就能稳健前进。但让人不安的同样来自它的前提，因为这套叙事往往默认了资源可以逼近“无限”，数据可以源源不断，能量可以持续供给，算力可以无止境堆叠。现实世界却偏偏由上限构成，能源的总量与可用性、芯片制造与部署的边界、数据的可得性与有效性、社会对成本和能耗的容忍度，都会在某个时刻从背景条件变成决定性约束。假如这个世界或者宇宙的能量上限，或我们能承受的能耗上限，根本不足以支撑用纯粹堆规模的方式抵达 AGI，那么再漂亮的曲线也可能只是把烟花画成火箭的形状。

从训练的角度看，所谓学习可以被理解为一种熵的搬运。数据中蕴含着世界的统计规律与结构信息，训练让网络参数把这些规律吸收进去，形成一种可复用的内部表征。数据越多样，网络越庞大，可容纳的结构就越丰富，这也是 scaling 能反复奏效的原因。可奏效并不等于高效。真正的瓶颈不只是引力，还有氧气，换句话说，不只是算力和训练时长，还有数据质量、数据覆盖、分布偏移、任务组合的复杂性，以及模型在推理阶段对计算的消耗方式。规模可以把能力往上推，但当边际收益开始变薄时，我们终究会面对一个问题：有没有更聪明的路径，能让同等投入产生更大的结构增益。

我认为答案仍然是结构。规模解决的是剂量，结构解决的是反应机制。剂量可以让模型更强，但机制决定模型强在哪里，以及强得是否优雅。借用炸药的类比会更直观：黑火药时代，人类用未经提炼的自然物质获得一次短促而粗糙的爆发；进入化学炸药时代，人类理解了更细的反应路径，通过提纯与合成设计出更高效、更可控的释放结构；再往后，当人类理解了原子层面的结构，核裂变与核聚变把能量释放效率推到了化学反应无法企及的高度。这里发生跃迁的核心不是“用得更多”，而是“理解更深”，是结构层面的认知把同样的质量带进了完全不同的能量通道。

但结构也从来不是脱离规模的空谈，因为结构的效果需要被放大才能显现，原子弹与氢弹都有临界质量，跨不过阈值就只是物理材料，跨过去才会成为历史事件。放到 AI 上同理，我们既需要结构，因为结构反映我们对智能本源的理解，也需要规模，因为规模能把结构的潜力放大成稳定可复现的能力。问题在于，当下我们对现有结构常常抱着一种近似宗教的信任，仿佛只要继续扩大训练，智能就会像神谕一样自动降临。更微妙的是，这种信任并非毫无依据，因为数据与算力作为祭品确实部分有效，工程上也确实在不断交付收益。正因为有效，我们反而缺少足够的动机去追问更深的机制，去寻找能够指导下一轮结构跃迁的东西，也就是一种更接近“质能方程”的理解。没有它,我们大概就只能在同一种结构里一直加码、内卷下去。

我并不是否定 scaling law，相反，它依然是我们目前最可靠的增益引擎，也是许多经验规律的来源。我想强调的是，我们不该把它当作唯一的信仰。世界的复杂性决定了智能不太可能只有一种压缩方式，语言、视觉、行动、因果、规划、社会交互背后可能对应着不同的时空组织形式与不同的可计算结构。如果我们试图用单一骨架吞下所有复杂性，那么我们得到的也许是一个越来越庞大的近似器，而不是一个越来越接近本质的理解器。

把视角再落回数据本身会更清晰。数据可以被视为熵在时空中的展开，它记录了世界在不同尺度上的投影与采样，而网络结构就是我们为这种时空展开搭建的骨架，骨架决定了哪些规律容易被捕捉，哪些结构会被忽视，哪些压缩是自然的，哪些压缩会付出巨大损失。学习不只是拟合曲线，更像是在从数据中提取可复用的结构片段，并在更高层次上组织这些片段，做到比较结构、迁移结构、复用结构，甚至构建“结构的结构”。Ilya说压缩即智能，这句话动人之处在于，它把智能拉回到信息论的地基上，但压缩不是免费的，每一种压缩格式都有偏好与盲区。时间序列上，MLP 常常难以有效建模，并非因为它不能算，而是因为它缺乏对时间结构的归纳偏置；RNN 能处理序列，是因为它内置了过去影响未来的假设，但真实依赖并不总是单向链条；Transformer 之所以强大，是因为它假定结构可以嵌入向量空间，关联可以通过注意力高效提取，从而更灵活地捕捉复杂的时空关系，但它也并不意味着对所有结构都天然最优。

这就引出一个更难的问题：每种数据背后都有对应的时空结构与压缩模式，我们是否能拥有一种更统一的结构，使模型不必依赖人类语言的显式标注去监督结构，而是能在训练过程中更自然地形成通用的计算组织方式。我不知道最终答案是什么，但我越来越倾向于一种方向：与其用语言把世界切成标签再强迫模型学习，不如把更通用的计算结构引入模型，使其具备生成结构的能力，而不仅仅是在固定结构里拟合的能力。人脑是一个很好的提醒，神经元当然重要，但更重要的是它们在漫长演化中形成的多尺度结构与动力学机制，而语言更像是后来为了生存而发明的符号工具，它强大却未必是智能的最底层地基。

所以，当我们在熵增的物理世界里追求一个看起来能熵减的 AGI，这种追求本身确实带着浪漫色彩。只不过浪漫不该成为停止思考的理由。我们可以继续把 scaling 做到极致，因为它稳健而且有效，但与此同时我们更应该把注意力分给结构，把资源分给机制，把野心分给对本质的探索。与其不断加大祭品等待神迹，不如更诚实地理解祭坛背后的物理与计算，让下一次所谓的涌现，更像可解释的必然，而不是偶然的赐福。

《AI 还在等待祂的智能方程》

Citation