想法 01

《AI 还在等待祂的智能方程》

AI intelligence equation

人以负熵为食,才能在熵增的环境里维持自身的存续。我们每天摄入的食物和能量,本质上都是带着结构的秩序输入,身体把这份秩序转化为生命活动的稳定,把不可避免的混乱排到体外,于是个体得以在更大的热力学洪流中暂时站稳脚跟。也正因为这种生存经验太深刻,当我们谈论人工智能时,我总会忍不住用同一套镜片去看它,结果越看越觉得荒诞又迷人:我们希望构造一种“智能”,让它把高熵的输入加工成低熵的信息,把噪声压成知识,把纷乱折叠成可用的结构,而代价似乎只剩下一串 token 背后的电力、算力与散热。于是整个过程在某些时刻像极了一场现代祭祀,我们献上电与硅,念出自己也未必完全懂的咒语,期待某种名为“涌现”的赐福,仿佛 AGI 不是工程问题,而是一种被召唤的神迹。

今天最主流的造神路径,是所谓 scaling law。它讲述的故事相当诱人:只要模型更大、数据更多、训练更久,能力就会持续增长,并最终在某个点跨过我们称为 AGI 的门槛。这条路之所以让人安心,是因为它很像一条不挑路况的大道,只要持续投入燃料,就能稳健前进。但让人不安的同样来自它的前提,因为这套叙事往往默认了资源可以逼近“无限”,数据可以源源不断,能量可以持续供给,算力可以无止境堆叠。现实世界却偏偏由上限构成,能源的总量与可用性、芯片制造与部署的边界、数据的可得性与有效性、社会对成本和能耗的容忍度,都会在某个时刻从背景条件变成决定性约束。假如这个世界或者宇宙的能量上限,或我们能承受的能耗上限,根本不足以支撑用纯粹堆规模的方式抵达 AGI,那么再漂亮的曲线也可能只是把烟花画成火箭的形状。

From one to three scaling laws

从训练的角度看,所谓学习可以被理解为一种熵的搬运。数据中蕴含着世界的统计规律与结构信息,训练让网络参数把这些规律吸收进去,形成一种可复用的内部表征。数据越多样,网络越庞大,可容纳的结构就越丰富,这也是 scaling 能反复奏效的原因。可奏效并不等于高效。真正的瓶颈不只是引力,还有氧气,换句话说,不只是算力和训练时长,还有数据质量、数据覆盖、分布偏移、任务组合的复杂性,以及模型在推理阶段对计算的消耗方式。规模可以把能力往上推,但当边际收益开始变薄时,我们终究会面对一个问题:有没有更聪明的路径,能让同等投入产生更大的结构增益。

我认为答案仍然是结构。规模解决的是剂量,结构解决的是反应机制。剂量可以让模型更强,但机制决定模型强在哪里,以及强得是否优雅。借用炸药的类比会更直观:黑火药时代,人类用未经提炼的自然物质获得一次短促而粗糙的爆发;进入化学炸药时代,人类理解了更细的反应路径,通过提纯与合成设计出更高效、更可控的释放结构;再往后,当人类理解了原子层面的结构,核裂变与核聚变把能量释放效率推到了化学反应无法企及的高度。这里发生跃迁的核心不是“用得更多”,而是“理解更深”,是结构层面的认知把同样的质量带进了完全不同的能量通道。

但结构也从来不是脱离规模的空谈,因为结构的效果需要被放大才能显现,原子弹与氢弹都有临界质量,跨不过阈值就只是物理材料,跨过去才会成为历史事件。放到 AI 上同理,我们既需要结构,因为结构反映我们对智能本源的理解,也需要规模,因为规模能把结构的潜力放大成稳定可复现的能力。问题在于,当下我们对现有结构常常抱着一种近似宗教的信任,仿佛只要继续扩大训练,智能就会像神谕一样自动降临。更微妙的是,这种信任并非毫无依据,因为数据与算力作为祭品确实部分有效,工程上也确实在不断交付收益。正因为有效,我们反而缺少足够的动机去追问更深的机制,去寻找能够指导下一轮结构跃迁的东西,也就是一种更接近“质能方程”的理解。没有它,我们大概就只能在同一种结构里一直加码、内卷下去。

我并不是否定 scaling law,相反,它依然是我们目前最可靠的增益引擎,也是许多经验规律的来源。我想强调的是,我们不该把它当作唯一的信仰。世界的复杂性决定了智能不太可能只有一种压缩方式,语言、视觉、行动、因果、规划、社会交互背后可能对应着不同的时空组织形式与不同的可计算结构。如果我们试图用单一骨架吞下所有复杂性,那么我们得到的也许是一个越来越庞大的近似器,而不是一个越来越接近本质的理解器。

把视角再落回数据本身会更清晰。数据可以被视为熵在时空中的展开,它记录了世界在不同尺度上的投影与采样,而网络结构就是我们为这种时空展开搭建的骨架,骨架决定了哪些规律容易被捕捉,哪些结构会被忽视,哪些压缩是自然的,哪些压缩会付出巨大损失。学习不只是拟合曲线,更像是在从数据中提取可复用的结构片段,并在更高层次上组织这些片段,做到比较结构、迁移结构、复用结构,甚至构建“结构的结构”。Ilya说压缩即智能,这句话动人之处在于,它把智能拉回到信息论的地基上,但压缩不是免费的,每一种压缩格式都有偏好与盲区。时间序列上,MLP 常常难以有效建模,并非因为它不能算,而是因为它缺乏对时间结构的归纳偏置;RNN 能处理序列,是因为它内置了过去影响未来的假设,但真实依赖并不总是单向链条;Transformer 之所以强大,是因为它假定结构可以嵌入向量空间,关联可以通过注意力高效提取,从而更灵活地捕捉复杂的时空关系,但它也并不意味着对所有结构都天然最优。

这就引出一个更难的问题:每种数据背后都有对应的时空结构与压缩模式,我们是否能拥有一种更统一的结构,使模型不必依赖人类语言的显式标注去监督结构,而是能在训练过程中更自然地形成通用的计算组织方式。我不知道最终答案是什么,但我越来越倾向于一种方向:与其用语言把世界切成标签再强迫模型学习,不如把更通用的计算结构引入模型,使其具备生成结构的能力,而不仅仅是在固定结构里拟合的能力。人脑是一个很好的提醒,神经元当然重要,但更重要的是它们在漫长演化中形成的多尺度结构与动力学机制,而语言更像是后来为了生存而发明的符号工具,它强大却未必是智能的最底层地基。

所以,当我们在熵增的物理世界里追求一个看起来能熵减的 AGI,这种追求本身确实带着浪漫色彩。只不过浪漫不该成为停止思考的理由。我们可以继续把 scaling 做到极致,因为它稳健而且有效,但与此同时我们更应该把注意力分给结构,把资源分给机制,把野心分给对本质的探索。与其不断加大祭品等待神迹,不如更诚实地理解祭坛背后的物理与计算,让下一次所谓的涌现,更像可解释的必然,而不是偶然的赐福。

Citation

如果您需要引用本文,请参考:

Bojian Yin. (Jun. 05, 2026). 《AI 还在等待祂的智能方程》 [Blog post]. Retrieved from https://byin-cwi.github.io/MatrixWeb/posts/entropy-and-structure.html

@online{matrixweb-entropy-and-structure,
        title={《AI 还在等待祂的智能方程》},
        author={Bojian Yin},
        year={2026},
        month={Jun},
        url={\url{https://byin-cwi.github.io/MatrixWeb/posts/entropy-and-structure.html}},
}

返回想法