想法 02

网络中的两个时间

Network time events

时间到底是什么,认真想一下就会有点无力。我们明明活在时间里,却抓不住它;很多人长大后还会有同一种错觉:一年比一年快,小时候漫长的暑假不见了,日历越翻越轻。于是忍不住怀疑,时间也许并不是一条均匀的直线--它有自己的结构,有些时刻在"发生",有些只是"经过"。社会用钟表、日程、网格把每一分钟都做得资格均等,可记忆并不按网格运作,它更像在等待"发生"。所以所谓"时间变快",常常不是钟走得更急,而是值得被写进记忆的事件稀疏了,空白在不知不觉里被拉长。时间在这里露出一个有点残酷的事实:它不只是流逝的长度,也是被筛选过的结构。

神经网络恰好能把"时间"这个抽象的东西摊成算式。RNN 像每天写日记的人,每一步读一页输入、改写一次状态;而看似"没有时间"的前馈网络其实也有--它一层层算下去,上一层永远是下一层的过去,反向传播不过是把这套"时空"展开来看,每一层都是一个时刻。换句话说,前馈网络是"时间上不共享参数的 RNN",RNN 是"共享参数、不断喂新输入的前馈网络"。这就引出两套时间:外部时间是序列走了多少步,内部时间是状态真正改变了多少次。在多数传统结构里,这两套被默认绑死--外部走一步,内部就更新一步,于是"活了多久"和"改变多少次"被强行画上等号。

时间轴一旦太长就会出问题:超深网络和超长序列 RNN 难训练,其实是同一种病--梯度穿过太多次非线性,连乘之下不是消失就是爆炸。ResNet 给深度开残差近路、Transformer 用注意力在 token 间搭桥,本质都在让信息少"改写自己"几次、把时间轴变得更好走;但它们大多仍默认外部每走一步,系统就得"做点什么"。可真实世界的信息并不均匀:重要的时刻很少,大量日子只是重复,语言、音乐、行情、传感器都一样,有的片段信息极密,有的几乎只是噪声。偏偏大多数网络的节律整齐划一--RNN 每一步都用同一套变换,不管今天是大事还是只是刷牙。结构忽浓忽淡、节律却一成不变,既白耗算力,也让记忆在反复重写里被冲淡。于是问题不只是模型够不够大、算子够不够强,还在于:时间结构允不允许系统把"保持不变"也当成一种合法的计算。

把网络看成"在时间里生活的系统",一个很自然的想法就出现了:多数时候保持不变,只在少数真正需要时才更新--这就是选择性更新(Selective Update)。关键不在门由谁来开(节律、内容、还是别的模块都行),而在于一旦允许"不开门",时间观就被改写了:一部分状态可以走一条近乎恒等的 carry 通路,像石头一样稳稳延续,只在需要时局部改写。于是物理时间步照走,内部的"有效时间"却和它脱钩--外部一万步,某些神经元可能只真正更新几百次;梯度与记忆的难度,也从"外部跨度"转到了"内部更新密度"。这正是 "subnetwork for subsequence" 的力量:只在某些时刻更新,等于在计算图里选出一条稀疏路径、抽出一个在更新子序列上运行的子网络,不同输入点亮不同路径,却共享同一套参数。说白了,这不是让网络跑得更快,而是让它学会"什么时候不必动":保持不变成了默认,真正的计算只在值得的时刻发生。

这不只是漂亮比喻。在 Copying-Memory 这类长程任务里,延迟拉到几千步时普通循环结构常常学不动,加了选择性更新就能稳定形成"保持-读出"的节律;在专为"稀疏写入、长期保存"设计的 selective copy 上,普通 GRU 准确率很低,而 suGRU 能逼近满分,是"从不会到会"的跃迁;在 Long Range Arena 上,严格单向、流式的循环结构靠它也能在 Pathfinder 这种难题上打出相当能看的成绩;甚至在语言建模(WikiText-103)上,它能把困惑度压到和同规模 Transformer 相当,与注意力交错还能更好。这说明选择性更新更像一种可与强算子共存的"时间结构原语",而不是某个体系里的小技巧。

External time and internal time

也正因为它更像"原语",时间侧的结构创新就值得被认真对待。过去我们总在空间侧使劲(更强的卷积、注意力、更深更宽),却忘了时间侧也能发明结构--而且不一定是把每一步算得更复杂,也可以是让大多数步变得更简单。沿这条线,混合时空算子、事件驱动的硬件、以及"子网络族在子序列上运行"带来的持续学习与可解释性,都还有得挖。

写到这里就又绕回"时间"。人之所以觉得时间越过越快,也许不是时间真的变快了,而是能在记忆里留下刻痕的更新点变少了,内部时间轴变稀,整段人生像被压缩。选择性更新像是把这件事在工程上说破:重要的从来不是"走过多少步",而是"发生了多少次真正的更新"。当外部时间仍在匀速流动、内部却能按事件稀疏跳动,一个系统才可能既走得很远,又不至于在每一步无谓的改写里把自己磨损掉。而这或许也能回照人:所谓成长,并不是把每一秒都填满,而是在少数那些让人成为自己的时刻,被清晰地改写一次,然后带着那次改写,安静地走过漫长的空白。


注:本文涉及的"选择性更新"(Selective Update)机制、suGRU 及相关基准结果,参考自 Yin et al., "Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling"(arXiv:2603.02226, 2026)。

Citation

如果您需要引用本文,请参考:

Bojian Yin. (Jun. 05, 2026). 网络中的两个时间 [Blog post]. Retrieved from https://byin-cwi.github.io/MatrixWeb/posts/selective-update-time.html

@online{matrixweb-selective-update-time,
        title={网络中的两个时间},
        author={Bojian Yin},
        year={2026},
        month={Jun},
        url={\url{https://byin-cwi.github.io/MatrixWeb/posts/selective-update-time.html}},
}

返回想法