万益资讯网

OpenAI 翁家翌的新博文:Learning Beyond Gradients

OpenAI 翁家翌的新博文:Learning Beyond Gradients地址:trinkle23897.github.io/learning-beyond-gradients/翁家翌提出一个想法:未来的“学习”不一定只发生在神经网络权重里,也可以发生在一个不断被 AI 编程代理维护、修改和改进的软件系统里。文章称这种方式为 Heuristic Learning,启发式学习。

“Continual Learning 一直难以被解决,主要卡在神经网络的灾难性遗忘:学了新东西,旧能力就容易被冲掉。那如果不把目光只放在神经网络权重上,还有没有其他解决方案?

随着 LLM agent 变强,coding 的速度和质量都在提升。但我最近更在意的是另一个现象:coding agent 不训练新网络、不更新权重,只是持续看失败、改代码、加测试、看回放,也能把一套程序系统越养越强。

这让我重新看待 heuristic,也就是手写规则和程序策略。过去很多 heuristic 不是没用,而是没人养得起;coding agent 改变的是这条维护成本曲线。于是,过去只能当一次性补丁的规则,开始变成值得长期拥有的代码。

凡是可以被持续迭代的,都开始能被解决。这也是 Continual Learning 一直想要解决的问题。它会是既 Pretrain、RLHF、Large-scale RL/RLVR 之后的下一个范式吗?”

AI创造营