OpenAI 翁家翌的新博文：Learning Beyond Gradients

OpenAI 翁家翌的新博文：Learning Beyond Gradients地址：trinkle23897.github.io/learning-beyond-gradients/翁家翌提出一个想法：未来的“学习”不一定只发生在神经网络权重里，也可以发生在一个不断被 AI 编程代理维护、修改和改进的软件系统里。文章称这种方式为 Heuristic Learning，启发式学习。

“Continual Learning 一直难以被解决，主要卡在神经网络的灾难性遗忘：学了新东西，旧能力就容易被冲掉。那如果不把目光只放在神经网络权重上，还有没有其他解决方案？

随着 LLM agent 变强，coding 的速度和质量都在提升。但我最近更在意的是另一个现象：coding agent 不训练新网络、不更新权重，只是持续看失败、改代码、加测试、看回放，也能把一套程序系统越养越强。

这让我重新看待 heuristic，也就是手写规则和程序策略。过去很多 heuristic 不是没用，而是没人养得起；coding agent 改变的是这条维护成本曲线。于是，过去只能当一次性补丁的规则，开始变成值得长期拥有的代码。

凡是可以被持续迭代的，都开始能被解决。这也是 Continual Learning 一直想要解决的问题。它会是既 Pretrain、RLHF、Large-scale RL/RLVR 之后的下一个范式吗？”

AI创造营

万益资讯网

OpenAI 翁家翌的新博文：Learning Beyond Gradients

热门分类