【AI模型能力迎来质变,编程领域格局彻底改写】
快速阅读:过去六个月,大语言模型经历了从“辅助工具”到“实战代理”的质变。2025年11月的拐点让编程代理(Coding Agents)跨越了可用性门槛,而本地化模型在性能上的爆发则打破了对算力的垄断。
关于“鹈鹕骑自行车”这个测试,大家可能觉得它荒诞,但它其实是个极佳的压力测试。让模型用 SVG 代码画出一只鹈鹕骑单车,这不仅考察几何理解,更考察逻辑组合。以前这几乎是死题,但现在,Gemini 3.1 甚至能把鱼稳稳放在车筐里。这说明模型已经不再是简单的模式匹配,而是开始理解物理世界的某种“常识”。
真正的分水岭发生在去年11月。
在那之前,编程 AI 像是需要人时刻盯着的实习生,写出来的代码满是补丁。但随着 RLVR(基于可验证奖励的强化学习)的介入,编程代理变了。它们从“偶尔能用”变成了“日常主力”。你不再是逐行改错,而是在进行高层级的架构设计和指令引导。这种转变让开发者的角色从“搬砖工”变成了“监工”或“架构师”。
有趣的是,这种能力的跃迁不仅发生在云端。
本地模型的表现简直是某种程度上的“降维打击”。像 Qwen 3.6 这种不到 21GB 的模型,在笔记本上跑出的效果竟然能让不少闭源旗舰模型感到汗颜。这意味着,即便没有昂贵的 API 额度,只要你有足够的上下文管理能力和合适的工具链(Harness),你也能拥有准一线水平的智能。
现在的分歧点在于:当代码生成的门槛降低,程序员的价值在哪里?
有观点认为,这只是在加速平庸代码的堆积,会让代码库迅速腐烂。但也有人觉得,这释放了人类去处理更本质的难题——比如那些无法通过“感觉”来解决的复杂系统设计。
现在的工具已经不再是简单的自动补全,它们更像是外骨骼。你可以选择让它替你走完枯燥的流程,也可以选择在它失控前精准地接管方向盘。
至于未来,当“编程”本身变得廉价,真正的稀缺品将是那份能定义“什么才是好软件”的判断力。
simonwillison.net/2026/May/19/5-minute-llms/
