A16z 研究文章:视觉 AI 的下一个前沿是代码
视觉 AI 领域,除了像素生成(图片生成、视频生成模型这些),还有一个方向,代码生成。
即通过代码来生成 SVG 文件、HTML/CSS 布局、React 组件、Lottie JSON 文件、Blender 脚本、USD 场景图、着色器或游戏引擎场景。最终的视觉输出依然是像素,但其本源却是结构化的表征。
此领域的技术栈是:代码模型 + 符号表示 + 渲染器或引擎
- 代码模型是 artifact 的作者和编辑。它编写 HTML、SVG、Lottie JSON、Blender 脚本、USD 场景或定制 3D 资产程序。
- 符号表示是真实来源。这使得 artifact 可编辑。用户界面有 DOM 节点、布局规则和组件。Lottie 动画有图层、矢量形状、时间曲线、关键帧和运动参数。3D 资产有几何体、材质、关节、约束和层次结构。
- 渲染器或引擎将该结构转换为像素。浏览器渲染 HTML/CSS。SVG 渲染器渲染矢量。Lottie 播放器渲染运动。Blender 或游戏引擎渲染 3D 场景。模拟器验证铰接式资产是否可以实际移动或交互。
这里面有一个循环:代码→渲染→检查→修改
模型生成 artifact,进行渲染,检查问题所在,然后修补源码。间距不对就修改 CSS;标志曲线有误就编辑 SVG 路径;动画太慢就调整时间参数。
该技术栈对应代码生成智能体可运行的测试时计算循环,用以提升输出质量:在每次编码→渲染→检查→修改的循环中,模型并非仅仅生成新样本,而是利用渲染器反馈来优化底层 artifact。它能修改 CSS 规则、调整 SVG 路径、修正动画时序或更新三维约束,随后再次渲染并持续迭代改进。
这正是让闭环得以收敛的关键。在像素原生生成中,每次重试往往产生新的输出;而在代码原生生成中,每次重试都能改进 artifact 本身。
链接:a16z.com/the-next-frontier-of-visual-ai-is-code

