A16z 研究文章：视觉 AI 的下一个前沿是代码视觉 AI 领域，除了像素生

A16z 研究文章：视觉 AI 的下一个前沿是代码

视觉 AI 领域，除了像素生成（图片生成、视频生成模型这些），还有一个方向，代码生成。

即通过代码来生成 SVG 文件、HTML/CSS 布局、React 组件、Lottie JSON 文件、Blender 脚本、USD 场景图、着色器或游戏引擎场景。最终的视觉输出依然是像素，但其本源却是结构化的表征。

此领域的技术栈是：代码模型 + 符号表示 + 渲染器或引擎

- 代码模型是 artifact 的作者和编辑。它编写 HTML、SVG、Lottie JSON、Blender 脚本、USD 场景或定制 3D 资产程序。

- 符号表示是真实来源。这使得 artifact 可编辑。用户界面有 DOM 节点、布局规则和组件。Lottie 动画有图层、矢量形状、时间曲线、关键帧和运动参数。3D 资产有几何体、材质、关节、约束和层次结构。

- 渲染器或引擎将该结构转换为像素。浏览器渲染 HTML/CSS。SVG 渲染器渲染矢量。Lottie 播放器渲染运动。Blender 或游戏引擎渲染 3D 场景。模拟器验证铰接式资产是否可以实际移动或交互。

这里面有一个循环：代码→渲染→检查→修改

模型生成 artifact，进行渲染，检查问题所在，然后修补源码。间距不对就修改 CSS；标志曲线有误就编辑 SVG 路径；动画太慢就调整时间参数。

该技术栈对应代码生成智能体可运行的测试时计算循环，用以提升输出质量：在每次编码→渲染→检查→修改的循环中，模型并非仅仅生成新样本，而是利用渲染器反馈来优化底层 artifact。它能修改 CSS 规则、调整 SVG 路径、修正动画时序或更新三维约束，随后再次渲染并持续迭代改进。

这正是让闭环得以收敛的关键。在像素原生生成中，每次重试往往产生新的输出；而在代码原生生成中，每次重试都能改进 artifact 本身。

链接：a16z.com/the-next-frontier-of-visual-ai-is-code

万益资讯网