【谷歌Gemini Omni来袭,重塑视频创作新逻辑】
快速阅读:Google 推出的 Gemini Omni 试图通过理解物理规律和逻辑来重塑视频创作。它不仅能生成视频,更强调通过自然语言对现有视频进行精细化的“交互式编辑”。
Gemini Omni 看起来像是要把视频创作变成一种“对话”。
它不再是那种你输入一段话、然后对着屏幕祈祷结果正确的抽卡游戏,而更像是一个可以随时沟通的剪辑师。你可以对它说“让小提琴家换个环境”,或者“把太空船换成飞盘”,甚至能通过一张参考图来改变视频的整体质感。这种从“生成”到“编辑”的逻辑转变,让创作过程从单向的指令变成了双向的迭代。
有网友提到,这种能力让视频创作的门槛降低了,就像数字音频工作站让更多人能写歌一样。但也有人觉得,这种“想象力是唯一限制”的口号听起来有点空洞,毕竟大多数人的想象力本身就是个瓶颈。
更有趣的讨论在于它对物理世界的理解。Google 宣称它懂重力、动能和流体动力学。但如果你仔细盯着那个滚动的弹珠视频看,你会发现弹珠在末端莫名其妙地跳了起来。这种“视觉上的真实”和“逻辑上的真实”之间存在着巨大的裂缝。
对于从事物理仿真工作的专业人士来说,这种差距是致命的。视频生成模型本质上是在“做梦”,它模拟的是一种“看起来应该这样”的感觉,而不是遵循严密的物理方程。它能画出极其华丽的爆炸,却可能在处理一个简单的叠叠乐塔时,让积木凭空消失。
这种模型更像是一个极具天赋但缺乏常识的艺术家,它能通过学习海量的像素分布来捕捉世界的“神韵”,却未必理解世界运行的底层协议。
如果视频不再能作为事实的证据,我们该如何构建对真实的信任?
deepmind.google/models/gemini-omni/
