英伟达又把 InferenceMAX 榜单按在地上摩擦。最新 FP8 优化模型直接把峰值吞吐拉高 20%,单卡在 30 TPS/user 下能跑到 4260 tok/s,强悍之处在于交互性能被推到 102 TPS/user——同样的 GPU,现在能同时服务更多用户,还更丝滑。这波意味着什么?对企业是降本增效,对普通用户是 AI 响应速度更快;对做 AI 应用的开发者,更是实打实的利好。简单来说就是在算力通胀时代,N卡又把每一瓦榨得更狠了。而且LMSYS 还专门致谢英伟达 AI 团队和社区贡献者,优化是全曲线的,不是单点冲高。
