词元调用量暴涨千倍!中国存储拿下世界第一,解决大模型推理瓶颈
中国存储拿下生产型双料全球第一,完美应对当下 AI 行业新变局:全国大模型词元(Token)调用量两年暴涨上千倍,智能体规模化落地,推理环节的显存与 IO 压力全面爆发,存储不再只是单纯存数据。
很多存储高分都来自宽松的研究型测评:数据不落地、全靠内存缓存,只能支撑短时训练,完全扛不住智能体 7×24 小时持续推理。TOP500 算力榜单只看运算速度,解决不了海量词元反复读写带来的 IO 拥堵,而生产型存储榜单考核长期业务吞吐,更贴合智能体产业真实需求。
翻阅 IO500 历年参赛记录,生产型榜单对系统冗余、持久化写入有着硬性约束,全球参赛厂商寥寥无几。海外存储只能做简单的数据读写,无法分担 GPU 的缓存压力。
中科曙光这套实战级ParaStor F9000存储,内置 KV Cache 卸载引擎,把海量词元缓存转移到存储层,降低 60% 显存占用,推理延迟直接下降 80%。这套系统已经在数万卡集群稳定运行一整年,没有为测评做任何专项优化,实打实拿下双榜冠军。
当 AI 竞争进入智能体时代,能分担算力压力的实战存力,才是下一代 AI 基建的核心竞争力。
