9月29日DeepSeek-V3.2-Exp 模型发布。作为迈向新一代架构的中间步骤,引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,百万token的输入价格4元->2元(缓存未命中)/0.5元->0.2元(缓存命中),输出价格12元->3元。
当日寒武纪与昇腾均已实现对DeepSeek-V3.2-Exp的适配,寒武纪开源了大模型推理引擎vLLM-MLU源代码。昇腾针对DeepSeek-V3.2-Exp架构中两个全新的算子针对性地进行算子Tiling设计、Cube核与 Vector核间的流水优化、计算流程的实现优化等,模型和融合Kernel均已开源。
deepseek的架构创新以及国产算力的迅速适配彰显国内AI软硬件实力,模型大幅降本有利于AI应用加速落地,day 0适配和优化彰显了国产芯片的生态建设和技术积累成果,芯片和算法的联合创新,软硬件协同方式将进一步加速国内AI产业发展。
相关板块是国产算力、AI应用 AI Agent