月之暗面发布 Kimi K2 Thinking：在推理、搜索、代码测试等关键基准

月之暗面发布 Kimi K2 Thinking：在推理、搜索、代码测试等关键基准上，超越 GPT-5 和 Claude 4.5，在人类最难 AI 测试 Humanity’s Last Exam 拿下 44.9% 历史最高分。最震撼的是成本：训练成本 < 500 万美元，推理成本比 GPT-5 便宜近 10 倍支持 256k 长上下文，能自动执行 200–300 次工具调用，像人一样思考和执行。过去顶级推理能力只有巨头能负担，现在一个不到 500 万美元、完全开源的模型，把 GPT-5 拉下神坛。