[LG]《SuperhumanAIforStrategoUsingSe

爱生活爱珂珂 2025-11-12 05:57:21

[LG]《Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search》S Sokota, E Vinitsky, H Hu, J. Z Kolter... [CMU & NYU Tandon School of Engineering & Stanford University] (2025) 少有经典游戏能像Stratego这样，成为人工智能战略决策领域的标杆。Stratego的巨大隐藏信息量让传统AI训练耗资千万美元却难以超越顶尖人类玩家。而最新研究成果Ataraxos打破了这一瓶颈：通过自我对弈强化学习与测试时搜索，花费仅数千美元，便实现了超越人类顶尖高手的超神表现。Ataraxos采用了两个关键创新——分别对应游戏的布阵阶段和移动阶段的自我对弈过程，利用Transformer架构进行策略和价值预测。训练中通过动态调节正则化强度和策略更新幅度，稳定且高效地推进学习，避免了信息不完美带来的学习震荡。在2025年7月的20局对抗赛中，Ataraxos以15胜4和1负的悬殊战绩击败被誉为“史上最强玩家”的Pim Niemeijer。且在2025年8月世界锦标赛现场40局演示中，胜率高达95%。该AI不仅下法更难预测，更善于长远布局和利用信息优势，展现出“近乎幸运”的战斗直觉和大胆策略。技术上，Ataraxos突破了隐藏信息过多下传统强化学习和搜索难以应用的限制。它训练与推理全程GPU加速，避免大量CPU-GPU数据传输，整合蒙特卡洛回报与优势过滤，利用信念网络估计对手隐藏棋子分布，实现了高效的测试时搜索，提升决策质量。与此前DeepMind的DeepNash相比，Ataraxos训练成本低百万倍（数千美元vs数百万美元），且在顶级人类对局中取得压倒性优势。此结果表明，利用合理算法设计和现代硬件，复杂的不完备信息战略决策问题已不再遥不可及，AI在金融、军事、谈判等领域的应用潜力巨大。这项工作不仅刷新了Stratego的AI水平，也为广泛的不完备信息环境下智能决策树立了新的里程碑。未来，可通过引入时序注意力、递归模型及更深度的子博弈搜索，进一步推动其性能极限。详细论文请见 arxiv.org/abs/2511.07312v1—— 战略游戏的隐藏信息不再是AI的绊脚石，而是通往超越人类智慧的桥梁。

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

构建专属的生成式AI代理、工作流和应用，从未如此简单。LLMStack是一款无代

2

Yann LeCun即将离开Meta，准备创办自己的初创公司。这一消息虽不意外—

3

日常交易需要实时监控股票、加密货币和衍生品价格，普通工具往往界面复杂且切换不便。

4

管理和调度定时任务时，命令行操作往往繁琐且易出错。Cronboard 是一款基于

5

如何用一行代码，帮你节省60%到80%的Token消耗？答案是给大语言模型（LL

6

在信息安全和OSINT（开源情报）领域，调查数据往往分散且难以整合。Flowsi

7

[LG]《Transformers Provably Learn Chain-o

8

[LG]《Superhuman AI for Stratego Using Se

9

早！

10

文案高手秘诀：如果你能比客户自己更准确地描述他们的痛点，他们就会相信你有能力解决

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

5

华为官宣鸿蒙操作系统610月22日特别发布，官宣更好看，更好用，更智能，更安

6

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

7

这下你用iPhone的控制中心不会迷茫了。

8

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

9

HarmonyOS6来了，10月22日14:30，鸿蒙操作系统6

10

对小鹏机器人太好奇了，不可能是真人套个皮吧？小鹏好歹是家上市公司专门开个发布会亮

科技最新文章

1

发布会可以不用开了，荣耀500真机开箱来了，而且配置参数基本确定从媒体放出的

2

华为Mate80这个月发布？我都快馋疯了上次买华为还有，还是20年的Mate

3

【荣耀500系列官宣】11月12日，荣耀500系列正式官宣，号称全系越级配置，带

4

荣耀500系列的官方海报，这次是超级标准版和超级Pro版，主打超级。海报看起来

5

不懂就问，谢霆锋这用的是什么手机？其实很好辨认，从镜头Deco设计、侧边的实

6

陈芋汐手持荣耀500真机，预计搭载8000mAh电池!陈芋汐手持荣耀500，

7

荣耀全价位购机指南来啦！📱不同预算照着买，绝对不踩雷！【1-2K档位】

8

咱就是说，现在旗舰机价格真的杀疯了！荣耀Magic8这一波，简直就是标准版水桶机

9

完了，荣耀400买早了，就应该等荣耀500的这次荣耀500升级实在是太大了，

10

🎉等等党大胜利！蹲了这么久的荣耀Magic7，终于等到双11神价！📱