[LG]《TheIllusionofReadiness:StressT

爱生活爱珂珂 2025-09-28 05:56:10

[LG]《The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks》Y Gu, J Fu, X Liu, J M J Valanarasu... [Microsoft Research] (2025)

前沿大模型如GPT-5医疗测评成绩亮眼，实则脆弱性暴露出健康AI的“准备幻象”。

• 多模态医学基准测试上，六款旗舰模型普遍能正确答题，但在去除关键视觉输入时准确率骤降，显示对图像依赖不足。

• 小幅扰动（如答案顺序重排、干扰项替换）导致模型预测大幅波动，揭示模型依赖格式和模式记忆的“捷径学习”，非真正医学理解。

• 生成的推理解释多是自信但虚假的“幻觉”，模型常给出与实际影像不符的伪合理化，弱化了推理可信度。

• 不同基准测试在视觉依赖和推理复杂性上差异显著，却被混用，掩盖了模型在真实多模态医学场景中的弱点。

• GPT-4o表现相对谨慎，缺少视觉信息时倾向拒答，反映更合理的不确定性处理；而多数模型选择“猜测”，加剧风险。

• 现有基准更像是考察答题技巧的“考试”，而非检验临床实际运用所需的稳健、多模态整合及可解释能力。

心得：

1. 高分不等于真实能力，医学AI必须在失真、缺失及扰动条件下展现稳健表现，才能赢得临床信任。

2. 评估体系需转变，细化不同基准的医学推理和视觉依赖特征，避免“一刀切”误判模型能力。

3. 仅靠链式思维提示等策略难以提升医学推理质量，亟需设计针对医学领域独特复杂性的测试与训练范式。

真实医疗环境的不确定性和复杂性要求AI系统具备跨模态、跨时序、语境敏感的推理与决策能力，单靠传统“答题”基准难以实现这一目标。

了解详情🔗 arxiv.org/abs/2509.18234

医学人工智能多模态学习模型鲁棒性医疗AI评估深度学习

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

[人人能懂] 从乐高蓝图、视觉思考到决策梦之队你有没有想过，AI的“聪明”和我们

2

[LG]《Best-of-∞ -- Asymptotic Performance

3

[LG]《SimpleFold: Folding Proteins is Sim

4

[LG]《The Illusion of Readiness: Stress T

5

[CL]《RPG: A Repository Planning Graph fo

6

早！[太阳] 早安

7

基于大模型与 RAG 技术，SQLBot 打造了一套高效、可控的智能问数系统，助

8

微软开源AI量化投资平台Qlib，正在重塑量化研究与实盘实现的边界：• 全流程支

9

《Modular Manifolds》神经网络权重正则化的下一步：将权重矩阵限制

10

2023 年与 2025 年大语言模型训练对比，揭示了未来模型演进的关键转折：•

热门分类

科技TOP

1

微信员工回应新iPhone提示空间不足早之前就有网友出现这个问题，要是还解决不了

2

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

3

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

4

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

5

一加新机Ace6系列曝光详细的硬件配置对比图和价格都有蓝厂X300和绿厂Fi

6

荣耀500系列曝光，全面对标苹果！荣耀500系列在工艺上完全对标苹果，中端机

7

不可思议！就在刚刚华为正式官宣了！9月4日，华为在深圳宣布：推出首款智慧屏M

8

荣耀Magic8标准版曝光，看着像是采用了4颗摄像头，然后是圆形的摄像头deco

9

当年米聊败给微信，是雷军判断错了这一点！雷军：我当初做米聊的时候，我认为腾讯一

10

鸿蒙NEXTMate80最强配置，据博主爆料，十大黑科技，每一项都是吊炸天，

科技最新文章

1

有一说一，荣耀数字系列的性价比和综合配置真的很顶。荣耀400系列凭借出色的颜值

2

虚假的对标iPhone：名字对标、外观对标真正的对标iPhone：影像对标、系

3

被吹上天的荣耀X70，说说掏窝子的话，不要轻易去上手，因为我就是去看了，没忍住…

4

几乎没有短板的手机推荐，荣耀Magic6pro依旧很吃香，搭载骁龙8Gen3芯片

5

荣耀500系列曝光，全面对标苹果！荣耀500系列在工艺上完全对标苹果，中端机

6

当各家都开心官宣最新款旗舰手机要搭载高通骁龙新处理器的时候，冒出来一位另类选手那

7

这可能是今晚的金句之王了：“我的朋友陈年是我直播间的榜一大哥，但今晚的发布会我没

8

小米17价格果然小米数字旗舰大家都喜欢，看了一下现在各平台已经卖断货了？小米1

9

小米17Pro背屏游戏壳iPhone实现不了了雷总给实现了！这波回忆杀太顶了。小

10

Magic8黑边更窄了据说Magic8的黑边区域也做到了1.1mm左右的宽度，