[CL]《Why Fine-Tuning Encourages Hallucin

[CL]《Why Fine-Tuning Encourages Hallucinations and How to Fix It》G Kaplan, Z Gekhman, Z Zhu, L Rozner… [Hebrew University of Jerusalem & Technion – Israel Institute of Technology & University of Illinois Urbana-Champaign] (2026)

在大语言模型的微调领域，幻觉问题是一个悬而未决的难题。现有方法试图通过对齐训练来纠正错误输出，却始终未能触及根本——模型在学习新事实时，会系统性地遗忘预训练阶段已掌握的知识，而这一"遗忘机制"本身才是幻觉的真正产房。

本文的核心洞见是：把微调诱发的幻觉重新看作一种持续学习中的"事实遗忘"。由此，将自蒸馏约束引入微调过程这一关键操作使问题得以解开——通过让学生模型的输出分布不偏离冻结教师模型，梯度更新被阻止沿语义重叠的表征区域传播，从而将遗忘率从约15%压缩至约3%，同时不牺牲新知识的获取能力。

这项工作真正留下的遗产是：将"事实稳定性"确立为微调的一等目标，并证明持续学习工具箱可以直接移植到幻觉治理中。它为后来者打开的新门是：针对语义重叠程度动态调整正则化强度，乃至在预训练阶段就主动规划表征邻域以减少未来干扰。但尚未跨过的门槛是：当前方案仍依赖离线快照作为教师，对于持续在线更新的场景，如何实时维护事实稳定性与塑性之间的动态平衡，尚无答案。

arxiv.org/abs/2604.15574

机器学习人工智能论文 AI创造营

万益资讯网

[CL]《Why Fine-Tuning Encourages Hallucin

热门分类