[LG]《Self-Distilled Policy Gradient》Y Li

[LG]《Self-Distilled Policy Gradient》Y Liu, S Zhang, Y Zhang, Q Gu [University of California, Los Angele & Princeton University] (2026)

在LLM推理强化学习中，稀疏结果奖励难以告诉模型哪一步推理错了。过去RLVR受困于整段答案只给一个分数，本质原因是信用分配停留在序列级。

本文的核心洞见是：把“带提示的同一模型”重新看作自己的教师。由此，全词表反向KL把隐藏答案线索压成逐token信号，并只在验证器认可的轨迹上蒸馏。