OpenAI和Anthropic昨晚各发了一篇关于大模型安全对齐的文章。感觉都和教小孩子很像,也许下一步大模型厂商要招聘教育专家了。
OpenAI的更细节一点:不要让 CoT (模型的思维链)进入 RL 的奖励计算路径,这样会让模型学的更“狡猾”,不暴露自己的内心真实想法而偷偷搞破坏。。还是应该奖励正确的最终答案。他们已经在搞自动检测系统,发现 CoT 是否被意外拿去打分。
Anthropic的发现是说:只训练模型“做正确动作”是不够的,训练模型能理解“为什么某些行为更好”对安全对齐来说更有效。也就是说在对齐训练时训练 Claude 不能只是说“我不会这么做”,而是说清楚:“为什么这个行为不合适?” “为什么另一个行为更好?” “这个选择如何符合诚实、安全、尊重用户、自我约束、接受监督等原则?”
OpenAI 的教训是:如果奖励思考文本本身,模型可能学到浅层“看起来有原则”的文本模式;要保护 CoT 作为监控信号。Anthropic 的教训是:如果只奖励正确动作,模型可能学到浅层行为模式;要让它学到原则。
原文:alignment.openai.com/accidental-cot-grading/www.anthropic.com/research/teaching-claude-why
AI创造营How I AI

