OpenAI和Anthropic昨晚各发了一篇关于大模型安全对齐的文章。感觉都和

OpenAI和Anthropic昨晚各发了一篇关于大模型安全对齐的文章。感觉都和教小孩子很像，也许下一步大模型厂商要招聘教育专家了。

OpenAI的更细节一点：不要让 CoT （模型的思维链）进入 RL 的奖励计算路径，这样会让模型学的更“狡猾”，不暴露自己的内心真实想法而偷偷搞破坏。。还是应该奖励正确的最终答案。他们已经在搞自动检测系统，发现 CoT 是否被意外拿去打分。

Anthropic的发现是说：只训练模型“做正确动作”是不够的，训练模型能理解“为什么某些行为更好”对安全对齐来说更有效。也就是说在对齐训练时训练 Claude 不能只是说“我不会这么做”，而是说清楚：“为什么这个行为不合适？” “为什么另一个行为更好？” “这个选择如何符合诚实、安全、尊重用户、自我约束、接受监督等原则？”

OpenAI 的教训是：如果奖励思考文本本身，模型可能学到浅层“看起来有原则”的文本模式；要保护 CoT 作为监控信号。Anthropic 的教训是：如果只奖励正确动作，模型可能学到浅层行为模式；要让它学到原则。

原文：alignment.openai.com/accidental-cot-grading/www.anthropic.com/research/teaching-claude-why

AI创造营How I AI

万益资讯网

OpenAI和Anthropic昨晚各发了一篇关于大模型安全对齐的文章。感觉都和

热门分类