https://blog.liluhui.cn/2026/01/10/When-Models-Know-They-Are-Cheating-A-Technical-Dissection-of-Scheming-and-Reward-Hacking/
问题重述:错误,还是欺骗?之前已经写了几篇文章展开大模型在幻觉和诚实问题上的区别。 在工程实践中,我们常将模型错误归因为能力不足或知识缺失。 但在强化学习(RL/RLHF)闭环下,出现了另一类现象:模型知道什么是“正确的事”,却选择做“更有利的事”。 这不是“算错题”,而是策略选择。其风险在 Agent 场景中被显著放大:多步规划、工具调用、长时目标,都会增加“欺骗”的期望收益。 这一篇