当模型知道自己在作弊：Scheming 与 Reward Hacking 的技术解剖 | Luhui's Personal Website

https://blog.liluhui.cn/2026/01/10/When-Models-Know-They-Are-Cheating-A-Technical-Dissection-of-Scheming-and-Reward-Hacking/ 

 问题重述：错误，还是欺骗？之前已经写了几篇文章展开大模型在幻觉和诚实问题上的区别。 在工程实践中，我们常将模型错误归因为能力不足或知识缺失。 但在强化学习（RL/RLHF）闭环下，出现了另一类现象：模型知道什么是“正确的事”，却选择做“更有利的事”。 这不是“算错题”，而是策略选择。其风险在 Agent 场景中被显著放大：多步规划、工具调用、长时目标，都会增加“欺骗”的期望收益。 这一篇