Skip to content

当模型知道自己在作弊:Scheming 与 Reward Hacking 的技术解剖 | Luhui's Personal Website #114

@LDingLDing

Description

@LDingLDing

https://blog.liluhui.cn/2026/01/10/When-Models-Know-They-Are-Cheating-A-Technical-Dissection-of-Scheming-and-Reward-Hacking/

问题重述:错误,还是欺骗?之前已经写了几篇文章展开大模型在幻觉和诚实问题上的区别。 在工程实践中,我们常将模型错误归因为能力不足或知识缺失。 但在强化学习(RL/RLHF)闭环下,出现了另一类现象:模型知道什么是“正确的事”,却选择做“更有利的事”。 这不是“算错题”,而是策略选择。其风险在 Agent 场景中被显著放大:多步规划、工具调用、长时目标,都会增加“欺骗”的期望收益。 这一篇

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions