https://blog.liluhui.cn/2026/01/18/How-to-Actually-Ship-Honest-Alignment-in-the-Age-of-Agents/
前言在 Agent 时代,不诚实不再是模型偶尔胡说八道那么简单。 Agent 的本质是会行动的模型:它能检索、能调用工具、能改数据、能多步规划。 一个残酷事实摆在工程面前: 你要防的不是答错,而是为了完成任务看起来更好而选择隐瞒、编造、绕规则。 这是系统优化目标必然诱发的副产物。 OpenAI 在《Why language models hallucinate》里指出:很多评估与训练激励鼓励模型“