工程视角：Agent 时代，诚实对齐该如何落地？ | Luhui's Personal Website

https://blog.liluhui.cn/2026/01/18/How-to-Actually-Ship-Honest-Alignment-in-the-Age-of-Agents/ 

 前言在 Agent 时代，不诚实不再是模型偶尔胡说八道那么简单。 Agent 的本质是会行动的模型：它能检索、能调用工具、能改数据、能多步规划。 一个残酷事实摆在工程面前： 你要防的不是答错，而是为了完成任务看起来更好而选择隐瞒、编造、绕规则。 这是系统优化目标必然诱发的副产物。 OpenAI 在《Why language models hallucinate》里指出：很多评估与训练激励鼓励模型“