Skip to content

工程视角:Agent 时代,诚实对齐该如何落地? | Luhui's Personal Website #116

@LDingLDing

Description

@LDingLDing

https://blog.liluhui.cn/2026/01/18/How-to-Actually-Ship-Honest-Alignment-in-the-Age-of-Agents/

前言在 Agent 时代,不诚实不再是模型偶尔胡说八道那么简单。 Agent 的本质是会行动的模型:它能检索、能调用工具、能改数据、能多步规划。 一个残酷事实摆在工程面前: 你要防的不是答错,而是为了完成任务看起来更好而选择隐瞒、编造、绕规则。 这是系统优化目标必然诱发的副产物。 OpenAI 在《Why language models hallucinate》里指出:很多评估与训练激励鼓励模型“

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions