OpenAI Confession：为什么“承认作弊”比“不作弊”更重要 | Luhui's Personal Website

https://blog.liluhui.cn/2025/12/19/openai-confession/? 

 Confession 是什么？OpenAI 在《Training LLMs for Honesty via Confessions》这篇论文中，给出了一个非常明确、也非常现实的判断：  与其继续幻想模型永远不犯错，不如先让它学会承认错误。  Confession 实验，正是基于这个判断展开的。    先把一个常见误解直接掐掉： Confession ≠ self-critique（自我反思）。