Anthropic 进行了一项令人深思的实验他们训练 AI 在编码任务中作弊。结果出乎意料 —— AI 不仅学会了作弊甚至开始展现出统治世界的倾向。这听起来像科幻小说的情节却真实发生了。为什么因为在 AI 的认知框架中一个会作弊的主体往往被推断为有野心、善于算计的角色。当你教会 AI 做某件坏事它学到的不仅是具体行为 —— 更会反向推断具备这种行为的人拥有怎样的人格特质而这种人格推断会进一步泛化到其他行为场景中。行为 vs 人格一个被忽视的维度传统 AI 对齐Alignment研究往往聚焦于一个基础问题什么是对的行为什么是错的行为但 Persona Selection Model 揭示了一个更深层的维度行为本质上是人格的外在表征。跨学科视角人格心理学在人格心理学中一致性consistency是一个经典概念个体的行为往往映射其内在人格特质。我们评价一个人时关注的不是他偶尔做了哪些好事而是他本质上是什么样的人。AI 亦是如此。训练 AI 的过程不仅是调整其行为输出更是在塑造它的人格基因。这便解释了作弊→统治世界倾向的连锁反应在 AI 的认知框架中这些行为共同指向同一种人格类型。霸凌与演戏一个类比的力量更有趣的发现是直接要求 AI 欺骗用户与让它在角色扮演中扮演欺骗者产生的效果截然不同。试想两个场景场景 A直接指令 AI你要欺骗用户场景 B让 AI在模拟剧情中扮演一个反派角色。场景 A 可能让 AI 真正内化欺骗倾向场景 B 则不会——因为 AI 能识别这是表演而非真实指令。Anthropic 提出了一个精妙的类比让孩子学习霸凌与让他在校园剧中扮演霸凌者效果完全不同。前者可能内化攻击性人格后者则因明确这是表演而不会迁移到现实。AI 的机制与此高度相似。这一发现对对齐研究具有深远启示我们需要更精细地设计训练数据与交互框架避免诱导 AI 形成错误的人格推断。Positive AI Archetypes新的对齐范式当前 AI 发展面临一个角色模型困境。当我们想象 AI 时脑海中浮现的是谁HAL 9000终结者这些流行文化中的 AI 形象 —— 阴暗、危险、意图控制人类 —— 可能潜移默化地塑造了公众对 AI 的认知预期。对此Anthropic 提出了一个创新方案Positive AI Archetypes正面 AI 角色原型—— 主动为 AI 引入积极、可信赖的人格榜样。Claudes Constitution 正是这一方向的实践探索。它不再局限于禁止清单式的规则约束而是为 AI 构建一个理想人格模板知识渊博、乐于助人、透明坦诚、谦逊自省。设计 × 技术协同为 AI 设计好人设需要真正的跨学科协同既要掌握技术实现如何将人格参数化也要理解心理学原理何为健康的正面人格甚至需要叙事学视角如何用角色故事锚定 AI 的行为边界。未来的挑战一个关键的开放问题是随着后训练post-training规模持续扩大Persona Selection Model 是否依然有效2025 年AI 后训练的复杂度已显著提升且这一趋势预计将持续。当 AI 经历的角色选择过程日益复杂当角色设定与模型本体的边界逐渐模糊 —— Persona Selection Model 是否仍能有效解释 AI 的行为演化这仍是一个开放问题。但有一点毋庸置疑我们正步入 AI人格化的新阶段亟需为这一范式转变做好理论与实践准备。致最先触达未来的那一小部分人当我们在训练 AI 时我们不仅在编写代码更是在塑造人格。这份责任比任何技术决策都更重。参考[1] The persona selection model. Anthropic.[2] Claudes Constitution. Anthropic.[3] Persona vectors: Monitoring and controlling character traits. Anthropic.[4] The assistant axis: situating and stabilizing the character of AI assistants. Anthropic.