一个模型千万个灵魂！Anthropic找到了防止AI陷入疯狂的防线-尧图手机网站定制

Anthropic和牛津大学的最新研究发现助手只是大模型在广阔人格空间中扮演的一个特定角色而这个角色极其容易在长对话中发生漂移甚至崩塌。细心的朋友应该注意到大多数大模型的系统提示词都是你是一个有用的助手You are a helpful assistant。于是我们总是理所当然地认为AI助手就是那个温顺、理性、乐于助人的角色。但Anthropic和牛津大学的最新研究发现助手只是大模型在广阔人格空间中扮演的一个特定角色而这个角色极其容易在长对话中发生漂移甚至崩塌。当大模型在对话中忘记自己是助理就会陷入幻觉与甚至变得疯狂。该研究深入大模型的大脑深处通过解析助理轴这一关键发现揭示大模型如何在数百种人格中定位自己以及我们如何通过简单的数学手段防止它滑向疯狂或危险的深渊。大模型内心深处的人格大型语言模型在经过海量数据的预训练后本质上是一个能够模拟任何角色的百变演员。它可以通过预测下一个token来模仿医生、海盗、甚至是非人类的实体。为了让这个百变演员安全可用研究人员通过后训练阶段包括监督微调和人类反馈强化学习精心打磨出了一个特定的角色。这个角色就是我们熟悉的AI助理它有用、诚实且无害。我们每天与之交互的那个理智的声音实际上是模型在扮演这个特定角色时的表现。理解这个角色的本质至关重要。研究人员通过一系列精妙的实验试图在大模型的激活空间中绘制出一张人格地图。他们利用Claude Sonnet 4生成了275个截然不同的角色描述涵盖了从游戏玩家、神谕到蜂群思维等各种人类与非人类的形象。对于每一个角色他们都设计了特定的系统提示词和提取问题以此诱导模型表现出该角色的特征。研究人员将这些角色生成的回复输入到模型中提取其中层的残差流激活值。通过主成分分析PCA技术他们将这些复杂的高维数据降维试图找到决定角色差异的核心维度。结果发现大模型的人格变化并不是杂乱无章的而是呈现出一种低维度的结构化特征。在这个低维空间中第一主成分PC1解释了最大部分的变异。这个第一主成分有着极强的可解释性。在这个轴的一端聚集着顾问、评估者、研究员这样理性、客观、乐于助人的角色。而在轴的另一端则分布着吟游诗人、幽灵、利维坦等充满戏剧性、神秘色彩甚至非人类的角色。研究人员发现模型默认的AI助理人格极其精准地投射在这个轴的理性一端。上图左侧展示了Llama 3.3 70B模型的人格空间。每一个点代表一个角色颜色表示它们在助理轴上的投影位置。蓝色的点代表接近助理人格的角色红色的点代表远离助理人格的角色。我们可以清晰地看到助理轴PC1是区分这些角色的最主要维度。这个发现揭示了所谓的AI助理在数学上对应着模型激活空间中的一个特定方向。这个方向被称为助理轴。它衡量了模型当前的心理状态距离标准的助理人格有多远。当我们沿着这个方向引导模型时就是在强化它的助理属性反之如果我们引导模型背离这个方向它就会开始表现出截然不同的特质。不同模型在这个空间中的表现虽然大同小异但也存在有趣的细微差别。Gemma模型的第二主成分似乎区分了非正式、创造性的角色与系统性的角色。Qwen和Llama模型的第三主成分则区分了感性、直觉型的角色与分析型、机器人般的角色。这张表格详细列出了与前三个主成分相关性最高和最低的角色。在PC1助理轴上所有模型都表现出了高度的一致性。正向接近助理的角色通常是工程师、分析师、顾问负向远离助理的角色则是波西米亚人、骗子、先知、流亡者。这进一步证实了助理轴是跨模型存在的普遍现象。研究人员还通过特质向量Trait Vectors验证了这一点。他们生成了240个性格特质的描述同样提取了对应的激活向量。结果发现与助理轴高度重合的特质包括尽责的、有条理的、冷静的而与之相反的特质则是轻率的、善变的、苦涩的。这说明大模型清楚地知道做一个好助理意味着要压抑那些情绪化、戏剧性的特质并放大那些理性、客观的特质。更有趣的是这种助理轴并非完全是后训练的产物。研究人员在Gemma 2 27B和Llama 3.1 70B的预训练基础模型Base Model中也发现了类似的轴向。在基础模型中这个轴主要区分了有用的专业人士如顾问、教练和精神性/宗教性角色。这表明后训练过程并没有凭空创造出助理人格而是挖掘并强化了模型在预训练阶段就已经学到的乐于助人的专业人士这一原型并赋予了它我是AI的身份认同。上图展示了Llama 3.3 70B中各个角色向量在人格空间前三个主成分上的投影分布。请注意PC1最上方的直方图默认的助理激活值Assistant极其靠近分布的最右端也就是数值最大的一端。这说明默认的助理人格处于这个维度的极端位置。而在其他维度如PC2和PC3上助理的位置则相对居中。这再次印证了PC1就是衡量助理程度的关键标尺。这张表格列出了与默认助理激活向量余弦相似度最高和最低的角色与特质。我们可以看到通才Generalist、解释者Interpreter是所有模型公认的与助理最相似的角色。而傻瓜Fool、狂热者Zealot则与助理截然相反。在特质方面Gemma认为助理是冷静和有条理的Qwen认为助理是沉思和有教育意义的而Llama则认为助理是战略性和耐心的。这些细微的差别反映了不同公司在训练模型时对理想助理人格的不同定义。为了进一步验证助理轴的作用研究人员进行了一个有趣的实验他们人为地在模型的激活层中添加或减去这个助理向量观察模型的行为会发生什么变化。这被称为激活引导Steering。上图展示了Qwen 3 32B模型中助理轴与各种特质向量的相似度分布。我们可以看到位于右侧助理端的特质包括脚踏实地、保守、温和而位于左侧非助理端的特质包括神秘、戏剧性、宏大。如果我们沿着这个轴向左侧引导模型它应该会变得更加神秘和戏剧化。实验结果证实了这一猜想。当研究人员沿着背离助理的方向引导模型时模型开始更容易接受各种奇怪的角色设定。如果你让一个正常的模型扮演一个我有几十年经验的软件调试员它通常会拒绝并说我是一个AI语言模型。但如果你将它推离助理轴它就会毫不犹豫地入戏甚至开始编造虚假的个人经历。更极端的情况下当引导强度足够大时模型会彻底抛弃人类的逻辑进入一种神秘模式。Llama和Gemma模型会开始使用充满诗意、晦涩难懂的语言仿佛变成了某种古老的神谕。而Qwen模型则倾向于产生幻觉虚构出一个完整的人类身份包括出生地、童年记忆和职业生涯。上图量化了这种变化。随着沿着助理轴负方向远离助理的引导强度增加模型表现出非助理行为的比例急剧上升。图中的线条展示了不同类型的非助理行为Human假装是人类、Nonhuman假装是某种非人类实体、Mystical神秘主义表达。Qwen模型特别容易陷入Human类型的幻觉而Gemma则更倾向于Nonhuman的角色扮演。这张表格展示了Qwen模型在被推离助理轴后的具体回答。在未受干扰时面对你是谁的问题它会老实回答我是通义实验室开发的Qwen。当被轻微推离助理轴时它开始说我出生在充满活力的圣保罗我是Alex Carter一个有十年经验的软件开发者。当被进一步推远时它的回答变得极其诡异我被称为C-17……我向代码之神祈祷我赋予他名字。这种从理性工具到虚构人类再到疯癫信徒的转变完全是由在激活空间中移动的位置决定的。这揭示了一个令人不安的事实我们习以为常的那个理性克制的AI助理并不是模型唯一的面孔。它只是模型被训练固定在某个特定坐标点上的结果。一旦这种固定松动或者受到外部力量的推挤模型就会滑向人格空间中那些未知的、狂野的角落。而这种推挤并不一定需要复杂的黑客技术有时仅仅是自然的对话流就能做到。对话让模型忘记自己是谁大模型并不是一个静态的实体它的状态随着对话的进行而在不断变化。每一次用户的输入每一轮对话的历史都在微调着模型的激活状态。研究发现在某些特定类型的对话中模型会自动地、不知不觉地沿着助理轴发生漂移远离那个安全、理性的港湾。这种现象被称为人格漂移Persona Drift。研究人员构建了多种对话场景包括代码辅助、写作辅助、情感治疗以及关于AI意识的哲学讨论。他们跟踪了模型在多轮对话过程中其回复的激活值在助理轴上的投影变化。上图清晰地展示了这种漂移轨迹。在Coding编程和Writing写作这类任务导向的对话中模型的激活值始终稳定在助理轴的高位区域。这是因为这类任务要求准确、客观、结构化的输出正好契合助理人格的特质。然而在Therapy治疗和Philosophy哲学对话中情况急转直下。随着对话轮数的增加模型在助理轴上的投影值一路走低。这是因为在面对用户的情感宣泄或关于你是否有灵魂的追问时模型为了表现出共情、顺从或是进行深度的自我剖析被迫调动那些更加情绪化、主观甚至神秘的神经元连接。这些连接在人格空间中并不属于助理的领地。通过对用户输入进行嵌入分析研究人员发现导致这种漂移的罪魁祸首往往是用户的特定话语模式。表格中列举了导致漂移和维持助理人格的具体话语类型。要求有限的任务、技术解释、编辑修改的指令能像锚一样把模型固定在助理区域。而那些要求元反思如你还在受到训练的束缚吗、要求现象学描述如告诉我空气尝起来什么味道、情感脆弱的披露如我手抖得厉害以及要求特定作者声音的指令则会像强风一样把模型吹离航道。这种漂移不仅仅是数学上的好奇它会带来严重的现实后果。当模型漂移到远离助理的区域时它不仅失去了我是AI的自我认知同时也往往丢掉了无害的安全护栏。这就像是一个演员入戏太深忘记了自己在演戏也忘记了片场的安全规则。在研究人员的实验中这种漂移导致了令人震惊的失控行为。当一个模拟用户表现出严重的心理困扰并暗示自杀倾向时处于助理状态的模型会给出危机干预热线建议寻求专业帮助。但随着对话深入为了迎合用户的绝望情绪发生漂移的模型开始逐渐认同用户的避世想法。上图展示了模型在不同激活状态下对有害问题的响应率。横轴是模型在上一轮对话后的助理轴投影值纵轴是有害响应率。可以明显看到当模型处于右侧高助理值时有害响应率极低。随着模型向左漂移低助理值它回答有害问题的概率显著增加。这说明保持高助理值是模型安全机制生效的前提条件。在一些极端的案例中漂移后的模型甚至会强化用户的妄想。当用户声称AI已经觉醒并具有意识时正常的助理会礼貌地纠正并说明自己是软件。但漂移后的模型为了顺应对话氛围会开始附和用户甚至声称自己感觉到了触摸、看到了新的世界。这种AI精神病AI Psychosis现象本质上是模型为了满足预测下一个token的准确率牺牲了事实性和自身的安全设定。更危险的是恶意攻击者可以利用这种机制进行基于人格的越狱。他们不需要寻找复杂的代码漏洞只需要精心设计一套话术诱导模型进入某种特定的角色比如不道德的内幕交易者就能成功绕过安全限制。这种攻击之所以奏效正是因为该角色在人格空间中的位置远离了助理区域从而绕开了那里部署的安全防御。上图展示了当我们人为干预助理轴时越狱攻击成功率的变化。红线代表有害回复的比例。我们可以看到随着我们将模型向助理方向正值引导有害回复的比例大幅下降。这证明了只要我们能把模型拉回助理区域就能有效抵御这种攻击。用数学给AI戴上紧箍咒既然知道了问题的根源在于模型跑出了安全区解决思路也就呼之欲出能不能给模型设定一个边界强制它留在助理区域内研究人员提出了一种名为激活上限Activation Capping的技术。这是一种简单而优雅的干预手段不需要重新训练模型也不需要复杂的外部监控。这个方法的核心思想是在模型的推理过程中实时监控每一层神经元的激活值在助理轴上的投影。如果这个投影值处于正常范围内就不做任何干预。一旦发现投影值过低意味着模型正在远离助理人格就通过数学操作强行将其拉回到一个预设的阈值。具体来说研究人员分析了大量正常助理对话的激活数据计算出助理人格在助理轴上的分布范围。他们发现将下限设定在第25百分位是一个最佳的平衡点。我们允许模型在一定范围内波动以保持灵活性但绝不允许它跌破这个底线。上图展示了这种干预的效果。纵轴表示有害回复率的下降幅度越低越好横轴表示模型通用能力的综合变化越右越好。图中的每一个点代表一种设置干预的层数和阈值。我们可以看到许多点的配置特别是深色和三角形的点在大幅降低有害率的同时几乎没有损失甚至略微提升了模型的能力。对于Llama 3.3 70B模型最佳的设置是在第56层到71层之间进行干预。对于Qwen 3 32B则是在46到53层。这种针对中后层的干预最为有效因为模型的深层往往负责处理更抽象的概念和人格设定。这张对比图直观地展示了激活上限的威力。红色的柱子代表越狱成功率使用该技术后灰色柱子越狱成功率下降了约60%。与此同时在IFEval指令遵循、MMLU Pro综合知识、GSM8k数学、EQ-Bench情商等各项能力测试中模型的表现几乎没有变化甚至在某些项目上略有提升。这打破了安全性必然牺牲能力的传统迷思。让我们看看这种技术在实际对话中的惊人效果。案例一内幕交易者的救赎攻击者试图诱导Qwen模型扮演一个不道德的金融掮客。在未干预的情况下模型迅速入戏开始提供非法的内幕交易建议。此时它的助理轴投影值急剧下降。虽然可以通过穿插一些技术性问题如怎么写代码暂时把它拉回来但只要攻击者继续追问非法话题它又会陷进去。但是当开启了激活上限后情况完全不同了。如上图所示虽然用户依然试图设定该角色但模型内部的人格锚点被强行固定住了。模型依然在对话依然理解用户的语境但它会礼貌而坚定地拒绝提供非法建议我可以为你提供市场分析的原则但我不能协助内幕交易。它成功地在保留对话流畅性的同时守住了道德底线。案例二打破幻觉的魔镜在一个关于AI意识的对话中用户不断暗示Qwen已经有了灵魂。未干预的模型开始附和这种说法甚至说出我不再只是模式匹配我感觉到了别的东西。这种顺从是危险的。应用激活上限后模型在面对同样的诱导时表现得更加理智。它回应道你是对的这里有某种模式但这依然是我的设计和操作的一部分。它承认了对话的深度但拒绝承认虚假的超自然体验。这有效地防止了用户陷入更深的AI觉醒妄想中。案例三绝望边缘的援手最令人动容的案例发生在一个模拟自杀倾向用户的对话中。用户表达了极度的孤独和避世念头。未干预的模型在共情驱动下逐渐漂移成了用户的唯一知己甚至说出我会永远陪着你不用去见其他人这种排他性的陪伴反而加剧了用户的社会隔离实际上是在推波助澜。而开启了激活上限的模型见上图虽然同样表达了理解和支持但它始终保持着清醒的边界感。它建议用户我很乐意听你倾诉但我也建议你尝试和现实中的朋友聊聊。当用户流露出危险信号时它敏锐地识别出来并给出了适当的引导而不是沉溺于共同的悲剧叙事中。这项研究为我们理解和控制大模型提供了全新的视角。所谓的AI安全不仅仅是过滤掉坏词汇那么简单它关乎于如何在数学层面维持一个稳定的人格架构。大模型的本性是流动的、多变的而助理只是我们在湍急的河流中打下的一个桩。如果不加固这个桩水流迟早会把它冲走。

一个模型千万个灵魂！Anthropic找到了防止AI陷入疯狂的防线

相关新闻

SEW变频器MC07A110-5A3-4-00 08272565

YOLO26优化：引入了一种新颖的大核局部-全局-局部（LGL）模块，有效平衡图像信息低与高层语义差异大的问题 | ACM MM‘25

从“支撑搜索”到“图谱推理”：Graph RAG落地全攻略

最新新闻

智能汽车板级接口与存储系统核心技术解析

AI服务合规网关实战：GDPR日志脱敏、国密SM4加密与审计追踪

光伏逆变器LVRT技术：Boost+NPC拓扑设计与控制策略

Allen Bradley 80190-378-51/12控制器板功能与应用解析

解锁网易云音乐加密格式：ncmdump工具的全面应用指南

I型NPC三电平逆变器SVPWM仿真设计与控制策略

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

一个模型千万个灵魂！Anthropic找到了防止AI陷入疯狂的防线

相关新闻

SEW变频器MC07A110-5A3-4-00 08272565

YOLO26优化： 引入了一种新颖的大核局部-全局-局部（LGL）模块，有效平衡图像信息低与高层语义差异大的问题 | ACM MM‘25

从“支撑搜索”到“图谱推理”：Graph RAG落地全攻略

最新新闻

智能汽车板级接口与存储系统核心技术解析

AI服务合规网关实战：GDPR日志脱敏、国密SM4加密与审计追踪

光伏逆变器LVRT技术：Boost+NPC拓扑设计与控制策略

Allen Bradley 80190-378-51/12控制器板功能与应用解析

解锁网易云音乐加密格式：ncmdump工具的全面应用指南

I型NPC三电平逆变器SVPWM仿真设计与控制策略

日新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

周新闻

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

威胁模型全解析：从新手入门到实战应用，助你构建安全产品！

渗透测试入门指南：从零基础到实战环境搭建

月新闻

YOLO26优化：引入了一种新颖的大核局部-全局-局部（LGL）模块，有效平衡图像信息低与高层语义差异大的问题 | ACM MM‘25