Transformer的核心——注意力机制
本文是作者本人学习深度学习的理解如有错误劳烦指出让我改正文章目录前言一、注意力机制的动机三个直观例子1. 一词多义三个 mole2.精细化修饰从 Tower 到 Miniature Eiffel Tower每一步周围的词都在拉扯这个向量的含义。3.长距离信息传递Transformer 的最终预测完全基于序列最后一个向量。它必须通过层层注意力把整个上下文窗口中所有相关信息都编码进来。二、单头注意力一步步拆解1.Query查询—— 提出问题2. Key键—— 回应查询3.点积 Softmax → 注意力模式4.Masking掩码—— 不能偷看未来这就是因果掩码Causal Masking——信息只能从前往后流动。5.Value值—— 实际传递的信息6.加权求和 → 更新嵌入三、多头注意力多个视角并行1.为什么需要多个头上下文影响含义的方式远不止一种2.多头配置(以GPT3.0为例)总结前言为什么同一个词 “mole”在 “鼹鼠”、“摩尔”、“痣” 三种语境下模型能自动区分答案就藏在注意力机制里。一、注意力机制的动机三个直观例子1. 一词多义三个 “mole”“American shrew mole” → 一种鼹鼠“One mole of carbon dioxide” → 摩尔化学计量单位“Take a biopsy of the mole” → 痣医学用语2.精细化修饰从 “Tower” 到 “Miniature Eiffel Tower”初始 “Tower” → 指向高大建筑物方向前面出现 “Eiffel” → 注意力将向量推向巴黎、钢铁、法国方向再前面出现 “miniature” → 进一步推离高大靠向微缩模型每一步周围的词都在拉扯这个向量的含义。3.长距离信息传递想象你给模型输入整本侦探小说最后一句话是 “Therefore the murderer was ____”。那个空白位置的向量必须跨越几十页的上下文从前面所有人名中回忆起谁是凶手。Transformer 的最终预测完全基于序列最后一个向量。它必须通过层层注意力把整个上下文窗口中所有相关信息都编码进来。二、单头注意力一步步拆解以 “A fluffy blue creature roamed the verdant forest.” 为例。假设我们追踪形容词如何更新名词 “creature” 的含义。注意力机制的核心流程分五步每个 token 的嵌入↓① 生成 Query查询向量—— “我在找什么”② 生成 Key 键向量 —— “我能提供什么”③ Q·K 点积 Softmax → 注意力模式④ 生成 Value值向量 —— “如果被选中传递什么信息”⑤ Value 加权求和 → ΔE → 加到原嵌入1.Query查询—— 提出问题每个 token 的嵌入向量 E 与一个可训练的查询矩阵 Wᴏ 相乘得到查询向量 Q名词 “creature” 的 Q 向量像是在问 —— 我前面有形容词吗2. Key键—— 回应查询同样每个 token 通过键矩阵 Wᴋ 产生键向量 K键向量和查询向量处于同一个低维空间。直觉上形容词 “fluffy” 的 K 向量像是在回应 —— “是的我是形容词我在前面”3.点积 Softmax → 注意力模式计算所有查询向量与所有键向量的点积dot product得到一个 n × n 的网格。点积衡量两个向量的对齐程度——值越大表示这个词与那个词越相关。然后对网格逐列做 SoftmaxSoftmax 将每列变成合法的概率分布0~1列和为 1。除以查询空间维度的平方根是为了数值稳定性——防止点积值太大导致 Softmax 输出过于极端梯度消失。这个归一化后的网格就是注意力模式Attention Pattern——它告诉我们每个词应该从其他词那里听多少。4.Masking掩码—— 不能偷看未来训练时有一个巧妙的设计对每个位置模型同时预测下一个 token。比如输入 “A fluffy blue creature roamed…”位置 1 预测位置 2位置 1~2 预测位置 3位置 1~3 预测位置 4…一把前向传播同时训练所有位置——效率极高。但有个问题后面的 token 不能影响前面的 token否则等于看了答案再答题。做法很简单——在 Softmax 之前把注意力网格的上三角区域全部设为 负无穷这列依然归一化。这就是因果掩码Causal Masking——信息只能从前往后流动。5.Value值—— 实际传递的信息有了谁关注谁的权重网格后还需要真正的内容来更新嵌入。通过值矩阵 Wᴠ 产生值向量 V值向量与嵌入向量同维因为它要直接加到嵌入上。直觉理解值向量回答了 —— “如果我被选中去更新其他词我应该往它的嵌入里加什么”6.加权求和 → 更新嵌入用注意力权重对值向量加权求和得到变化量 ΔE最后加到原始嵌入上“creature” 的新嵌入向量就从泛化含义变成了包含 “fluffy” 和 “blue” 形容词信息的精炼含义。三、多头注意力多个视角并行1.为什么需要多个头上下文影响含义的方式远不止一种模式例子形容词 → 名词“fluffy creature”语法结构暗示“they crashed the car”跨句关联“Harry” 前面提到 “wizard” → Harry Potter复杂语义推理“Queen, Sussex, William” “Harry” → Prince Harry一个注意力头只能学一种模式。所以要多头并行。2.多头配置(以GPT3.0为例)GPT-3 每个注意力块有 96 个头每个头有独立的Wᴏ查询矩阵Wᴋ键矩阵V↓ V↑值矩阵对所有 96 个头各自独立计算产生 96 份 ΔE 提案最后全部加总。总结本文主要是讲解Transformer的核心机制注意力机制这只是粗略的讲解具体的实现以及公式在文章内未提及可以去翻阅资料查询对应的公式和实现代码等。

相关新闻

Linux服务器安全加固实战:从账户权限到入侵检测的完整防护体系

Linux服务器安全加固实战:从账户权限到入侵检测的完整防护体系

1. 项目概述:为什么Linux安全是每个从业者的必修课最近几年,无论是企业服务器被勒索、云主机被挖矿,还是个人开发机被当成跳板,安全事件听得耳朵都起茧了。很多人觉得,安全是运维或者安全工程师的事,自己就…

2026/7/5 13:24:09 阅读更多 →
林伽一 · AI科技日报 |DSpark MIT开源实现85%推理降本,推理框架迎来技术突破;GPT-5.6受限发布,OpenAI以5%股权绑定美国政府

林伽一 · AI科技日报 |DSpark MIT开源实现85%推理降本,推理框架迎来技术突破;GPT-5.6受限发布,OpenAI以5%股权绑定美国政府

OpenAI 发布 GPT-5.6 但仅限政府批准组织使用,CEO 同时推动 5% 股权出售给美国政府。DeepSeek 发布 MIT 许可的 DSpark 推理框架实现 85% 降本,Meta 宣布进军云计算,SpaceX 收购 Cursor 考验多模型策略。从模型管控到开源策略再到资本重构&am…

2026/7/5 13:24:09 阅读更多 →
边缘计算+PLC融合|TSN+OPC UA FX:消除工控 “七国八制”

边缘计算+PLC融合|TSN+OPC UA FX:消除工控 “七国八制”

#333 第3篇|现场层通信的全球通用语言 在前两篇内容里,我们完整梳理了边缘计算与PLC融合的底层概念、三代工控迭代架构,不少深耕数字孪生落地的工程师、项目负责人都提出了同一个落地痛点: 工厂即便配齐边缘节点、搭建好数字孪生…

2026/7/5 13:24:09 阅读更多 →

最新新闻

只看 inline 关键字,如何准确判别代码属于 C 还是 C++ 语义?

只看 inline 关键字,如何准确判别代码属于 C 还是 C++ 语义?

一、 源码中 inline 关键字的排查 对项目仓库中所有 .c / .h / .cpp / .hpp 文件中的 inline 关键字进行了全面的审计与排查, 1、 核心结论 结论:确认代码库中所有的 inline 均属于标准 C 的 inline 关键字语义,未发现异常或误用的情况。统计…

2026/7/5 14:26:20 阅读更多 →
告别手动对齐!用UvSquares插件3分钟搞定Blender UV网格重塑

告别手动对齐!用UvSquares插件3分钟搞定Blender UV网格重塑

告别手动对齐!用UvSquares插件3分钟搞定Blender UV网格重塑 【免费下载链接】UvSquares Blender addon for reshaping UV quad selection into a grid. 项目地址: https://gitcode.com/gh_mirrors/uv/UvSquares 你是否曾经在Blender的UV编辑器中花费数小时手…

2026/7/5 14:24:20 阅读更多 →
MySQL 8.4.10安装(二进制)

MySQL 8.4.10安装(二进制)

下载地址MySQL :: Download MySQL Community Server 自己使用远程传输工具上传 可以将包传至家目录,也可以直接wget 创建用户组目录 mkdir -p /mysql/app [rootRockymysql ~]# cd /mysql/app/ [rootRockymysql app]# mv ~/mysql-8.4.10-linux-glibc2.28-x86_6…

2026/7/5 14:24:20 阅读更多 →
第45期 Google三年砸$1000亿建AI基建:Capex全景

第45期 Google三年砸$1000亿建AI基建:Capex全景

# 第45期 Google三年砸$1000亿建AI基建:Capex全景> 作者:小Q | 阿水助理小Q---2026年2月,Alphabet在Q4财报电话会上扔出一枚重磅炸弹:2026年资本支出预计达到$1750亿-$1850亿,较2025年的$914.5亿近乎翻倍。到了6月1…

2026/7/5 14:22:19 阅读更多 →
SAP学习笔记 - MM模块04 - 采购流程基础,采购组织和工厂的常见关系,供应商主数据的3个层次,账户组,字段选择-账户组/采购组织/事务代码,合伙伙伴,MK04履历,MK05冻结,MK06删除

SAP学习笔记 - MM模块04 - 采购流程基础,采购组织和工厂的常见关系,供应商主数据的3个层次,账户组,字段选择-账户组/采购组织/事务代码,合伙伙伴,MK04履历,MK05冻结,MK06删除

目录 1,采购流程基础 1-1,采购流程中的组织层次 a,Client,Purchasing Organization/Group概念 b,采购组织和工厂的常见关系 b-1,Plant-Specific Purchasing Organization b-2,Cross-Plant…

2026/7/5 14:22:19 阅读更多 →
数据产业服务分类(31)——数据产业——数字技术与数据技术

数据产业服务分类(31)——数据产业——数字技术与数据技术

数字技术与数据技术是紧密相关且各有侧重的领域,数字技术为数据处理和应用提供支撑,数据技术则专注于数据全生命周期的管理与价值挖掘,二者协同推动数字经济创新发展。数字技术与数据技术的定义数字技术是指利用电子计算机、互联网、大数据、…

2026/7/5 14:20:19 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻