大模型的底层——TrasnsformerTransformer 架构是一种基于自注意力机制Self-Attention的深度学习模型由 Google 团队在 2017 年的论文《Attention Is All You Need》中首次提出。它改变了自然语言处理NLP领域并成为现代大语言模型如GPT、BERT等的核心基础。Transformer 与循环神经网络RNN类似旨在处理自然语言等顺序输入数据适用于机器翻译、文本摘要等任务。然而与 RNN 不同Transformer 无需逐步处理序列而是可以一次性并行处理整个输入。Transformer架构分为两部分其中左边为编码器多头注意力机制ADDNormFFN右边为解码器。编码器让模型对原本语句进行多次上下文理解输出一组向量表示原句间各词融合上下文信息后的数字变现形式为计算机对输入文本的理解。解码器基于编码器输出的理解来进行预测生成每步都进行生成后加入序列再生成。Eembedding编码输入的序列会经过编码包括词编码和位置编码。由于计算机不认识除01以外的寓意所以需要词编码将当前词归类到一个N维向量中通过每个维度的值来让计算机识别当前词的语义这个流程称为词编码。位置 Embedding 表示单词出现在句子中的位置。因为 Transformer 不采用 RNN 的结构而是使用全局信息不能利用单词的顺序信息而这部分信息对于 NLP 来说非常重要。所以 Transformer 中使用位置 Embedding 保存单词在序列中的相对或绝对位置。计算公式如下Multi-Headed Self-Attention多头自注意力红框部分为多头注意力机制作用是让模型同时关注输入中的所有单词并计算它们之间的关系。多头注意力是由多个 Self-Attention组成Multi-Head Attention 上方还包括一个 Add Norm 层Add 表示残差连接 (Residual Connection) 用于防止网络退化Norm 表示 Layer Normalization用于对每一层的激活值进行归一化。Self-Attention自注意力上图是 Self-Attention 的结构在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。而Q,K,V正是通过 Self-Attention 的输入进行线性变换得到的。得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了计算的公式如下其中Q跟K的点积用来衡量两个词之间的影响程度下方的维度用来避免内积过大外部的Softmax分类器是对矩阵的每一行进行 Softmax让影响之和为1最后乘上V语义内容。只算一次注意力并不够因为这只代表一个维度多头注意力机制对文本的不同维度语义语法等进行处理可以拿到更丰富的词间关系。Norm层归一化作用稳定训练过程防止数值过大或过小类似调音量到合适范围。Feed-Forward Network前馈神经网络作用线性无法获取复杂语义信息FFN通过将线性转变为非线性对每个单词的表示进行进一步加工提取更复杂的特征。Masked Multi-Headed Self-Attention掩码多头自注意力作用训练时防止模型作弊只能看到当前和之前的单词不能看未来的。举例生成我爱__“时模型只能基于我”“爱预测下一个词不能提前知道答案是你”。Multi-Headed Cross-Attention多头交叉注意力作用让解码器询问编码器“关于输入我应该重点关注什么”场景翻译任务中解码器生成英文时会参考编码器处理的中文输入。大模型应用的整体架构用户层 ↓ Prompt层提示工程 ↓ 能力扩展层RAG / Tools / Skills ↓ Agent调度层MCP / Agent Framework ↓ 基础模型层LLMPromptPrompt 是 控制 LLM 行为的核心手段。Prompt 给模型的任务说明书正常的大模型会区分系统System提示词和用User户提示词系统提示词的优先级更高对输出的影响权重更大系统提示词一般为大模型的后门有对应的.md文件Claude.md进行录入用户提示词一般为前端chat有五种常见用法1 Zero-shot 直接提问 例解释Kafka的消费流程 2 Few-shot 给例子 例 Q: 11 A:2 3 Chain-of-Thought 思维链让模型一步步推理 例请一步步分析问题XXXX 4 Role Prompt 角色设定赋予大模型一个角色 例你是一名资深架构师 5 Structured Prompt结构化输出 例请以JSON格式输出 { root_cause:, solution: }RAGRetrieval Augmented GenerationRAG 检索增强生成用来解决大模型不具备公司内部数据上下文的从而至幻的问题。RAG流程 用户问题 ↓ 向量检索Vector DB ↓ 找到相关文档 ↓ 拼接到Prompt ↓ LLM生成回答 流程图 Question ↓ Embedding ↓ Vector DB ↓ TopK Documents ↓ Prompt Context ↓ LLMMCPModel Context ProtocolMCP 是非常重要的一个协议核心作用是让 LLM 标准化调用外部工具。架构 LLM ↓ MCP Client ↓ MCP Server ↓ ToolsSkillsSkills 可以理解为LLM 可以调用的能力函数一个 Skill 本质就是Function / API放入AI客户端skils目录完成安装 ↓ 用户发送需求客户端加载所有skil的metadata发给大模型 ↓ 大模型识别并返回所需skil客户端加载对应文件为系统提示词发送 ↓ 大模型按需让客户端读取参考资料/执行脚本 ↓ 大模型整合结果输出给用户总结把这些概念串起来即完整流程用户问题 ↓ Prompt设计 ↓ Agent理解任务 ↓ 需要知识 → RAG 需要能力 → Skills 需要工具 → MCP ↓ LLM生成答案对比SKILLS/MCP/WORKFLOWSkill vS MCP:mcp可理解为操作工具给大模型配的“手”协议插件是操控外部的工具skills可理解为操作经验规定场景下工具使用顺序工具包括MCP插件本地script脚本Skill vs Workflow:workflow是通过规则配置编排调度的流程低代码工具编排步骤设计阶段确定流程结构skills可理解为由大模型驱动的调度的流程执行流程动态变化灵活性更高