计算机基础·cs336·MoE
MoE 混合专家核心思想混合专家模型Mixture of ExpertsMoE是一种先进的神经网络架构旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型然后将所有子模型的输出进行合并以生成最终结果。这种分配可以根据输入数据的特征进行动态调整确保每个专家处理其最擅长的数据类型或任务方面从而实现更高效、准确的预测。优势模型索然很大但是推理速度快。例如同样的FLOPs由于只激活少数专家实际激活参数量比较低推理速度比同样参数的密集模型快而且可以得到更好的结果。训练起来不像密集架构那样全部参数都要训练只有少数专家激活并参与训练分布式架构专家可以分配到不同设备上去。劣势理论上分布式在缺乏分布式节点和计算设备时比较鸡肋。训练不稳定路由算法往往不可微分路由算法的学习不稳定。MoE的基本原理MoE的架构多个不同的MLPvs 多个不同的 Transformer头注意为了确保参数量不会爆炸MLP的d_ff通常会大幅度减小甚至比d_model还小路由算法基本分类为每一个token选专家vs 为每一个专家选token通常是为每一个token选专家具体策略可以分类为 随机选择RL算法TOPK哈希法。TOPK算法基本思想将路由器认为是一个简单的MLP给定token x映射为专家选择的概率s选择前K个专家。将专家计算的结果和选择概率加权求和与原输入残差链接。路由选择函数的训练目标(损失函数)核心思想避免只选择特定专家和设备fif_ifi​统计所有batch/设备中实际选择专家i的比例PiP_iPi​统计所有batch/设备中路由器选择专家i的概率(想选择专家i的比例)惩罚路由器想选择专家i且实际选择专家i的情况。直接对于softmax分数进行显示调整的方法

相关新闻

笔记02:快消公司的赚钱公式:你写的每一行代码,都在利润表上哪个位置?

笔记02:快消公司的赚钱公式:你写的每一行代码,都在利润表上哪个位置?

摘要本笔记将为您打开快消公司的“财务黑匣子”。我们将解剖一个极简却万能的赚钱公式,并完成一次关键思维跃迁:从“我的系统很稳定”到“我的系统是否在赚钱”。您将清晰看到,CDP、ERP、RPA等技术项目,如何在售价、销量、成本、费…

2026/7/3 15:46:07 阅读更多 →
SSM毕设项目:基于SSM的学生选课管理系统(源码+文档,讲解、调试运行,定制等)

SSM毕设项目:基于SSM的学生选课管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/3 22:54:38 阅读更多 →
宏智树 AI:3 类学术 PPT 零门槛!开题、答辩、汇报 30 分钟搞定

宏智树 AI:3 类学术 PPT 零门槛!开题、答辩、汇报 30 分钟搞定

作为深耕论文写作科普的博主,每天都能收到粉丝的灵魂拷问:“开题 PPT 逻辑混乱被导师打回”“答辩 5 分钟,几万字论文怎么浓缩?”“工作汇报像流水账,领导抓不住重点”。其实学术 PPT 的核心从不是排版,而是…

2026/7/3 15:46:12 阅读更多 →

最新新闻

18、<简单>寻找距离2的幂最近的数字

18、<简单>寻找距离2的幂最近的数字

#include <iostream> using namespace std;int main() {int n;cout << "请输入整数n&#xff1a;";cin >> n;// 先找到小于等于n的最大2的幂 lowint low 1;while (low * 2 < n){low * 2;}int high low * 2; // 大于n的最小2的幂int dis_low …

2026/7/5 13:32:10 阅读更多 →
抖店违规检测工具使用步骤:上架前 3 类素材(主图 / 标题 / 详情)风险筛查指南

抖店违规检测工具使用步骤:上架前 3 类素材(主图 / 标题 / 详情)风险筛查指南

全网通用电商商品违规检测最全教程&#xff1a;新手小白零门槛避坑指南很多电商创业新手、副业小白做店铺运营时&#xff0c;最容易踩的坑就是商品违规。不管是做抖音、抖音小店、微信小店、微信小商城、视频号小店、拼多多、小红书、淘宝等全平台电商&#xff0c;绝大多数新手…

2026/7/5 13:30:10 阅读更多 →
3分钟免费激活Windows系统:KMS_VL_ALL_AIO智能激活工具完全指南

3分钟免费激活Windows系统:KMS_VL_ALL_AIO智能激活工具完全指南

3分钟免费激活Windows系统&#xff1a;KMS_VL_ALL_AIO智能激活工具完全指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活而烦恼吗&#xff1f;每次开机看到那个烦人的激…

2026/7/5 13:30:10 阅读更多 →
奇迹 MU 剑与翼手游官网下载:奇迹 MU 剑与翼最新官方下载渠道

奇迹 MU 剑与翼手游官网下载:奇迹 MU 剑与翼最新官方下载渠道

奇迹 MU 剑与翼手游官网下载&#xff1a;奇迹 MU 剑与翼最新官方下载渠道 《奇迹 MU 剑与翼》又名复古 1.03H 奇迹正版、卓越打金奇迹手游&#xff0c;由安徽游昕联合忆往游戏正版运维复刻的经典魔幻 MMORPG。游戏完整还原原版奇迹端游 1.03H 全部内容&#xff0c;勇者大陆、仙…

2026/7/5 13:28:09 阅读更多 →
自学嵌入式的第一天——好心累,实习好难找,根本没机会

自学嵌入式的第一天——好心累,实习好难找,根本没机会

以前虽然也做过STM32的项目&#xff08;传感器和Web端监控&#xff09;&#xff0c;但是好像靠这个根本找不到实习&#xff0c;唉&#xff0c;于是乎想要自学一些更进一步的东西。本来想今天先看看C的数据结构的&#xff0c;可没想到光是下载虚拟机和配环境就花了一下午&#x…

2026/7/5 13:26:09 阅读更多 →
【Python工程化实战】Feature Flag 工程化:Unleash / LaunchDarkly 在 Python 服务中的集成实战

【Python工程化实战】Feature Flag 工程化:Unleash / LaunchDarkly 在 Python 服务中的集成实战

一、为什么需要 Feature Flag&#xff1f; 在传统发布模式中&#xff0c;部署 发布&#xff0c;代码一旦上线即对所有用户可见。这带来了几个核心痛点&#xff1a; 风险不可控&#xff1a;新功能上线即全量&#xff0c;Bug 影响面等于全量用户回滚成本高&#xff1a;只能整体…

2026/7/5 13:26:09 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools&#xff1a;5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱&#xff0c;支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里&#xff0c;参与了关于混合后量子密码学的讨论&#xff0c;应付端点攻击找茬的人&#xff0c;还参与留言板讨论后&#xff0c;发现“威胁模型”对多数人仍是陌生概念&#xff0c;且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”&#xff1a;我理解的渗透测试到底是什么&#xff1f;每次看到新闻里说某个大公司的数据被“黑”了&#xff0c;或者某个网站被攻击导致服务瘫痪&#xff0c;你是不是和我一样&#xff0c;心里会冒出两个念头&#xff1a;一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools&#xff1a;5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱&#xff0c;支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里&#xff0c;参与了关于混合后量子密码学的讨论&#xff0c;应付端点攻击找茬的人&#xff0c;还参与留言板讨论后&#xff0c;发现“威胁模型”对多数人仍是陌生概念&#xff0c;且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”&#xff1a;我理解的渗透测试到底是什么&#xff1f;每次看到新闻里说某个大公司的数据被“黑”了&#xff0c;或者某个网站被攻击导致服务瘫痪&#xff0c;你是不是和我一样&#xff0c;心里会冒出两个念头&#xff1a;一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻