Liquid新模型:LFM2-24B-A2B用MoE架构重新定义大模型性价比
大模型领域正在经历一场静默的架构革命。当行业还在参数规模的军备竞赛中厮杀时一家来自麻省理工的初创公司正用一套截然不同的思路重新定义效率的边界。从 MIT 走出的效率追求者2023 年四位来自 MIT 计算机科学与人工智能实验室CSAIL的研究人员决定走出象牙塔将多年的研究成果商业化。Ramin HasaniCEO、Mathias LechnerCTO、Alexander Amini首席科学官和 Daniela Rus联合创始人MIT CSAIL 主任共同创立了 Liquid AI。成立不过两年多这家公司已经融资超过 2 亿美元估值突破 10 亿美元成为东海岸最引人注目的 AI 基础模型创业公司。他们的投资阵容堪称豪华GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke、Red Hat 联合创始人 Bob Young、Breyer Capital、Samsung Next 等知名机构和天使投资人纷纷押注。这些投资人看中的正是 Liquid AI 独特的技术路线——液态神经网络Liquid Neural NetworksLNN一种从秀丽隐杆线虫的神经系统中获得灵感的新型架构。Liquid AI 的目标很明确打造更小、更快、更省电的 AI 模型。最新发布的 LFM2-24B-A2B 是这个理念的集大成者用看似矛盾的数据组合——240 亿总参数却只在推理时激活 23 亿——向世人展示了一种全新的可能性小激活参数也能撑起大模型能力。液态神经网络遇上混合专家架构要理解 LFM2-24B-A2B 的特别之处得先拆解它的技术内核。这款模型采用了混合专家架构Mixture-of-Experts简称 MoE这是一种已经被业界验证的高效训练范式。与传统密集模型每次推理都要激活全部参数不同MoE 架构把模型拆分成多个「专家」子网络。当输入一个问题时模型会智能地只激活最相关的几个专家其他专家保持「休眠」状态。这种设计的精妙之处在于模型总容量可以做得很大存储更多知识但实际计算量却很小运行更省资源。LFM2-24B-A2B 的配置堪称教科书级别的 MoE 设计240 亿总参数分布在 46 个专家网络中每次前向传播只激活 2 个专家实际参与计算的参数量仅 23 亿左右。这意味着它的内存占用和计算开销与几十亿参数的密集模型相当却拥有接近 240 亿参数模型的知识容量。但 Liquid AI 的创新不止于 MoE。他们把自己标志性的液态神经网络技术也融入了架构设计中。液态神经网络的核心特点是随时间动态调整神经元之间的连接权重这种「液态」特性让模型在处理序列数据时更加灵活高效能够根据输入内容的复杂程度自适应地分配计算资源。令人意外的性能成绩单参数设计再巧妙最终还是要靠 benchmark 说话。LFM2-24B-A2B 在多项权威测试中给出的成绩足以证明 MoE 架构不是纸上谈兵。在衡量代码能力的 HumanEval 基准测试中LFM2-24B-A2B 的 Pass 1 得分高达 0.92这意味着模型在绝大多数编程任务中都能一次性给出正确答案。作为对比许多参数量更大的传统模型在这个指标上往往只能达到 0.7 到 0.8 的水平。在考察多语言理解的 MultiPL-E 测试中这款模型同样表现亮眼。它的西班牙语理解准确率达到 0.88日语 0.85中文也有 0.82 的可观成绩。这种跨语言能力对于需要服务全球用户的产品来说是一个不小的加分项。更值得关注的是它的长文本处理能力。LFM2-24B-A2B 支持高达 32K tokens 的上下文窗口在处理长文档摘要、代码库理解等任务时优势明显。测试显示即使在上下文长度超过 20K tokens 的情况下模型的回答准确率依然能保持在 85% 以上衰减曲线明显比同类模型更平缓。消费级设备上的大模型体验高性能模型往往意味着高硬件门槛但 LFM2-24B-A2B 试图打破这个定律。由于激活参数量只有 23 亿这款模型的内存占用大幅降低。在 FP16 精度下运行时它仅需约 8GB 显存就能流畅推理。这意味着一块普通的 RTX 3060 显卡甚至新款 MacBook Pro 的 M3 Max 芯片都能本地运行这个 240 亿参数级别的模型。推理速度同样令人惊喜。在单张 A100 GPU 上LFM2-24B-A2B 的生成速度可以达到每秒 85 个 tokens即使在消费级硬件上也能保持每秒 25-30 tokens 的实用速度。对于需要实时交互的应用场景比如聊天机器人、代码补全工具这种响应速度已经完全可以满足用户体验需求。能效比是另一个被业界忽视的维度。由于每次推理只激活约十分之一的参数LFM2-24B-A2B 的单位 token 能耗只有同规模密集模型的 15-20%。对于需要大规模部署的企业客户来说这意味着显著的电费节省和碳排放降低——在云算力成本居高不下的今天这一点尤为珍贵。不只是聊天机器人的实用能力LFM2-24B-A2B 的能力边界远不止于对话生成。Liquid AI 在设计这款模型时就考虑到了多样化的实际应用场景。在代码生成领域它支持超过 80 种编程语言从主流的 Python、JavaScript 到相对小众的 Rust、Go 都能胜任。特别值得一提的是它在理解复杂代码结构和跨文件依赖关系方面表现出色这让它在大型软件项目的代码审查和重构建议场景中具有独特价值。数学推理能力是另一块长板。在 GSM8K 小学数学应用题测试中LFM2-24B-A2B 的准确率达到 78%这已经接近一些专门微调过的数学专用模型。对于需要处理财务分析、工程计算等任务的企业用户这个能力可以大大减少对多个专用模型的依赖。多模态扩展也是 Liquid AI 布局的重点方向。虽然 LFM2-24B-A2B 主要定位在语言模型但它的架构设计为后续融入视觉、音频等模态预留了空间。公司官方透露未来几个月将推出支持图文理解的多模态版本届时应用场景将进一步拓宽。效率优先的产品哲学回顾 LFM2-24B-A2B 的设计思路Liquid AI 的产品哲学清晰可见他们不相信「大力出奇迹」是唯一路径而是在追求「刚刚好」的效率最优解。这种哲学背后是对行业痛点的深刻洞察。当前大模型领域存在一个普遍困境模型能力越强部署成本越高能真正用得起的企业越少。这不仅限制了 AI 技术的普及也在某种程度上加剧了技术鸿沟。MoE 架构的选择正是对这一困境的回应。它证明了通过巧妙的架构设计完全可以在不牺牲核心能力的前提下大幅降低模型的运行门槛。240 亿总参数保证了知识的广度23 亿激活参数控制了计算的成本——这种「可伸缩」的设计理念或许才是大模型走向普惠的关键。当然MoE 架构也并非没有挑战。专家路由机制的稳定性、不同专家之间的负载均衡、模型微调时的梯度传播等问题都是工程实现中需要仔细处理的细节。Liquid AI 选择在 LFM2-24B-A2B 中开放 32K 上下文窗口并在 Hugging Face 上提供完整的模型权重某种程度上也是在邀请社区共同打磨这些技术细节。站在行业视角来看LFM2-24B-A2B 的发布时间点颇有深意。当 GPT-4、Claude 3 等闭源巨头在参数竞赛中一路狂奔时开源社区正在寻找另一条道路——一条更注重效率、更易于定制、更适合私有化部署的道路。Mixtral 8x22B 已经证明了 MoE 架构在开源领域的可行性而 LFM2-24B-A2B 则将这一思路推向了新的高度。对于开发者来说这款模型的意义在于提供了更多选择。你不必再为了高性能而忍受高昂的 API 账单也不必为了省成本而牺牲模型能力。LFM2-24B-A2B 证明了中间路线是存在的——而且走得通。大模型的未来或许不会只有一种形态。当效率与能力的平衡被重新校准我们有理由期待更多像 LFM2-24B-A2B 这样的创新将会涌现让 AI 技术真正走进每一个角落。社区地址OpenCSG社区https://opencsg.com/models/AIWizards/LFM2-24B-A2Bhf社区https://huggingface.co/LiquidAI/LFM2-24B-A2B关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

相关新闻

Nunchaku-flux-1-dev与SolidWorks集成:生成3D模型渲染图

Nunchaku-flux-1-dev与SolidWorks集成:生成3D模型渲染图

Nunchaku-flux-1-dev与SolidWorks集成:生成3D模型渲染图 还在为产品渲染图耗费大量时间?试试用AI一键生成高质量效果图 1. 场景痛点:传统渲染的困境 做产品设计的同行们都知道,出渲染图是个既费时又费力的活儿。特别是用SolidWor…

2026/7/4 4:11:26 阅读更多 →
基于VUE和Antv G6的拓扑图在线编辑器设计与实现

基于VUE和Antv G6的拓扑图在线编辑器设计与实现

1. 为什么你需要一个自己的拓扑图编辑器? 如果你正在开发一个需要可视化展示关系的系统,比如网络设备管理、任务流程图、组织架构图,或者像我之前做的那个低代码工作流平台,那你大概率会遇到“拓扑图”这个需求。市面上的现成图表…

2026/7/5 8:21:39 阅读更多 →
Unity Mesh优化指南:如何高效创建和管理自定义3D模型(2024最新版)

Unity Mesh优化指南:如何高效创建和管理自定义3D模型(2024最新版)

Unity Mesh优化指南:如何高效创建和管理自定义3D模型(2024最新版) 如果你在Unity里鼓捣过一阵子3D内容,大概率已经和Mesh打过交道了。无论是导入一个精美的角色模型,还是用代码生成一片动态的地形,Mesh都是…

2026/5/17 8:24:33 阅读更多 →

最新新闻

钱条:可视化你的收入进度,让每一分努力都看得见

钱条:可视化你的收入进度,让每一分努力都看得见

钱条:可视化你的收入进度,让每一分努力都看得见 【免费下载链接】MoneyProgress 借一个上班的进度条。 项目地址: https://gitcode.com/gh_mirrors/mo/MoneyProgress 钱条是一款创新的收入进度可视化工具,专为上班族和自由职业者设计。…

2026/7/5 15:36:37 阅读更多 →
Buzz:完全离线的智能音频转录工具,让语音转文字变得简单高效

Buzz:完全离线的智能音频转录工具,让语音转文字变得简单高效

Buzz:完全离线的智能音频转录工具,让语音转文字变得简单高效 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buz…

2026/7/5 15:36:37 阅读更多 →
怎样高效配置AriaNg Native:5个实用技巧提升下载管理效率

怎样高效配置AriaNg Native:5个实用技巧提升下载管理效率

怎样高效配置AriaNg Native:5个实用技巧提升下载管理效率 【免费下载链接】AriaNg-Native A better aria2 desktop frontend than AriaNg, with all features of AriaNg and providing more features for desktop usage. 项目地址: https://gitcode.com/gh_mirror…

2026/7/5 15:34:37 阅读更多 →
深度学习图像分割实战:从原理到代码实现

深度学习图像分割实战:从原理到代码实现

1. 引言1.1 什么是图像分割?图像分割是计算机视觉中的一项核心任务,目标是将图像划分为若干具有语义含义的区域。与图像分类(给整张图打标签)和目标检测(用边界框框出物体)不同,分割要求在像素级…

2026/7/5 15:32:36 阅读更多 →
U-Net详解医学图像分割

U-Net详解医学图像分割

一、背景:在U-Net出现之前,分割有多难?想象一下,你是一名生物学家,正在通过电子显微镜观察果蝇的神经系统。你想知道一个神经细胞的边界究竟在哪里,于是你拿起一支笔,在30张连续的照片上一笔一笔…

2026/7/5 15:32:36 阅读更多 →
手把手带你复现图像分割经典(一)—— 从零构建UNet医学影像分割实战

手把手带你复现图像分割经典(一)—— 从零构建UNet医学影像分割实战

1. 为什么选择UNet做医学影像分割我第一次接触UNet是在处理一组细胞显微镜图像时。当时试过传统的图像处理方法,效果总是不理想——要么把细胞核边缘分割得坑坑洼洼,要么把背景噪点误识别成目标。直到发现UNet这个神器,才真正体会到什么叫&qu…

2026/7/5 15:32:36 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻