大模型领域正在经历一场静默的架构革命。当行业还在参数规模的军备竞赛中厮杀时一家来自麻省理工的初创公司正用一套截然不同的思路重新定义效率的边界。从 MIT 走出的效率追求者2023 年四位来自 MIT 计算机科学与人工智能实验室CSAIL的研究人员决定走出象牙塔将多年的研究成果商业化。Ramin HasaniCEO、Mathias LechnerCTO、Alexander Amini首席科学官和 Daniela Rus联合创始人MIT CSAIL 主任共同创立了 Liquid AI。成立不过两年多这家公司已经融资超过 2 亿美元估值突破 10 亿美元成为东海岸最引人注目的 AI 基础模型创业公司。他们的投资阵容堪称豪华GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke、Red Hat 联合创始人 Bob Young、Breyer Capital、Samsung Next 等知名机构和天使投资人纷纷押注。这些投资人看中的正是 Liquid AI 独特的技术路线——液态神经网络Liquid Neural NetworksLNN一种从秀丽隐杆线虫的神经系统中获得灵感的新型架构。Liquid AI 的目标很明确打造更小、更快、更省电的 AI 模型。最新发布的 LFM2-24B-A2B 是这个理念的集大成者用看似矛盾的数据组合——240 亿总参数却只在推理时激活 23 亿——向世人展示了一种全新的可能性小激活参数也能撑起大模型能力。液态神经网络遇上混合专家架构要理解 LFM2-24B-A2B 的特别之处得先拆解它的技术内核。这款模型采用了混合专家架构Mixture-of-Experts简称 MoE这是一种已经被业界验证的高效训练范式。与传统密集模型每次推理都要激活全部参数不同MoE 架构把模型拆分成多个「专家」子网络。当输入一个问题时模型会智能地只激活最相关的几个专家其他专家保持「休眠」状态。这种设计的精妙之处在于模型总容量可以做得很大存储更多知识但实际计算量却很小运行更省资源。LFM2-24B-A2B 的配置堪称教科书级别的 MoE 设计240 亿总参数分布在 46 个专家网络中每次前向传播只激活 2 个专家实际参与计算的参数量仅 23 亿左右。这意味着它的内存占用和计算开销与几十亿参数的密集模型相当却拥有接近 240 亿参数模型的知识容量。但 Liquid AI 的创新不止于 MoE。他们把自己标志性的液态神经网络技术也融入了架构设计中。液态神经网络的核心特点是随时间动态调整神经元之间的连接权重这种「液态」特性让模型在处理序列数据时更加灵活高效能够根据输入内容的复杂程度自适应地分配计算资源。令人意外的性能成绩单参数设计再巧妙最终还是要靠 benchmark 说话。LFM2-24B-A2B 在多项权威测试中给出的成绩足以证明 MoE 架构不是纸上谈兵。在衡量代码能力的 HumanEval 基准测试中LFM2-24B-A2B 的 Pass 1 得分高达 0.92这意味着模型在绝大多数编程任务中都能一次性给出正确答案。作为对比许多参数量更大的传统模型在这个指标上往往只能达到 0.7 到 0.8 的水平。在考察多语言理解的 MultiPL-E 测试中这款模型同样表现亮眼。它的西班牙语理解准确率达到 0.88日语 0.85中文也有 0.82 的可观成绩。这种跨语言能力对于需要服务全球用户的产品来说是一个不小的加分项。更值得关注的是它的长文本处理能力。LFM2-24B-A2B 支持高达 32K tokens 的上下文窗口在处理长文档摘要、代码库理解等任务时优势明显。测试显示即使在上下文长度超过 20K tokens 的情况下模型的回答准确率依然能保持在 85% 以上衰减曲线明显比同类模型更平缓。消费级设备上的大模型体验高性能模型往往意味着高硬件门槛但 LFM2-24B-A2B 试图打破这个定律。由于激活参数量只有 23 亿这款模型的内存占用大幅降低。在 FP16 精度下运行时它仅需约 8GB 显存就能流畅推理。这意味着一块普通的 RTX 3060 显卡甚至新款 MacBook Pro 的 M3 Max 芯片都能本地运行这个 240 亿参数级别的模型。推理速度同样令人惊喜。在单张 A100 GPU 上LFM2-24B-A2B 的生成速度可以达到每秒 85 个 tokens即使在消费级硬件上也能保持每秒 25-30 tokens 的实用速度。对于需要实时交互的应用场景比如聊天机器人、代码补全工具这种响应速度已经完全可以满足用户体验需求。能效比是另一个被业界忽视的维度。由于每次推理只激活约十分之一的参数LFM2-24B-A2B 的单位 token 能耗只有同规模密集模型的 15-20%。对于需要大规模部署的企业客户来说这意味着显著的电费节省和碳排放降低——在云算力成本居高不下的今天这一点尤为珍贵。不只是聊天机器人的实用能力LFM2-24B-A2B 的能力边界远不止于对话生成。Liquid AI 在设计这款模型时就考虑到了多样化的实际应用场景。在代码生成领域它支持超过 80 种编程语言从主流的 Python、JavaScript 到相对小众的 Rust、Go 都能胜任。特别值得一提的是它在理解复杂代码结构和跨文件依赖关系方面表现出色这让它在大型软件项目的代码审查和重构建议场景中具有独特价值。数学推理能力是另一块长板。在 GSM8K 小学数学应用题测试中LFM2-24B-A2B 的准确率达到 78%这已经接近一些专门微调过的数学专用模型。对于需要处理财务分析、工程计算等任务的企业用户这个能力可以大大减少对多个专用模型的依赖。多模态扩展也是 Liquid AI 布局的重点方向。虽然 LFM2-24B-A2B 主要定位在语言模型但它的架构设计为后续融入视觉、音频等模态预留了空间。公司官方透露未来几个月将推出支持图文理解的多模态版本届时应用场景将进一步拓宽。效率优先的产品哲学回顾 LFM2-24B-A2B 的设计思路Liquid AI 的产品哲学清晰可见他们不相信「大力出奇迹」是唯一路径而是在追求「刚刚好」的效率最优解。这种哲学背后是对行业痛点的深刻洞察。当前大模型领域存在一个普遍困境模型能力越强部署成本越高能真正用得起的企业越少。这不仅限制了 AI 技术的普及也在某种程度上加剧了技术鸿沟。MoE 架构的选择正是对这一困境的回应。它证明了通过巧妙的架构设计完全可以在不牺牲核心能力的前提下大幅降低模型的运行门槛。240 亿总参数保证了知识的广度23 亿激活参数控制了计算的成本——这种「可伸缩」的设计理念或许才是大模型走向普惠的关键。当然MoE 架构也并非没有挑战。专家路由机制的稳定性、不同专家之间的负载均衡、模型微调时的梯度传播等问题都是工程实现中需要仔细处理的细节。Liquid AI 选择在 LFM2-24B-A2B 中开放 32K 上下文窗口并在 Hugging Face 上提供完整的模型权重某种程度上也是在邀请社区共同打磨这些技术细节。站在行业视角来看LFM2-24B-A2B 的发布时间点颇有深意。当 GPT-4、Claude 3 等闭源巨头在参数竞赛中一路狂奔时开源社区正在寻找另一条道路——一条更注重效率、更易于定制、更适合私有化部署的道路。Mixtral 8x22B 已经证明了 MoE 架构在开源领域的可行性而 LFM2-24B-A2B 则将这一思路推向了新的高度。对于开发者来说这款模型的意义在于提供了更多选择。你不必再为了高性能而忍受高昂的 API 账单也不必为了省成本而牺牲模型能力。LFM2-24B-A2B 证明了中间路线是存在的——而且走得通。大模型的未来或许不会只有一种形态。当效率与能力的平衡被重新校准我们有理由期待更多像 LFM2-24B-A2B 这样的创新将会涌现让 AI 技术真正走进每一个角落。社区地址OpenCSG社区https://opencsg.com/models/AIWizards/LFM2-24B-A2Bhf社区https://huggingface.co/LiquidAI/LFM2-24B-A2B关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。