一边是两会将“超大规模智算集群”写入政府工作报告一边是全民“养虾”热。这两个看似不相关的话题其实指向同一方向——AI正在从“研发”走向“应用”而支撑这场应用的底座正在被重新定义。今年两会《报告》有个说法让人挺兴奋的“算力国产化”被摆到了新基建的核心位置明确提出要搞“超大规模智算集群”。这是给国产算力发了一张“入场券”。以前我们聊信创聊的是办公电脑换国产、服务器换国产属于“替代”现在战场直接换到了AI算力中心大模型一火算力就是硬通货这是“新建”。对国产产业链来说确实是第二增长曲线打开了。但兴奋归兴奋真正的硬仗可能才刚开始。最近外网突然炸了几家科技媒体连着爆料中国一家头部算力厂商在原生RDMA上搞出全栈自研突破性能将与NVIDIA相匹敌。为什么一条网络相关的消息能炸圈因为“超大规模智算集群”这几个字落到技术上要求的可不只是把显卡换成国产的那么简单。当集群从几千卡往万卡、十万卡走的时候有一个环节会被成倍放大那就是网络。大模型训练的通信模式有点像几千个人同时协作一个项目必须在极短的时间内同步信息。只要中间有一个人传话慢了整个进度就得等。网络延迟、丢包、抖动都会被成倍放大。我们来看目前的两条主线RoCE 的思路挺聪明想在普及率最高的以太网上跑 RDMA实现低成本的高性能传输。这好比给普通轿车换上高性能轮胎日常开确实比别的车快。但问题在于一旦上了赛道、跑到极限速度底盘和悬挂的先天差异就暴露出来了。IB 网络为极限场景设计。它有一个很特别的设计传输数据之前先确认接收端有足够的资源。这种基于信用的流控机制让它的交换延迟可以低到 100 纳秒级别而且几乎不会丢包。当然RoCE 也有自己的生态位。它在中小规模集群里确实够用成本也更友好。但现在的问题是高端市场的节奏已经走到 400G 互联而在 200G 以上的高速领域RoCE 的核心交换芯片和网卡芯片依然高度依赖海外厂商。换句话说RoCE 的上限现阶段不完全由我们自己决定。这给国产智算基建出了一道难题我们是要在通用架构上继续修修补补还是集中资源去攻克高性能网络这座山头叠加两会提出要建超大规模集群相信趋势已经很明显了。在 AI 时代我们是否有底气打造真正属于自己的算力底座这场连接之战可能比芯片之战更隐蔽但也同样关键。END