CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
人类在观察复杂场景时通常会先快速扫视整体轮廓形成初步认知再集中注意力到关键区域进行细节分析。这种 “纵观全局-聚焦细节” 的两阶段认知机制被称为自上而下注意力Top-down Attention是人类视觉系统高效强大的核心秘密。如今来自香港大学俞益洲教授实验室的研究团队将这一认知机制成功引入视觉骨干网络的设计之中提出了一种全新的动态卷积视觉模型——OverLoCKOverview-first-Look-Closely-next ConvNet。该模型在ImageNet、COCO、ADE20K等权威基准上取得了卓越性能相关论文已被CVPR 2025接收为口头报告Oral。目录一、突破瓶颈传统视觉骨干的局限二、核心思想模拟人类视觉的双阶段处理三、关键技术上下文混合动态卷积ContMix四、卓越性能多项任务领先五、消融研究六、深入洞察可视化的证据总结与展望论文地址https://arxiv.org/abs/2502.20087 (arxiv)https://pse.is/8gyc6d (IEEE/CVF)代码仓库https://github.com/LMMMEng/OverLoCK一、突破瓶颈传统视觉骨干的局限当前主流的视觉骨干网络如Swin Transformer、ConvNeXt、VMamba等大多采用经典的金字塔架构从底层到高层逐层抽象特征。这种设计存在一个根本性限制——中层特征缺乏来自高层语义的显式指导。就像“只见树木不见森林”模型在局部处理时无法有效利用对全局的已有理解来聚焦关键信息。与此同时现有的卷积算子也难以同时满足动态全局建模与强局部归纳偏置的双重要求大核卷积/动态卷积感受野受固定核尺寸限制在高分辨率输入下仍局限于局部。可变形卷积虽然能适应不同形状但弱化了卷积固有的平移等变性局部感知能力下降。Self-Attention/SSM虽能动态建模长程依赖但缺乏卷积固有的空间归纳偏置且计算开销大。如何让一个纯粹的卷积网络既能像Transformer一样灵活捕捉全局上下文又能保持卷积的强局部性优势OverLoCK给出了一个优雅的答案。二、核心思想模拟人类视觉的双阶段处理研究团队的核心灵感直接来源于神经科学。他们摒弃了传统的金字塔构建策略创新性地提出了 “深度阶段分解” 架构将网络清晰地划分为三个功能明确的子模型Base-Net基础网络扮演“视网膜”的角色专注于快速提取图像的中低层特征如边缘、纹理为后续处理打下基础。Overview-Net概览网络实现“第一眼认知”。它基于Base-Net的特征快速生成一个粗糙的全局语义先验Top-down Guidance。这相当于大脑对场景的初步整体理解。Focus-Net聚焦网络进行“凝视观察”。它在Overview-Net提供的全局先验指导下对关键区域进行精细化特征提取与分析最终形成鲁棒的特征表示。最关键的是来自Overview-Net的全局先验信息会贯穿并持续指导Focus-Net的每一个计算步骤不仅在特征层面进行调制还直接参与动态卷积核权重的生成实现了自上而下信号的全方位、深层次注入。三、关键技术上下文混合动态卷积ContMix为了让模型在保持卷积强归纳偏置的同时获得动态的全局建模能力团队提出了全新的ContMixContext-Mixing动态卷积模块。这是OverLoCK的核心引擎。ContMix的运作机制非常巧妙对于特征图上的每个局部位置token计算其与多个全局聚类中心token的亲和度affinity。将这些亲和度关系通过一个可学习的映射动态生成该位置专属的卷积核权重。这个生成的动态卷积核在局部窗口内进行操作但由于其权重蕴含了该位置与全局上下文的关联信息因此一次局部卷积实际上完成了局部特征与全局知识的混合。简单来说ContMix让每个局部的卷积操作都“心中有全局”。它不仅计算高效而且保持了卷积的局部性和平移等变性优势。在设计中团队发现将Focus-Net的当前特征作为“查询”Query而将Overview-Net的全局先验作为“键”Key来生成动态核权重能获得最佳性能。ContMix即插即用版本代码链接https://github.com/LMMMEng/OverLoCK/blob/main/models/contmix.py四、卓越性能多项任务领先OverLoCK在多个极具挑战性的视觉任务上证明了其强大实力图像分类ImageNet-1K参数量仅30M的OverLoCK-Tiny模型达到了84.2% 的Top-1准确率在同等参数量下显著超越UniRepLKNet、MogaNet、VMamba等前沿ConvNet、Transformer和Mamba模型。目标检测与实例分割COCO在使用Mask R-CNN和Cascade Mask R-CNN框架时OverLoCK均表现出色。例如OverLoCK-S相比BiFormer-B和MogaNet-B在Box AP上分别提升0.8%和1.5%。这尤其证明了其在高分辨率输入下保持强大长程依赖建模能力的优势弥补了许多卷积网络在检测任务上的性能缺口。语义分割ADE20KOverLoCK-T以超过VMamba-T 2.3% mIoU 的显著优势展示了其在密集预测任务中对全局上下文和细节的卓越协调能力。五、消融研究ContMix是一种即插即用的模块。因此我们基于不同的token mixer构建了类似的金字塔架构。如表7所示我们的ContMix相较于其他mixer具有明显的优势这种优势在更高分辨率的语义分割任务上尤为明显这主要是因为ContMix具有强大的全局信息建模能力。六、深入洞察可视化的证据研究提供了两项关键可视化直观揭示了OverLoCK的工作机制有效感受野对比OverLoCK产生的感受野既广阔又局部敏感成功兼顾了全局上下文感知和细节捕捉能力这是其他单一模型难以实现的。Top-down Guidance可视化通过Grad-CAM对特征图进行可视化可以清晰看到Overview-Net首先对目标物体如飞机进行粗粒度定位当此信号作为指导注入Focus-Net后目标的定位和轮廓被显著精细化。这一过程与人类视觉的注意力机制高度吻合有力验证了OverLoCK设计理念的合理性。总结与展望OverLoCK的提出为视觉骨干网络的设计开辟了一条崭新的路径。它首次将神经科学中成熟的Top-down Attention机制以清晰、可扩展的架构形式引入深度学习模型并通过创新的ContMix动态卷积解决了全局建模与局部归纳偏置的兼容难题。这项工作表明借鉴人脑的高效处理机制依然是推动AI向前发展的宝贵源泉。OverLoCK不仅提供了强大的性能基线其“深度阶段分解”的架构思想和ContMix模块也具有广泛的启发意义和移植价值有望在更多需要精细理解与全局推理的视觉任务中发挥作用。

相关新闻

空调自控系统恒温恒湿控制系统:西门子PLC与MCGSpro触摸屏源程序实际应用与参考学习

空调自控系统恒温恒湿控制系统:西门子PLC与MCGSpro触摸屏源程序实际应用与参考学习

空调自控系统恒温恒湿控制系统PLC程序,西门子smart200PLC 源程序,MCGSpro 触摸屏源程序 项目无密码 实际应用 可以联系参考学习,取长补短。 在工业自动化项目中,恒温恒湿控制系统算是经典应用场景了。最近帮朋友工厂改了一套空调自…

2026/7/3 15:18:42 阅读更多 →
Ubuntu 虚拟机双网卡配置:连接外网与嵌入式开发板IMX6ULL

Ubuntu 虚拟机双网卡配置:连接外网与嵌入式开发板IMX6ULL

在嵌入式 Linux 开发中,最理想的网络环境是 “双网卡架构”: 网卡 1 (NAT 模式):用于 Ubuntu 上网(下载软件、源码),以及与 Windows 主机进行 SSH/VSCode 通信。 网卡 2 (桥接模式):专线连接开…

2026/7/3 15:18:43 阅读更多 →
专业级栅格数据处理软件分享

专业级栅格数据处理软件分享

🛰️ 从事遥感、测绘或地理信息行业的你,是否在寻找好用的栅格数据处理工具?今天为大家整理了一份 专业级栅格数据生产软件合集,涵盖从影像处理到地图制作的多个环节! 🖼️ 主流栅格处理软件 1. Erdas 20…

2026/7/3 15:18:46 阅读更多 →

最新新闻

YOLOv8中GAM注意力机制的实现与优化

YOLOv8中GAM注意力机制的实现与优化

1. GAM注意力机制的技术背景与核心价值 在目标检测领域,YOLOv8作为当前最先进的实时检测框架,其性能提升一直备受关注。传统卷积神经网络在处理特征图时存在一个根本性局限:所有空间位置和通道维度都被平等对待,而实际上不同区域和…

2026/7/4 10:40:19 阅读更多 →
基于YOLOv8的红外光伏板缺陷检测系统设计与实现

基于YOLOv8的红外光伏板缺陷检测系统设计与实现

1. 项目概述:基于YOLOv8的红外光伏板缺陷检测系统光伏板作为清洁能源的核心组件,其表面缺陷会直接影响发电效率。传统人工检测方式效率低下且容易漏检,我们团队开发的这套系统采用YOLOv8目标检测算法,实现了对光伏板缺陷的自动化识…

2026/7/4 10:40:19 阅读更多 →
从AI小白到高效协作者:普通人快速上手的实战指南

从AI小白到高效协作者:普通人快速上手的实战指南

1. 项目概述:为什么“ALL IN AI”不再是口号最近和不少朋友聊天,发现一个挺有意思的现象:前两年大家聊起AI,还觉得是硅谷大厂和顶尖实验室的“神仙打架”,离自己很远。但今年,从写周报、做PPT,到…

2026/7/4 10:38:18 阅读更多 →
13DOF传感器与MKV46F128VLH16微控制器的嵌入式导航方案

13DOF传感器与MKV46F128VLH16微控制器的嵌入式导航方案

1. 13DOF传感器与MKV46F128VLH16微控制器的技术背景在嵌入式定位导航领域,13DOF(13自由度)传感器组合与MKV46F128VLH16微控制器的搭配已经成为工业级应用的黄金组合。13DOF通常由三轴加速度计、三轴陀螺仪、三轴磁力计、气压计和温度传感器组…

2026/7/4 10:36:18 阅读更多 →
LLM微调实战:15家云厂商GPU性能与成本深度对比指南

LLM微调实战:15家云厂商GPU性能与成本深度对比指南

1. 项目概述:为什么这份“15家云厂商GPU大名单”值得你逐行读完 如果你正站在LLM微调或训练的起点,手头有一份高质量的领域数据集,心里盘算着“该用哪家云服务来跑通第一个LoRA实验”,那这份标题背后的内容,就是你接下…

2026/7/4 10:32:17 阅读更多 →
Windows部署OpenClaw AI智能体:安全风险与Docker容器隔离实战指南

Windows部署OpenClaw AI智能体:安全风险与Docker容器隔离实战指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 在 Windows 环境下部署和运行开源 AI 智能体,正成为开发者探索自动化与智能化应用的新趋势。OpenClaw(常被称…

2026/7/4 10:30:16 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻