YOLO26最新创新改进系列:Involution新卷积网络算子融合于YOLO网络,从经典的图像滤波方法中汲取灵感,更大的空间范围中总结上下文信息,有效涨点!
YOLO26最新创新改进系列Involution新卷积网络算子融合于网络从经典的图像滤波方法中汲取灵感更大的空间范围中总结上下文信息有效涨点购买相关资料后畅享一对一答疑畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具见文末详细的改进教程以及源码戳这戳这戳这B站AI学术叫叫兽 动态第一条置顶动态中有直达链接感谢支持祝各位科研人硕果累累Involution新卷积网络算子提出原文摘要卷积是现代神经网络的核心组成部分引发了视觉深度学习的热潮。在这项工作中我们重新思考了视觉任务的标准卷积的固有原理特别是空间不可知和通道特定的。相反我们通过反转上述卷积的设计原理为深度神经网络提出了一种新的原子操作称为对合。我们还揭开了最近流行的自我注意力运营商和subsidiaries到我们的对合家庭作为一个过于复杂的实例。所提出的对合运算符可以作为构建新一代视觉识别神经网络的基础为几个流行的基准提供不同的深度学习模型包括ImageNet分类COCO检测和分割以及Cityscapes分割。我们的基于卷积的模型使用ResNet-50将卷积基线的性能提高了1.6%的top-1准确度2.5%和2.4%的边界框AP以及4.7%的绝对平均IoU同时将上述基准的计算成本分别压缩到66%65%72%和57%。一 简介尽管神经网络架构的快速发展卷积仍然是深度神经网络的主要构建方式。从经典的图像滤波方法中汲取灵感卷积核具有两个显着的特性这有助于其吸引力和流行性即空间不可知性和通道特定性。在空间范围内前一个属性通过在不同位置之间重用卷积核来保证卷积核的效率并追求平移等价[63]。在信道域中卷积核的频谱负责收集在不同信道中编码的各种信息满足后一个属性。此外自开创性的VGGNet出现以来现代神经网络通过将其空间跨度限制为不超过3 × 3来欣赏卷积核的紧凑性[42]。一方面虽然空间不可知沿着空间紧凑的性质在提高效率和解释翻译等价性方面是有意义的但它剥夺了卷积核适应关于不同空间位置的不同视觉模式的能力。此外局部性限制了卷积的感受野这对在单次拍摄中捕获长距离空间相互作用构成了挑战。另一方面众所周知卷积滤波器内部的通道间冗余在许多成功的深度神经网络中非常突出[23]这使得卷积核相对于不同通道的巨大灵活性受到质疑。为了克服上述限制我们提出了操作创造的卷积具有对称逆的固有特性相比卷积即空间特定的和通道不可知的。具体地说对合核在空间范围上是不同的但在通道之间是共享的。由于其空间特定性如果对合核被参数化为像卷积核一样的固定大小的矩阵并使用反向传播算法进行更新则学习的对合核将无法在具有可变分辨率的输入图像之间传输。为了处理可变特征分辨率作为直观而有效的实例可以仅以相应位置本身处的传入特征向量为条件来生成属于特定空间位置的对合核。此外我们通过在通道维度上沿着共享对合核来减少核的冗余。综合考虑上述两个因素对合运算的计算复杂度随着特征通道的数量线性增加基于此动态参数化的对合核可以在空间维度上广泛覆盖。通过逆向设计方案我们提出的对合具有卷积的双重特权i对合可以在更广泛的空间安排中概括上下文从而克服了很好地建模长程相互作用的困难;ii对合可以自适应地分配二 相关工作在过去的十年中为了改进卷积神经网络CNN架构以适应一般的图像识别任务已经做了大量的研究工作。除了AlexNet [13]和Inception [14]网络之外这些CNN架构中的核设计主要局限于3×3例如VGG [40]、ResNet [15]、MobileNets [41]这是因为它具有随着权重层深度的增加而提高的计算效率。为了尝试使用较大的核大小文献[42]中的作者提出了一个由相对较大的7×7核组成的局部关系网络LR-Net。尽管其性能优于传统的ResNets具有相同的核大小但当核大小进一步增加时LR-Net的性能下降了。为了弥补层次变换器和CNN之间的性能差距ConvNeXt [33]通过逐渐将Transformer的设计引入ResNet来进行实证研究。他们发现了几个关键组件可以改善CNN的性能例如改变训练过程如Swin Transformer、改变阶段计算比率、使用更少的激活和归一化层以及使用更大的核大小。与LR-Net类似他们发现当核大小超过7×7时性能会趋于饱和。最近[35]中的作者重新审视了长期以来被忽视的大型核CNN设计。他们证明在MobileNetV2中通过将一组小型权重核替换为少数重新参数化的大型权重核可以获得大型的有效感受野(ERFs)并部分模拟人类对物体形状的理解。他们提出的大型核网络(ReplkNet)具有31×31的大型核大小在ImageNet分类上比Swin Transformer高出0.3%在MS-COCO检测上比ResNet-101高出4.4%。然而ReplkNet会产生高昂的计算开销从而限制了其在其他领域如分割的有效性。例如[43]的作者表明原始的大型核卷积会损害分割任务的性能因为随着核大小的增加参数大小增加导致模型出现过度拟合问题。为了解决这个问题他们提出了具有大型1×k和k×1卷积核的全局卷积网络(GCN) [43]以提高语义分割性能。最近的一项工作SLaK [44]观察到随着核大小增加到31、51和61以上ReplkNet [35]的性能开始趋于平稳。为了解决大型核的可训练性问题SLaK将大型核分解为两个矩形核即51×5和5×51并使用动态稀疏技术来减少可学习参数。与这些方法不同我们在基于CNN的视觉注意力网络VAN中采用可分离核进行深度卷积和深度膨胀卷积并引入注意力模块以进一步提高其计算效率。在不同的位置上的权重以便在空间域中优先考虑信息量最大的视觉元素。类似地最近的方法已经超越了卷积优先考虑自我注意力以捕获长期依赖性[3964]。在这些工作中纯自我注意力可以用来构建具有良好性能的独立模型。有趣的是我们揭示了自我注意特殊化我们一般定义的对合通过一个复杂的制定有关内核的建设。相比之下在这项工作中采用的对合核是根据单个像素而不是其与相邻像素的关系生成的。为了更进一步我们在实验中证明即使使用我们非常简单的版本对合也可以实现与自我注意力竞争的准确性-成本权衡。充分意识到通过比较查询与自注意中的每个键获得的亲和矩阵也是对合核的实例化我们质疑组合查询和键特征以产生这样的核的必要性因为我们简化的对合核也可以获得不错的性能同时避免键内容的多余出席更不用说自注意中的专用位置编码了。所提出的对合操作很容易通过将可扩展和可切换的空间建模嵌入到表示学习范式中以相当轻量级的方式促进视觉识别。基于这个重新设计的视觉原语我们建立了一个骨干架构家族称为RedNet它可以实现上级性能超过基于卷积的ResNet和基于自注意力的图像分类模型。在包括检测和分割在内的下游任务中我们全面地进行了一步一步的研究以检查对合在检测器和分割器的不同组件上的有效性例如它们的主干和颈部。对合被证明对每个所考虑的组件都有帮助并且它们的组合导致最大的效率。综上所述本文的主要贡献如下1.我们重新思考卷积的固有属性与空间和通道范围相关。这促使我们提倡其他潜在的运营商体现了识别能力和表现力的视觉识别作为一种替代突破现有的归纳偏见的卷积。2.我们将自我注意力融入视觉表征的学习过程中这是一种新兴的哲学。在这种情况下组成像素对的关系建模的desiderata的挑战。此外我们通过对合的透镜统一了自我注意和卷积的观点。3.卷积驱动的架构在各种视觉任务中普遍工作良好包括图像分类对象检测实例和语义分割提供比基于卷积的同行更好的性能。详细方法请家人们仔细研读原文一手资料三 结论卷积神经网络的拓扑连接性[18,21,55,57]和超参数配置[15,38,48]经历了快速的演变但开发全新的算子却很少引起人们对构建创新架构的关注。 在这项工作中我们希望通过分解卷积元素并将它们重新组装成更有效和高效的对合来弥补这一遗憾。 与此同时神经架构工程当前的前沿之一是自动搜索网络结构[3,32,37,67,68]。 我们的发明还可以填充大多数现有神经架构搜索NAS策略的搜索空间池。 在不久的将来我们期待在 NAS 的帮助下发现更有效的配备卷积的神经网络。四 修改步骤4.1 修改YAML文件详细的改进教程以及源码戳这戳这戳这B站AI学术叫叫兽 源码在相簿的链接中动态中也有链接感谢支持祝科研遥遥领先4.2 新建.py详细的改进教程以及源码戳这戳这戳这B站AI学术叫叫兽er 源码在相簿的链接中动态中也有链接感谢支持祝科研遥遥领先4.3 修改tasks.py详细的改进教程以及源码戳这戳这戳这B站AI学术叫叫兽er 源码在相簿的链接中动态中也有链接感谢支持祝科研遥遥领先五 验证是否成功即可执行命令python train.py改完收工关注B站Ai学术叫叫兽er从此走上科研快速路遥遥领先同行写在最后学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通所以本文作者即B站Up主Ai学术叫叫兽在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑本up主获得过国奖发表多篇SCI擅长目标检测领域拥有多项竞赛经历拥有软件著作权核心期刊等经历。因为经历过所以更懂小白的痛苦因为经历过所以更具有指向性的指导祝所有科研工作者都能够在自己的领域上更上一层楼所有科研参考资料均可点击此链接合适的才是最好的希望我的能力配上你的努力刚好合适以下为给大家庭小伙伴们免费更新过的绘图代码均配有详细教程超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注我B站及抖音Ai学术叫叫兽所有科研参考资料均可点击此链接合适的才是最好的希望我的能力配上你的努力刚好合适所有科研参考资料均可点击此链接合适的才是最好的希望我的能力配上你的努力刚好合适

相关新闻

星图 ai.csdn.net CSDN 的「大模型工坊」只能“一键微调”官方底座,不支持真正的预训练/RLHF,训练完可以私有化部署,但可控度、底座选择、数据安全都弱于公有云

星图 ai.csdn.net CSDN 的「大模型工坊」只能“一键微调”官方底座,不支持真正的预训练/RLHF,训练完可以私有化部署,但可控度、底座选择、数据安全都弱于公有云

结论一句话:CSDN 的「大模型工坊」只能“一键微调”官方底座,不支持真正的预训练/RLHF,训练完可以私有化部署,但可控度、底座选择、数据安全都弱于公有云。 下面给你逐项拆开看。 ① 产品定位(官网自述) …

2026/7/3 18:30:38 阅读更多 →
YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)

YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)

一、本文介绍 本文记录的是基于LSKNet的YOLO26骨干网络改进方法研究。 LSKNet利用大核卷积获取上下文信息进行辅助,使模型能够产生具有各种大感受野的多个特征的同时,动态地根据输入调整模型的行为,使网络更好地适应图像中不同物体的检测需求。 本文在YOLO26的基础上配置…

2026/7/3 18:30:38 阅读更多 →
YOLO26改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

YOLO26改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

一、本文介绍 本文记录的是基于RevCol的YOLO26目标检测骨干网络改进方法研究。 RevCol是一种新型神经网络设计范式,它由多个子网(列)及多级可逆连接构成,正向传播时特征逐渐解缠结且保持信息。可逆变换借鉴可逆神经网络思想,设计多级可逆单元用于解决模型对特征图形状的…

2026/7/2 21:06:44 阅读更多 →

最新新闻

WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案

WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案

WarcraftHelper:魔兽争霸III终极性能优化与兼容性解决方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为《魔兽…

2026/7/5 6:49:57 阅读更多 →
AI安全实战:从红蓝对抗到紫队协同的范式演进与落地实践

AI安全实战:从红蓝对抗到紫队协同的范式演进与落地实践

1. 项目概述:从对抗到协同的范式演进最近几年,AI安全从一个技术话题,迅速演变成了一个关乎业务存续的战略议题。无论是模型被投毒导致推荐系统失灵,还是API被滥用造成巨额算力损失,甚至是生成式AI输出有害内容引发的公…

2026/7/5 6:47:57 阅读更多 →
2025年AI智能体开发实战:从核心概念到零基础搭建指南

2025年AI智能体开发实战:从核心概念到零基础搭建指南

1. 从“大模型”到“智能体”:为什么2025年你必须懂这个?如果你在2025年还只是把AI当成一个聊天机器人或者一个画图工具,那你可能已经落后了。过去两年,整个AI领域最核心的演进方向,已经从“大模型”本身,转…

2026/7/5 6:47:57 阅读更多 →
DiffuMeta:基于代数语言与扩散Transformer的3D超材料生成实践指南

DiffuMeta:基于代数语言与扩散Transformer的3D超材料生成实践指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 在实际工程和科研项目中,材料设计正从传统的“试错法”和“经验驱动”向“数据驱动”和“AI生成”范式转变。传统方法设计…

2026/7/5 6:47:57 阅读更多 →
Linux服务器应急响应实战:从异常检测到安全加固的完整流程

Linux服务器应急响应实战:从异常检测到安全加固的完整流程

1. 项目概述:当Linux服务器“不对劲”时,我们该做什么?干了这么多年运维和安全,最怕的就是半夜被电话叫醒,说服务器“卡了”、“慢了”或者“有奇怪的东西”。这种时候,脑子里那根“应急响应”的弦就得立刻…

2026/7/5 6:45:56 阅读更多 →
基于M24C04 EEPROM与TM4C129微控制器的数据存储方案

基于M24C04 EEPROM与TM4C129微控制器的数据存储方案

1. 项目背景与核心需求在嵌入式系统开发中,数据持久化存储是一个永恒的话题。当我们需要在设备断电后依然保留关键配置、运行日志或用户数据时,非易失性存储方案的选择就显得尤为重要。这次我们要探讨的是基于M24C04-R EEPROM和TM4C129EKCPDT微控制器的可…

2026/7/5 6:45:56 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻