YOLO26 改进 - C2PSA   C2PSA融合DML动态混合层(Dynamic Mixing Layer)轻量级设计优化局部细节捕获与通道适应性,提升超分辨率重建质量
前言本文介绍了动态混合层DML并将相关改进模块集成进YOLO26。DML是SRConvNet核心组件用于解决轻量级图像超分辨率任务中特征捕捉和通道适应性问题。它通过通道扩展拆分、多尺度动态深度卷积、通道洗牌与融合等步骤实现多尺度局部信息聚合和通道自适应增强。DML的动态卷积具有内容感知适配和分组共享效率优势多尺度设计能覆盖全尺度图像细节。我们将DML相关模块集成到YOLO26注册并配置yaml文件。实验表明改进后的YOLO26有较好的效果。文章目录 YOLO26改进大全卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总专栏链接: YOLO26改进专栏介绍最近视觉变换器Vision Transformers在多种任务中展现了相较于卷积神经网络ConvNet的优势包括单图像超分辨率SISR。变换器的成功可归因于其不可或缺的多头自注意力MHSA机制该机制能够用较少的参数有效地建模全局连接性。然而MHSA 的二次复杂度通常会导致巨大的计算成本和内存占用限制了它们在移动设备上的高效部署相较于广泛使用的轻量级 ConvNet。在本研究中我们深入探索了基于 ConvNet 和基于变换器的超分辨率SR模型之间的关键区别从而提出了 SRConvNet它吸收了这两者的优点以实现轻量级的 SISR。我们的 SRConvNet 通过两个主要设计来实现1傅里叶调制注意力FMA一种类似于 MHSA 的但更加计算和参数效率高的运算符它执行区域频率-空间调制与聚合以确保长短期依赖关系的建模2动态混合层DML利用混合尺度的深度可分离动态卷积通过通道分割和重排来探索多尺度上下文信息从而提升模型的局部性和适应性。结合 FMA 和 DFN我们可以构建一个纯变换器风格的 ConvNet在效率与准确性之间权衡来与最优秀的轻量级 SISR 模型竞争。大量实验表明SRConvNet 在计算和参数方面能够比最近的最先进的轻量级 SISR 方法实现更高效的超分辨率重建同时保持相当的性能。代码可在 https://github.com/lifengcs/SRConvNet 获取。摘要文章链接论文地址论文地址代码地址代码地址基本原理动态混合层Dynamic Mixing Layer, DML是SRConvNet的核心组件之一专为解决轻量级图像超分辨率SISR任务中局部多尺度特征捕捉与通道适应性增强两大痛点设计旨在替代传统Vision TransformerViT中局限于线性变换的前馈网络FFN同时融合卷积神经网络ConvNet的局部建模优势与动态权重的灵活性。一、设计背景与核心目标1. 现有方法的局限传统ViT的FFN仅通过“线性层激活函数”实现特征变换无法有效捕捉图像的局部空间依赖后续改进方法如卷积FFN、混合尺度卷积FFN虽引入卷积增强局部性但存在明显缺陷 -单尺度卷积仅用固定尺寸卷积核如3×3难以覆盖不同尺度的图像细节如边缘、纹理 -静态权重卷积核权重训练后固定无法根据输入特征的通道差异自适应调整导致通道间适应性不足。2. DML的核心目标针对上述问题DML的设计聚焦两大核心目标 1.多尺度局部信息聚合通过多尺寸动态卷积同时捕捉小尺度精细纹理与大尺度结构特征 2.通道自适应增强生成动态卷积权重根据不同通道的特征分布调整核参数提升模型对复杂场景的适配能力。二、整体架构与核心流程DML的架构遵循“通道扩展-拆分-多尺度动态卷积-通道混合-融合”的逻辑具体流程如图2c文档附图所示输入为FMA输出的特征$\bar{X} \in \mathbb{R}^{H×W×C}$$H,W$为空间尺寸$C$为通道数输出为融合多尺度局部特征的$\hat{X} \in \mathbb{R}^{H×W×C}$关键步骤如下1. 通道扩展与拆分通道扩展输入特征$\bar{X}$先经过层归一化Layer Norm消除通道间分布差异再通过1×1卷积将通道数从$C$扩展至$2C$为后续多分支学习提供基础通道拆分将扩展后的$2C$通道特征拆分为两个独立分支$\tilde{X}_1 \in \mathbb{R}^{H×W×C}$和$\tilde{X}_2 \in \mathbb{R}^{H×W×C}$每个分支负责单一尺度的局部特征提取避免不同尺度特征相互干扰。2. 多尺度动态深度卷积核心步骤两个分支分别采用5×5和7×7动态深度卷积Dynamic Depthwise Convolution通过“全局特征感知-动态权重生成-局部特征聚合”实现自适应多尺度学习以$\tilde{X}_1$5×5卷积分支为例1动态权重生成机制全局特征压缩对$\tilde{X}_1$执行全局平均池化GAP将$H×W$的空间维度压缩为1×1得到通道级特征向量维度$C$捕捉全局通道统计信息线性投影生成权重通过两层线性投影转换特征向量生成动态卷积核 1. 第一层线性层带GELU激活将通道数从$C$降至$C/G$$G$为分组数减少计算量 2. 第二层线性层带Sigmoid激活将维度恢复并重塑为动态滤波器$w \in \mathbb{R}^{H×W×G×K^2}$$K$为卷积核大小如5或7$K^2$为核参数数量。 文档中明确$K5$和$K7$分别对应小尺度细节与大尺度结构的捕捉。2动态卷积计算动态卷积核$w$与分支特征$\tilde{X}1$按“分组-局部窗口”方式进行元素乘累加公式如下 $$\hat{X}_1\sum_1(iu, jv, G)$$ 其中 - $\Delta\lfloor K/2 \rfloor$如$K5$时$\Delta2$表示卷积窗口的半宽 - $w(i,j,u,v)$为位置$(i,j)$处卷积窗口内$(u,v)$坐标的动态权重 - $\otimes$为元素乘权重与对应位置的特征相乘后累加得到聚合后的局部特征$\hat{X}_1$5×5分支和$\hat{X}_2$7×7分支。}^{\Delta} \sum_{v-\Delta}^{\Delta} w(i, j, u, v) \otimes \tilde{X3. 通道洗牌与特征融合通道洗牌Channel Shuffling参考ShuffleNet V2的设计将$\hat{X}_1$和$\hat{X}_2$的通道随机重组打破分支间的通道独立性实现跨尺度特征的高效交互避免通道冗余特征融合通过1×1卷积将洗牌后的特征通道数从$2C$压缩回$C$整合多尺度信息输出最终特征$\hat{X}$。三、关键机制的优势1. 动态深度卷积超越静态卷积的适应性与传统静态卷积如MixCFN的固定核相比DML的动态卷积具有两大优势 -内容感知适配动态权重由输入特征的全局统计信息生成可根据图像内容如平滑区域、纹理区域调整核参数——例如纹理密集区域的权重更关注细节保留平滑区域的权重更侧重噪声抑制 -分组共享效率动态权重按通道分组$G$组共享每个组内的$(C/G)$个通道使用同一组核参数在保证适应性的同时将计算量降低至静态深度卷积的$1/G$符合轻量级设计目标。2. 多尺度设计覆盖全尺度图像细节通过5×5和7×7两个分支的互补 - 5×5卷积捕捉小尺度细节如文本边缘、纹理颗粒 - 7×7卷积捕捉大尺度结构如物体轮廓、场景布局 - 通道洗牌后两种尺度特征深度融合避免单尺度卷积“顾此失彼”的问题尤其适合SISR中“低分辨率图像细节恢复”的核心需求。3. 通道拆分与洗牌高效特征交互拆分优势将特征拆分为两个分支使每个分支专注于单一尺度学习减少不同尺度特征的干扰提升学习效率洗牌优势打破分支间的通道隔离让5×5分支的细节特征与7×7分支的结构特征在通道维度充分混合避免“多分支但特征割裂”的问题。核心代码class MixFFN(nn.Module): def __init__(self, dim, num_kernels16): super().__init__() self.proj_in nn.Conv2d(dim, dim * 2, 1) self.conv1 DyConv(dim, kernel_size5, groupsdim, num_kernelsnum_kernels) self.conv2 DyConv(dim, kernel_size7, groupsdim, num_kernelsnum_kernels) self.proj_out nn.Conv2d(dim * 2, dim, 1) self.norm LayerNorm(dim, eps1e-6, data_formatchannels_first) self.act nn.GELU() def forward(self, x): shortcut x x self.norm(x) x self.act(self.proj_in(x)) x1, x2 torch.chunk(x, 2, dim1) x1 self.act(self.conv1(x1)).unsqueeze(dim2) x2 self.act(self.conv2(x2)).unsqueeze(dim2) x torch.cat([x1, x2], dim2) x rearrange(x, b c g h w - b (c g) h w) x self.proj_out(x) x x shortcut return x实验脚本import warnings warnings.filterwarnings(ignore) from ultralytics import YOLO if __name__ __main__: # 修改为自己的配置文件地址 model YOLO(./ultralytics/cfg/models/26/yolo26-C2PSA_DML.yaml) # 修改为自己的数据集地址 model.train(data./ultralytics/cfg/datasets/coco8.yaml, cacheFalse, imgsz640, epochs10, single_clsFalse, # 是否是单类别检测 batch8, close_mosaic10, workers0, # optimizerMuSGD, optimizerSGD, ampFalse, projectruns/train, nameyolo26-C2PSA_DML, )结果

相关新闻

一碰自动计分,识别零误差!FSV9563 远距离 NFC 模组,台球馆智能化改造优选方案

一碰自动计分,识别零误差!FSV9563 远距离 NFC 模组,台球馆智能化改造优选方案

中文关键词:NFC 智能台球计分、FSV9563、NFC 自动识别台球、落球自动计分、远距离 NFC 感应 10CM、台球馆无人计分、台球桌智能化改造、商用台球自动统计、家用台球计分模组、NFC 台球标签、台球免人工计分、游乐设备智能检测英文关键词:NFC billiards a…

2026/7/6 3:22:03 阅读更多 →
Python爬虫经典案例第71篇:加密货币平台爬取:CoinGecko数据采集实战

Python爬虫经典案例第71篇:加密货币平台爬取:CoinGecko数据采集实战

1. 引言 加密货币市场近年来发展迅速,成为金融科技领域的热门话题。CoinGecko作为全球最大的加密货币数据平台之一,提供了超过13,000种加密货币的实时数据,包括价格、市值、交易量、链上数据等。对于加密货币投资者、量化交易员和区块链研究者而言,CoinGecko数据具有重要价…

2026/7/6 3:20:03 阅读更多 →
2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力

2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力

2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力随着大模型技术持续迭代,GPT 全系功能不断更新,免费版本的算力配额、模型能力、使用场景限制越来越明显。无论是日常办公、文案创作、学术研究&#x…

2026/7/6 3:18:02 阅读更多 →

最新新闻

HTTP协议及其POST与GET操作差异  C#中如何使用POST、GET等

HTTP协议及其POST与GET操作差异 C#中如何使用POST、GET等

HTTP协议我想任何IT人士都耳熟能详了,大家都能说出个所以然来。但是如果我问你HTTP协议的请求方法有哪些?POST与GET的差异?GET或POST传送数据量的大小有限制吗?HTTP响应的状态有哪些?以及在C#中你如何使用?…

2026/7/6 4:16:17 阅读更多 →
【git教程】科研技能必备——git的使用

【git教程】科研技能必备——git的使用

【git教程】科研技能必备——git的使用 git的知识其实常用的就那几个,由于网上的教程有很多,笔者感觉能给各位读者做的也只有帮忙筛选了。 注:其实这些git的命令行操作在目前主流的IDE(如VScode,cursor)上已经集成好了…

2026/7/6 4:14:17 阅读更多 →
个人数据主权革命:WeChatMsg如何重新定义数字记忆资产管理

个人数据主权革命:WeChatMsg如何重新定义数字记忆资产管理

个人数据主权革命:WeChatMsg如何重新定义数字记忆资产管理 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/W…

2026/7/6 4:14:17 阅读更多 →
web应用技术作业10

web应用技术作业10

完成自己项目的分页显示、条件查询、添加、删除、修改等功能分页显示:条件查询:添加:删除:修改:

2026/7/6 4:12:16 阅读更多 →
为什么我们需要SDD(规格驱动开发)

为什么我们需要SDD(规格驱动开发)

输入“使用 FastAPI 在 Python 中创建一个登录接口。”改一下提示词:“使用JWT”。想了想,再输入:“数据存储到MySQL”。如此来回折腾数次之后,满心欢喜的交付给测试。这就是Vibe Coding,你和大模型进行对话&#xff0…

2026/7/6 4:10:16 阅读更多 →
Java3:Java运算符详解:编程世界的加减乘除

Java3:Java运算符详解:编程世界的加减乘除

目录 写在前面 一、运算符是什么? 二、算术运算符:最基础的数学工具 2.1 基本四则运算: - * / % 2.2 增量运算符: - * / % 2.3 自增/自减运算符: -- 三、关系运算符:比较大小的利器 四、逻辑运算符&…

2026/7/6 4:10:16 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻