RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

2025-02-08 194

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

一、本文介绍

本文记录的是基于U-Net V2的RT-DETR目标检测改进方法研究。本文利用U-Net V2替换RT-DETR的骨干网络，UNet V2通过其独特的语义和细节融合模块（SDI），能够为骨干网络提供更丰富的特征表示。并且其中的注意力模块可以使网络聚焦于图像中与任务相关的区域，增强对关键区域特征的提取，进而提高模型精度。本文配置了原论文中pvt_v2_b0、pvt_v2_b1、pvt_v2_b2、pvt_v2_b3、pvt_v2_b4和pvt_v2_b5六种模型，以满足不同的需求。

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、U-Net V2模型轻量化设计

U-NET V2: RETHINKING THE SKIP CONNECTIONS OF U-NET FOR MEDICAL IMAGE SEGMENTATION

以下是对UNet V2网络的详细介绍：

2.1 出发点

改进U-Net连接方式：传统U-Net基于模型中的连接方式在整合低层次和高层次特征时不够有效。例如在ResNet中，即使在大规模图像数据集上训练，网络学习恒等映射函数也可能存在困难。
融合语义和细节信息：编码器提取的低层次特征细节丰富但语义信息不足且可能含噪声，高层次特征语义信息多但细节缺失（如对象边界）。简单通过拼接融合特征依赖网络学习能力，在医学影像数据有限的情况下是个挑战，且可能限制不同层次信息贡献并引入噪声，还会增加GPU内存消耗和计算量。

2.1 原理

2.2.1 语义和细节融合原理

对于输入图像，首先用深度神经网络编码器提取多级特征。然后对于第$i$级特征图，通过简单的Hadamard乘积操作明确注入更高层次（含更多语义信息）和更低层次（捕捉更精细细节）的特征，增强第$i$级特征的语义和细节。最后将改进后的特征传输到解码器进行分辨率重建和分割。
2.2.2 注意力机制原理
- 在语义和细节融合模块（SDI）中，首先对编码器生成的每一级特征$f{i}^{o}$应用空间和通道注意力机制，使特征能够整合局部空间信息和全局通道信息，公式为$f{i}^{1}=\phi{i}^{c}\left(\varphi{i}^{s}\left(f{i}^{0}\right)\right)$。然后应用$1×1$卷积减少通道数得到$f{i}^{2}$。

2.3 结构

2.3.1 整体架构

由编码器、SDI模块和解码器三个主要模块组成。

- **编码器**：对于输入图像$I$（$I \in R^{H ×W ×C}$），`编码器`产生$M$级特征，第$i$级特征记为$f_{i}^{0}$（$1 ≤i ≤M$），这些特征被传输到`SDI模块`进一步细化。

2.3.2 SDI模块

首先应用空间和通道注意力机制并通过$1×1$卷积调整特征通道数得到$f{i}^{2}$。然后在每个解码器级别$i$，调整其他级别$j$的特征图大小以匹配$f{i}^{2}$的分辨率，再应用$3×3$卷积平滑调整后的特征图$f{ij}^{3}$得到$f{ij}^{4}$。最后对所有调整后的特征图应用元素级Hadamard乘积得到$f_{i}^{5}$，并将其发送到第$i$级解码器。
解码器：接收SDI模块处理后的特征进行分辨率重建和分割。

在这里插入图片描述

2.4 优势

性能优势
- 在皮肤病变分割和息肉分割的多个公共医学图像分割数据集上进行评估，实验结果表明UNet V2在分割准确性上优于现有技术方法。例如在ISIC 2017数据集上，DSC分数比U - Net提高了$1.44\%$，IoU分数提高了$2.36\%$；在Kvasir - SEG数据集上，DSC分数比U - Net提高了$11.0\%$。
  - 效率优势
- 保持了内存和计算效率。与UNet++相比，在使用NVIDIA P100 GPU进行实验时，UNet V2的参数更少，GPU内存使用量更小，FLOPs和FPS更优。例如在相同输入图像大小$(1,3,256,256)$下，UNet V2的参数为$25.02M$，而UNet++为$29.87M$；UNet V2的GPU内存使用量为$411.42MB$，UNet++为$607.31MB$。

论文：https://arxiv.org/pdf/2311.17791
源码：https://github.com/yaoppeng/U-Net_v2

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/144213381

RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

一、本文介绍

二、U-Net V2模型轻量化设计

2.1 出发点