RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合

简介: RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合

一、本文介绍

本文记录的是基于U-Net V2的RT-DETR目标检测改进方法研究。本文利用U-Net V2替换RT-DETR的骨干网络,UNet V2通过其独特的语义和细节融合模块(SDI),能够为骨干网络提供更丰富的特征表示。并且其中的注意力模块可以使网络聚焦于图像中与任务相关的区域,增强对关键区域特征的提取,进而提高模型精度。本文配置了原论文中pvt_v2_b0pvt_v2_b1pvt_v2_b2pvt_v2_b3pvt_v2_b4pvt_v2_b5六种模型,以满足不同的需求。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、U-Net V2模型轻量化设计

U-NET V2: RETHINKING THE SKIP CONNECTIONS OF U-NET FOR MEDICAL IMAGE SEGMENTATION

以下是对UNet V2网络的详细介绍:

2.1 出发点

  • 改进U-Net连接方式:传统U-Net基于模型中的连接方式在整合低层次和高层次特征时不够有效。例如在ResNet中,即使在大规模图像数据集上训练,网络学习恒等映射函数也可能存在困难。
  • 融合语义和细节信息:编码器提取的低层次特征细节丰富但语义信息不足且可能含噪声,高层次特征语义信息多但细节缺失(如对象边界)。简单通过拼接融合特征依赖网络学习能力,在医学影像数据有限的情况下是个挑战,且可能限制不同层次信息贡献并引入噪声,还会增加GPU内存消耗和计算量。

2.1 原理

2.2.1 语义和细节融合原理

  • 对于输入图像,首先用深度神经网络编码器提取多级特征。然后对于第$i$级特征图,通过简单的Hadamard乘积操作明确注入更高层次(含更多语义信息)和更低层次(捕捉更精细细节)的特征,增强第$i$级特征的语义和细节。最后将改进后的特征传输到解码器进行分辨率重建和分割。

    2.2.2 注意力机制原理

    • 语义和细节融合模块(SDI)中,首先对编码器生成的每一级特征$f{i}^{o}$应用空间和通道注意力机制,使特征能够整合局部空间信息和全局通道信息,公式为$f{i}^{1}=\phi{i}^{c}\left(\varphi{i}^{s}\left(f{i}^{0}\right)\right)$。然后应用$1×1$卷积减少通道数得到$f{i}^{2}$。

2.3 结构

2.3.1 整体架构

编码器SDI模块解码器三个主要模块组成。

- **编码器**:对于输入图像$I$($I \in R^{H ×W ×C}$),`编码器`产生$M$级特征,第$i$级特征记为$f_{i}^{0}$($1 ≤i ≤M$),这些特征被传输到`SDI模块`进一步细化。

2.3.2 SDI模块

  • 首先应用空间和通道注意力机制并通过$1×1$卷积调整特征通道数得到$f{i}^{2}$。然后在每个解码器级别$i$,调整其他级别$j$的特征图大小以匹配$f{i}^{2}$的分辨率,再应用$3×3$卷积平滑调整后的特征图$f{ij}^{3}$得到$f{ij}^{4}$。最后对所有调整后的特征图应用元素级Hadamard乘积得到$f_{i}^{5}$,并将其发送到第$i$级解码器。
  • 解码器:接收SDI模块处理后的特征进行分辨率重建和分割。

在这里插入图片描述

2.4 优势

  • 性能优势
    • 在皮肤病变分割和息肉分割的多个公共医学图像分割数据集上进行评估,实验结果表明UNet V2在分割准确性上优于现有技术方法。例如在ISIC 2017数据集上,DSC分数比U - Net提高了$1.44\%$,IoU分数提高了$2.36\%$;在Kvasir - SEG数据集上,DSC分数比U - Net提高了$11.0\%$。
      • 效率优势
    • 保持了内存和计算效率。与UNet++相比,在使用NVIDIA P100 GPU进行实验时,UNet V2的参数更少,GPU内存使用量更小,FLOPs和FPS更优。例如在相同输入图像大小$(1,3,256,256)$下,UNet V2的参数为$25.02M$,而UNet++为$29.87M$;UNet V2的GPU内存使用量为$411.42MB$,UNet++为$607.31MB$。

论文:https://arxiv.org/pdf/2311.17791
源码:https://github.com/yaoppeng/U-Net_v2

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144213381

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
26天前
|
机器学习/深度学习 自然语言处理 数据可视化
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
本文探讨了在企业数字化转型中,大型概念模型(LCMs)与图神经网络结合处理非结构化文本数据的技术方案。LCMs突破传统词汇级处理局限,以概念级语义理解为核心,增强情感分析、实体识别和主题建模能力。通过构建基于LangGraph的混合符号-语义处理管道,整合符号方法的结构化优势与语义方法的理解深度,实现精准的文本分析。具体应用中,该架构通过预处理、图构建、嵌入生成及GNN推理等模块,完成客户反馈的情感分类与主题聚类。最终,LangGraph工作流编排确保各模块高效协作,为企业提供可解释性强、业务价值高的分析结果。此技术融合为挖掘非结构化数据价值、支持数据驱动决策提供了创新路径。
100 6
基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
|
4月前
|
人工智能 安全 网络安全
网络安全领导者有效缓解团队倦怠的四步策略
网络安全领导者有效缓解团队倦怠的四步策略
|
3月前
|
机器学习/深度学习 测试技术 网络架构
FANformer:融合傅里叶分析网络的大语言模型基础架构
近期大语言模型(LLM)的基准测试结果显示,OpenAI的GPT-4.5在某些关键评测中表现不如规模较小的模型,如DeepSeek-V3。这引发了对现有LLM架构扩展性的思考。研究人员提出了FANformer架构,通过将傅里叶分析网络整合到Transformer的注意力机制中,显著提升了模型性能。实验表明,FANformer在处理周期性模式和数学推理任务上表现出色,仅用较少参数和训练数据即可超越传统Transformer。这一创新为解决LLM扩展性挑战提供了新方向。
99 5
FANformer:融合傅里叶分析网络的大语言模型基础架构
|
4月前
|
机器学习/深度学习 存储 编解码
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
171 16
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
|
4月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
170 10
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
|
4月前
|
人工智能 监控 物联网
写在2025 MWC前夕:AI与移动网络融合的“奇点时刻”
2025年MWC前夕,AI与移动网络融合迎来“奇点时刻”。上海东方医院通过“思维链提示”快速诊断罕见病,某金融机构借助AI识别新型欺诈模式,均展示了AI在推理和学习上的飞跃。5G-A时代,低时延、大带宽特性支持端云协同,推动多模态AI感知能力提升,数字孪生技术打通物理与数字世界,助力各行业智能化转型。AI赋能移动网络,实现智能动态节能和优化用户体验,预示着更聪明、绿色、高效的未来。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
揭示Transformer周期建模缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
北京大学研究团队发现,Transformer等主流神经网络在周期特征建模方面存在缺陷,如记忆数据模式而非理解内在规律,导致泛化能力受限。为此,团队提出基于傅里叶分析的Fourier Analysis Network(FAN),通过显式建模周期性特征,提升模型的理解和预测能力,减少参数和计算量,并在多个实验中验证其优越性。论文链接:https://arxiv.org/pdf/2410.02675.pdf
120 3
|
4月前
|
机器学习/深度学习
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
179 11
|
3月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
119 0
|
6月前
|
监控 前端开发 API
一款基于 .NET MVC 框架开发、功能全面的MES系统
一款基于 .NET MVC 框架开发、功能全面的MES系统
156 5

热门文章

最新文章

OSZAR »