Uformer
- Uformer 是中科大等提出的通用 U 型 Transformer 图像复原模型,把 CNN 的 U-Net 结构和 Transformer 的全局建模能力融合,主打去噪、去雨、去模糊、去反光 / 炫光等低层视觉任务。
模型结构
- 沿用 U-Net 经典编码器-解码器-跳跃连接对称结构
- 核心:LeWin Transformer Block(非重叠窗口自注意力 W-MSA + 局部增强前馈网络 LeFF),兼顾效率与局部细节。
- 特点:分层编解码 + 多尺度跳跃连接,工业场景(金属 / 玻璃反光、焊点炫光)表现强。
U-Shaped Transformer
沿用 U-Net 经典编码器-解码器-跳跃连接对称结构:
- 编码器:多尺度下采样,提取浅层纹理+深层全局反光特征
- 瓶颈层:深层大感受野建模强反光、大范围光晕
- 解码器:上采样还原分辨率,跳跃连接补全细节
把CNN卷积块 全部替换为 自研LeWin Transformer Block
核心模块:LeWin Transformer Block
- LeWin Transformer Block(非重叠窗口自注意力 W-MSA + 局部增强前馈网络 LeFF),兼顾效率与局部细节。
全称:Local Enhanced Window Transformer Block
由两部分组成:
- 限制窗口自注意力 W-MSA
不做全局注意力,只在局部窗口内计算,大幅降低算力,解决Transformer慢、显存高问题;
- LeFF 局部增强前馈网络
标准MLP只做全局映射,LeFF 加入局部卷积约束,强制保留边缘、纹理、工件细节;
这也是 Uformer 做工业去反光不抹除划痕、瑕疵的关键。
3多尺度分层特征融合
编码器4级下采样、解码器4级上采样,
不同尺度特征跳跃拼接:
- 浅层:保留工件边缘、纹理、字符
- 深层:抑制大面积高光、镜面反射、炫光光晕
通用大一统复原框架
单网络结构不改动,仅换训练数据集,即可适配多种低层任务:
去噪、运动模糊、夜景增强、镜面高光去除(工业反光)、去雾
网络整体结构流程
- 输入RGB图像 → 浅层卷积嵌入映射为高维特征
- 编码器:逐层下采样 + LeWin Transformer 提取多尺度特征
- 中间瓶颈:深层窗口注意力,建模大范围连续反光区域
- 解码器:逐层上采样 + 跳跃连接融合浅层细节
- 末端卷积映射回RGB,输出修复后无反光图像
Reference
Uformer
模型结构
U-Shaped Transformer
沿用 U-Net 经典编码器-解码器-跳跃连接对称结构:
核心模块:LeWin Transformer Block
全称:Local Enhanced Window Transformer Block
由两部分组成:
不做全局注意力,只在局部窗口内计算,大幅降低算力,解决Transformer慢、显存高问题;
标准MLP只做全局映射,LeFF 加入局部卷积约束,强制保留边缘、纹理、工件细节;
3多尺度分层特征融合
编码器4级下采样、解码器4级上采样,
不同尺度特征跳跃拼接:
通用大一统复原框架
单网络结构不改动,仅换训练数据集,即可适配多种低层任务:
去噪、运动模糊、夜景增强、镜面高光去除(工业反光)、去雾
网络整体结构流程
Reference