Skip to content

Dr-zfeng/test

Repository files navigation

方法部分翻译

A. 整体架构

我们提出的InconSeg网络的整体架构展示在图2中。我们有两个数据流:深度/视差流和RGB流。深度/视差流接收深度或视差图像作为输入。由于深度和视差图像可以容易地相互转换,因此下文中我们为了方便起见,使用“深度”代替“深度/视差”。每个流都包含一个5级编码器和一个5级解码器。RGB流的输出 $\hat{y}_ {rgb}$ 是网络InconSeg的输出。在编码器中,每个阶段将输入图像的分辨率减半。在解码器中,每个阶段将分辨率翻倍,并将特征图的通道数减半。深度流的输出 $\hat{y}_ {d}$ 仅在训练期间使用。编码器是从ResNet-152 [24]借用的。

在每个流中,编码器的每个阶段的输入与相同级别的解码器的输出通过逐元素加法进行融合。与现有的网络(如MAFNet [3]和AA-RTFNet [6])不同,我们在相同级别的RGB解码器中融合了两个解码器的输出,以避免由编码器提取的特征图的不一致性引起的负面影响。深度解码器的最后两个阶段的输出通过逐元素加法融合到RGB解码器的相同级别的阶段。深度流解码器的前三个阶段的输出通过我们提出的残差引导融合(RGF)模块与RGB解码器相同级别的阶段的输出融合。三个RGF模块放置在RGB解码器中。第n个RGF模块放置在RGB解码器的第n阶段之后,其中n ∈ [1, 2, 3]。

B. RGF模块

如上所述,RGF模块的目的是量化RGB特征和地面真实值之间的缺失特征。RGF模块从深度特征中提取RGB特征的补充特征,而不是直接融合它们,从而解决由不一致数据引起的融合性能下降的问题。我们RGF模块的结构展示在图2的右下角。该模块有两个输入:RGB特征图和深度特征图。

首先,RGF模块生成RGB模态的缺失特征。具体来说,RGB特征图通过1×1卷积层生成RGB预测掩码 $\hat{y}_ {n}$,其中n代表第n个RGF模块。需要注意的是,第一个RGF模块不包含1×1卷积层。残差掩码 $y_ {n}^{res}$ 是通过 $\hat{y}_ {n}$ 与地面真实值 $y_ {n}$ 之间的逐元素减法生成的。残差掩码 $y_ {n}^{res}$ 表示残差特征。我们称 $y_ {n}^{res}$ 为RGB特征图的缺失特征。 $\hat{y}_ n$$y_{n}$ 与RGB特征图具有相同的分辨率。 $y_{n}$ 是使用最近邻方法从原始地面真实值y下采样生成的。

其次,我们为缺失特征提取补充特征。具体来说,我们通过逐元素减法将RGB特征图与深度特征图相减,得到它们之间的差异。差异特征的通道通过1×1卷积调整到类别数。需要注意的是,第一个RGF模块不包含1×1卷积层。然后,使用一个具有3×3卷积的残差单元生成预测残差掩码 $\hat{y}_ {n}^{res}$$y_ {n}^{res}$ 用于引导 $\hat{y}_ {n}^{res}$ 的生成。 $\hat{y}_ {n}^{res}$ 的通道通过1×1卷积调整到RGB特征图的通道数。之后,调整后的结果通过逐元素乘法与RGB特征图融合。最后,调整后的结果、融合结果和RGB特征图沿通道维度进行连接。RGF模块的输出通过1×1卷积生成,该输出输入到RGB解码器的下一阶段。

C. 解码器的结构

每个解码器阶段的结构展示在图3中。首先,输入特征图输入到一个双分支残差结构中。残差结构将输入特征图的分辨率减半。上分支有一个1×1卷积-批量归一化(BN)-ReLU层。下分支有三个3×3卷积-BN-ReLU层。下分支的第一层将输入特征图的分辨率减半。下分支的其他层保持通道数不变。两个分支的输出通过逐元素加法融合。

然后,残差结构的输出输入到全局平均池化层,将分辨率调整为1×1。接着,一个全连接(FC)-BN-ReLU层和一个FC层用于生成融合结果的不同通道的权重。FC-BN-ReLU层将通道数减半,FC层恢复通道数。之后,一个Sigmoid层用于将生成的通道权重映射到 [0,1] 区间。残差结构的输出通过逐元素乘法与映射权重融合。最后,一个转置卷积-BN-ReLU层用于将分辨率翻倍。转置卷积-BN-ReLU层的输出是每个解码器阶段的输出。

D. 损失函数

为了从深度特征图中提取RGB特征图的残差特征以进行语义分割,深度流需要具备独立完成语义分割的能力。因此,在训练过程中,还需要计算地面真实值y和深度流输出 $\hat{y}_ {d}$ 之间的损失。我们计算地面真实值y和深度流输出 $\hat{y}_ {d}$ 之间的交叉熵损失 $L_ {seg}(y, \hat{y}_ {d})$,以及地面真实值y和RGB流输出 $\hat{y}_ {rgb}$ 之间的交叉熵损失 $L_ {seg}(y, \hat{y}_ {rgb})$,以训练InconSeg。

在第n个RGF模块中,我们使用地面真实值 $y_ {n}$ 和RGB预测掩码 $\hat{y}_ {n}$ 之间的交叉熵损失 $L_ {seg}(y_ {n}, \hat{y}_ {n})$ 来引导RGB残差特征 $y_ {n}^{res}$ 的生成。

我们还使用RGB残差特征 $y_ {n}^{res}$ 和预测残差特征 $\hat{y}_ {n}^{res}$ 之间的交叉熵损失 $L_ {seg}(y_ {n}^{res}, \hat{y}_ {n}^{res})$ 来引导从深度特征图中提取RGB残差特征。因此,第n个RGF模块的损失 $L_ {n RGF}$ 表示为: $L_ {n RGF} = L_ {seg}(y_ {n}, \hat{y}_ {n}) + L_ {seg}(y_ {n}^{res}, \hat{y}_ {n}^{res})$。每个RGF模块的损失也用于训练我们的InconSeg。总结来说,总损失 $L_ {total}$ 计算为: $L_ {total} = L_ {seg}(y, \hat{y}_ {d}) + L_ {seg}(y, \hat{y}_ {rgb}) + \sum_ {n=1}^{3} L_ {n RGF}$。我们使用 $L_ {total}$ 来训练我们的InconSeg。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors