Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation(阅读笔记)

发布时间 2023-04-08 16:01:43作者: 妙笔千山

空间信息引导卷积的实时RGBD语义分割(阅读笔记)

论文:Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation
复现:https://github.com/LinZhuoChen/SGNet(还没试过)
前提:实际应用中,对RGBD图像进行语义分割,三维空间信息作为附加输入,然后结合特征来融合多模态信息,但是增加参数数量和计算时间,不适合实时任务。

空间信息引导卷积网络(SGNet)

贡献:

1、空间信息引导卷积(S-Conv):

允许高效的RGB特征和三维空间信息集成

可以生成具有适应空间信息的不同采样分布的卷积核,从而提高网络的空间适应性和感受野调节能力

在卷积权重与其对应像素的底层空间关系之间建立联系,将几何信息结合到卷积权重中,捕捉场景的空间结构

2、提出新的SGNet网络

详情

1、S-Conv

首先根据空间信息生成偏移量,然后使用给定偏移量对应的空间信息生成新的空间自适应权重。

\[需要两个输入:feature map X + 空间信息 S\epsilon R^{c*h*w}(可以是HHA(c^*=3)、3D坐标(c^*=3)、深度(c'=1)) \]

1、输入的 3D 空间信息由空间投影仪投影以匹配输入的特征图

将输入空间信息投影到高维特征空间中

\[S'= \phi(S) \]

\[φ 是空间变换函数,S' ∈R^{64×h×w} \]

2、自适应卷积核分布由偏移生成器生成

通过变换后的空间信息,感知几何结构,生成不同p处的卷积核

\[\Delta d= \eta(S') \]

\[\Delta d \epsilon R^{K*h'*w'*2},h,w表示卷积后的featuremap大小, \]

\[K=k_h*k_w,k_h,k_w=kernel\_size,eg:3*3卷积,\Delta d \epsilon R^{9*h'*w'*2} \]

η是一个非线性函数,可以通过一系列卷积来实现

3、根据核分布对投影空间信息进行采样,送入权重生成器生成自适应卷积w

对移位后的卷积核对应的像素点的几何信息进行采样

\[S^*(p)={S'(p+d_i+\Delta d_i(p))|_{i=1,2,……K}} \]

\[\Delta d(p):p处卷积核的空间分布,S^*(p)\epsilon R^{64K}是以p为中心的卷积核变换后的featuremap对应的空间信息 \]

根据最终空间信息生成如下卷积权重

\[W^*(p)=\delta(f(S^*(p)))·W \]

\[f是非线性激活函数的全链接层,\delta 是sigmoid函数,·是element-wiseproduct \]

\[W\epsilon R^K:卷积权重,可以通过梯度下降算法更新;W^*(p)\epsilon R^K:以p为中心移动后卷积的空间自适应权重 \]

总体而言:S-Conv公式为:

\[Y(p)=\sum_{i=1}^{K} W_i^*(p)·X(p+d_i+\Delta d_i(p)) \]

\[W_i^*(p)建立了空间信息和卷积权重之间的相关性;\Delta d代表卷积核分布和空间信息相关性;使用双线性插值计算X(p+d_i+\Delta d_i(p)) \]

image-20230407100811982

2、SGNet

image-20230408154459494