526互联

Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation（阅读笔记）

发布时间 2023-04-08 16:01:43作者: 妙笔千山

空间信息引导卷积的实时RGBD语义分割（阅读笔记）

论文：Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation
复现：https://github.com/LinZhuoChen/SGNet（还没试过）
前提：实际应用中，对RGBD图像进行语义分割，三维空间信息作为附加输入，然后结合特征来融合多模态信息，但是增加参数数量和计算时间，不适合实时任务。

空间信息引导卷积网络（SGNet）

贡献：

1、空间信息引导卷积（S-Conv）：

允许高效的RGB特征和三维空间信息集成

可以生成具有适应空间信息的不同采样分布的卷积核，从而提高网络的空间适应性和感受野调节能力

在卷积权重与其对应像素的底层空间关系之间建立联系，将几何信息结合到卷积权重中，捕捉场景的空间结构

2、提出新的SGNet网络

详情

1、S-Conv

首先根据空间信息生成偏移量，然后使用给定偏移量对应的空间信息生成新的空间自适应权重。

\[需要两个输入：feature map X + 空间信息 S\epsilon R^{c*h*w}（可以是HHA（c^*=3）、3D坐标（c^＊=3）、深度（c'＝１）） \]

１、输入的 3D 空间信息由空间投影仪投影以匹配输入的特征图

将输入空间信息投影到高维特征空间中

\[S'= \phi(S) \]

\[φ 是空间变换函数，S' ∈R^{64×h×w} \]

2、自适应卷积核分布由偏移生成器生成

通过变换后的空间信息，感知几何结构，生成不同p处的卷积核

\[\Delta d= \eta(S') \]

\[\Delta d \epsilon R^{K*h'*w'*2},h,w表示卷积后的featuremap大小， \]

\[K=k_h*k_w,k_h,k_w=kernel\_size,eg:3*3卷积，\Delta d \epsilon R^{9*h'*w'*2} \]

η是一个非线性函数，可以通过一系列卷积来实现

3、根据核分布对投影空间信息进行采样，送入权重生成器生成自适应卷积w

对移位后的卷积核对应的像素点的几何信息进行采样

\[S^*(p)={S'(p+d_i+\Delta d_i(p))|_{i=1,2,……K}} \]

\[\Delta d(p):p处卷积核的空间分布，S^*(p)\epsilon R^{64K}是以p为中心的卷积核变换后的featuremap对应的空间信息 \]

根据最终空间信息生成如下卷积权重

\[W^*(p)=\delta(f(S^*(p)))·W \]

\[f是非线性激活函数的全链接层，\delta 是sigmoid函数，·是element-wiseproduct \]

\[W\epsilon R^K：卷积权重，可以通过梯度下降算法更新；W^*(p)\epsilon R^K:以p为中心移动后卷积的空间自适应权重 \]

总体而言：S-Conv公式为：

\[Y(p)=\sum_{i=1}^{K} W_i^*(p)·X(p+d_i+\Delta d_i(p)) \]

\[W_i^*(p)建立了空间信息和卷积权重之间的相关性；\Delta d代表卷积核分布和空间信息相关性；使用双线性插值计算X(p+d_i+\Delta d_i(p)) \]

2、SGNet

segmentation information convolution real-time

segmentation controllers real-time inspired

convolutional segmentation networks semantic

segmentation generative gaussian semantic

segmentation criss-cross attention semantic

segmentation attentional semantic network

segmentation transformers semantic segvit

unknownerror convolution initialize algorithm