空间信息引导卷积的实时RGBD语义分割(阅读笔记)
论文:Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation
复现:https://github.com/LinZhuoChen/SGNet(还没试过)
前提:实际应用中,对RGBD图像进行语义分割,三维空间信息作为附加输入,然后结合特征来融合多模态信息,但是增加参数数量和计算时间,不适合实时任务。
空间信息引导卷积网络(SGNet)
贡献:
1、空间信息引导卷积(S-Conv):
允许高效的RGB特征和三维空间信息集成
可以生成具有适应空间信息的不同采样分布的卷积核,从而提高网络的空间适应性和感受野调节能力
在卷积权重与其对应像素的底层空间关系之间建立联系,将几何信息结合到卷积权重中,捕捉场景的空间结构
2、提出新的SGNet网络
详情
1、S-Conv
首先根据空间信息生成偏移量,然后使用给定偏移量对应的空间信息生成新的空间自适应权重。
\[需要两个输入:feature map X + 空间信息
S\epsilon
R^{c*h*w}(可以是HHA(c^*=3)、3D坐标(c^*=3)、深度(c'=1))
\]
1、输入的 3D 空间信息由空间投影仪投影以匹配输入的特征图
将输入空间信息投影到高维特征空间中
\[S'=
\phi(S)
\]
\[φ 是空间变换函数,S' ∈R^{64×h×w}
\]
2、自适应卷积核分布由偏移生成器生成
通过变换后的空间信息,感知几何结构,生成不同p处的卷积核
\[\Delta
d=
\eta(S')
\]
\[\Delta d \epsilon R^{K*h'*w'*2},h,w表示卷积后的featuremap大小,
\]
\[K=k_h*k_w,k_h,k_w=kernel\_size,eg:3*3卷积,\Delta d \epsilon R^{9*h'*w'*2}
\]
η是一个非线性函数,可以通过一系列卷积来实现
3、根据核分布对投影空间信息进行采样,送入权重生成器生成自适应卷积w
对移位后的卷积核对应的像素点的几何信息进行采样
\[S^*(p)={S'(p+d_i+\Delta d_i(p))|_{i=1,2,……K}}
\]
\[\Delta d(p):p处卷积核的空间分布,S^*(p)\epsilon R^{64K}是以p为中心的卷积核变换后的featuremap对应的空间信息
\]
根据最终空间信息生成如下卷积权重
\[W^*(p)=\delta(f(S^*(p)))·W
\]
\[f是非线性激活函数的全链接层,\delta 是sigmoid函数,·是element-wiseproduct
\]
\[W\epsilon R^K:卷积权重,可以通过梯度下降算法更新;W^*(p)\epsilon R^K:以p为中心移动后卷积的空间自适应权重
\]
总体而言:S-Conv公式为:
\[Y(p)=\sum_{i=1}^{K} W_i^*(p)·X(p+d_i+\Delta d_i(p))
\]
\[W_i^*(p)建立了空间信息和卷积权重之间的相关性;\Delta d代表卷积核分布和空间信息相关性;使用双线性插值计算X(p+d_i+\Delta d_i(p))
\]
2、SGNet
- Segmentation Information Convolution Real-Time Semanticsegmentation information convolution real-time segmentation controllers real-time inspired convolutional segmentation networks semantic segmentation generative gaussian semantic segmentation criss-cross attention semantic segmentation attentional semantic network segmentation transformers semantic segvit convolution real-time unknownerror convolution initialize algorithm