Unsupervised Learning of Depth and Ego-Motion from Video(CVPR2017)论文阅读-526互联

深度估计问题

　　从输入的单目或双目图像，计算图像物体与摄像头之间距离（输出距离图），双目的距离估计应该是比较成熟和完善，但往单目上考虑主要还是成本的问题，所以做好单目的深度估计有一定的意义。单目的意思是只有一个摄像头，同一个时间点只有一张图片。就象你闭上一只眼睛，只用一只眼睛看这个世界的事物一样，距离感也会同时消失。

深度估计与语义分割的区别，及监督学习的深度估计问题

　　深度估计与语义分割有一定的联系，但也有一些区别。

　　图像的语义分割是识别每个像素的类别，不管这个像素出现在图像的那个位置，是一个分类任务。
　　而深度估计是识别每个像素与当前摄像头的距离，相同的车出现在图像的不同位置，其距离有可能不一样，是一个回归任务。

　　在深度估计上直接使用语义分割的方案，是可以达到一定的效果，但因为以上的区别，所以要把深度估计做好还是值得探讨。另外，　　

　　深度估计有监督学习的方案，但深度估计的监督学习存在两个问题：

　监督学习所需要的label，制作上的代价比较大，不利于把方案应用到更多情境或验证；
　如果以激光雷达的数据作为label，但激光雷达的探测距离比视觉近，一些超越探测距离的区域无法训练。

　　基于这些问题，本论文提出一种不需要真实深度label的自监督方法。

基本原理

　　作者巧妙地利用SFM（Structure from motion）原理同时训练DepthNet（深度估计网络）和PoseNet（姿态估计网络），使用它们的输出重构图像$\hat I$与原图像$I$进行比较，免除真实深度label的需要。

　　选择从时间上连续的三张图像，分别是$I_{t-1}$，$I_t$，$I_{t+1}$。DepthNet学习$I_t$的深度并输出深度图$\hat D_t$，PoseNet从$I_t$分别到$I_{t-1}$和$I_{t+1}$学习转换矩阵$\hat T_{t \to t-1}$和$\hat T_{t \to t+1}$，如上图，图像$I_t$里的$p$点可以通过对应的深度值$\hat D_t(p)$和转换矩阵$\hat T_{t \to t-1}$投影到$I_{t-1}$上对应位置$p_{t-1}$。

　　　　$p_s \sim K \hat T_{t \to s} \hat D_t(p_t)K^{-1}p_t$

　　其中，$K$是摄像头的内参矩阵（出厂时进行标定或自己标定）。