1. Spatial Transformer Layer

1.1 CNN is not invariant to scaling and rotation

(1) CNN并不能真正做到scaling和rotation.
(2) 如下图所示,在通常情况下,左右两边的图片对于CNN来说是不一样的.

所以,我们考虑一层layer,这层layer能够对input image进行旋转缩放,以便更好地识别.
如上图所示,Spatial Transformer Layer是Neuron Network,而它的作用是多学习一层layer,对左边的图片做scaling和rotation后,能够被CNN识别出来.当然,这个Layer也可以transform CNN的feature map.