显著图：Saliency Map 详解-526互联

https://zhuanlan.zhihu.com/p/644181243

泻药。最近在研究一些基于saliency map的归因方法，在这里分享一下对saliency map的开山鼻祖VGG2014：Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps（https://arxiv.org/pdf/1312.6034.pdf）的解读，这篇文章的引用量已经达到了6k+。

相比于其他的解释方法，显著图（saliency map）是弱监督的，只需要一个分类模型就能完成显著图的生成。这篇文章由于是开山鼻祖，所以有非常严谨的推导，非常简洁，建议仔细阅读。

模型对类的判断标准的可视化

用

这里的分数函数

这么做的原因是，我们目前仅考虑类别

注意，在训练模型的时候，我们改变模型参数来优化。在模型训练完后我们想要获得一个可视化图像，是固定模型参数，转而改变图像

优化之初，图像

部分类别的显著图如下：

模型对某个图像属于某个类的判断标准的可视化（显著图）

仅仅弄清楚模型对某个类的总体判断标准还不够，我们往往希望能够解释模型为什么对于某个特定的图像做出了一个分类，这就是显著图（saliency map）的目标。因此我们定义一个任务，希望可视化模型对某个图像属于某个类的判断标准。正式地，这个任务输入图像

这个任务与上面的任务的一个容易混淆的地方是，上面的任务的

不失一般性，我们先从简单的设定开始。对于类

然而，CNN模型的打分函数

这里有的同学会感到奇怪，

对这个梯度

注意这里我们不把

用反向传播求得梯度
将
对单色位（灰度）图像而言，
对三色位（彩色）图像而言，

这种方法最大的优势是，不需要任何额外的标注，可以直接通过在分类任务上训练后的模型得到显著图，甚至不需要再进行任何训练。这样的速度非常快，只需要一次反向传播。实验结果如下：

代码实现

这里给出saliency map的基本代码（源自towards science）。下面的例子展示了一个分类模型model对某个样本image在预测中最自信的类output_idx（其分数为output_max）上的显著图saliency。

# Reshape the image (because the model use 
# 4-dimensional tensor (batch_size, channel, width, height))
image = image.reshape(1, 3, 224, 224)

# Set the requires_grad_ to the image for retrieving gradients
image.requires_grad_()

# Retrieve output from the image
output = model(image)

# Catch the output
output_idx = output.argmax()
output_max = output[0, output_idx]

# Do backpropagation to get the derivative of the output based on the image
output_max.backward()

# Retireve the saliency map and also pick the maximum value from channels on each pixel.
# In this case, we look at dim=1. Recall the shape (batch_size, channel, width, height)
saliency, _ = torch.max(image.grad.data.abs(), dim=1) 
saliency = saliency.reshape(224, 224)

# Reshape the image
image = image.reshape(-1, 224, 224)

弱监督目标定位

因为只需要在分类任务上训练就可以获得显著图，而显著图又能够反映物体的位置，所以可以使用显著图来做识别和分割。因为不需要这些定位的ground truth，所以方法是弱监督的。一些挑选过的例子如下：