Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation概述

发布时间 2023-05-22 18:16:44作者: Lhiker

0.前言

  • 相关资料:

  • 论文基本信息:

    • 领域:弱监督时序动作定位

    • 发表时间:CVPR2022(2022.3.14)

1.针对的问题

  许多现有的方法试图生成伪标签来弥补分类和定位之间的差异,但通常只使用有限的上下文信息,即每个片段内的信息,来生成伪标签。

2.主要贡献

  (a)提出了一种用于弱监督时间动作定位的具有代表性的片段知识传播框架,该框架通过代表性片段知识传播生成更好的伪标签,从而有效缓解分类与检测之间的差异。

  (b)提出的框架可应用于大多数现有方法,以不断改善其定位性能。

  (c)与最先进的方法相比,所提出的框架在THUMOS14和ActivityNet1.3上的平均mAP提高了1.2%和0.6%。

3.方法

  之前的利用伪标签的方法对于一些较难的片段,如只显示人物的部分,分类效果较差,即生成的TCAM不准确,由此生成的伪标签也不准确,所以作者想为伪标签生成引入上下文信息,即把代表性片段(易于识别的片段)的知识以视频内和视频间的方式传播,以生成更准确的伪标签,这又引出了一些新的问题,如何确定具有代表性的片段,以及如何将它们的有用知识传播到其他片段

  作者提出了一个提取并传播代表性的片段的弱监督时序行为定位框架。旨在挖掘每个视频中的代表性片段,以便在视频片段之间传播信息,以生成更好的伪标签。对于每个视频,基于高斯混合模型生成其独有的代表性片段,并将代表性片段根据分数优先的原则储存在对应类别的memory bank中。在得到代表性片段后,利用所提出的双向随机游走模块更新原始的视频特征,利用更新后的视频特征生成视频的伪标签,以在线的方式纠正主分支的预测结果。

  模型结构如下:

  通过I3D将每个片段的外观(RGB)和运动(光流)信息编码为d=2048维特征。I3D特征通过卷积层编码到潜在嵌入F∈Rl×d作为模型的输入,l为视频片段数。

  F输入分类头生成TCAMs,分类头可以是任何现有的WSTAL方法,本文中选择了经过修改的FAC-Net。

  即使在大规模的预训练之后,判别片段与同一类别的其他片段之间的相似性通常也很低。直观地说,具有代表性的片段应该能够描述同一个类的大部分片段,以便充当桥梁,将同一个类的片段关联起来,进行知识传播。因此,将判别片段的信息直接传播到其他片段是无效的。本文提出对视频片段的表示进行总结,以获得每个视频的代表性片段。

  具体来说,使用期望最大化(EM)注意力来生成每个视频的代表性片段。EM注意力采用了一种基于高斯混合模型(GMM)的特殊EM算法。具体来说,采用分离的GMM来捕获每个视频的特征统计,并将fi∈Rd(f∈Rl×d的第i段特征)的分布建模为高斯分布的线性组成如下:

  其中n为高斯函数数量,µk∈Rd,Σk∈Rd×d和zik表示第k个高斯函数的均值,协方差和权值。按照[17]的方法,我们用单位矩阵I替换协方差,并在下面的方程中忽略它。

  EM注意力从随机初始化的均值µ(0)∈Rn×d开始。在第t次迭代中,首先执行E步,计算高斯分布的新权值Z(t)∈Rt×n

   其中,λ表示一个控制分布平滑度的超参数。Norm2(F)表示沿着F的每一行的l2-范数。softmax操作沿着z的每一行执行。因此,z(t)ik表示片段特征fi由第k个高斯分布生成的概率。在E步之后,M步将均值µ更新为

  其中Norm1(Z(t))表示Z(t)各列的l1归一化。等式(3)使用特征F的加权和更新了平均值,Norm1(Z(t))的第i行和第k列表示特征fi对第k个高斯分布的隶属度值。此外,归一化还确保更新µ位于相同的嵌入空间F。因此,交替执行公式(2)和(3)以一种non-local[43]但更有效的方式捕获视频中的全局上下文,这是因为均值µ(t)∈Rn×d比视频特征F∈Rl×d小得多(l»n)。

  具体来说,我们维护了两个内存表,分别用来存储代表性片段的特征及其得分。我们将代表性片段的内存表记为M∈Rc×s×d,其中c为类数,s为每个类的内存槽数(代表性片段)。对于具有代表性的视频片段,我们利用分类头中的动作分类器获得它们的类预测。然后我们将它们对ground truth类的预测得分与记忆表M中具有代表性的片段进行比较,预测得分较高的片段被归档到记忆表M中。同时更新分数记忆表中相应的分数。总之,我们只在内存表M中保存tops分数的代表性片段。因此,对于每个视频,我们都有从当前视频中学习到的代表性片段,以及从内存表M中检索到的代表性片段,这些片段对应于ground truth类。为了区别于在线的代表性片段µa,即从当前视频中学习到的代表性片段,我们将离线的代表性片段表示为µe,即从内存表M中检索到的代表性片段。

  然后通过一个双向随机游走(BiRW)模块将代表性片段传播到当前视频的片段特征F,使传播的多次遍历能够将代表性片段的知识完全融合到视频片段的特征中。

  具体来说,BiRW中有多个迭代。在第t次迭代时,传播过程表示为

  其中F∗(0)和u∗(0)分别是视频片段的特征F和代表性片段u或µe。如图4(底部)所示,方程(4)和(5)也可以看作是一个EM进程,它固定了亲和性Z*,交替地更新F和µ*。因此,具有代表性的片段不仅可以用来传播具有代表性的知识(式(5)),还可以作为桥梁,在F(式(4))的特征之间传播知识。由于其代表性,它们可以更好地在同一类特征之间传播信息。这个过程可以进行多次,以充分融合代表性片段的知识。为了避免计算图展开导致的梯度消失或爆炸,我们使用近似的推理公式如下(详见补充材料)

 论文中提取代表性片段的部分有点难懂,这里写一下个人见解:

  一个不太恰当的对比:参考知乎第一个投硬币的例子,高斯混合模型(GMM)可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量,则每个硬币的分布可以看做一个子模型(当然,这里不是高斯分布),对应论文中每个视频的片段分布,每一次投掷对应一个片段,投硬币的隐变量是每次投掷属于哪个硬币,论文中对应高斯混合模型的权重,也就是每个片段属于哪个视频,不同的是要估计的参数,论文中估计的参数是多个子高斯模型混合模型的均值,也就是代表性最高的片段。

  总的来说,隐变量z是(1)中的权重zik,也就是片段特征fi由第k个高斯分布生成的概率(片段特征fi属于视频k的概率),估计量µ是(1)中的权均值µk,也就是代表性片段,先初始化µ,E步得到z,M步通过z更新µ。