MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation

发布时间 2023-11-13 21:32:54作者: AlexanderOscar

论文名:

MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation
"MS-TCN++: 用于动作分割的多阶段时域卷积"

Shi-Jie Li#, Yazan AbuFarha#, Yun Liu, Ming-Ming Cheng, Juergen Gall,
IEEE TPAMI,
45(6):6647-6658,
2023
关键字:时域动作分割,时域卷积网络

研究问题:

最先进的方法是利用多层时域卷积和时域池化实现动作分割
这些方法能捕捉时域相关性的能力,但存在过度分割的问题。

为什么会有过度分割?

  1. 复杂的动作表达: 如果视频中存在复杂、多变的动作表达,或者有一些微小的动作变化,这可能导致模型在细节上过度敏感,产生过度分割的错误。
  2. 数据噪声: 视频数据通常包含噪声,例如摄像头抖动、光照变化等。这些噪声可能被误认为是动作,导致错误的分割。
  3. 模型复杂性: 使用复杂的模型可能导致对训练数据过度拟合,尤其是在训练集中包含了噪声或不同程度的动作变化的情况下。这可能导致模型在测试时对于新的、稍微不同的动作表达过于敏感。
  4. 数据标注不准确: 如果训练数据中的动作分割标注存在误差,模型可能学到了不准确的分割模式,从而在测试时表现不佳。
  5. 时域分辨率不足: 如果视频的帧率较低,或者动作发生的变化很快,时域分辨率可能不足以捕捉到细微的动作变化,导致过度分割。

提出了一个解决时间动作分割任务的多阶段框架,克服了以往方法的局限性。
具体:
1.提出一个结合大接收域和小接收域的双扩展层,解决较低层的接收域小的局限性。
2.第一阶段的设计与改良阶段分离,以满足不同要求,

结果:在长期相关性和识别动作片段方面是有效的。——在长视频的时域分割和活动分类表现好。

行文结构梳理:

1.介绍:

时域动作分割

  1. 早期通过模型+滑动窗口相结合。利用不同尺度的时间窗来检测和分类动作片段
    缺点:成本高昂,不适用于长视频。
  2. 之后采用逐帧分类器+马尔科夫模型进行粗糙的时域建模。
    缺点:速度慢,需要在长序列上解决最大化问题。
  3. 时域卷积网络(TCNs)在语音合成时域模型取得成功,现多采用基于TCN模型解决时域动作分割任务。
    优点:通过大接收域捕获视频帧的长期相关性。
    局限在:处理每秒几帧、非常低的时域分辨率的视频;依赖时域池化层来扩大接收域,会丢失细粒度信心。

本文改进:提出MS-TCN也使用时域卷积。相比之前的方法,提出的模型能在全时域分辨率上运行。

MS-TCN:由多个阶段组成,每个阶段输出一个初步预测,然后由下一个阶段改良。在每个阶段,我们都会应用一系列扩展的一维卷积,使模型
具有参数较少的、大的时域接收域。此外,我们在训练中使用平滑损失来惩罚预测中的过度分割错误。
MS-TCN概览

研究方法:

主要结论:

解释术语:

什么是时域分割?

视频的时域分割是视频处理领域中的一个概念,指的是将视频流分解成一系列离散的时间段或帧序列的过程。这种分割可以基于不同的准则,通常是为了更好地理解和处理视频内容。
以下是一些常见的时域分割的方式:

  1. 关键帧提取: 在视频中选择关键帧,这些关键帧代表了视频中的重要内容或变化点。这有助于快速浏览视频,同时减少存储和处理需求。
  2. 镜头切换检测: 识别视频中不同镜头之间的切换点。这对于视频编辑、摄影分析以及某些应用中的关键场景检测非常有用。
  3. 动作检测和跟踪: 通过检测视频中的运动或动作来分割视频。这可以用于视频监控、行为分析等应用。
  4. 活动识别: 识别视频中的特定活动或事件,将视频分为不同的活动段。这在智能监控系统和视频内容理解中很有用。
  5. 音频-视频同步: 将视频分割为音频和视频同步的片段。这对于音视频处理和同步播放很重要。
  6. 时间戳标记: 在视频中标记时间戳,以便在视频中进行时间导航和检索。

时域分割可以帮助提高对视频内容的理解和处理效率,同时有助于应用中特定任务的实现,如视频摘要、检索和分析

什么是动作分割?

动作分割是指在视频序列中检测和分割出不同的动作或活动。这种技术通常用于视频内容分析、行为识别和视频监控等领域。动作分割的目标是将视频流划分成具有相似运动特征的时间段,从而使得每个时间段内的动作相对一致。
动作分割的步骤可能包括:

  1. 动作检测: 在视频中识别和检测运动。这可以通过分析视频帧之间的像素变化、光流(运动中的像素变化方向和速度)等来实现。
  2. 运动特征提取: 从检测到的运动中提取特征,以便描述和区分不同的动作。这些特征可以包括运动的方向、速度、幅度等。
  3. 相似性度量: 衡量不同时间段内运动特征的相似性,以确定何时动作发生了变化。这可以通过计算特征向量之间的距离或相似性度量来完成。
  4. 分割决策: 基于相似性度量,决定何时在视频序列中进行动作的分割。分割点表示不同的动作或活动开始或结束。

动作分割的应用包括视频编辑、智能监控系统、视频检索和内容理解。通过对视频进行动作分割,系统可以更有效地理解视频中的内容,提取关键信息,并为后续的分析和处理提供基础。

数据集

动作识别、检测、分割、解析相关数据集介绍