论文名：

MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation
"MS-TCN++: 用于动作分割的多阶段时域卷积"

Shi-Jie Li#, Yazan AbuFarha#, Yun Liu, Ming-Ming Cheng, Juergen Gall,
IEEE TPAMI,
45(6):6647-6658,
2023
关键字：时域动作分割，时域卷积网络

研究问题：

最先进的方法是利用多层时域卷积和时域池化实现动作分割。
这些方法能捕捉时域相关性的能力，但存在过度分割的问题。

为什么会有过度分割？

复杂的动作表达：如果视频中存在复杂、多变的动作表达，或者有一些微小的动作变化，这可能导致模型在细节上过度敏感，产生过度分割的错误。
数据噪声：视频数据通常包含噪声，例如摄像头抖动、光照变化等。这些噪声可能被误认为是动作，导致错误的分割。
模型复杂性：使用复杂的模型可能导致对训练数据过度拟合，尤其是在训练集中包含了噪声或不同程度的动作变化的情况下。这可能导致模型在测试时对于新的、稍微不同的动作表达过于敏感。
数据标注不准确：如果训练数据中的动作分割标注存在误差，模型可能学到了不准确的分割模式，从而在测试时表现不佳。
时域分辨率不足：如果视频的帧率较低，或者动作发生的变化很快，时域分辨率可能不足以捕捉到细微的动作变化，导致过度分割。

提出了一个解决时间动作分割任务的多阶段框架，克服了以往方法的局限性。
具体：
1.提出一个结合大接收域和小接收域的双扩展层，解决较低层的接收域小的局限性。
2.第一阶段的设计与改良阶段分离，以满足不同要求，

结果：在长期相关性和识别动作片段方面是有效的。——在长视频的时域分割和活动分类表现好。

时域动作分割

早期通过模型+滑动窗口相结合。利用不同尺度的时间窗来检测和分类动作片段
缺点：成本高昂，不适用于长视频。
之后采用逐帧分类器+马尔科夫模型进行粗糙的时域建模。
缺点：速度慢，需要在长序列上解决最大化问题。
时域卷积网络（TCNs）在语音合成时域模型取得成功，现多采用基于TCN模型解决时域动作分割任务。
优点：通过大接收域捕获视频帧的长期相关性。
局限在：处理每秒几帧、非常低的时域分辨率的视频；依赖时域池化层来扩大接收域，会丢失细粒度信心。

本文改进：提出MS-TCN也使用时域卷积。相比之前的方法，提出的模型能在全时域分辨率上运行。

MS-TCN:由多个阶段组成，每个阶段输出一个初步预测，然后由下一个阶段改良。在每个阶段，我们都会应用一系列扩展的一维卷积，使模型
具有参数较少的、大的时域接收域。此外，我们在训练中使用平滑损失来惩罚预测中的过度分割错误。
MS-TCN概览：