【论文分析】COGMEN:基于上下文化GNN的多模态情感识别-526互联

1. 简述

COGMEN ：基于上下文化图神经网络的多模式情感识别架构，该架构既解决了上下文对语句的影响，也解决了用于预测会话中每个说话者的每一语句情感的相互依赖性和内部依赖性

COGMEN有以下特点：

基于上下文化图神经网络（GNN）的多模式情感识别架构，用于预测会话中每语句每说话者的情感
模型在对话中同时利用了本地和全局信息
使用图形变换器在多模态情感识别系统中建模说话人关系

2. 整体架构

输入的话语作为语境提取器模块的输入，该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入，然后是graph transformer，graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后，作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感.

graph TD A[输入] --> B[语境提取器 Context Extractor] B --形成-->C[图形形成 Graph Formation] C --> D[关系GCN Relational GCN] D --> E[图形变换器 Graph Transformer] E --> F[情感分类器 Emotion Classifier]

2.1 语境提取器 Context Extractor

对每个语句\(u_i\)，使用其音频、文本、视频形成对应的输入特征\(x\);

\[x^{(atv)}_i= [u^{(a)}_i⊕u^{(t)}_i⊕u^{(v)}_i]∈\mathbb{R}^d \]

其中$d=d_a+d_t+d_v$

使用Transformer 编码器捕获上下文

Transformer 编码器
利用自注意力 (Self-attention)机制来捕获上下文信息
Transformer编码器流程图如下：
1. 计算所以语句的特征\(x\)的Query、Key、Value
\[Q^{(h)}=XW_{h,q},\\ K^{(h)}=XW_{h,k},\\ V^{(h)}=XW_{h,v}, \]
1. 利用softmax函数计算单注意力头的权重
\[α^{(h)}=σ_j(\frac{Q^{(h)}(K^{(h)})^T}{\sqrt{k}}) \]
1. 计算多头注意力权重的加权和
\[\begin{align} head^{(h)}&=α^{(h)}(V^{(h)})∈\mathbb{R}^{n×k}\notag\\ U^′&= [head^{(1)}⊕head^{(2)}⊕...head^{(H)}]W^o\notag \end{align} \]
1. 添加残差连接，应用LayerNorm、前馈层和Add & Norm层
\[\begin{align} \rm U &= \rm LayerNorm(X+U^′;γ_1,β_1);\notag\\ \rm Z^′&= \rm ReLU (UW_1)W_2;\notag \\ \rm Z&= \rm LayerNorm(U+Z^′;γ_2,β_2);\notag \end{align} \]
其中，\(γ_1,β_1∈\mathbb{R}^d\)，\(W_1∈\mathbb{R}^{d×m}\)，\(W_2∈\mathbb{R}^{m×d}\)，\(γ_2,β_2∈\mathbb{R}^d\).

Transformer编码器提供了与对话中的每个语句相对应的特征\(([z_1,z_2,...,z_n]^T=Z∈\mathbb{R}^{n×d})\)。

2.2 图形形成 Graph Formation

将说话者内部和说话者之间的依赖关系形成一张图表，以便在图形变换器中建模。
每个语句都充当一个使用有向关系(过去和将来关系)连接的图的节点。

设置一个窗口大小用于限制每个话语前后的语句数量，并使用\(\mathcal{P}\)和\(\mathcal{F}\)作为超参数，在对话中的每个语句中形成过去\(\mathcal{P}\)语句和未来\(\mathcal{F}\)语句之间的关系。

例如，语句\(u^{(S1)}_i\)(说话者1发言)中的\(R_{intra}\)和\(R_{inter}\)被定义为:

\[R_{intra}(u^{(S1)}_i) =\{u^{(S_1)}_i←u^{(S_1)}_{i-\mathcal{P}}. . . u^{(S_1)}_i←u^{(S_1)}_{i-1},u^{(S_1)}_i←u^{(S_1)}_{i}, u^{(S_1)}_i→u^{(S_1)}_{i+1}. . . u^{(S_1)}_i→u^{(S_1)}_{i+\mathcal{F}}\}\\ R_{inter}(u^{(S1)}_i) =\{u^{(S_1)}_i←u^{(S_2)}_{i-\mathcal{P}}. . . u^{(S_1)}_i←u^{(S_2)}_{i-1},u^{(S_1)}_i←u^{(S_2)}_{i}, u^{(S_1)}_i→u^{(S_2)}_{i+1}. . . u^{(S_1)}_i→u^{(S_2)}_{i+\mathcal{F}}\} \]

其中\(←\)和\(→\)分别代表过去和未来的关系类型

2.3 关系GCN RGCN

RGCN是一种用于处理多边类型图的图卷积神经网络。它是在GCN的基础上，为了解决多边类型图中不同边关系对节点的影响而提出的

使用RGCN捕捉说话者之间和说话者内部对连接语句的依赖

\[x^′_i= Θ_{root}·\rm z_i+\sum _{r∈R} \sum_{j∈\mathcal{N}_r(i)}\frac{1}{|\mathcal{N}_r(i)|}Θ_r·\rm z_j \]

其中\(\mathcal{N}_r(i)\)表示关系\(r∈ \mathbb{R}\)下节点\(i\)的相邻集，\(Θ_{root}\)和\(Θ_r\)表示RGCN的可学习参数，\(|\mathcal{N}_r{(i)}|\)是归一化常数，\(\rm z_j\)是来自Transformer的语句水平特征。

2.4 图形变换器 Graph Transformer

GraphTransformer是一种图上的Transformer，它在transformer的注意力分数中，添加了边信息和空间信息。这种方法更好地利用图数据集以edge attribute的形式提供的丰富特征信息

使用Graph Transformer赋予从RGCN获取的节点特征 \(H=x^′_1,x^′_2,...,x^′_n\)，

\[h^′_i=W_1x^′_i+\sum _{j∈\mathcal{N}(i)}α_{i,j}W_2x^′_j \]

其中，注意系数\(α_{i,j}\)由多头点积注意力计算获得:

\[α_{i,j}=\rm softmax(\frac{(W_3x^′_i)^⊤(W_4x^′_j)}{\sqrt{d}}) \]

2.5 情绪分类 Emotion Classifier

GraphTransformer \((h^′_i)\)提取的特征之上的线性层，用于预测与语句对应的情绪。

\[\begin{align} h_i &=\rm ReLU(W_1h^′_i+b_1)\notag\\ \mathcal{p}_i &=\rm softmax(W_2h_i+b_2)\notag\\ \hat{y}_i &=\rm arg max(\mathcal{p}_i)\notag \end{align} \]

其中\(\hat{y}_i\)是为语句\(u_i\)预测的情感标签

3. 实验结果分析

3.1 IEMOCAP和MOSEI 数据集上的结果

IEMOCAP

COGMEN在使用准确性和F1-score测量时表现得比之前的所有基线都要好
快乐、悲伤、中性和兴奋情绪的分类F1的改善

MOSEI
COGMEN在大多数情况下优于基线模型
对于二元情绪分类，COGMEN优于之前A+T的最高准确率为85％的基线；对于七元情绪，也显示了相当的性能。
所有的多模态方法在添加视觉模态时往往表现不佳，可能是因为视觉模态中存在噪声，以及与其他模态缺乏对齐。相比之下，COGMEN可以捕获各种模式之间的丰富关系，并在添加可视模式的同时显示性能提升