阿里M2M：基于元学习的多场景多任务商家建模-526互联

模型结构

模型整体的框架图如图三所示，主要包含两个网络：

第一部分是主干网络，用来得到特征和任务的嵌入式表征；

第二部分是元学习网络，主要包含三种结构：

　　1）元学习单元：显式建模场景信息

　　2）Attention元网络：捕捉不同场景下多个任务的动态关联：

　　3）tower元网络：增强特定场景的表征能力。其中Attention元网络和Tower元网络采取级联方式连接，Attention元网络的输出是Tower元网络的输入。

主干网络的作用是对特征信息进行处理，得到特征信息的嵌入式表征，作为后面网络的输入。此部分最终得到的嵌入式表征有三种：Expert信息表征、任务信息表征和场景信息表征。

E_i表示第i个专家网络的输出，MH表示多头atttention

T_i表示特定任务 t

S^~表示场景信息表征，在这里我们将场景信息 S

元学习单元的结构类似LHUC，通过编码场景信息，得到动态的weight和bias，然后作用到主网络中

传统的alignment attention结构可以建模任务和特征之间的关联关系，但是忽略了动态的场景因素的影响。Attention元网络在计算attention权重系数的时候引入场景信息，从而可以在不同场景下产出动态的attention权重系数：