阿里M2M:基于元学习的多场景多任务商家建模

发布时间 2023-03-22 21:17:17作者: xd_xumaomao

模型结构

模型整体的框架图如图三所示,主要包含两个网络:

第一部分是主干网络,用来得到特征和任务的嵌入式表征;

第二部分是元学习网络,主要包含三种结构:

  1)元学习单元:显式建模场景信息

  2)Attention元网络:捕捉不同场景下多个任务的动态关联:

  3)tower元网络:增强特定场景的表征能力。其中Attention元网络和Tower元网络采取级联方式连接,Attention元网络的输出是Tower元网络的输入。

 

主干网络

主干网络的作用是对特征信息进行处理,得到特征信息的嵌入式表征,作为后面网络的输入。此部分最终得到的嵌入式表征有三种:Expert信息表征、任务信息表征和场景信息表征。

Expert信息表征

Ei表示第i个专家网络的输出,MH表示多头atttention

任务信息表征

T表示特定任务 t 的任务信息表征,受到MRAN模型的启发,我们将不同类别的任务进行信息表征,和特征信息保持在同一维度。由于在测试集合中无法得到任务的表征信息,所以这里的任务信息表征是全局的而不是局部的。

场景信息表征

 

S~表示场景信息表征,在这里我们将场景信息 S 和 id类型信息 A 拼接后,通过全连接层得到最终的场景信息表征。

 

元学习网络

元学习单元

元学习单元的结构类似LHUC,通过编码场景信息,得到动态的weight和bias,然后作用到主网络中

Attention元网络

传统的alignment attention结构可以建模任务和特征之间的关联关系,但是忽略了动态的场景因素的影响。Attention元网络在计算attention权重系数的时候引入场景信息,从而可以在不同场景下产出动态的attention权重系数:

 

Tower元网络

 

 

训练Loss

 

 

参考资料

https://zhuanlan.zhihu.com/p/471304393