Introduction to Embedding for Retrieval 向量化召回简介

发布时间 2023-07-25 21:46:58作者: 小小的港湾

引言

搜广推类似场景都是retrieval + ranking两阶段方式,前者用从海量候选粗选一轮,后者再用负载模型,是效果、延迟和机器资源的trade-off的产物。
retrieval广泛使用embedding + ANN方案,比起invert index 个性化更强。

embedding

动机,word2vec 用向量表示高维的one-hot编码,向量的距离越近表示词义越相近。推荐系统里的协同过滤,FM/FFM模型都有类似的作用。

  • 样本工程
    选择样本是一门艺术
    如何选正例: click or impr,另一条例子
    如何选负例:负例采样(negative sampling 必要性)
    hard negative + easy negative,

  • 模型结构
    简单双塔结构
    每个塔可以做更多工作,可以上attention之类的

  • 特征工程

泛化特征必要的,id类如果正例稀疏,至少多少正例才能拟合好吗?airbnb的场景

  • 局限性

模型建模能力:user tower、item tower双塔结构限制效果,没有交叉特征;embedding长度固定,限制表征多兴趣;
很多黑盒,比如样本选择,评估方式(仅仅依赖A/B test效率太低)

ANN

暴力全库计算是效果最好的,不同ann算法有一定效果折损,但消耗更少时间、更少机器。
哪些算法

更进一步

是否能打破对模型结构的限制?阿里的一些工作

graph embedding? 能利用图的结构