引言

搜广推类似场景都是retrieval + ranking两阶段方式，前者用从海量候选粗选一轮，后者再用负载模型，是效果、延迟和机器资源的trade-off的产物。
retrieval广泛使用embedding + ANN方案，比起invert index 个性化更强。

embedding

动机，word2vec 用向量表示高维的one-hot编码，向量的距离越近表示词义越相近。推荐系统里的协同过滤，FM/FFM模型都有类似的作用。

样本工程
选择样本是一门艺术
如何选正例： click or impr，另一条例子
如何选负例：负例采样（negative sampling 必要性）
hard negative + easy negative，
模型结构
简单双塔结构
每个塔可以做更多工作，可以上attention之类的
特征工程

泛化特征必要的，id类如果正例稀疏，至少多少正例才能拟合好吗？airbnb的场景

模型建模能力：user tower、item tower双塔结构限制效果，没有交叉特征；embedding长度固定，限制表征多兴趣；
很多黑盒，比如样本选择，评估方式（仅仅依赖A/B test效率太低）

暴力全库计算是效果最好的，不同ann算法有一定效果折损，但消耗更少时间、更少机器。
哪些算法

是否能打破对模型结构的限制？阿里的一些工作

graph embedding？能利用图的结构