背景
由于用户的兴趣是实时变化的,现代推荐、广告系统采用了流式更新的方式来捕捉用户实时兴趣的变化。实时训练的方式面临的一个难题就是正样本的回传是有延迟的,一个实时发送的负样本其实是无法确认是否是真的负样本的。也就是说实时观测到的数据流是一个有偏数据流,并不是真实的数据。如果模型在这个有偏分布上学习,效果会变差,大多表现为会低估ctr、cvr
Twitter这篇论文比较了LR、Wide&Deep两种模型架构,使用4中不同方式:Delayed feedback loss、Positive-unlabeled loss、Fake negative weighted、Fake negative calibration在解决延迟反馈上的表现
解决方案
1. Delayed feedback loss
这个是Criteo在《Modeling Delayed Feedback in Display Advertising》中提出一种延迟转化转化建模的方案,基本思想是用一个模型建模正样本的回流分布,用这个分布来纠偏主模型。
最终的loss为:
2. Positive-unlabeled loss
PU loss的基本思想是把负样本当作没有label的样本,可以推导出下面的损失函数:
- Addressing Continuous prediction Feedback Trainingaddressing continuous prediction feedback instructions training language feedback addressing feedback understanding addressing chapter2 chapter inspiration addressing reference pollution systems_p feedback control dynamic advanced feedback problems control continuous addressing innovative strategies trading