wav2clip 阅读

发布时间 2023-08-28 15:23:58作者: 张博的博客

最近看wav2clip代码和论文, 发现没人写过相关博客. 我就补上.

 直接从第二章开始看:

  第二章: 参考上面图1: 首先回顾了一下经典的clip模型. 然后图片中间distiling from clip采取类似结构. 但是往里面加入了MLP网络,也就是dnn, 对应图片中的Contrstive Loss Projection Layers. 之后我们定义了一个损失函数.

   Loss=L(f(Image); Audio) + L(Image; g(Audio)) (f; g:projection functions and L: contrastive loss)

  含义也就是帧的投影后的和Audio算cosin损失. 加上 Audio投影后的跟帧算损失再相加两个损失.