多模态模型框架

发布时间 2023-11-10 10:32:33作者: Tany_g

多模态模型框架

如果有一个序列一共有四步操作,每一步操作都可以作为一条训练数据。

训练数据如下图:

Model选型

文字和图像编码器分别为CN-clip 的 Vit-B/16和bert

github地址:https://github.com/OFA-Sys/Chinese-CLIP

操作编码器为:一个线性层升维到512维度

工程实现:

数据方面:前期数据不够的时候可以先用,一个icon贴在背景上面生成一堆数据。

模型方面:如果验证,图像编码器或者文字编码器效果不好,可以换成其他模型。