Video-LLaMa

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设计了两个分支，即视觉语 ......

模态 Video-LLaMa 内容 Video LLaMa更新时间 2023-06-21

共1篇 :1/1页 首页上一页1下一页尾页

526互联

Video-LLaMa

Video-LLaMa:利用多模态增强对视频内容理解