526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
video-llama
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设计了两个分支,即视觉语 ......
模态
Video-LLaMa
内容
Video
LLaMa
更新时间 2023-06-21
共1篇 :1/1页
首页
上一页
1
下一页
尾页