Cross-modal

Cross-modal Moment Localization in Videos

Cross-modal Moment Localization in Videos 摘要:在本文中,我们探讨了时间时刻定位问题,即在未经剪辑的视频中定位自然语言查询所描述的视频时刻。这是一项通用但极具挑战性的视觉语言任务,因为它不仅需要对时刻进行定位,还需要对文本时间信息(如 "第一次 "和 "离开 ......
Localization Cross-modal Moment Videos Cross
共1篇  :1/1页 首页上一页1下一页尾页