526互联

Meta推出像素级动作追踪模型，简易版在线可玩 | GitHub 1.4K星

发布时间 2023-09-08 23:51:53作者: CV技术指南（公众号）

前言视频动作跟踪，已经精确到了每个像素！

本文转载自量子位

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

动图封面

Meta最新推出的视频跟踪工具CoTracker，发布没多久就在GitHub上斩获了1.4k星标。

从官方发布的几个DEMO来看，效果还是很震撼的。

一场马术比赛中，马匹在骑手的操纵下优雅地跨过障碍，画出了优美的弧线。

动图封面

还有一架帆船乘风破浪，仿佛捉住了风的影子。

动图封面

另一边，一位跳伞运动员从空中划过，留下了一道绚丽的彩虹……

动图封面

对这个新“玩具”，有网友评论说，它不仅能改变物体追踪技术，也将在体育(动作)分析、野生动物追踪，甚至电影后期领域掀起一场新的革命。

我们也第一时间上手试玩了一下线上的简易版本，下面就一起来看看吧。

精准记录像素轨迹

首先有请四川知名网红、熊猫界的当红炸子鸡“果赖”隆重登场。

动图封面

只见花花六亲不认的步伐被CoTracker整个记录了下来，真的是太可爱了。

不过要论戏剧性的话，可能还得是我们的“西直门三太子”萌兰。

动图封面

看完了可爱的胖达，接下来就要进入整活环节了，来点名场面！

这个就不用再多介绍了吧（确信）。

动图封面

除了上面的这位老朋友，还有王境泽吃炒饭的镜头。

只见他手上诚实的动作在CoTracker面前暴露无遗。

动图封面

而在地球的另一边，马斯克正在直播用FSD开着特斯拉去找小扎，准备进行一番亲切友好的交流。

动图封面

CoTracker的效果就展示到这里了，朋友们如果想看其他效果可以自己玩玩看。

传送门：
https://huggingface.co/spaces/facebook/cotracker

不过，在线DEMO是个简易版本，还不支持自定义跟踪位置，只能根据输入的跟踪数量等距分配。

但是如果自己部署、用代码操纵的话，就可以设置任意跟踪点了。

说到这我们正好来看一下CoTracker该怎么部署。

首先是Colab版本，我们刚刚说到的自定义跟踪点也在Colab当中。

传送门：
https://colab.research.google.com/github/facebookresearch/co-tracker/blob/master/notebooks/demo.ipynb

Colab的过程不必过多介绍，进入之后运行笔记中的代码就可以了。

而如果想自己动手的话，最简单的方式是从torch.hub中直接调用已完成预训练的版本。

pip install einops timm tqdm

import torch
import timm
import einops
import tqdm

cotracker = torch.hub.load("facebookresearch/co-tracker", "cotracker_w8")

如果要对模型进行评估或训练，那么使用GitHub Repo更为合适。

首先要安装一下程序和相关依赖：

git clone https://github.com/facebookresearch/co-tracker
cd co-tracker
pip install -e .
pip install opencv-python einops timm matplotlib moviepy flow_vis

然后下载模型：

mkdir checkpoints
cd checkpoints
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_8.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_12.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_8_wind_16.pth
cd ..

有关评估和训练的方式，可以到GitHub项目页来查看，链接放在了文末。

那么，CoTracker又是怎么实现像素级追踪的呢？

评分超过DINOv2

虽然都是追踪，但CoTracker和物体追踪模型有很大区别。

CoTracker并没有基于语义理解对视频中物体进行分割的过程，而是把重点放在了像素点上。

底层方面，CoTracker采用了Transformer架构。

Transformer编码了视频中点的跟踪信息，并迭代更新点的位置。

推理上，CoTracker还采用了一种窗口机制，在时间轴上划分出滑动窗口。

CoTracker使用上个窗口的输出对后面的窗口进行初始化，并在每个窗口上运行多次Transformer迭代。

这样就使得CoTracker能够对更长的视频进行像素级跟踪。

总之，经过一番训练之后，CoTracker取得了一份不俗的成绩单。

在FastCapture数据集测试上，CoTracker的成绩在一众模型中脱颖而出，其中也包括Meta自家的DINOv2。

总之，喜欢的话，就赶紧体验一下试试吧！

论文地址：
https://arxiv.org/pdf/2307.07635.pdf
GitHub项目页：
https://github.com/facebookresearch/co-tracker

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

新认识了几位专注AI的大佬！

如何看待稚晖君的时间管理水平？

重新思考视频超分辨 Transformers 中的对齐

RecursiveDet | 超越Sparse RCNN，完全端到端目标检测的新曙光

ICCV 2023 | ReDB：可靠、多样、类平衡的域自适应3D检测新方案！

大厂必考深度学习面试题及参考答案

ICCV2023 | 清华大学提出FLatten Transformer，兼顾低计算复杂度和高性能

ICCV'23 | MetaBEV：传感器故障如何解决？港大&诺亚新方案！

ICCV 2023 | 旷视研究院入选论文亮点解读

RCS-YOLO | 比YOLOv7精度提高了2.6%，推理速度提高了60%

国产130亿参数大模型免费商用！性能超Llama2-13B支持8k上下文，哈工大已用上

KDD 2023奖项出炉！港中文港科大等获最佳论文奖，GNN大牛Leskovec获创新奖

大连理工联合阿里达摩院发布HQTrack | 高精度视频多目标跟踪大模型

ICCV 2023 | Actformer：从单人到多人，迈向更加通用的3D人体动作生成

ReID专栏（二）多尺度设计与应用

ReID专栏（一）任务与数据集概述

libtorch教程（三）简单模型搭建

libtorch教程（二）张量的常规操作

libtorch教程（一）开发环境搭建：VS+libtorch和Qt+libtorch

NeRF与三维重建专栏（三）nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏（二）NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏（一）领域背景、难点与数据集介绍

异常检测专栏（三）传统的异常检测算法——上

异常检测专栏（二）：评价指标及常用数据集

异常检测专栏（一）异常检测概述

BEV专栏（二）从BEVFormer看BEV流程（下篇）

BEV专栏（一）从BEVFormer深入探究BEV流程（上篇）

可见光遥感图像目标检测（三）文字场景检测之Arbitrary

可见光遥感目标检测（二）主要难点与研究方法概述

可见光遥感目标检测（一）任务概要介绍

TensorRT教程（三）TensorRT的安装教程

TensorRT教程（二）TensorRT进阶介绍

TensorRT教程（一）初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

简易像素模型动作

模型动作代码视频

图像像素前景模型

模态cogagent模型github

mindscope模型huggingface github

校友模型github token