Open-World Object Manipulation using Pre-trained Vision-Language Models-526互联

概述

提出MOO: Manipulation of Open-World Objects

用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novel object，还支持手指、点击输入指令。

机器人泛化到训练中没有见过或者操作过的object。

perception-planning-control的pipline支持robots处理很多object
- 这样的pipline太脆弱，因为物体操作依赖精准的物体定位
预训练的图像和语言embedding构造policy，对novel semantic concept没有grounding能力

总之，一些方法可以泛化到很多object但是流程太脆弱，另一些方法没那么脆弱但是泛化能力不足

为了提高对新语义概念的泛化能力，采用open-vocabulary预训练VLM，而不是单modality的模型。

instruction的5种固定模板：pick X, move X near Y, knock X over, place X upright, place X into Y

用Owl-ViT来提取object位置信息，将得到的bounding box的中点pixel置1.0（另一个obj置0.5），作为image的一个channel
- 采用pixel而不是bounding的好处：对任何大小的可见物体都work，且和各种视觉的方法都适配（都能改成pixel形式）
- （为了提高及时性）只对第一帧图片进行提取，对位置变化的处理由policy进行
- 用颜色、大小、形状等信息进行标定，例如：An image of a small blue elephant toy
- 设置一个统一的threshold对bounding box的score进行筛选
将image序列输入RT-1的policy结构中
- image序列用EfficientNet处理，结合FiLM对动作embedding的处理
- 接入Token Learner，再接入一个Transformer

注意instruction的encode只包含verb信息