【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

发布时间 2023-11-12 15:53:46作者: PanSTARRS

CLIPTER
ICCV 2023

读论文思考的问题

  1. 论文试图解决什么问题?

    • 现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差

    • 能否以某种方式使识别器利用上global feature的信息?

  2. 文章提出了什么样的解决方法?

    • 提出CLIPTER模型,用一个 Visual-Language Aligned Model (e.g. CLIP) 来提取全图的特征,随后做pooling

    • 通过 cross-attn或 gated attn 技术来融合 local feature 和 global feature

    • 该方法可以作为一个实用的模块,接到现有的各类识别模型上面

  3. 你觉得解决方法的关键之处在哪里?

    • 感觉最关键的还是这个思想,用全局的特征来弥补局部特征的一些不足

    • 用 CLIP 来提取了相对较为适合的全局特征

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 感觉上提升不是很高,CLIP提取的这种语义信息能用上的场景不是很多
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 将CLIPTER加入到各种识别器的实验

    2. out-of-vocabulary 的 text 实例检测实验

    3. 低比例的训练样本的对比实验

    4. 模块带来的延迟实验

    5. 消融实验:

      • 不同的 Image Encoder

      • pooling 分辨率

      • 不同的 Integration Point

      • 不同的 fusion mechanism

要点

  1. 两种特征融合的时间点不是约束好的,具体可以采用 early fusion 和 late fusion 两种方式

  2. global img token 前面还加入了一个 special token [CLASS],作为全局信息的聚合

问题

  1. 有没有实验证明gated attention的优势?(效果好、收敛速度稳定) 有是有,但似乎效果不明显