【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer

发布时间 2023-11-23 14:43:35作者: PanSTARRS

ESTextSpotter
ICCV 2023

读论文思考的问题

  1. 论文试图解决什么问题?

    • 场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared query…),不能完全释放这种两个任务相互帮助的特性

    • 如何更加显示地建立这种协同关系,使得检测和识别两个任务的表现都能更好?

  2. 文章提出了什么样的解决方法?

    • 提出了 ESTextSpotter 模型,将 DETR 中的 queries 设计成 task-aware 的,分别负责 detection 和 recognition 任务

    • 两种 query 之间通过类似于 masked self-attn 的方式进行显式的交互,随后送入 transformer decoder 中和图像特征进行 cross-attn 运算

    • detection query 负责输出文字的 bbox 和 polygon, recognition query 负责输出对应的 characters

  3. 你觉得解决方法的关键之处在哪里?

    • 将 object query 设计为 task-aware 的,用显式的方式进行了 attention 的交互,两种 query 之间分工明确(或许这种人工定义的规则在某些情况下更有助于区分两种任务?)
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 似乎这类基于 DETR 的模型都没有对文本的上下文语义关系进行显式的建模,但看着也不太需要,效果已经很好了
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 和 SOTA 的对比

      • multi-oriented, arbitrarily-shaped, multilingual

      • detection, recognition

    2. 消融实验

      • ES, TAQI, VLC, REM, TADN

    缺少:

    1. language conversion 和 mask 的作用?

要点

  1. 模型还引入了 denoising training,用 noised box 来进行点采样,加速了模型的收敛。

问题

  1. TAQI 模块真的有用吗?有点用。

  2. VLC: 这个模块有用吗?感觉太隐式了。有用。如果不做 language conversion,只做 masked self-attn 会怎么样?那个mask有用吗?不清楚,缺乏相关实验。

  3. 如果把文字的损失加入到matching里面会怎么样?不清楚。