【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer-526互联

ESTextSpotter
ICCV 2023

读论文思考的问题

论文试图解决什么问题？
- 场景文本端到端识别任务中，检测和识别两个任务的协同作用十分关键，然而以往的方法通常用一些十分隐式的方式来体现这种协同作用（shared backbone, shared encoder, shared query…），不能完全释放这种两个任务相互帮助的特性
- 如何更加显示地建立这种协同关系，使得检测和识别两个任务的表现都能更好？
文章提出了什么样的解决方法？
- 提出了 ESTextSpotter 模型，将 DETR 中的 queries 设计成 task-aware 的，分别负责 detection 和 recognition 任务
- 两种 query 之间通过类似于 masked self-attn 的方式进行显式的交互，随后送入 transformer decoder 中和图像特征进行 cross-attn 运算
- detection query 负责输出文字的 bbox 和 polygon， recognition query 负责输出对应的 characters
你觉得解决方法的关键之处在哪里？
- 将 object query 设计为 task-aware 的，用显式的方式进行了 attention 的交互，两种 query 之间分工明确（或许这种人工定义的规则在某些情况下更有助于区分两种任务？）
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 似乎这类基于 DETR 的模型都没有对文本的上下文语义关系进行显式的建模，但看着也不太需要，效果已经很好了
文章是通过设计什么样的实验来支撑其解决方法的有效性的？你觉得设计的实验有什么问题或者是缺少了什么实验？

实验：
1. 和 SOTA 的对比
  - multi-oriented, arbitrarily-shaped, multilingual
  - detection, recognition
2. 消融实验
  - ES, TAQI, VLC, REM, TADN
缺少：
1. language conversion 和 mask 的作用？

要点

模型还引入了 denoising training，用 noised box 来进行点采样，加速了模型的收敛。

问题

TAQI 模块真的有用吗？有点用。
VLC: 这个模块有用吗？感觉太隐式了。有用。如果不做 language conversion，只做 masked self-attn 会怎么样？那个mask有用吗？不清楚，缺乏相关实验。
如果把文字的损失加入到matching里面会怎么样？不清楚。

estextspotter transformer end explicit

component explicit rendered should

emit declaration annotation explicit

dependencies compatible intellij explicit

函数explicit

euler explicit implicit taylor