【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition-526互联

CLIPTER
ICCV 2023

读论文思考的问题

论文试图解决什么问题？
- 现有的文本识别方法只关注于局部截取的文本区域，识别模型并没有利用全图的上下文信息，导致其可能对有挑战性的文本的识别效果较差
- 能否以某种方式使识别器利用上global feature的信息？
文章提出了什么样的解决方法？
- 提出CLIPTER模型，用一个 Visual-Language Aligned Model (e.g. CLIP) 来提取全图的特征，随后做pooling
- 通过 cross-attn或 gated attn 技术来融合 local feature 和 global feature
- 该方法可以作为一个实用的模块，接到现有的各类识别模型上面
你觉得解决方法的关键之处在哪里？
- 感觉最关键的还是这个思想，用全局的特征来弥补局部特征的一些不足
- 用 CLIP 来提取了相对较为适合的全局特征
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 感觉上提升不是很高，CLIP提取的这种语义信息能用上的场景不是很多
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）你觉得设计的实验有什么问题或者是缺少了什么实验？

实验：
1. 将CLIPTER加入到各种识别器的实验
2. out-of-vocabulary 的 text 实例检测实验
3. 低比例的训练样本的对比实验
4. 模块带来的延迟实验
5. 消融实验：
  - 不同的 Image Encoder
  - pooling 分辨率
  - 不同的 Integration Point
  - 不同的 fusion mechanism