【论文阅读笔记】【OCR-文本识别】 LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition-526互联

LISTER
ICCV 2023

论文试图解决什么问题？
- 由于长尾效应和错误累积等原因，现有的文本识别模型对于长文本的识别能力较差
- 如何提高模型对于长度较长的文本的识别能力？
文章提出了什么样的解决方法？
- 提出了 LISTER 模型，引入了 neighbor matrix 的概念，用 neighbor decoder 对每一个像素的字符对应的下一个字符位置进行建模
- 引入了 Feature Enhancement Module，根据每次预测的结果提取上下文语义信息，反向更新 image feature，再利用更新后的 img feature 进行下一轮的迭代预测
你觉得解决方法的关键之处在哪里？
- 引入了 neighbor matrix 的概念，对前后字符的相对关系进行了建模，再通过迭代乘法的方式一步步解码出每个字符，避免了以往的 AR, CTC, NAR 等解码方式的缺点
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 如果不引入Attention Sharpening (AS) strategy，还是会出现错误累积的情况
文章是通过设计什么样的实验来支撑其解决方法的有效性的？你觉得设计的实验有什么问题或者是缺少了什么实验？

Neighbor Decoder 包含 3 个模块：
1. Neighboring Navigator: 建模像素和像素之间的 pair-wise 关系
2. First Character Locator: 预测第一个字符所在的位置
3. Character Aligner: 通过迭代的方式计算出每个字符对应的 attention map
Feature Enhancement Module:
1. 用 LongFormer 对 character sequence 进行上下文特征提取
2. 根据之前的 attn map 对 image feature 进行更新
3. 再加一层卷积，对 img featue 进行进一步更新