【论文阅读笔记】【OCR-文本识别】 LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition

发布时间 2023-11-30 11:42:13作者: PanSTARRS

LISTER
ICCV 2023

读论文思考的问题

  1. 论文试图解决什么问题?

    • 由于长尾效应和错误累积等原因,现有的文本识别模型对于长文本的识别能力较差

    • 如何提高模型对于长度较长的文本的识别能力?

  2. 文章提出了什么样的解决方法?

    • 提出了 LISTER 模型,引入了 neighbor matrix 的概念,用 neighbor decoder 对每一个像素的字符对应的下一个字符位置进行建模

    • 引入了 Feature Enhancement Module,根据每次预测的结果提取上下文语义信息,反向更新 image feature,再利用更新后的 img feature 进行下一轮的迭代预测

  3. 你觉得解决方法的关键之处在哪里?

    • 引入了 neighbor matrix 的概念,对前后字符的相对关系进行了建模,再通过迭代乘法的方式一步步解码出每个字符,避免了以往的 AR, CTC, NAR 等解码方式的缺点
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 如果不引入Attention Sharpening (AS) strategy,还是会出现错误累积的情况
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?

要点

  1. Neighbor Decoder 包含 3 个模块:

    1. Neighboring Navigator: 建模像素和像素之间的 pair-wise 关系

    2. First Character Locator: 预测第一个字符所在的位置

    3. Character Aligner: 通过迭代的方式计算出每个字符对应的 attention map

  2. Feature Enhancement Module:

    1. 用 LongFormer 对 character sequence 进行上下文特征提取

    2. 根据之前的 attn map 对 image feature 进行更新

    3. 再加一层卷积,对 img featue 进行进一步更新