【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models

发布时间 2023-11-09 22:21:27作者: PanSTARRS

PARSeq
ECCV 2022

读论文思考的问题

  1. 论文试图解决什么问题?

    • 一些文本识别模型会对 semantic 信息建模,从而辅助某些困难情况下的文本识别

    • 传统的 auto-regressive 方式限制了语义信息的传输方向;双向的 auto-regressive 聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言模型的方法并不好,语言模型通常不接收视觉信息的输入,而语言模型本身能力不强,可能会造成对正确文本的错误修正。

    • 能否建立更好的语言模型,修正上述方法的缺点,集成 AR 和 non-AR 的推理方式的优点?

  2. 文章提出了什么样的解决方法?

    • 将自然语言处理中的排列语言建模(PLM)的思想应用到文本识别中,通过设计与给定排列相关的 cross attn mask ,让模型学习到比较强的语言上下文信息建模的能力

    • 利用 encoder-decoder 架构实现文本识别。positional encoding 序列首先跟gt的文本通过排列语言建模,进行交叉注意力计算;随后跟编码的图像信息进行第二次交叉注意力计算;最后用线性层进行分类输出

  3. 你觉得解决方法的关键之处在哪里?

    • 创造性地将 xlnet 中的 PLM 技术应用到文本识别中,attention从多个角度、全面地学习了文本的上下文信息(不只有AR的单向)

    • decoder 不仅用到了文本的信息,还跟图像信息做了 cross-attn,联合了context-free和context-aware方法。这使得预测的结果不会出现将正确词汇进行错误纠正的情况

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?

要点

  1. 排列语言建模只需要根据特定的排列顺序,合理地设计好 attn mask 即可

  2. 只选取了K个排列进行计算,而不是全部的排列

  3. inference 解码时可以采用 AR 或 NAR 的方式,同时可以用 cloze mask 来做 iterative refinement

问题

  1. 第3页里,Mansimov 的论文究竟说了啥?

  2. inference 的时候没有 gt, 那么第一个 cross attn会怎么做呢

  3. two-stream attention 是啥