【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models-526互联

PARSeq
ECCV 2022

读论文思考的问题

论文试图解决什么问题？
- 一些文本识别模型会对 semantic 信息建模，从而辅助某些困难情况下的文本识别
- 传统的 auto-regressive 方式限制了语义信息的传输方向；双向的 auto-regressive 聚合增加了不必要的计算量和复杂度；聚合视觉模型和语言模型的方法并不好，语言模型通常不接收视觉信息的输入，而语言模型本身能力不强，可能会造成对正确文本的错误修正。
- 能否建立更好的语言模型，修正上述方法的缺点，集成 AR 和 non-AR 的推理方式的优点？
文章提出了什么样的解决方法？
- 将自然语言处理中的排列语言建模（PLM）的思想应用到文本识别中，通过设计与给定排列相关的 cross attn mask ，让模型学习到比较强的语言上下文信息建模的能力
- 利用 encoder-decoder 架构实现文本识别。positional encoding 序列首先跟gt的文本通过排列语言建模，进行交叉注意力计算；随后跟编码的图像信息进行第二次交叉注意力计算；最后用线性层进行分类输出
你觉得解决方法的关键之处在哪里？
- 创造性地将 xlnet 中的 PLM 技术应用到文本识别中，attention从多个角度、全面地学习了文本的上下文信息（不只有AR的单向）
- decoder 不仅用到了文本的信息，还跟图像信息做了 cross-attn，联合了context-free和context-aware方法。这使得预测的结果不会出现将正确词汇进行错误纠正的情况
这个解决方法的局限性在哪里？有没有更好的解决方法？
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）你觉得设计的实验有什么问题或者是缺少了什么实验？