LISTER
ICCV 2023
读论文思考的问题
-
论文试图解决什么问题?
-
由于长尾效应和错误累积等原因,现有的文本识别模型对于长文本的识别能力较差
-
如何提高模型对于长度较长的文本的识别能力?
-
-
文章提出了什么样的解决方法?
-
提出了 LISTER 模型,引入了 neighbor matrix 的概念,用 neighbor decoder 对每一个像素的字符对应的下一个字符位置进行建模
-
引入了 Feature Enhancement Module,根据每次预测的结果提取上下文语义信息,反向更新 image feature,再利用更新后的 img feature 进行下一轮的迭代预测
-
-
你觉得解决方法的关键之处在哪里?
- 引入了 neighbor matrix 的概念,对前后字符的相对关系进行了建模,再通过迭代乘法的方式一步步解码出每个字符,避免了以往的 AR, CTC, NAR 等解码方式的缺点
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 如果不引入Attention Sharpening (AS) strategy,还是会出现错误累积的情况
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?
要点
-
Neighbor Decoder 包含 3 个模块:
-
Neighboring Navigator: 建模像素和像素之间的 pair-wise 关系
-
First Character Locator: 预测第一个字符所在的位置
-
Character Aligner: 通过迭代的方式计算出每个字符对应的 attention map
-
-
Feature Enhancement Module:
-
用 LongFormer 对 character sequence 进行上下文特征提取
-
根据之前的 attn map 对 image feature 进行更新
-
再加一层卷积,对 img featue 进行进一步更新
-
- Length-Insensitive Insensitive Recognition Decoding Neighborlength-insensitive insensitive recognition decoding length-insensitive neighbor insensitive decoding quot connection decoding docker decoding genome decoding genome 222e cf customized decoding structs binary encoding decoding transfer using