【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection

发布时间 2023-11-07 14:15:23作者: PanSTARRS

CVPR 2022

读论文思考的问题

  1. 论文试图解决什么问题?

    • 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳

    • DETR 运用的高层特征图难以捕捉小文字的特征,且会引入很多无关的背景噪声,增加了检测的困难程度

    • 即使使用 DETR 的改进模型也不能达到很好的检测效果

    • 能否使用基于 DETR 的视觉模型,比较高效、良好地进行文本检测任务?

  2. 文章提出了什么样的解决方法?

    • 根据特征图文本区域的概率进行topk的特征点采样,随后用一个transformer encoder 架构对特征点进行隐式的聚类,最终输出每个聚类结果对应的边界框或者贝塞尔曲线控制点

    • 文本区域的概率图采用对特征进行卷积、下采样的方式生成,对于不同规模大小的特征都生成了对应的概率图

    • 在每个概率图上分别采样概率最高的k个点,代表了文字前景的区域

    • transformer 的 self-attn 机制可以做点的 grouping,将不同的点聚类为不同的instance

  3. 你觉得解决方法的关键之处在哪里?

    • 通过对概率图进行 topk 点采样的方式,较好地筛选出了文字对应的图片前景的特征,去除了背景噪声

    • 没有像DETR那种做法一样对文字的边界框做回归和refinement,而是采用了 transformer encoder 直接进行点的隐式聚类,可能可以较好解决小文本的识别问题

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 预测的概率图很难处理文字重叠的情况,可能会失效
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 多角度旋转、弯曲、多语言文本检测

    2. 点采样:不同特征图上采样不同数量的点做了消融实验

    3. 和其他的基于DETR的模型做了收敛速度、检测效果和FLOP的比较

    4. vallina transformer 和 swin transformer 的比较

    5. (*) 一般的旋转目标检测

    问题:

    1. 没有相应的对比实验,我很难看出 Gaussian Wasserstein Distance (GWD) 在其中起到的作用

    2. 似乎没有实验体现出这个方法在小文本检测上的优势所在

问题

  1. transformer encoder 的输入和输出似乎在语义层次上对应的东西是不同的? 每个输入的 token 对应的是像素,输出的 token 则对应某个文本实例