【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection-526互联

CVPR 2022

读论文思考的问题

论文试图解决什么问题？
- 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳
- DETR 运用的高层特征图难以捕捉小文字的特征，且会引入很多无关的背景噪声，增加了检测的困难程度
- 即使使用 DETR 的改进模型也不能达到很好的检测效果
- 能否使用基于 DETR 的视觉模型，比较高效、良好地进行文本检测任务？
文章提出了什么样的解决方法？
- 根据特征图文本区域的概率进行topk的特征点采样，随后用一个transformer encoder 架构对特征点进行隐式的聚类，最终输出每个聚类结果对应的边界框或者贝塞尔曲线控制点
- 文本区域的概率图采用对特征进行卷积、下采样的方式生成，对于不同规模大小的特征都生成了对应的概率图
- 在每个概率图上分别采样概率最高的k个点，代表了文字前景的区域
- transformer 的 self-attn 机制可以做点的 grouping，将不同的点聚类为不同的instance
你觉得解决方法的关键之处在哪里？
- 通过对概率图进行 topk 点采样的方式，较好地筛选出了文字对应的图片前景的特征，去除了背景噪声
- 没有像DETR那种做法一样对文字的边界框做回归和refinement，而是采用了 transformer encoder 直接进行点的隐式聚类，可能可以较好解决小文本的识别问题
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 预测的概率图很难处理文字重叠的情况，可能会失效
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）你觉得设计的实验有什么问题或者是缺少了什么实验？

实验：
1. 多角度旋转、弯曲、多语言文本检测
2. 点采样：不同特征图上采样不同数量的点做了消融实验
3. 和其他的基于DETR的模型做了收敛速度、检测效果和FLOP的比较
4. vallina transformer 和 swin transformer 的比较
5. (*) 一般的旋转目标检测
问题：
1. 没有相应的对比实验，我很难看出 Gaussian Wasserstein Distance (GWD) 在其中起到的作用
2. 似乎没有实验体现出这个方法在小文本检测上的优势所在

问题

transformer encoder 的输入和输出似乎在语义层次上对应的东西是不同的？每个输入的 token 对应的是像素，输出的 token 则对应某个文本实例

detection grouping sampling文本

grouping

sampling

speculative-sampling

transformer sampling vision super

函数grouping hive

model-based imbalanced synthetic sampling

speculative-sampling speculative sampling笔记

sampling数据属性echarts

revisited sampling random论文