Deep|TextSnake文本检测
论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》
文章图片
(1) 数据集
文章中提到了4个数据集:
1) Total-Text;(新开源曲线文本数据集)
2) SCUT-CTW1500;
(新开源曲线文本数据集)
3) ICDAR 2015;
(经典数据集)
4) MSRA-TD500.(经典数据集)
(2) 文本检测总体评述:
现有文本检测方法有一个共同的假设:
- 文本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);
- 处理不规则形状的文本实例时,依然会暴露问题;
- 对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;
- 文本实例不同表征方法的对比,图a是轴对齐矩形,图b是旋转矩形,图c是四边形;图d是TextSnake。
文章图片
TextSnake文章的贡献:
- 本文提出一种灵活而通用的表征,可用于任意形状的场景文本;
- 提出一种有效的场景文本检测方法;
- 该方法在包含若干个不同形式(水平,多方向,曲形)的文本实例数据集取得了最优效果。
表征方法:
- TextSnake图示
文章图片
- 说明:将一个文本区域(黄色表示)表征为一系列有序而重叠的圆盘(蓝色),其中每个圆盘都有一个中心线(绿色,即对称轴或骨架)贯穿,并带有可变的半径 和方向 ;
- 从数学公式上分析,包含若干个字符的文本实例t可以被看作是一个序列S(t), ,其中 表示第i个圆盘,n表示圆盘的数量,每个圆盘D带有一组几何属性,r被定义为t的局部宽度的一半,方向 是贯穿中心点c的中心线的正切;
- 注意:圆盘并非一一对应于文本实例的字符,但是圆盘序列的几何属性可以改正不规则形状的文本实例,并将其转化为对文本识别器更加友好的矩形等;
- 方法框架图
-
文章图片
- 为检测任意形状的文本,借助FCN模型预测文本实例的几何属性。基于FCN的网络预测文本中心线(TCL),文本区域(TR)以及几何属性(包括r, , )的分值图;由于TCL是TR的一部分,通过TR而得到Masked TCL,假定TCL没有彼此重合,需要借助并查集(disjoint set)执行实例分割,Striding Algorithm用于提取中心轴点,并最终重建文本实例。
- 图例所示
文章图片
- 在FPN和U-net的启发下,本文提出一个方案,可逐渐融合来自主干网络不同层级的特征;
- 主干网络可以是用于图像分类的卷积网络,比如VGG-16/19和ResNet,这些网络可以被分为5个卷积阶段和若干个额外的全连接层;
- 本文移除全连接层,并在每个阶段后将特征图馈送至特征融合网络。
- 后处理算法图例:后处理算法框架。 法案(a)集中:将给定点重新定位到中心轴; 法案(b)跨越:对文本实例末尾的定向搜索; 动作(c)滑动:通过沿中心轴滑动圆形来重建;
文章图片
- 馈送之后,网络输出TCL,TR以及几何图,对于TCL和TR,阈值分别设为T_tcl和T_tr,接着,TCL和TR的交叉点给出TCL最后的预测。通过并查集,可以有效把TCL像素分割进不同的文本实例。最后,StridingAlgorithm被设计以提取用来表示文本实例形状和进程(course)的有序点,同时重建文本实例区域;
- StridingAlgorithm的流程如上图所示。它主要包含3个部分:Act(a)Centralizing,Act(b)Striding和Act(c)Sliding。首先,本文随机选择一个像素作为起点,并将其中心化。接着,搜索过程分支为两个相反的方向——striding和centralizing直到结束。这一过程将在两个相反方向上生成两个有序点,并可结合以生成最终的中心轴,它符合文本的进程,并精确描述形状。
文章图片
?? TCL网络预测文本中心线,非常窄,这样做有什么好处?不会对文本检测出现边缘没有覆盖的问题么?
!!结果图示
文章图片
TextSnake对于文本实例的进程及形状的精确描述具有预测的能力,而这一能力来自于对TCL进行预测,它比整个文本实例窄很多,这样做有两个优点:
- 纤细的 TCL 可以更好地描述进程和形状;
- TCL 彼此不会重叠,因此实例分割得以一种十分简单而直接的方式完成,由此简化 pipeline.
Total-Text
文章图片
CTW1500
文章图片
MSRA-TD500
文章图片
ICDAR 2015
【Deep|TextSnake文本检测】
文章图片
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- 第二阶段day1总结
- iOS富文本为html时,修改默认字体颜色
- 联邦学习|【阅读笔记】Towards Efficient and Privacy-preserving Federated Deep Learning
- Mac下怎么新建|Mac下怎么新建 .txt 文本文件
- 使用NSAttributedString富文本踩到的坑
- Android将文本中的URL转换为超链接工具类(原文本有超链接标签也适用)
- r语言|手把手(R语言文本挖掘和词云可视化实践)
- 算法|GraphEmbedding - DeepWalk 图文详解
- 论文查重python文本相似性计算simhash源码