欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

DeepText原理

几乎是Faster R-CNN的翻版,论文见参考部分。。

网络结构

论文的方法是通过生成字(word)级别的检测框,为了生成高召回的候选框,提出了Inception-RPN结构。

QQ20170510-165630

特点

  • 先验候选bounding box,生成24种,保证宽度大于等于高度
  • Inception-RPN网络,模仿Inception结构构造RPN网络,只用了单层结构,单层还好,据说多层Inception不适合做检测;IoU \(\in [0.5,1]\) 为正样本,IoU \(\in [0,0.3]\) 为负样本
  • Detection网络训练样本的生成稍微和别的不太一样,IoU \(\in [0.5,1]\) 为正样本,IoU \(\in [0.2,5]\) 为「模糊样本」,IoU \(\in [0,0.2]\) 位负样本(背景)。原因就是字符本身的特殊性,因为一个文本段的片段也可以看做一个完整的文本段(有点递归的意思)。
  • 类似Faster R-CNN少不了ROI Pooling层,这里使用了两次ROI Pooling,分别从conv_5和conv_4作为输入,然后通过一个1x1的卷积层,从1024个feature map变为512个feature map作为后面全连接的输入。

训练过程

QQ20170510-203438

在第4步的时候,如果阈值过滤之后 \(D_i\) 为空,需要一些防御代码,可以通过ground truth生成进行补足。

参考

《DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images》

http://lufo.me/2017/02/text_detect/

未经允许不得转载:大数据算法 » DeepText原理

分享到:更多 ()

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站