欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

OverFeat介绍

2013年底论文OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

本论文介绍了一个基于卷积的框架,用来集成的处理识别(Recognition)、定位(Localization)、检测(Detection)三个问题,做到一个网络解决所有问题。并且通过一个卷积网络,实现对输入支持多尺度(multiscale)、滑动窗口的变换。此论文的方法赢得了ImageNet 2013分类第5名、定位任务冠军、检测任务的冠军,并且实现了一个「特征提取器」:OverFeat。竞赛详细排名:ImageNet 2013  challenges Result

 

训练数据处理

ImageNet的每一个照片一般都是有一个核心物体,并且这个物体占了中心的主要区域,兴趣物体/非核心物体(objects of interest)就会在大小和位置上变得没有明显的规则。为了解决这个问题,作者提出了三个递进的想法:

第一个想法就是,使用滑动窗口的方式在不同的位置和尺度进行卷积,从而消除object位置和大小的影响。带来的问题就是可能将一个完整的object截断(例如将一条狗的头和身体分开),并且还可能不包含这个object的主要部分。这个方式最终导致「定位」和「检测」任务的性能下降。

第二个想法是,滑动窗口中不仅仅生成一个分类标签,同时还生成相对当前「窗口」的bounding box信息。

第三个就是对这个bounding box添加可以累加的置信信息

在此论文之前,已经有一些人通过使用卷积神经网络直接预测object的「定位」精确值以及「姿势」。

分类

fast模型

分类的结构类似AlexNet,本文完善了网络结构和Inference的过程。

网络的具体参数信息:

QQ20170109-0

网络和AlexNet区别为:

  1. 没有归一化操作
  2. 没有overlapping
  3. 前两层更大的feature map(stride从4变为2)

比较诡异的一句话

Note that during training, we treat this architecture as non-spatial (output maps of size 1x1), as opposed to the inference step, which produces spatial outputs

accurate模型

QQ20170109-1

Multi-Scale Classification

AlexNet中Inference的时候通过在当前图上生成10张图(详情点我),然后在10张图的最后结果求平均。这种做法有两个问题:

  1. 有些地方被重复使用了,浪费了计算资源
  2. 每一个下图都是在原图中没有任何放缩的情况下进行切割的,可能会影响准确率

对accurate模型来说,一共进行了四次stride大于1的下采样,最后导致图片宽/高缩放了36倍=2x3x2x3. 一种直观的想法就是直接将这里缩放的结果作为特征,作为分类器的输入;但是这么做有一些武断,因为需要识别的物体可能并不是「横平竖直」的。

接下来提出来了一种方案,通过修改最后一层的pooling计算逻辑。例如一个正常的3x3的max pooling每次都会针对一个Feature Map中的3x3的区域进行下采样,如果没有overlap每个像素只会采样一次。这里介绍的特殊的3x3的pooling会采样9次,每次输入位置是(0,0)到(x,y)的矩阵,其中x和y的取值为{0,1,2},一共有九种可能。

这9种其实就是生成了9类特征,接下来就是分别在这9类feature map上面使用滑动窗口。论文中给了一个一维的例子:

QQ20170109-2

总结来说,整个网络结构可以分为两部分,前面5层生成特征,后面几层应用特征,相当于是一个分类器;前面几层想法设法减少计算量,后面几层尽可能多的使用特征(不愿意错过特征)。最终就是:不在原图上进行滑动窗口的操作,在特征上进行这个操作

高效滑动窗口

QQ20170109-3

如果一个大图输入一个小的卷积网络中,且这个网络只有卷积和池化操作,这样经过卷积之后的结果之间是「相互独立」的。

定位

定位问题和分类问题的网络前半部分是相同的,后面将原来的分类网络换为一个回归网络,直接用来预测bounding boxes。对于scale 2的一个具体例子:

QQ20170110-0

生成候选预测

生成候选预测的时候,分类和回归都会进行,对每一个候选的bounding box都会生成一个对应的分类概率(置信度)。

合并预测结果

  • 六个尺度都可以生成得分最高的top k个分类记为 \(C_s\)
  • 每个尺度都可以生成其对应的候选bounding boxes记为 \(B_s\)
  • 合并所有的 \(B_s\) ,从中任意选择两个box合并,如果满足合并条件就合并。
  • 直到不能合并就结束

其中,合并之后的box置信度和累计。

检测

未来填坑。。。

值得看的论文

使用卷积网络进行文本检测

  1. M.DelakisandC.Garcia.Textdetectionwithconvolutionalneuralnetworks.InInternationalConference on Computer Vision Theory and Applications (VISAPP 2008), 2008.

 实现

http://cilvr.nyu.edu/doku.php?id=software:overfeat:start

未经允许不得转载:大数据算法 » OverFeat介绍

分享到:更多 ()

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站