头部背景图片
logme's blog |
logme's blog |

M2Det, A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

研究出发点

特征金字塔(Feature pyramids)可以减轻目标实例大小多变的问题,广泛地运用于主流的目标检测器中(如DSSD, RetinaNet, RefineDet, Mask R-CNN, DetNet),虽然使用特征金字塔使这些目标检测器获得了不错的效果,但是作者认为目前金字塔的设计都是基于固有的、应用于分类任务中的多尺度特征的简单融合,在目标检测任务中有一定的限制,因此作者提出了新的多等级特征金字塔网络,并且在SSD的基础上采用该金字塔网络,单模型的mAP达到了41%。

image-20190320200112418

四种常用的特征金字塔,a是SSD中采用的特征金字塔,b是FPN中的特征金字塔,cSTDN中的特征金字塔,d是本文提出的方法MLFPN

具体方法

模型的总体框架图如下(VGG作为基础网络):

image-20190320200701601

  1. FFMv1模块用于融合主网络的输出。FFMv1模块的输入为基础网络的较深层和较浅层的大小不同的特征图,用于提供多级的语义信息(multi-level semantic information),FFMv1模块首先采用1x1的卷积核用于降低特征图的维度,然后对较小的特征图进行上采样,最后在通道方向拼接两个特征图,获得Base Feature,作为MLFPN的输入。

    image-20190320204301694

  2. TUM模块用于获得更深层次的语义信息(深层通常有更强的语义信息)和浅层的定位信息TUM模块产生一些具有不同规模的特征图。TUM模块可以有多级,其中第一级别的TUM的输入信息只来源于Base Feature,第2级别之后的TUM的输入为上一级别的TUM模块的输出的最大的feature map和Base Feature拼接后的结果(使用FFMv2模块进行拼接)。

    image-20190320211157729

    TUM模块首先采用卷积层进行下采样,然后采用Blinear插值的方向进行下采样,然后把整个过程中的相同大小的Feature Map进行逐元素相加,再采用1x1大小的卷积核进行降维获取特征金字塔。

  3. FFMv2模块用于融合TUM输出的最大的feature map和Base Feature,采用1x1的卷积核进行降维使用拼接操作进行融合。image-20190320212756577

  4. Base Feature经过TUM之后,形成了多尺度(特征图大小)多层次(深度)(multi-scale and multi-scale)的特征金字塔信息,使用SFAM(Scale-wise Feature Aggregation Module)对不同尺度的特征进行重组和融合。基本操作是对不同深度TUM的输出,将相同尺度的特征进行concat,然后使用SE Attention对不同通道进行加权,得到最后的输出。

    image-20190320213704337

实验结果

  1. 不同模型的实验结果

    image-20190320214049799

  2. 速度

image-20190320214107112

总结

  1. MLFPN可以作为一种结合低层定位信息高层语义信息的方法,可以应用于目标检测和语义分割等既需要语义信息,又需要位置信息的应用。
  2. 多层次方面,使用FFMv2模块对TUM的特征和Base Feature的融合过程中,能否提出更有效的融合方式,比如考虑细节复杂的物体主要存在于更深层次中,在深层特征中减小浅层存在物体的权重。
  3. 能否直接使用TUM模块对图片进行特征提取?
avatar yt.zhang log what I am interested.