Convolutional Neural Pyramid for Image Processing

Jia jiaya组xiaoyong shen的CVPR17文章,主要通过金字塔卷积的方式来快速增加可视野;区别于传统的通过大kernel和增加层数的方法,这样增加可视野可以不至于导致大量的参数和运算的引入。

Abstract

我们提出重要的卷积神经金字塔的框架用于low-level的vision和图像处理问题。重要发现表明,很多应用挖掘结构性信息需要大的感受野;而单纯堆叠卷积层或者用大的卷积核会带来计算量的巨大消耗。我们的金字塔结构可以快速增大感受野而不牺牲运算有效性。额外的增益包括了自适应金字塔深度和步骤性上采样使得对于VGA-SIZE的图像做到实时。这种方法可以应用于一系列的应用包括深度图恢复、图像补全和去噪、边缘增强等。

Methodology


这个金字塔结构主要包括特征提取、匹配映射和重建三个基本步骤,特征提取还是正常的卷积,在L0时不能使用任何pooling相关的操作(会丢失信息);下采样的操作可以使用步长为2的卷积或者max pooling,发现max pooling较好;匹配过程的输出都是56 kernel的feature map方便之后重建,另外level越大,feature map size越小,增加的运算量也小,使得depth adaptive;上采样直接使用了deconvolution layer;重建的时候可以使用pixel-wise sum或者concatenate,发现用sum较好;最后加两层卷积来生成对应数量通道的desire output.

Experiment

比较了不同深度的金字塔结构带来的运算和效果,5 level可以达到511*511的感受野,这是指数上升的,但内存和运算量都是越深增加得越慢,而且证明只使用一层金字塔结构就可以达到很不错的效果了。

至于网络的损失函数在使用像素L2同时,也使用了梯度图像的L2,前者确保PSNR,后者确保图像足够sharp。

总结:这个论文结合了传统的multi-scale或者金字塔的多尺度,这些都是肯定可用有效的结构信息,所以不难想到能提高,主要前几层下采样的feature map开销还是有的;相当来说把很深很瘦的网络,拉宽变浅,也变得更紧致了。

坚持分享,支持原创