论文阅读

2 minute read

Published:

第一周

Large kernel matters(2017)

主要贡献:提出了一个Global convolutional networks,使用residual-based的方法改进边缘分割效果。 Pasted Graphic 5.png 解决问题:普通的卷积网络特征图感受野不够大,无法覆盖整个目标。 亮点:不直接使用k x k 卷积,而是使用1xk, kx1, 计算复杂度降为O( k/2 )

当图像被放大时,传统卷积的感受野不够大,无法包围住整个目标。使用GCN后,感受野增大: Pasted Graphic 6.png 使用BR模块来优化边界,并用实验证明了BR模块对边界分割效果的改善。

[Pasted image 20230716190100.png]

模型架构 [Pasted image 20230716190205.png] 实验部分: [Pasted Graphic 15.png] 做了不同大小k的对比实验,验证k越大,效果越好。(1xk,kx1卷积)

实验证明模型性能的提升不是因为参数的增加,使用conv层实现相同的感受野,证明了GCN的效果不是靠单纯增加参数就能实现的。 [Pasted Graphic 16.png] BR模块的消融实验,验证了BR模块的有效性 [Pasted Graphic 9.png] 读后感:阅读这篇论文后想到自己之前的实验。图中U-Net存在空洞,可能是因为网络有效感受野不够大。空洞的部分和其周围相似度较大,所以被分类成了无效类别。 [Pasted Graphic 8.png]

——————————————————————————————————————————————————

Non-local Neural Networks (2018)

[Pasted image 20230716191419.png] non-local概念:区别于local,只对周围一部分区域做计算,non-local是对全局做计算。 举例:3 x 3 卷积就是local计算,全连接层就是non-local计算。

优点:non-local可以带来全局信息,增大感受野。

使用多层卷积或大size卷积也能实现non-local计算,但计算代价大,效率低,难以训练

non-local计算式: [Pasted Graphic 14.png] [Pasted Graphic 10.png] 区别于全连接层,non-local 计算不同位置向量的关系,而全连接层使用学习到的参数进行计算。 [Pasted Graphic 13.png]

图片展示了视频中某一帧的某个像素对应的20个最大的权重像素,显示了模型是如何在视频序列中找到线索来支持它的预测: [Pasted Graphic 18.png]

优点:文中提出的 non-local block 是一个灵活的块,其输入维度和输出维度相同,可以简单的插入到现有的网络中。计算效率高。是自注意力机制的泛化表示。

实验baseline:ResNet-50 [Pasted image 20230716191811.png] 消融实验:证明non-local block 在视频分类,目标检测,语义分割上都相对于baseline有提升

————————————————————————————————————————————————

第二周

PSANet: Point-wise Spatial Attention Network for Scene Parsing(2018)引用量944

  • Motivation:仍然是增大感受野,获得全局信息

公式:[Pasted image 20230717105108.png] 最终简化为:[Pasted image 20230717105229.png] PSA模块的核心思想:[Pasted image 20230717110023.png]

  • 主要贡献:提出了一个PSA module [Pasted image 20230717103823.png] 具体计算: [Pasted image 20230717105032.png]

  • 模型结构: [Pasted image 20230717103701.png]

实验部分:Cityspace数据集 [Pasted image 20230717094018.png]

发现一个bug:没有和denseASPP做对比。

paperwithcode显示DenseASPP已经达到80.6的精度(都是fine_train set only) [Pasted image 20230717094920.png]

PSANet也有出现在榜单上,mIoU为80.1,与文中相符。 [Pasted image 20230717094311.png]

————————————————————————————————————————————————

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation (2018) 引用量1828

文章贡献:提出了一个双边分割网络,一遍精细化提特征,另一边快速下采样,最后使用文中提出的特征融合模块来融合。在推理速度上比当下相同精度的网络快很多。

[Pasted image 20230717125120.png] 一般加速网络的方法有三种: (1) 减少输入图片的大小,牺牲了原始的细节信息。 (2)减少通道维数,特别是早期的通道位数,牺牲了空间信息的容量 (3)如上图(a),ENet直接采取丢弃最后一个stage,牺牲了感受野大小

本文提出的方法: [Pasted image 20230717142250.png] 分别有两条路,Spatial Path 和 Context Path,spatial path用于提取细节特征,context path用于提取总体背景特征。

在cityspace数据集上与其他模型的比较结果。精度在不掉太多的情况下比其他网络快了很多。 [Pasted image 20230717145718.png]

————————————————————————————————————————————————

第三周

Expectation-Maximization Attention Networks for Semantic Segmentation (2019)

EMANet

出发点:non-local获取的特征不够紧凑,像素特征被一组过完备的基进行了重构。这组基数目巨大,且存在大量信息冗余。 [Pasted image 20230724093820.png]

本文所提出的期望最大化注意力机制(EMA),摒弃了在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,从而大大降低了复杂度。其中,E步更新注意力图,M步更新这组基。E、M交替执行,收敛之后用来重建特征图。本文把这一机制嵌入网络中,构造出轻量且易实现的EMA Unit。其作为语义分割头,在多个数据集上取得了较高的精度。

期望最大化算法(EM)

E步:根据当前参数$\theta$计算隐变量 $Z$ 的后验分布,并以之寻找完整数据的似然$Q(\theta,\theta^{old})$ [Pasted image 20230724110340.png]

M步:最大化似然函数来更新参数 [Pasted image 20230724110352.png] EM算法被证明会收敛到局部最大值处,且迭代过程完整数据似然值单调递增。

一个简单理解EM算法的方法是K-means,每个聚类的中心就是一个隐变量,我们会假设𝐾个初始化质心,即EM算法的E步;然后计算得到每个样本最近的质心,并把样本聚类到最近的这个质心,即EM算法的M步。重复这个E步和M步,直到质心不再变化为止,这样就完成了K-Means聚类。

EMA模块: [Pasted image 20230724122959.png] $A_E$计算隐变量,$A_M$更新$\mu$ ,$A_R$聚合上下两个部分。

通过期望最大化算法,相比于nonlocal,获得的特征比较紧凑,计算复杂度从O(N²)下降到O(KN)。

实验对比: [Pasted image 20230724123514.png]

————————————————————————————————————————————————

Dynamic Multi-scale Filters for Semantic Segmentation(2019)

DMNet

出发点:目前的CNN感受野都相同,没有根据图像输入大小自适应地改变感受野。普通的卷积核感受野太小,ASPP模块虽然感受野大,但是过于稀疏的卷积核会导致邻近信息的损失。 [Pasted image 20230724154958.png] 本文提出了自适应感受野的概念,提出了一个动态尺度网络,和动态尺度模块,并在 PASCAL VOC 2012, Pascal-Context, ADE20K 3个数据集获得了SOTA的性能。

[Pasted image 20230724155238.png]

实验: PASCAL-VOC-2012 [Pasted image 20230724162755.png] PASCAL-CONTEXT[Pasted image 20230724162117.png] ADE20K [Pasted image 20230724162008.png] ————————————————————————————————————————————————

第四周

Deep High-Resolution Representation Learning for Visual Recognition(HRNet)2020

出发点:高分辨率对于位置敏感的任务非常重要。但现有网络大多是对低分辨率的特征图进行重建获得结果。

本文贡献:提出了一个高分辨率网络,该网络并行计算高分辨率路径和低分辨率路径。在不同的视觉任务中都获得了SOTA的性能。 [Pasted image 20230730153824.png]

图像分割任务: [Pasted image 20230730153906.png] 关于计算量:计算量较小的原因可能是因为层数少,而且高分辨率特征图维度不高,所以计算量也不多。

————————————————————————————————————————————————

YOLACT Real-time Instance Segmentation(2019)

特点:实例分割,非常快,就像yolo在目标检测中的地位一样

MASK-RCNN:两阶段[Pasted image 20230731112612.png]

YOLACT:单阶段 [Pasted image 20230731110718.png]

性能:[Pasted image 20230731112823.png]————————————————————————————————————————————————

第五周

Rethinking BiSeNet For Real-time Semantic Segmentation(2021)

本文贡献:继续在BiSeNet的基础上提高推理速度。提出一个STDC模块。在浅层使用图像细节信息做监督。 [Pasted image 20230807174519.png] 作者认为BiSeNet的spatial path存在计算量大,计算慢的问题。在新的网络中取消了spatial path,使用图像细节信息来监督浅层特征图作为替代。

BiSeNet回顾 [Pasted image 20230807201313.png]

[Pasted image 20230807174540.png] [Pasted image 20230807192206.png] [Pasted image 20230807174755.png][Pasted image 20230807174855.png]———————————————————————————————————————

第六周

MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers(2021)

文章特点:单阶段的全景分割 [Pasted image 20230810170549.png]

全景分割任务详解

全景分割的定义:

  • 全景分割包含stuffthings
  • stuff:具有类似纹理或材料的无定形区域,如草地、天空和道路。(不可数)
  • things:人、动物、工具等物体。(可数)

全景分割和实例分割的区别:

  • 实例分割获得的mask是可重叠的,而全景分割获得的mask是不重叠的 [Pasted image 20230810170819.png] 和语义分割的区别:
  • 语义分割是全景分割的子集,如果全景分割任务中的所有类别都属于stuff,那么该任务跟语义分割等价。

主要方法: MaX-Deeplab参考了DETR,将二分图匹配的方法应用到全景分割中,实现了单阶段的全景分割。

  • 二分图匹配:以下是一张简单的二分图 [Pasted image 20230821135953.png|400]

  • 匹配后计算IOU,TP,FP,FN: [Pasted image 20230821183717.png|]
  • PQ-loss(全景分割的衡量指标): \(PQ= \frac {\sum _ {(p,g)\in TP}IoU(p,g)}{|TP|+\frac {1}{2}|FP|+\frac {1}{2}|FN|}\)
  • MaX-Deeplab模型架构: [Pasted image 20230821141621.png|500] ———————————————————————————————————————

    Masked Autoencoders Are Scalable Vision Learners(MAE)

    [Pasted image 20230821144300.png] 自监督学习,通过随机mask掉图像中的patch,经过一个ViT的encoder获取embeding后使用一个简单设计的decoder来恢复图像。 MAE采用的masking策略是简单的随机mask:基于均匀分布从图像的patchs随机抽样一部分patchs进行mask。每个被mask的patch采用mask token来替代,mask token是一个共享且可学习的向量。 [Pasted image 20230821145107.png]

[Pasted image 20230821150006.png]

迁移学习能力:论文选择ViT-Large(ViT-L/16)进行无监督预训练,然后进行监督训练以评估encoder的表征能力,包括常用linear probing和finetune两个实验结果。下表是baseline MAE方法的实验结果,可以看到经过MAE预训练后finetune的效果要超过直接从头训练(84.9 vs 82.5):

[Pasted image 20230821150157.png]

masking ratio的对比实验,从下图可以看到,最优的设置是75%的masking ratio,此时linear probing和finetune效果最好,这比之前的研究要高很多,比如BEiT的masking ratio是40%。另外也可以看到linear probing和finetune的表现不一样,linear probing效果随着masking ratio的增加逐渐提高直至一个峰值后出现下降,而finetune效果在不同making ratio下差异小,masking ratio在40%~80%范围内均能表现较好。 [Pasted image 20230821150811.png|500] mask采样策略的不同会影响生成的效果,可以看出随机mask策略是效果最好的 [Pasted image 20230821154254.png|600] 训练策略:作者尝试了100-1600个epoch的预训练过程,发现精度会随着预训练的epoch增加而增加。 [Pasted image 20230821154547.png] ————————————————————————————————————————

第七周

X-Decoder

[Pasted image 20230827153103.png]

X-Decoder的出发点:当前不同细粒度的模型都是分开训练,没有很好的融合不同任务学到的知识。 本文意在运用多任务学习,序列解码或统一学习策略来建立一个通用的模型,使其可以被应用于不同的视觉及视觉-文本任务。

文章/模型主要特点:

  • (1) 在7个数据集上达到了开放性词汇分割的最好效果
  • (2) 与通用或专用的模型相比,在分割和VL任务上finetune能得到相同或更好的效果
  • (3) 能够灵活且高效地finetune,并且能与新颖的任务结合(referring captioning = referring segmentation + captioning) [Pasted image 20230827171037.png] X-Decoder的主要设计:
  • 两种类型的query输入:Latent Queried 和 Text Queries
  • 两种类型的输出:Semantic Outputs 和 Pixel-Level Outputs
  • 对所有文本语料使用单一的编码器:包括类概念,引用短语和图像标题
  • 将图像编码器和文本编码器解耦,以适应跨图像任务(image-text referring)或图像内任务(segmentation,captioning)

根据不同的任务使用不同的输入和输出: [Pasted image 20230828144246.png]

  • 通用分割使用==图像特征==和==潜queries==: [Pasted image 20230828144447.png|400]
  • referring segmentation 使用 ==图像特征==, ==潜queries==和==文本queries==
  • 图文检索使用==图像特征==, ==潜queries==,并且只使用semantic outputs
  • image captioning 使用==图像特征==, ==潜queries==和==文本queries==,并且输出的==semantic outputs==和==文本queries== size相同

训练数据:

  • 全景分割数据, referring segmentation, 图片-文字对

Loss:

  • semantic loss: image-text retrieval:
    • [Pasted image 20230828122325.png|480] mask classification:
    • [Pasted image 20230828122413.png|300] image captioning:
    • ![[Pasted image 20230828122426.png300]](Pasted image 20230828122426.png)
  • mask loss:
    • 先做二分图匹配,再做交叉熵损失和dice loss

实验效果图:

  • Referring Editing [Pasted image 20230827145816.png] sky->an airplane in the sky [Pasted image 20230827150035.png]

giraffe->sand [Pasted image 20230827150650.png] [Pasted image 20230827150736.png] [Pasted image 20230828145319.png]

  • Open vocabulary instance segmentation [Pasted image 20230827151319.png]

  • Open vocabulary semantic segmentation [Pasted image 20230827151515.png]

———————————————————————————————————————

SegNext:Rethinking Convolutional Attention Design for Semantic Segmentation(2022)

本文证明了卷积注意力是一种比transformer中的自注意力机制更高效、更有效的上下文信息编码方式 本文的 ==SegNeXt== 在主流数据集上,在没有任何附加功能的情况下,显著提高了以前最先进方法的性能 SegNeXt的性能超过了EfficientNet-L2 w/ NAS-FPN,在Pascal VOC 2012测试排行榜上,SegNeXt仅用1/10的参数就实现了90.6%的mIoU 在 ADE20K 数据集上,SegNeXt 在计算量相同或更少的情况下,比最先进的方法平均提高了约 2.0% mIoU

[Pasted image 20230828162402.png] 基于上表观察,本文认为一个成功的语义分割模型应具备以下特征:

  • (i) 作为编码器的强大骨干网络。与以往基于 CNN 的模型相比,基于transformer的模型的性能提升主要来自于更强的骨干网络。
  • (ii) 多尺度信息交互。图像分类任务主要是识别单个物体,而语义分割则不同,它是一项密集预测任务,因此需要处理单幅图像中不同大小的物体。
  • (iii) 空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。
  • (iv) 计算复杂度低。这一点在处理来自遥感和城市场景的高分辨率图像时尤为重要。

本文贡献:

  • 定义了优秀的分割模型中的关键特征,基于此提出了SegNeXt模型,通过多尺度卷积特征唤起空间注意力
  • 展示了简单又便宜的基于卷积的encoder比transformer的encoder更有效,特别在处理图像细节的方面
  • 模型在多个数据集(ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, and iSAID)达到了SOTA的效果

主要设计模块: [Pasted image 20230828165448.png]

作者指出,本文和segformer不同之处在于只使用了最后三个stage的特征图进行融合,因为stage1包含太多不需要的信息,而且计算stage1会带来大量额外计算开销 [Pasted image 20230828170000.png] (a) segformer (b) ASPP, DANet (c) SegNeXt1

[Pasted image 20230828171017.png]

和现有模型的比较 [Pasted image 20230828171328.png] [Pasted image 20230828171357.png]