分割算法则通过分析这些用户标注信息,以及图像的颜色、纹理等特征,来自动完成目标物体的分割。一般来说,交互式分割需要分为两个阶段:前景选取和分割。在前景选取阶段,用户需要通过涂抹、画圈等方式,一般都是以点击(click)的形式为主,将目标物体标注出来。这些标注信息通常包括前景的像素点和背景的像素点。在分割阶段,分割算法会根据这些前景和背景标注信息,以及图像的颜色、纹理等特征,来自动完成对图像的分割。
仅仅列出几个有代表性的论文进行简短介绍,以大致捋清交互式分割近些年的发展脉络。
1. Deep interactive object selection. CVPR, 2016
该篇为将深度学习引入交互式分割的开山之作,贡献在于搭建了点击式交互式分割的基本pipeline,以及train/val protocol, 这些规范都沿用至今, 对后面的文章产生了深远影响。 如下图,它将positive、negative点击用distance map进行表示,和原图concat成5-channel input送进分割模型,预测目标掩膜。
核心思想是:由于第一个点击一般都会点在目标物体的中心区域,所以第一个点击提供的信息应该比其他的点击多。于是该篇文章使用第一个点击生成attention对feature进行加权,也达到了更好的分割结果。
3. Interactive image segmentation via backpropagating refinement scheme. CVPR, 2019.
4. f-brs: Rethinking backpropagating refinement for interactive segmentation. CVPR, 2020.
这两篇文章的的探索方向相同,核心思想都是: 用户施加的 postive/negative click都是有前景/背景label的,这些点击区域相当于有ground truth。所以这两篇文章利用点击点的label信息对模型参数进行在线微调。由此,模型对于特定的图片和特定的点击都会进行case by case的参数更新,从而达到更好的分割效果。
5. Reviving iterative training with mask guidance for interactive segmentation. 2021
核心思想是:用户每一次点击,模型都会有一个mask预测的结果,它也可以提供很多信息。由此,该文章在每一次点击之后将上一次点击预测的mask和连同click map, image一起concat成6-channel input输入模型。同时该文章还在loss, 以及模型结构,训练数据等细节上进行了很多探究。 相比与前面的文章,该论文取得了较大的提升。