searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

基于深度学习的视频语义分割技术

2023-08-11 02:27:07
169
0

一、  背景介绍

        视频语义分割是当前比较火热的技术,在行人检测、自动驾驶、医学影像分析等领域发挥着重要作用。近年来,在自然图像与医学图像领域,基于深度学习网络的语义分割算法达到了较高的分割精度。然而,现有的一些图像分割网络模型主要是针对不连续的单帧图像进行推理解析。与图像语义分割任务相比,视频场景下的语义分割任务往往对网络模型的解析精度与推理速度提出了更高的要求,因此,如何将图像语义分割技术进行扩展并成功应用到低延迟的视频语义分割,是计算机视觉领域一个具有挑战性的研究课题。

图1 视频语义分割示意图

        视频数据是由一系列时间和空间连续的视频帧组成。对于视频数据分割任务来说,许多传统的语义分割方法对视频进行逐帧解析,没有有效利用视频数据的时序信息,通常只提取图像的空间特征。没有考虑到分割结果的时空一致性,往往精度不够理想。而且一些图像语义分割模型庞大,计算代价较大不能满足高实时性的视频语义分割任务需要。

        视频连续帧之间具有的时间上下文信息关联,并且连续帧中的语义分割目标具有空间上下文信息的关联。利用视频连续帧之间特有的时间上下文信息,使网络模型能够辨别视频帧之间具有相同空间特征的不同分割目标或者补偿当前帧分割不准的情况,实现特征增强的作用。下文将概述三种利用视频连续帧时序信息的方法。

二、  基于深度学习的视频语义分割技术

(一)  特征映射

最近的语义分割研究表明[[1]],卷积神经网络的中间语义特征在视频的连续帧上变化缓慢且连续,特别是对于深层次的卷积神经网络,基于这个发现,Gadde[[2]]等人提出利用相邻帧的中间层特征组合以提高图像语义分割的精度,尤其是在语义对象的细节与边缘处。具体地,作者提出了NetWarp模块,该模块利用光流提供的像素对应关系来组合相邻帧的中间特征表示,并与常见的图像分割网络进行组合,其中光流是由于场景中目标的运动所产生的一序列连续变化的信息,定义为图像像素点灰度值的瞬时变化率。如图2所示,NetWarp模块通常嵌入到视频的连续帧之间,并且可以置于图像分割网络的任意卷积层的前面或者后面,利用相邻帧的光流把前一帧的特征映射到当前帧,从而利用时序信息增强当前帧的语义特征。

图2 使用NetWarp模块利用相邻帧的时序信息

(二)  时空变换器门控递归单元

       由于视频数据的连续性,相邻帧之间存在大量冗余信息,因此获取显著差异性的目标区域信息对于提高分割精度至关重要,基于此,Nilsson等人[[3]]提出捕获连续帧显著差异区域的时空变换器门控递归单元(Spatio-Temporal Transformer Gated Recurrent Unit,STGRU)。与上述特征映射方法对神经网络的中间语义特征进行融合不同,STGRU模块是对连续帧的分割结果进行优化处理。处理过程如图3所示,首先计算相邻两帧图像的分割结果和以及相邻视频帧的光流,其次利用时空变换器把前一帧的分割结果通过光流映射为分割图,分割图和中包含的信息具有显著的冗余,它们可能包含互补信息,如正确分割的区域和视频帧之间发生显著运动的区域。将和输入门控递归单元得到当前帧优化后的分割结果。

3 时空变换器门控递归单元结构

(三)  预测学习

        由于视频数据的连续性,可以使用现有的视频序列生成未知的视频帧,基于此,Jin[[4]]等人提出了基于预测特征学习的语义分割模型。该模型通过生成对抗网络(Generative Adversarial Networks, GAN[[5]]对连续的视频序列进行生成判别学习,即预测学习,以捕捉丰富的视频动态变化以及对视频语义分割至关重要的时间特征。如图4示,基于预测学习的视频分割网络包含两个阶段,第一个阶段为无监督预测学习,给定连续的视频序列到,使用类似GAN的架构来预测视频帧,实现对时间特征的学习。具体地,首先使用预测学习网络(CNN1)提取连续视频帧的特征,使用上采样操作对特征图进行放大,接着使用卷积操作生成与输入相同大小的预测图像,最后利用判别器D判别生成器G生成的预测图像与时刻真实图像的差异。在第二个阶段中,为了进一步使CNN1适应视频语义分割任务,使用先前的视频序列来预测当前带标注的视频帧的分割结果,这一过程为有监督学习。同时将CNN1与一个标准的图像分割网络(CNN2)组合使用,CNN2同样包括特征编码器、上采样层、输出卷积层三个部分。通过连接层,CNN1将其学习到的时间特征传递给CNN2,实现了对于视频中的时间上下文的可描述性和对于单个视频帧局部像素的可辨别性。

4 基于预测学习的视频分割网络结构

三、  应用结果

        图5为特征映射技术在Cityscapes数据集的定性分析结果,相较于不使用特征映射结构的PSPNet(第三列),加入特征映射能够获得更精确的分割结果(第四列)。表1为特征映射技术在Cityscapes数据集的定量分析结果,使用特征映射技术的NetWarp(Ours)取得了最高的iIoU指标。

5 Cityscapes数据集的定性结果。通过特征映射优化错误分割区域[2]

1 Cityscapes测试数据集的定量结果

参考文献

  • Shelhamer E, Rakelly K, Hoffman J, et al. Clockwork convnets for video semantic segmentation. European Conference on Computer Vision, Springer, Cham, 2016, 852-868
  • Gadde R, Jampani V, Gehler P V. Semantic video cnns through representation warping. Proceedings of the IEEE International Conference on Computer Vision, 2017, 4453-4462
  • Nilsson D, Sminchisescu C. Semantic video segmentation by gated recurrent flow propagation. Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, 6819-6828
  • Jin X, Li X, Xiao H, et al. Video scene parsing with predictive feature learning. Proceedings of the IEEE International Conference on Computer Vision, 2017, 5580-5588
  • 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络 GAN 的研究进展与展望. 自动化学报, 2017, 43(3): 321-332
0条评论
0 / 1000
谢****廉
3文章数
1粉丝数
谢****廉
3 文章 | 1 粉丝
谢****廉
3文章数
1粉丝数
谢****廉
3 文章 | 1 粉丝
原创

基于深度学习的视频语义分割技术

2023-08-11 02:27:07
169
0

一、  背景介绍

        视频语义分割是当前比较火热的技术,在行人检测、自动驾驶、医学影像分析等领域发挥着重要作用。近年来,在自然图像与医学图像领域,基于深度学习网络的语义分割算法达到了较高的分割精度。然而,现有的一些图像分割网络模型主要是针对不连续的单帧图像进行推理解析。与图像语义分割任务相比,视频场景下的语义分割任务往往对网络模型的解析精度与推理速度提出了更高的要求,因此,如何将图像语义分割技术进行扩展并成功应用到低延迟的视频语义分割,是计算机视觉领域一个具有挑战性的研究课题。

图1 视频语义分割示意图

        视频数据是由一系列时间和空间连续的视频帧组成。对于视频数据分割任务来说,许多传统的语义分割方法对视频进行逐帧解析,没有有效利用视频数据的时序信息,通常只提取图像的空间特征。没有考虑到分割结果的时空一致性,往往精度不够理想。而且一些图像语义分割模型庞大,计算代价较大不能满足高实时性的视频语义分割任务需要。

        视频连续帧之间具有的时间上下文信息关联,并且连续帧中的语义分割目标具有空间上下文信息的关联。利用视频连续帧之间特有的时间上下文信息,使网络模型能够辨别视频帧之间具有相同空间特征的不同分割目标或者补偿当前帧分割不准的情况,实现特征增强的作用。下文将概述三种利用视频连续帧时序信息的方法。

二、  基于深度学习的视频语义分割技术

(一)  特征映射

最近的语义分割研究表明[[1]],卷积神经网络的中间语义特征在视频的连续帧上变化缓慢且连续,特别是对于深层次的卷积神经网络,基于这个发现,Gadde[[2]]等人提出利用相邻帧的中间层特征组合以提高图像语义分割的精度,尤其是在语义对象的细节与边缘处。具体地,作者提出了NetWarp模块,该模块利用光流提供的像素对应关系来组合相邻帧的中间特征表示,并与常见的图像分割网络进行组合,其中光流是由于场景中目标的运动所产生的一序列连续变化的信息,定义为图像像素点灰度值的瞬时变化率。如图2所示,NetWarp模块通常嵌入到视频的连续帧之间,并且可以置于图像分割网络的任意卷积层的前面或者后面,利用相邻帧的光流把前一帧的特征映射到当前帧,从而利用时序信息增强当前帧的语义特征。

图2 使用NetWarp模块利用相邻帧的时序信息

(二)  时空变换器门控递归单元

       由于视频数据的连续性,相邻帧之间存在大量冗余信息,因此获取显著差异性的目标区域信息对于提高分割精度至关重要,基于此,Nilsson等人[[3]]提出捕获连续帧显著差异区域的时空变换器门控递归单元(Spatio-Temporal Transformer Gated Recurrent Unit,STGRU)。与上述特征映射方法对神经网络的中间语义特征进行融合不同,STGRU模块是对连续帧的分割结果进行优化处理。处理过程如图3所示,首先计算相邻两帧图像的分割结果和以及相邻视频帧的光流,其次利用时空变换器把前一帧的分割结果通过光流映射为分割图,分割图和中包含的信息具有显著的冗余,它们可能包含互补信息,如正确分割的区域和视频帧之间发生显著运动的区域。将和输入门控递归单元得到当前帧优化后的分割结果。

3 时空变换器门控递归单元结构

(三)  预测学习

        由于视频数据的连续性,可以使用现有的视频序列生成未知的视频帧,基于此,Jin[[4]]等人提出了基于预测特征学习的语义分割模型。该模型通过生成对抗网络(Generative Adversarial Networks, GAN[[5]]对连续的视频序列进行生成判别学习,即预测学习,以捕捉丰富的视频动态变化以及对视频语义分割至关重要的时间特征。如图4示,基于预测学习的视频分割网络包含两个阶段,第一个阶段为无监督预测学习,给定连续的视频序列到,使用类似GAN的架构来预测视频帧,实现对时间特征的学习。具体地,首先使用预测学习网络(CNN1)提取连续视频帧的特征,使用上采样操作对特征图进行放大,接着使用卷积操作生成与输入相同大小的预测图像,最后利用判别器D判别生成器G生成的预测图像与时刻真实图像的差异。在第二个阶段中,为了进一步使CNN1适应视频语义分割任务,使用先前的视频序列来预测当前带标注的视频帧的分割结果,这一过程为有监督学习。同时将CNN1与一个标准的图像分割网络(CNN2)组合使用,CNN2同样包括特征编码器、上采样层、输出卷积层三个部分。通过连接层,CNN1将其学习到的时间特征传递给CNN2,实现了对于视频中的时间上下文的可描述性和对于单个视频帧局部像素的可辨别性。

4 基于预测学习的视频分割网络结构

三、  应用结果

        图5为特征映射技术在Cityscapes数据集的定性分析结果,相较于不使用特征映射结构的PSPNet(第三列),加入特征映射能够获得更精确的分割结果(第四列)。表1为特征映射技术在Cityscapes数据集的定量分析结果,使用特征映射技术的NetWarp(Ours)取得了最高的iIoU指标。

5 Cityscapes数据集的定性结果。通过特征映射优化错误分割区域[2]

1 Cityscapes测试数据集的定量结果

参考文献

  • Shelhamer E, Rakelly K, Hoffman J, et al. Clockwork convnets for video semantic segmentation. European Conference on Computer Vision, Springer, Cham, 2016, 852-868
  • Gadde R, Jampani V, Gehler P V. Semantic video cnns through representation warping. Proceedings of the IEEE International Conference on Computer Vision, 2017, 4453-4462
  • Nilsson D, Sminchisescu C. Semantic video segmentation by gated recurrent flow propagation. Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, 6819-6828
  • Jin X, Li X, Xiao H, et al. Video scene parsing with predictive feature learning. Proceedings of the IEEE International Conference on Computer Vision, 2017, 5580-5588
  • 王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络 GAN 的研究进展与展望. 自动化学报, 2017, 43(3): 321-332
文章来自个人专栏
深度学习/C++开发
3 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0