随着深度学习的迅速发展,遥感影像中的建筑物变化检测也由传统方法发展到了深度学习中,目前基于深度学习算法对遥感影像中变化的建筑物区域进行检测的方法主要分为两种,一种是端到端的一阶段变化检测,即直接将不同时相的建筑物影像图送进网络直接学习;另一种则是先分类在检测,即先分别对不同时相的影像做建筑物提取,将提取结果再做差的两阶段方法。
1、 FC系列
全卷积FC系列网络即FC-EF,FC-Siam-conc、FC-siam-diff三种端到端的网络,均是由Daudt等人基于U-Net网络提出的改进版的变化检测网络。其中,FC-EF是将不同时相的影像图先进行通道叠加再送进网络进行训练学习差异;而FC-Siam-conc、FC-siam-diff则是先进行了孪生网络的学习再进行合并学习,具体来说,将两张不同时相的影像图分别送入Siam网络的两个具有相同网络结构的分支中进行学习,并共享学习参数,最后再将二者进行合并进行卷积操作学习,conc和diff的不同之处在于,跳跃连接方式的不同,conc采用的是将孪生网络两个分支每层的输出的两个特征图和对应分辨率大小的解码部分特征图进行级联操作;diff则是先将孪生网络两个分支每层的输出的特征映射做差值,再与解码器对应层级特征进行级联。三种全卷积网络结构如图1-1所示。
图1-1 FC系列网络结构图
2、 STANet网络
STANet网络是由chen等人提出的一种新的变化检测结构,在孪生网络的基础上添加了时空注意力模块,利用时空之间的依赖关系,生成更具表现力的区域变化特征。网络结构图如图2-1所示。
图2-1 STANet网络
由图2-1所知,不同时相的影像T1,T2分别输入进孪生网络的两个分支网络即特征提取网络,此特征提取层采用的是深度残差网络Resnet网络构造的FCN网络,只采用Resnet18的前五层网络,去掉了全连接层和全局池化后生成来自T1和T2影像的特征图X1,X2;然后将两个特征图进行合成,生成新的特征图X,之后将其送进作者构建的金字塔时空注意力模块(PAM),网络结构如图2-2所示。特征映射信息通过PAM 模块,变成分辨率大小不同的特征信息,有效的聚合了上下文全局信息,类似于PPM结构,将特征图划分为四个尺度不同的子区域,并将每个子区域的输出送进作者构建的时空自注意力模块(BAM),得到不同尺度下的变化和非变化区域局部信息,之后将其进行concat操作,生成新的特征映射,之后将其送入1×1的卷积层,并将得到的输出特征Y与原始的输入特征X进行级联,得到金字塔时空注意力模块的输出特征向量Z。其中,BAM的网络结构图如图2-3所示,其主要用来学习影像图中像素关系的空间特性,捕获全局空间的依赖关系,进而获得光照不变性和提高配准的稳定性;最后将经过时空注意力模块输出的特征图Z1,Z2进行度量学习,计算两个时相特征图的欧氏距离,其中距离小的代表未发生变化的区域,距离大则是发生变化的区域,最终生成预测结果图。
图2-2 PAM网络结构图
图2-3 BAM网络结构图
3、DASNet
DASNet网络是基于双注意力全卷积孪生神经网络的变化检测模型,该网络的提出主要解决伪变化信息的鲁棒性。网络结构如图3-1所示。该网络选择VGG16和PesNet50为基本网络,对于VGG16,我们只保留前五个卷积模块,并删除最后一个模块的最大池层。在前五个卷积模块中,卷积核的大小为3×3。对于ResNet50,我们删除了下采样操作,并在最后两个ResNet块中使用扩展卷积。然后,将由空间注意力模块和通道注意力模块组成的双注意力模块连接到Siam Conv以形成完整的DSANet。对于空间注意力模块,采用自注意力类似的结构,但是去掉均值化操作,并且每个位置处的所得特征Fsa是所有位置处的特征和原始特征的加权和的结果,这样它具有全局上下文视图,并基于空间注意力图选择性地聚合上下文。相似的语义特征相互促进,这提高了类内的紧凑性和语义一致性,并使网络能够更好地区分变化和伪变化。通道注意力模块则将多个通道信息经过Reshape操作融合在一起,建立通道之间的联系,因为每个高级特征通道映射可以被视为对地面对象的响应,并且语义响应彼此相关。通过利用通道图之间的相关性,可以增强相互依赖的特征图,并且可以改进具有特定语义的特征表示,以更好地区分变化。
图3-1 DASNet网络结构图