留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应对抗学习的半监督图像语义分割

张桂梅 潘国峰

引用本文:
Citation:

基于自适应对抗学习的半监督图像语义分割

    通讯作者: 张桂梅; 
  • 中图分类号: TP391.41

Semi-supervised Image Semantic Segmentation Based on Adaptive Adversarial Learning

    Corresponding author: Gui-mei ZHANG
  • CLC number: TP391.41

  • 摘要: 现有的自适应对抗学习方法采用固定惩罚因子在不同特征层进行监督学习,并采用FCN(Fully Convolutional Networks)作为判别器的基础框架,模型缺少泛化能力,在分割较复杂场景时易造成类感染和类漂移。针对该问题,提出了一种学习率自适应的对抗学习的图像语义分割方法。该方法设计了一种类似SegNet结构的网络判别器,采用最大池化进行非线性上采样,既继承了FCN的优势,可以输入任一大小的图像,又保留了相对精细化的特征相关性信息。由于提出的模型可以通过自适应学习率调整对抗损失与交叉熵损失的权值,从而更新生成器的分割网络,所以提高了语义分割的精度;此外,提出的模型在判别器中采用了SegNet框架代替FCN框架,克服了暴力池化问题,且能够将未标记目标数据集的边缘信息引入网络结构中,从而能有效纠正网络的边缘区域,较好地保持图像的边缘细节,从而使分割结果更为精细。在PASCAL VOC2012标准数据集进行实验,并与现有的性能较好的弱监督分割模型相比,实验结果表明:本文模型能够更精细地分割出较复杂背景的目标,有效地缓解类感染和类漂移,并且有效地保留了边缘细节。
  • 图 1  本文模型的网络结构图

    图 2  判别器的网络结构图

    图 3  PASCAL VOC2012数据集的额外标注集(部分)

    图 4  语义分割结果对比

    图 5  语义分割结果对比

    表 1  在PASCAL VOC2012验证集上的实验结果

    算法MIOU /%
    FCN-8s[2]  43.0
    Dilation10[14] 56.2
    DeepLab-v2[9] 59.8
    文献[15](使用不同的损失函数)Lseg66.0
    Lseg+Ladv67.6
    Lseg+Ladv+Lsemi68.8
    本文算法Ours69.9
    下载: 导出CSV
  • [1] 姜枫,顾庆,郝慧珍,等. 基于内容的图像分割方法综述[J]. 软件学报,2017,28(1):160–183.
    [2] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,39(4):640–651.
    [3] Ronneberger O,Fischer P,Brox T. U-Net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing &Computer-assisted Intervention,2015,9351(11):234−241.
    [4] Badrinarayanan V,Kendall A,Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,39(9):2481–2495.
    [5] 曲仕茹,席玉玲,丁松涛. 基于深度学习的交通场景语义描述[J]. 西北工业大学学报,2018,36(3):127–132.
    [6] 章成志,苏新宁. 基于条件随机场的自动标引模型研究[J]. 中国图书馆学报,2008,34(5):89–94.
    [7] Zheng S,Jayasumana S,Romera-Paredes B,et al. Conditional random fields as recurrent neural networks[C]//Proceedings of the IEEE international conference on computer vision,2015:1529−1537.
    [8] Wu X,Du M,Chen W,et al. Exploiting deep convolutional network and patch-level CRFs for indoor semantic segmentation [J]. Industrial Electronics & Applications,2016,11(5):2158–2297.
    [9] Chen L C,Papandreou G,Kokkinos I,et al. DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,40(4):834–848.
    [10] Chen L C,Papandreou G,Schroff F,et al. Rethinking atrous convolution for semantic image segmentation [J]. The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:851–859.
    [11] Chen L C,Zhu Y,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//The IEEE Conference on the European Conference on Computer Vision,2018:801−818.
    [12] 郑宝玉. 基于深度卷积神经网络的弱监督图像语义分割[J]. 南京邮电大学学报:自然科学版,2018,38(5):1–12.
    [13] 苏从勇,庄越挺,黄丽,等. 基于概率图模型的人脸多特征跟踪[J]. 计算机辅助设计与图形学学报,2004,16(11):1–5.
    [14] Yu F,Koltun V. Multi-scale context aggregation by dilated convolutions[C]//The International Conference on Learning Representations,2016(5):125−131.
    [15] Hung W C,Tsai Y H,Liou Y T,et al. Adversarial learning for semi-supervised semantic segmentation[C]//British Machine Vision Conference,2018(10):145−156.
    [16] Luc P,Couprie C,Chintala S,et al. Semantic segmentation using adversarial networks[C]//The Conference on Neural Information Processing Systems,2016(11):215−225.
    [17] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition,2016:770−778.
    [18] Deng J,Dong W,Socher R,et al. ImageNet:a large-scale hierarchical image database[C]//The IEEE Conference on Computer Vision and Pattern Recognition,2009:248−255.
    [19] Kingma D,Ba J. Adam:a method for stochastic optimization[C]//International Conference for Learning Representations,2014(8):1−15.
    [20] Hariharan B,Arbelaez P,Bourdev L D,et al. Semantic contours from inverse detectors[C]//The IEEE International Conference on Computer Vision,2011(9):6−13.
  • [1] 吴欢欢南英彭云 . 战机与地-空导弹攻防对抗仿真. 南昌航空大学学报(自然科学版), 2008, 22(4): 47-51.
    [2] 贾杰洪小康周艳艳黎想张帆 . 高机动目标自适应多模交互跟踪算法. 南昌航空大学学报(自然科学版), 2012, 26(4): 8-13.
    [3] 时招军高益庆 . 自适应粒子群算法设计纯相位衍射光学元件. 南昌航空大学学报(自然科学版), 2012, 26(2): 25-29,34.
    [4] 万在红俞子荣 . 基于模糊自适应PID的真空调压铸造智能控制系统. 南昌航空大学学报(自然科学版), 2011, 25(3): 53-58.
    [5] 余学进雷金波杨加明 . 平板弯曲问题的误差估计和网格自适应研究. 南昌航空大学学报(自然科学版), 2002, 16(1): 1-3.
    [6] 郭小和刘科周继强洪露 . 基于改进遗传算法的单神经元自适应PID控制. 南昌航空大学学报(自然科学版), 2012, 26(4): 14-18.
    [7] 方咸云方千山王永初 . 双变异率自适应遗传算法研究及其应用. 南昌航空大学学报(自然科学版), 2002, 16(2): 17-20.
    [8] 滕志臣蒋沅吴易耘黄汉江 . 基于自适应压缩感知与处理的雷达多目标跟踪. 南昌航空大学学报(自然科学版), 2018, 32(1): 14-22. doi: 10.3969/j.issn.1001-4926.2018.01.003
    [9] 郑芬江泽涛李克伟张修浪 . 一种基于纹理特性的自适应彩色图像水印方法. 南昌航空大学学报(自然科学版), 2006, 20(4): 43-47.
    [10] 王忠华 . 基于Contourlet变换的子带自适应图像去噪. 南昌航空大学学报(自然科学版), 2006, 20(2): 21-23.
    [11] 马骏吴开志李新民俞子荣 . 时空域相关自适应小波包声发射信号降噪方法. 南昌航空大学学报(自然科学版), 2018, 32(1): 90-96. doi: 10.3969/j.issn.1001-4926.2018.01.015
    [12] 欧巧凤邓谦 . 无线流媒体系统的多模式自适应缓冲设计. 南昌航空大学学报(自然科学版), 2010, 24(3): 11-15.
    [13] 易宏代冀阳王文彦 . 直流调速系统的模糊自适应PID控制器设计. 南昌航空大学学报(自然科学版), 2006, 20(2): 49-51,56.
    [14] 杨蓓朱世宇 . 燃油系统工作模拟台姿态角自适应PID控制. 南昌航空大学学报(自然科学版), 2016, 30(4): 94-98. doi: 10.3969/j.issn.1001-4926.2016.04.016
    [15] 余学进D.Redkop . 自适应有限元的应用和发展. 南昌航空大学学报(自然科学版), 1998, 12(4): 78-83.
    [16] 边广凤周力 . OFDM多载波系统中的自适应技术研究. 南昌航空大学学报(自然科学版), 2006, 20(3): 10-15.
    [17] 陈轩舒坚顾平 . 模型参考自适应原理在冲击信号零点偏移补偿中的应用. 南昌航空大学学报(自然科学版), 1997, 11(2): 1-5.
    [18] 汪传忠聂桥桥莫灵珊 . 一种自适应的QRS复合波检测方法. 南昌航空大学学报(自然科学版), 2011, 25(1): 44-47.
    [19] 张桂梅陈子恒 . 基于自适应分数阶微分的SIFT图像配准. 南昌航空大学学报(自然科学版), 2018, 32(4): 1-8. doi: 10.3969/j.issn.1001-4926.2018.04.001
    [20] 余学进张桂梅张少钦 . 对壳体问题的h-p-n自适应有限元法. 南昌航空大学学报(自然科学版), 2001, 15(2): 60-62.
  • 加载中
图(5)表(1)
计量
  • 文章访问数:  56
  • HTML全文浏览量:  63
  • PDF下载量:  4
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-16
  • 录用日期:  2019-07-02
  • 刊出日期:  2019-09-01

基于自适应对抗学习的半监督图像语义分割

    通讯作者: 张桂梅; 
  • 南昌航空大学 计算机视觉研究所, 南昌 330063

摘要: 现有的自适应对抗学习方法采用固定惩罚因子在不同特征层进行监督学习,并采用FCN(Fully Convolutional Networks)作为判别器的基础框架,模型缺少泛化能力,在分割较复杂场景时易造成类感染和类漂移。针对该问题,提出了一种学习率自适应的对抗学习的图像语义分割方法。该方法设计了一种类似SegNet结构的网络判别器,采用最大池化进行非线性上采样,既继承了FCN的优势,可以输入任一大小的图像,又保留了相对精细化的特征相关性信息。由于提出的模型可以通过自适应学习率调整对抗损失与交叉熵损失的权值,从而更新生成器的分割网络,所以提高了语义分割的精度;此外,提出的模型在判别器中采用了SegNet框架代替FCN框架,克服了暴力池化问题,且能够将未标记目标数据集的边缘信息引入网络结构中,从而能有效纠正网络的边缘区域,较好地保持图像的边缘细节,从而使分割结果更为精细。在PASCAL VOC2012标准数据集进行实验,并与现有的性能较好的弱监督分割模型相比,实验结果表明:本文模型能够更精细地分割出较复杂背景的目标,有效地缓解类感染和类漂移,并且有效地保留了边缘细节。

English Abstract

    • 语义分割[1]在图像分析与图像理解中有着重要作用,其主要任务是对图像中的每一个像素进行精确分类,如行人、道路和动物等。语义分割被广泛应用于自动驾驶、图像编码和医学图像分析等领域。近年来深度学习的研究取得了突破性进展,它的优势在于能够较好地解决多分类问题,特别适用于复杂的自然数据,如交通场景图像数据。语义分割在深度学习领域的研究也受到越来越多的学者的关注,并且分割精细化程度也逐渐得到提升。如:2014年Long等[2]提出了基于全卷积网络(FCN)的语义分割方法,他们对目前的图像分类网络(VGG)进行了修改,用卷积层替代全连接层,从而更好地保留了空间语义信息,但是FCN存在粗暴上采样过程从而导致分割结果不够精细,针对该问题,2015年Ronneberge等[3]提出了具有对称编/解码的网络结构U-Net,该网络结构缓解了暴力池化问题,在VOC2012数据集验证表明其分割精度比FCN的分割精度有较大提高。U-Net对于局部性精度要求高的图像数据集分割效果较好,如医学图像,但由于U-Net的获取上下文信息能力较差,对于复杂的、类别尺度差异度较大的场景数据集,如Cityscapes,其分割精度急剧下降。针对该问题,2016年Badrinarayanan等[4]提出了结合上下文信息的具有对称编/解码架构的分割网络SegNet,实现了复杂交通场景图像的语义分割。曲等[5]提出利用SegNet对交通场景语义进行描述。SegNet网络在尺度相差较大的目标上获得了较好的分割性能。但是,由于其在全局问题上并没有很好地融合多尺度信息,因此分割精细化程度不够理想。利用有效的上下文信息成为解决该问题的关键。条件随机场[6-7]的引入对最后分割结果的精细化程度有了较大的提升,它能够有效学习到像素之间的相关性。基于此,Zheng等[7]提出了基于条件随机场的循环卷积神经网络(CRFasRNN),该方法将近似条件随机场的平均场转为RNN(Recurrent Neural Networks),并将CRFasRNN嵌入到卷积神经网络中,最后利用随机梯度下降法解出参数。考虑到多尺度的问题,DeepLab[8]引入空洞卷积,即在卷积核里增加空洞数,根据分割物体的尺度来修改空洞的大小,从而调整感受野的大小,该方法不仅避免了上采样带来的信息丢失,还提高了分割精度。在DeepLab V2[9]中引入了不同尺度的多分辨率信息,从而进一步提高了目标的分割精度。DeepLab V3[10]采用级联或并行多个不同空洞卷积模块以捕获多尺度上下文信息,多尺度的空洞卷积池化模块在多个尺度上提取卷积特征并进行融合,使得精度进一步得到提升。DeepLab V3+[11]融合了空间金字塔池化和编/解码两种形式的分割框架,使得在复杂的Cityscapes数据集上得到了更好的分割结果。

      虽然基于卷积神经网络的分割方法获得了较好的效果,但是基于上述方法均需要大量的精细化像素标签样本,对于不同的场景或者同一场景在不同的光照和气候条件下需要重新标注,模型的迁移能力较差。因此基于半监督的语义分割方法[12]成为研究的热点。由于生成对抗网络在样本生成过程中得到较好的应用,考虑到特征学习的相关性,将对抗学习应用到半监督或弱监督的学习任务中成为解决小样本学习的关键。

      受对抗网络在样本生成任务中成功应用的启示,本文提出一种基于自适应对抗学习的半监督语义分割方法,根据场景分布引入基于自适应的学习率因子以调节对抗损失值的权重。将分割网络作为GAN的生成器,分割网络的输出结果为概率图[13],其目的是使分割网络的输出结果更接近源域(合成带标记的数据集)数据集的标注;在网络终端我们采用了对抗学习框架和引入全卷积判别器,该判别器的目的是使分割网络预测输出结果与源域的标注特征分布接近。为了更好地提高网络模型的泛化学习能力,本研究将对抗损失与交叉熵损失融合,并加入自适应的非线性学习率控制因子。在VOC2012数据集进行验证,拟证明本文提出的模型较其他半监督分割模型具有更好的分割结果,并通过实验验证本文提出的基于SegNet的判别网络和基于学习率的域自适应训练方法可缓解类感染和类漂移问题。

    • 本研究提出的算法框架图如图1所示,网络架构由两部分组成:分割网络与判别网络。前者可以是基本分割网络的任意一种(比如FCN[2]、DeepLab[810]、DilatedNet[14])。分割网络的输入是大小为$H \times W \times 3$的图像,输出是$H \times W \times C$的类概率得分图,其中C指类别数。判别网络是一个基本的SegNet网络,其输入包括分割网络的输出结果即类概率得分图,以源域的标注对应的概率得分图,判别网络的输出是大小为$H \times W \times 1$的类全局概率得分图。判别网络输出得分图的每一个像素信息均表示这个像素来自于Ground Truth(P = 1)或来自于分割网络的分割图(P = 0)。传统的GAN判别器输入是$64 \times 64$的图像,输出是单一的概率值,将判别网络改为SegNet网络,既继承了FCN的优势,可以输入任一大小的图像,又保留了相对精细化的特征相关性信息。

      图  1  本文模型的网络结构图

      本文模型在训练过程中用到了带标注的源域数据集和未标注的目标数据集。在生成网络中将标注数据的Ground Truth和网络输出结果求交叉熵损失,同时加入了判别网络的对抗损失,并加入动态学习参数来控制对抗损失,从而能自适应地调节分割网络输出特征与源域标注Ground Truth之间的分布差异。值得注意的是我们的判别网络训练是基于源域的标注数据进行的。

      对于未标记的目标数据集,使用AdvSeg[15]的半监督方法训练分割网络,首先通过分割网络获得未标注目标图像的初始分割特征层,再将其传递给判别器得到一个置信概率图,然后将该置信概率图乘以动态学习率作为监控信号,并与交叉熵损失共同更新分割网络。换言之,该置信概率图反映了预测分割的局部质量,从而确定分割网络在训练过程中所要信任的区域,然后再加入当前训练次数的学习率来动态更新对抗损失值。

    • 给定一幅三通道大小为$H \times W \times 3$的输入图像${I_n}$,将分割网络表示为$S( \bullet )$,分割网络的输出为预测概率表示为$S({I_n})$,大小为$H \times W \times C$,C为类别数。将判别网络表示为$D( \bullet )$,其输入包括两部分:即分割网络的输出$S({I_n})$和源域标注Ground Truth 对应的one-hot编码[11]$S({I_n})$是大小为$H \times W \times 1$的概率置信图。

    • 为了训练判别网络,我们最小化全局交叉熵损失${L_D}$,该训练过程属于二分类的训练。${L_D}$表达式如下:

      $\begin{split} {L_D} =\;& (1 - {l_{rD}})( - \sum\limits_{h,w} {(1 - {y_n})\lg\; (1 - D{{(S({X_n}))}^{(h,w)}}) \,+ } \\ & \sum\limits_{{\rm{h}},w} {{y_n}\lg \;(D{{({Y_n})}^{(h,w)}})} ) + {l_{rD}} \end{split}$

      (1)

      其中,${l_{rD}}$表示判别网络当前训练次数的学习率,${y_n}$ = 0表示样本来自于分割网络,${y_n}$ = 1表示样本来自于源域标注的Ground Truth,采用one-hot编码[16]将标注Ground Truth转换成C个通道的概率图,即将属于Ground Truth的像素用1代替,不属于Ground Truth的像素用0表示。该方法在文献[16]中能够较好地判断概率图来自于Ground Truth还是生成器的分割网络,然而本文判别器中采用的是SegNet网络,因此不能直接采用one-hot编码,我们在该方法的基础上采用了基的结构,即转换成空间基${e^C}$,从而契合了SegNet卷积特征概率图。

    • 建立了多损失的目标函数,如式(2):

      $\begin{split} {L_{{\rm{seg}}}} =\; & (1 - {l_{Gr}}){L_{ce}} + {l_{Gr}} + (1 - 50 \bullet {l_{Gr}}){L_{adv}} + \\ & 50 \bullet {l_{Gr}} + {\lambda _{semi}}{L_{semi}}\\ \end{split}$

      (2)

      其中:${L_{seg}}$表示总的目标损失函数,${L_{ce}}$是输入图像与源域标注的交叉熵损失,${L_{adv}}$是对抗损失,${L_{semi}}$指来自不同图像(源图像和目标图像)的交叉熵损失,${l_{Gr}}$指分割网络对应的学习率。${\lambda _{semi}}$是固定平衡系数,用来控制来自不同样本的差异平衡。

      对于来自有标注的源域数据集,输入样本图像为${I_n}$,标注对应的one-hot编码为${Y_n}$,网络对输入的预测结果为$S({I_n})$,对应的交叉熵损失如下:

      ${L_{ce}} = - \sum\limits_{h,w} {} \sum\limits_{c \in C} {Y_n^{(h,w,c)}\lg \;(S{{({I_n})}^{(h,w,c)}})} $

      (3)

      我们模型的判别网络采用SegNet网络,用$D( \bullet )$表示,基于该全卷积网络的对抗损失为:

      ${L_{adv}} = - \sum\limits_{{\rm{h}},w} {\lg\; (D{{(S({I_n}))}^{(h,w)}})} $

      (4)

      该对抗损失的目的即是使分割预测结果与源域的标注越来越接近。

      在半监督的环境下采用未标注的样本进行对抗性训练。对于未标记的目标数据,对抗损失${L_{adv}}$仍然可用,但由于没有标记信息所以${L_{ce}}$不能使用。此外,在实验中我们发现,对未标记的目标数据仅仅应用对抗损失时,模型性能会退化,因为判别网络有正则化的作用,可以对预测结果进行纠正,如果仅用对抗损失纠正将使得分割预测过度拟合于源域的标注。因此本文采用了一种“自学”策略,该策略能够利用未标记目标数据对判别器进行训练。其主要思想是训练判别器可以生成一个置信图,即$D{(S({I_n}))^{(h,w)}}$,它可以找出预测结果与源域标注之间分布足够接近的区域,然后将分割预测置信图与源域标注对应的置信图进行二值化,并用一个阈值来确定它们的相关性从而找到置信区域。即${\hat Y_n} = \arg \max (S({X_n}))$。构造的半监督损失如下:

      $\begin{split} {L_{semi}} = & - \sum\limits_{h,w} \sum\limits_{c \in C} {J(D{{(S({I_n}))}^{(h,w)}} > {T_{semi}}) }\\ & \sum {\hat Y} _n^{(h,w,c)}\lg\; (S{({I_n})^{(h,w,c)}}), \end{split}$

      (5)

      其中,$J( \bullet )$指索引函数,${T_{semi}}$表示未标注目标数据的阈值参数。在训练过程中,将自学目标${\hat Y_n} $和索引函数的值都假设为常量,因此式(5)可以认为基于目标特征的全局交叉熵损失。多次实验表明,阈值${T_{semi}}$在(0.1~0.3)区间的效果较好。

    • 采用DeepLab-v2[9]作为本文分割网络的框架,该框架是基于ResNet101[17]预训练模型在ImageNet数据集[18]训练得到。然而,由于本文的判别网络采用了较为复杂的SegNet网络,考虑到显存因素,本文没有采用Chen等[9]提出的多尺度融合,我们根据文献[8]的训练经验,去掉最后的分类层,并将最后两个卷积层的步长由2改为1,使输出特征映射的分辨率变为输入图像大小的1/8倍。为了增大感受野,我们在第4和第5卷积层使用了空洞卷积[14],并将空洞数分别设置为2。在网络的后部分,采用了Atrous Spatial Pyramid Pooling(ASPP)结构[9]进行了多尺度特征融合。最后,我们应用一个上采样层和SoftMax输出与输入图像大小相同尺寸的图像。

    • 对于判别网络,其网络结构如图2所示。我们参考了Badrinarayanan等[4]提出的SegNet框架,该模型采用了池化索引进行上采样,其优势:1)具有更强的边缘刻画能力;2) 减少了相应的训练参数;3)该采样模式可以应用到任何编码—解码网络中。改进的地方是本文去掉了Batch Normalization(BN)层,因为BN对于大样本随机采样训练进行了批量归一化能够得到较好的效果;而本文每次训练仅对两个样本特征进行判别网络的更新,属于小样本训练,因此去掉BN层效果要好。

      图  2  判别器的网络结构图

      文献[15]采用包含5个卷积层,核大小为4 × 4,通道数分别为{64,128,256,512,1}和步长为2,该网络直接上采样到与输入图像大小相同的特征,存在暴利池化问题,并且边缘信息丢失严重。本文模型采用SegNet网络,应用了最大池化非线性上采用,有效地克服了暴力池化问题,所以本文的判别网络模型效果更理想。

    • 实验的硬件环境为 Intel i7-7800X CPU,NVIDIA 1080Ti 显卡;软件环境为 Ubuntu 16.04 LTS 操作系统,Cuda8.0, cudnn v6.1。深度学习算法框架是 PyTorch 0.3.1.post2,网络训练和测试均在 PyTorch 环境下完成。

    • 为了训练分割网络,本文选用与文献[9]相同的参数,如使用以牛顿加速度为优化因子的随机梯度下降(SGD),其中动量为0.9,权重衰减为${10^{ - 4}}$。初始学习率设置为$2 \times {10^{ - 4}}$,并随着多项式衰减而降低,其功率为0.9。为了训练判别网络,本文采用Adam优化器[19],学习率设置为${10^{ - 4}}$,多项式衰减与分割网络相同,动量设置为0.9和0.999。对于半监督训练,本文将标记数据与未标记数据进行迭代交叉。值得注意的是,为了防止模型受到初始噪声屏蔽和预测的影响,我们在使用带标记的源域数据进行5 000次迭代训练后再加入未标注样本数据进行半监督学习,并同时动态更新分割网络和判别器网络。在每次迭代中,只有包含源域标注Ground Truth数据的批用于训练判别器。从数据集中随机抽取部分有标记和无标记的数据,采用不同的随机种子对多个实验结果进行平均,以保证评价的鲁棒性。

    • 为了测试提出模型的有效性,我们在语义分割数据集PASCAL VOC2012进行实验验证,并选用the mean intersection-over-union(mean IoU)作为性能评估指标。PASCAL VOC 2012数据集是用于语义分割的常用评估数据集,它包含20类日常物体的图像,并带有相应的标注。本文还使用了PASCAL VOC2012数据集的额外标注集[20],这些标注信息是基于不同类的目标进行的轮廓标注,共包含12 031张标注图像,图3为该额外标注集的几个样例图。

      图  3  PASCAL VOC2012数据集的额外标注集(部分)

      本文选取了PASCAL VOC2012数据集中的1 449张带标注的图片作为标准验证集,并在这些数据集上评估本文模型。在训练过程中,本文对输入样本图像进行随机缩放和裁剪,使其均为大小是321 × 321的图片。在PascalVOC数据集上对每个模型进行30 K次迭代训练,批量大小(即batch size)为10。与目前最好的域自适应理论方法文献[15]进行比较,在PASCAL VOC 2012数据集上的语义分割结果如图4所示。

      图  4  语义分割结果对比

      图4可以看出本文模型的分割结果较好,文献[15]提出在对抗损失函数中加入固定的经验参数来调整总目标损失函数,对场景产生易过度拟合,导致滑动窗在进行下半部分学习存在严重的类感染(不同类的相互干扰);图4d是本文的分割效果图,显然本文模型有效缓解了类感染,这是因为本文采用了基于多项式衰减的学习率来代替固定的参数,能够根据图像的上下文信息自适应调整网络参数。从图4还可以看出,两种方法的分割结果均存在分割空隙,这是由于DeepLab基础网络采用的空洞卷积所致,并且该网络中的空洞卷积填充都采用了偶数填充,从而导致随着网络的加深,分割空隙越来越严重,这也是本课题组后续要研究的问题。

      进一步选取验证集中的其他两幅图像进行对比实验,部分效果展示如图5所示。

      图  5  语义分割结果对比

      图5可知,本文算法在边缘细节信息保持上优于文献[15],这是因为文献[15]的判别器网络采用的全卷积神经网络(FCN)结构,它虽然采用跳跃连接实现了FCN-8s,FCN-16s,比FCN-32学到的特征更精细,但暴力池化问题仍然严重,不仅导致分割出现严重的网洞现象还会使边缘、轮廓信息分割不理想。本文采用了对称编解码结构的SegNet网络作为判别网络,因此在边缘、轮廓等细节信息上分割效果较好。比较图5c图5d可得出本文的SegNet网络能够较好地缓解分割网络的这些问题。

      为进一步验证算法的有效性,我们在PASCAL VOC2012数据集的验证集上进行测试,并与最近较流行的几种分割算法进行定量分析对比。实验结果如表1所示,从表1可以看出,本文算法的精度最高。这是因为本文引入了基于对抗生成网络的学习力与自适应学习率进行控制对抗损失的方法,同时判别网络采用了类似于SegNet的网络结构,该网络能够将未标记目标数据集的边缘信息引入网络结构中,从而能有效纠正网络的边缘较差区域,因此本文提出的模型能够更精细地分割出较复杂背景的目标,有效地缓解类感染,并且对边缘细节的保持效果得到增强。

      表 1  在PASCAL VOC2012验证集上的实验结果

      算法MIOU /%
      FCN-8s[2]  43.0
      Dilation10[14] 56.2
      DeepLab-v2[9] 59.8
      文献[15](使用不同的损失函数)Lseg66.0
      Lseg+Ladv67.6
      Lseg+Ladv+Lsemi68.8
      本文算法Ours69.9
    • 提出了一种自适应对抗学习的半监督语义分割模型,该模型在输出特征层的对抗学习中使用了自适应学习率的惩罚因子,从而提高了模型的泛化能力。

      文提出在判别器中用SegNet网络结构替代FCN网络结构,较好地克服了暴力池化问题,并且图像的边缘信息能得到有效修正,从而提高了目标分割的精细化程度。在PASCAL VOC 2012验证数据集上的实验表明,本文与目前最好的弱监督方法相比,分割精度MIOU提高了1.1%。

      后期将考虑引入门控循环单元来控制对抗损失,并考虑根据多个特征层中的当前训练状态来控制网络的对抗损失,这将能够更加智能地学习来自其它同分布不同数据集的边缘与纹理信息,从而更好地解决复杂场景中的类感染和类漂移问题。

参考文献 (20)

目录

    /

    返回文章
    返回