当前位置 > 首页 > 商业资讯 > 正文

NeurIPS 2019 | 显着提升图像语义分割性能,滴滴携手伯克利提出多源对抗域聚合网络
  • 发布时间:2020-02-11
  • www.sykntwztd.com
  • 图1语义分割任务的例子。

    1。研究动机随着深入学习,特别是卷积神经网络的出现,许多端到端语义分割方法被提出来,[1]。虽然这些方法取得了良好的效果,但仍然存在一些局限性。一方面,训练这些方法需要在像素级标记大规模数据,这是非常昂贵和耗时的。例如,标记城市景观数据集中的每个图像需要大约90分钟。另一方面,由于领域转移或数据集偏见,他们不能很好地将知识转移到新的领域或数据集。为了避免数据收集和注释的成本,图形和仿真软件的开发使研究人员能够使用CARLA和GTA-V等模拟器产生的无限量合成注释数据,

    为了缩小不同领域之间的差距,研究人员提出了领域自适应(domain adaptation,DA)或知识转移技术,并进行了理论分析和算法设计。语义分割的领域自适应算法在自动驾驶等领域发挥着重要作用。现有的工作主要集中在单个源域的场景上,实践中很难处理不同分布的多个源域的情况。本文研究了基于多源领域自适应的语义分割。

    2。现有域自适应方法在图像分割中的挑战

    除了传统的带注释源域中的任务损失外,深度无监督域自适应(UDA)方法通常训练其他损失函数来处理域偏移,例如差分损失[2、对抗损失[3、重建损失[3等。目前,从复合数据到真实场景的语义分割任务的领域自适应方法都集中在单个数据源设置上,而没有考虑从多个不同分布的数据源收集数据这一更实际的场景。简单地将不同的源组合成一个源并直接使用单个源数据采集不会有很好的效果,因为来自不同源域的图像可能在学习过程中相互干扰。多源数据挖掘的早期研究采用浅层模型。

    近年来,人们提出了一些多源深度UDA方法,主要针对图像分类[4]。由于以下原因,将这些主成分分析方法直接从分类扩展到分割可能不会有很好的结果。(1)分割是一项结构化的预测任务,其决策函数比分类更复杂,因为它必须分析具有大索引[5]的标签空间中的预测。(2)目前的主成分分析方法主要关注特征级对齐,只对齐高级信息。这对于粗粒度分类任务来说可能足够了,但是对于细粒度语义分割来说显然不够,因为分割是像素级预测。(3)这些MDA方法仅对齐每个源域和目标域。尽管不同的源域与目标域匹配,但不同的源域之间可能存在明显的不一致。

    2。提出了基于挑战生成网络(GAN)[11]和循环GAN [6)的多源对抗域聚合网络(马丹),提出了一种新的端到端多源对抗域聚合网络(马丹),其框架如图2所示。马丹主要包括三个模块:(1)动态优势图像生成,(2)优势域聚合,(3)特征对齐语义分割。

    图2:马丹框架图。

    首先,对于每个源域,文章使用循环对立生成网络(CycleGAN)[6]生成一个动态保持语义并具有像素级一致性的自适应域;其次,提出了子域聚合鉴别器和跨域循环鉴别器,使不同的自适应域聚合更紧密。最后,在训练分割网络时,聚合域和目标域在特征级别对齐。

    通过马丹,不同的适应性域可以更好地聚合成一个更统一的域。基于聚集域的分割模型训练能够更好地提高分割模型在目标域上的性能。从合成的GTA[7]和SYNTHIA[8]到真实的城市景观[9]和BDDS[12]数据集,大量实验证明,本文提出的马丹模型比目前最先进的方法性能更好。表1显示了马丹和其他当前主流领域自适应模型之间的比较。

    表1:马丹和本文提出的其他主流自适应方法的比较。

    1。本文的主要贡献在于三个方面:(1)提出了一种多源领域自适应语义分割方法。这是语义分割任务的第一个多源领域自适应工作。(2)设计了一个新的多源领域自适应语义分割框架马丹。除了特征级对齐之外,还考虑了像素级对齐,即为每个源周期生成自适应域,这与动态语义一致性的损失是一致的。为了更好地匹配不同的自适应域,提出了子域聚合鉴别器和跨域循环鉴别器。(3)进行了大量实验,从合成的GTA [7]和合成的[8]到真实的城市景观[9]和BDDS数据集[12]。结果证明了本文提出的马丹模型的有效性。

    2。动态对抗图像生成模块

    DAIG模块的主要功能是通过生成器将来自不同源域的图像转换成视觉表示中具有目标域风格特征的图像。这在单源域自适应工作苏铁[10]中被证明是有效的。为了在多源域状态下实现这一目标,对于每个源域S1,使用生成器将源域的图像转换成具有目标域样式的图像.该发生器的功能是欺骗鉴别器,鉴别器主要用于像素级的对抗训练。对抗训练的目标是在目标域中正确区分转换后的图像和真实图像。

    3。对抗域聚集模块

    可以分别在不同的自适应域上训练语义分割模型,然后将这些结果组合起来预测目标域图像的分割结果,或者简单地将所有自适应域组合在一起,然后训练语义分割模型来预测目标域。对于前者,如何在不同的源域中选择合适的权重是一个非常复杂的问题。对于后者,要对齐的图像分布在非常高维的空间中。虽然自适应域和目标域在一定程度上是对齐的,但是不同的自适应域之间仍然没有对齐,这将在训练过程中相互干扰,从而导致训练难以收敛,不能达到良好的效果。

    为了解决这个问题,本文提出了一种对抗域聚合的方法来训练多源域数据集。具体而言,提出了两个鉴别器来对准不同的自适应域,即域聚集。第一种是子域聚合鉴别器(子域聚合鉴别器),它直接判断来自不同自适应域的图像是否可分离。另一种是跨域循环鉴别器(Cross domain Cycle Discriminator),用于将第一个自适应域生成的图像与源域S _ I的图像区分开来,

    子域聚合鉴别器的损失函数如下:

    跨域聚合鉴别器的损失函数如下:

    4。特征对齐语义分割模块

    通过对抗聚合模块后,将不同源域转换后的图像聚合在一起,使得生成的图像在风格和高维空间分布上与目标域更加一致。同时,动态语义一致性使得转换前后的图像在语义和像素级信息上具有一致性。此外,本文还在特征层引入了鉴别器,该部分的损失函数如下:

    3。实验结果为了验证该方法的有效性,本文对实验结果和可视化结果进行了详细的比较。

    1。对比实验结果在领域适应实验中,本文使用合成数据集GTA[7]和SYNTHIA[8]作为源领域,使用真实数据集Cityscape [9]和BDDS[12] a

    下图3定性展示了所提出的模型中不同模块所产生的语义分割结果。可以清楚地看到经过领域自适应的过程,分割结果有了较大的提升

    图3:多源域自适应后的语义分割可视化结果的定性对比,从左到右分别为:(a)原图(b)真实标注(c)仅在GTA上训练(d)使用自行车在Synthia和GTA上训练(五)DSC和电荷耦合器件模块,(f) DSC和悲哀的模块()七)数码相机数码相机数码相机数码相机数码相机数码相机数码相机数码相机数码相机数码相机壮举(马丹)

    下图4中展示了SYNTHIA和GTA数据集使用所提出的ADA模块后生成的图像,其中(f)是所提出的最终的模型结果。可以看到,最终成功地将源域上的图像转换至目标域,其中风格、纹理、语义信息经过了自适应模块后,成功学习到了城市景观数据集的特征,在此同时源域图像的类别也得到了较好的保持(车和人经过转换仍然是车和人)。

    图4:从左到右分别是(a)原始源域图像(二)循环扫描(三)循环扫描数码相机(四)循环扫描数码相机(五)循环扫描数码相机(六)循环扫描数码相机(七)城市景观图像。上面两行是GTA到城市景观的转换,下面两行是SYNTHIA到城市景观的转换

    四、结论

    本文研究了从合成数据到真实数据的多源领域自适应语义分割问题。提出了一种新的多源对抗域聚合网络(马丹)。对于每个源域,文章生成了具有动态语义一致性的自适应图像。在此基础上,使用子域隔离判别器和跨域循环判别器,以更好地综合不同的源域的数据。在多个数据集的大量实验结果表明,文章所提出的马丹模型具有较好的有效性

    了解更多技术细节,请查看论文语义分割的多源领域自适应论文代码已公布:马丹

    参考文献:

    [1]乔纳森 朗、埃文 谢尔汉默和特雷弗 达雷尔。语义分割的完全卷积网络。在电气与电子工程师协会计算机视觉和模式识别会议上,第3431-3440页,2015年年

    [2]明升 朗、操、王建民和迈克尔 乔丹。利用深度适应网络学习可转移特征。国际机器学习会议,第97-105页,2015年年

    [3]伊恩 古德费勒,让 普盖特 阿巴迪,迈赫迪 米尔扎,徐炳,大卫 沃德 法利,谢尔 奥扎尔,艾伦 库维尔和约舒 本吉奥。生成对抗网络《华尔街日报》神经信息处理系统的进展2672-2680页,2014年年

    [4]穆罕默德 吉法里,瓦斯蒂安 克莱金,梦洁 张和大卫 鲍杜齐。用多任务自动编码器进行对象识别的领域通用化。在电气与电子工程师协会国际计算机视觉会议上,2551-2559页,2015年年

    [5]张、菲利普 大卫和龚伯清。面向城市场景语义分割的课程领域自适应。在电气与电子工程师协会国际计算机视觉会议上,2020-2030年页,2017年年

    [6]朱俊彦、朴泰成、菲利普 伊索拉和阿列克谢 阿 埃弗洛斯。使用循环一致对抗网络的不成对图像到图像的翻译。在电气与电子工程师协会国际计算机视觉会议上,第2223-2232页,2017年年

    [7]斯蒂芬 里克特,维博夫 维涅特,斯特凡 罗斯和弗拉德伦 科尔屯。玩电脑游戏获取数据:基本真理。欧洲计算机视觉会议,第102-118页,2016年年

    [8]德国罗斯、劳拉 塞拉特、乔安娜 马特琴斯卡、戴维 巴斯克斯和安东尼奥 洛佩兹。合成数据集:用于城市场景语义分割的大量合成图像集合。在电气与电子工程师协会计算机视觉和模式识别会议上,第3234-3243页,2016年年

    [9]马里乌斯 科尔特斯、穆罕默德 奥姆兰、塞巴斯蒂安 拉莫斯、蒂莫 雷菲尔德、马库斯 恩茨韦勒、罗德里戈 贝纳森、乌韦 弗兰克、斯特凡 罗斯和伯纳特 席勒。用于语义城市场景理解的城市场景数据集。在电气与电子工程师协会计算机视觉和模式识别会议上,第3213-3223页,2016年年

    [10]朱迪 霍夫曼、埃里克 曾、朴泰成、朱俊彦、菲利普 伊索拉、凯特 萨恩科、阿列克谢 阿 埃弗罗斯和特雷弗 达雷尔。苏铁:循环一致的对抗性域适应。在国际机器学习会议上,1994-2003年,2018年页。

    [11]伊恩 古德费勒、让 普格特 阿巴迪、迈赫迪 米尔扎、徐炳、大卫 沃德 法利、谢吉洛扎、亚伦 库维尔和约舒 本吉奥。生成对抗网络《华尔街日报》神经信息处理系统的进展2672-2680页,2014年年

    [12]费希尔 余、文琪 西安、陈莹莹、陈方 刘、麦克 廖、瓦西特 马德哈万和特雷弗 达雷尔Bdd100k:具有可扩展注释工具的多样化驾驶视频数据库arXiv:1805.,2018,2018 .返回搜狐,查看更多

    福石信息网 版权所有© www.sykntwztd.com 技术支持:福石信息网 | 网站地图