当前位置: >首页 >测绘智库 >智库观点
莫干山地信实验室张继贤研究员:遥感智能变化检测的深度学习方法:演变与发展趋势
发布时间:2025-09-29     来源:《测绘学报》2025年54卷第8期     浏览:168次

张继贤1, 顾海燕2,倪欢3, 李海涛2, 杨懿2, 丁少鹏4, 隋淞蔓4

1.莫干山地信实验室,浙江 湖州 313299

2.中国测绘科学研究院,北京 100830

3.南京信息工程大学,江苏 南京 210044

4.山东科技大学,山东 青岛 266590

摘要:多模态遥感对地观测和深度学习技术的快速发展,拓展了遥感变化检测的数据维度和方法维度,为更加自动化、精细化和智能化的变化检测奠定了基础。本文聚焦深度学习的变化检测,面向变化特征表达和网络学习策略两个基本科学问题,详细梳理了变化检测研究的演变过程。变化特征表达层面,呈现4个方面的研究趋势,即局部、全局到时空联合特征表达,单一模态到多模态特征表达,轻量级模型到大模型特征表达,以及二值到多类别语义特征表达;网络学习层面,呈现全监督、弱/半监督到无监督变化检测的发展趋势。在此基础上,探讨了当前基于深度学习的变化检测所面临的挑战,并结合当前人工智能技术的发展趋势,指出了图文融合、生成式、人机协同模式3个发展方向,以期为理论方法及应用研究提供方向及思路,助力提升遥感变化检测的智能化能力与应用水平。

关键词:变化检测深度学习多模态语义变化人机协同

基金项目

2025年度浙江省尖兵科技计划项目(2025C01073)

作者简介

张继贤(1965—),男,博士,研究员,研究方向为摄影测量与遥感、地理信息系统、资源与环境遥感监测。E-mail:zhangjx@casm.ac.cn

本文引用格式

张继贤, 顾海燕, 倪欢, 等. 遥感智能变化检测的深度学习方法:演变与发展趋势[J]. 测绘学报, 2025, 54(8): 1347-1370. doi:10.11947/j.AGCS.2025.20240417

ZHANG Jixian, GU Haiyan, NI Huan, et al. Deep learning methods for remote sensing intelligent change detection: evolution and development[J]. Acta Geodaetica et Cartographica Sinica, 2025, 54(8): 1347-1370. doi:10.11947/j.AGCS.2025.20240417

阅读全文

http://xb.chinasmp.com/article/2025/1001-1595/1001-1595-2025-08-1347.shtml

遥感变化检测技术基于同一区域、不同时相遥感数据,发现地球表面随时间推移而发生的变化[1-2]。理论上,该技术可以基于多时相遥感影像,获取如变化时间、变化位置、变化范围、变化种类、变化程度和变化状态等信息[3],已经广泛应用于自然资源与国土空间治理、防灾减灾、空间规划、环境监测等诸多领域[4]。应用范围的不断推广,对变化检测方法的时效性、泛化能力提出了新要求。

随着多模态遥感对地观测、人工智能等技术的迅速发展,遥感变化检测方法已从单一数据模态的变化发现向多模态融合或跨模态变化发现方向发展[5],所依赖的技术手段亦从图像代数、变换或传统机器学习模型向深度学习转变[6]。如图1所示,2010年1月1日至2024年4月30日,国际刊物和国内刊物收录的遥感变化检测论文数量呈逐年攀升趋势,同时,基于深度学习的遥感变化检测论文占比呈现相同态势[7]。基于深度学习的遥感变化检测论文数量占比超过50%,在国内刊物所收录的论文中,这一比例已突破80%,强调模型的跨模态理解以及时空特征融合能力,以适应复杂业务环境并扩大变化检测的应用范围。而国外研究往往更加注重多模态特征表达等理论基础的创新,并未专注于变化检测这一特定的应用方向,因此,国内学者在国际期刊发表的相关主题论文明显多于国外学者,如图2所示。


图片

图1   遥感变化检测论文收录情况(2010年1月1日至2024年4月30日)

Fig. 1   Publication records of remote sensing change detection papers (January 1, 2010 to April 30, 2024)



图片

图2   国内外学者发表相关主题论文情况(2016年1月1日至2024年4月30日)

Fig. 2   Papers published by domestic and foreign scholars on related topics (January 1, 2016 to April 30, 2024)

近年来,一些文献从不同角度对现有变化检测方法进行了总结。文献[2]从几何和语义两个角度对变化检测方法进行了分析和归纳总结;文献[3]从无监督、监督、弱监督3个方面探讨了遥感变化检测从传统到前沿技术的转型特点与趋势。但是,文献[2—3]并未聚焦深度学习驱动的变化检测技术。文献[7]的论述更加聚焦,系统总结了基于像素、基于对象和基于场景的变化检测深度学习方法。但是,近年来随着多模态遥感技术、大模型和生成式人工智能的快速崛起,现有综述论文已难以涵盖当前基于深度学习的变化检测方法的研究现状和发展趋势。

本文在分析总结深度学习驱动的遥感变化检测技术的基础上,分析技术的演变过程和发展趋势。顾及基于深度学习的变化检测技术的两个核心问题,即变化特征表达和网络学习方式,本文从两个维度分析技术的演变过程,如图3所示。进而,基于当前深度学习技术的进展,论述遥感变化检测所面临的挑战和未来发展方向。

图片

图3   研究进展

Fig. 3   Research progress

1 遥感影像变化特征深度学习表达的演变

得益于深度学习网络结构的灵活性,多模态对地观测技术的不断发展,人工智能大模型的提出和开放化,以及多任务学习思想的发展,遥感影像变化特征深度学习表达呈现了4个方面的研究进展(图4),即局部、全局到时空联合特征表达,单一模态到多模态特征表达,轻量级模型到大模型特征表达,以及二值到多类别语义变化特征表达。

图片

图4   变化特征表达

Fig. 4   Change feature representation

1.1 局部、全局到时空联合特征表达

以卷积神经网络为代表的局部编码结构在变化检测领域表现突出,尤其是在捕捉建筑物、道路、植被等局部区域变化方面取得显著成效。但由于局部信息无法完全反映整体的变化趋势,在处理类别不均衡等复杂场景时,卷积神经网络在全局特征表达上存在一定劣势。随着研究的深入,编码结构开始向全局特征转变,通过提取和分析整体图像的全局特征来理解图像的变化情况。然而,现有变化检测方法往往侧重于单时相图像内部的特征提取,忽略了多时序图像之间的时间差异和相互关系,这与变化检测的基本目标不相符。通过综合考虑不同时间点和空间位置的图像数据,可以更全面、更准确地把握变化的发展趋势和空间分布,这种时空联合分析不仅可以辅助理解变化的发生和演变过程,还能够有效预测未来变化的趋势,在环境监测、城市规划、灾害管理等领域发挥了重要作用。因此,时空联合分析不仅是变化检测研究的发展方向,也是应对复杂变化场景和提高变化检测精度的关键所在,但模型复杂度较高,空间和时间的耦合建模仍是一个难题,难以处理时间依赖和空间上下文的多层次交互,对时间序列中短期波动(如季节性变化)和长期趋势(如环境变化)的检测不够准确,训练和解释性方面存在挑战(表1)。

表1   局部、全局到时空联合特征表达研究现状概况

Tab. 1  Overview of research on local, global, and spatiotemporal integrated feature representation


0929-006-001.png

1.1.1 局部-全局联合变化检测

局部特征的变化检测方法主要基于CNN、VGG、ResNet等卷积神经网络。将卷积神经网络局部细节特征和全局关系特征有效融合,能够有效增强特征表达能力。全局特征提取可分为基于注意力机制的方法和基于图卷积神经网络的方法两大类。基于注意力机制的方法[45],通过计算像素上下文依赖关系,顾及变化特征的全局表达,联合局部特征能够更加精准地识别变化信息。Transformer是目前应用较广泛的注意力方法,能够实现局部、全局和跨尺度特征的提取和融合,深入挖掘多层特征之间的相关性并有效整合了多层次特征[46]。Transformer关注的是空间层面的变化,通过计算两幅图像之间的全局差异,自注意力机制对两幅图像的所有像素进行配对比对,找出空间上发生变化的区域,与图卷积相比具备更强的上下文特征捕捉能力,可以有效整合多光谱、多时相数据的深层语义信息[47]。Transformer对复杂变化模式(如渐进性植被退化、非规则边界变化)具有强识别特性,因此在大范围场景监测(如森林砍伐动态追踪、农田扩张分析)及多源异构数据协同解译等场景中表现突出[48]。图卷积神经网络(GCNs)方法具有强大的内部关系学习能力[15-18],能交互获取上下文空间感知信息,能有效捕获并强调变化区域,从而提高变化检测的准确性和灵敏度。与基于注意力机制的方法相比,图卷积网络通过显式建模空间拓扑关联,更擅长解析结构化局部特征,其基于图节点的空间关系推理机制,可精准刻画建筑物轮廓演变、道路网络连通性变化等具有强空间依赖性的目标,对小尺度目标(如地表细微破损、小型建筑物)具有更高的检测灵敏度,此类特性使其在城市建成区更新监测、基础设施精细化管理等场景中更具优势。此外,基于局部-全局金字塔结构[49-51]的方法进行局部和全局特征聚合,一定程度上整合了“局部-全局”特征表达,但单一金字塔结构的特征表达完整程度,难以匹敌以Transformer为代表的注意力机制。

1.1.2 时空联合变化检测

由于地物复杂多样、多时相影像受辐射差异等外界环境影响,仅使用空间特征进行变化检测无法充分利用时序影像的时间、空间和光谱等多层次信息,存在模型适应性不强、多场景动态适配困难等问题。时空联合的变化检测能从卫星图像时间序列中提取时空信息,检测图像序列变化的时间和位置,提升变化检测精度。主要分为长短期记忆网络(LSTM)方法和注意力机制方法。基于LSTM的方法通过分析多时相图像之间的时间依赖性增强特征的判别力[37],充分利用空间、光谱特征和时间特征进行变化检测[43]。注意力机制方法能够挖掘不同时相间的域间差异,充分利用时间和空间特征建立影像间依赖关系,精细地学习并融合不同尺度下的变化特征,缓解域偏移带来的变化误检现象,提高了变化检测的准确性和细节表现能力[44]。Transformer的自注意力机制可用于同时建模时间和空间维度的依赖关系,关注时间序列中的动态演变。通过引入时间维度,模型可以识别图像中的长期变化趋势和短期波动,同时保持空间位置之间的全局依赖关系。但是,此类方法的数据依赖度和模型计算复杂度均较高,进而限制了网络的应用范围。

时序变化检测方法展现出多时间尺度的适应性特征,在短期尺度(天/周级)应用中,其高频观测能力可实现对洪涝、山体滑坡等突发性灾害的实时动态监测,满足高时效性响应需求;针对中期尺度(月/季度级)场景,该方法通过解析植被指数周期性波动与地表覆盖渐变规律,有效支撑农作物轮作周期识别及城市边界渐进式扩张追踪;面向长期尺度(年/十年级)研究,依托时序连续性特征提取,揭示了生态系统演替过程与大型地貌的缓慢演变机制。但该类方法数据获取难度大、成本高,需要收集多个时间点的影像数据来构建时间序列数据集,对数据质量和一致性要求更严格,对样本标注要求更高,模型结构设计复杂,往往需要设计时间序列特征提取模块、时间注意力机制,用来学习不同时间阶段数据之间的复杂关系、变化规律及长短期依赖关系等。

1.2 单一模态到多模态特征表达

相比于单一模态语义分割、目标检测任务,多模态遥感变化检测概念更加复杂,含义更加丰富。一方面,部分多模态变化检测研究面向变化前后遥感图像模态差异问题。如,在地震、山体滑坡等需要紧急响应情况下,由于成像条件或卫星重访周期限制,难以保证特定模态数据的快速获取,这限制了单一模态变化检测技术的应用[52]。此时,变化后遥感图像往往通过最便捷的方式获取,即图像模态存在不确定性,形成了变化前后遥感图像之间的模态差异。另一方面,单一模态并未充分利用来源于多种平台、传感器的多模态遥感数据,未能发挥多模态协同表达优势,变化检测精度仍有较大提升空间[1]。因此,多模态变化检测研究能够协同不同模态数据的联合特征表达优势,更好地发现变化(表2)。为表述清晰起见,本文将单一模态称为“跨模态”变化检测,将多模态称为“多模态融合”变化检测。

表2   单模态到多模态特征表达研究现状

Tab. 2  Overview of research on single-modal to multi-modal feature representation


0929-006-002.png

1.2.1 跨模态变化检测

跨模态变化检测旨在从不同模态的前后遥感图像中发现变化,其主要思想包括3类:模态独立关系挖掘、跨模态数据对齐和图谱卷积建模。其中,模态独立关系挖掘探究独立于模态的结构关系,消除模态差异带来的变化前后对比困难问题,有效衡量变化前后结构关系的相似度,以提高跨模态变化检测精度。为挖掘结构关系,文献[53]引入面向对象分析,构建结构关系图卷积自编码器,从图结构中提取稳健的特征表达,通过损失函数,定义结构关系之间的相似度。跨模态数据对齐思想相关研究较多,其进一步可以分为特征空间对齐[62-63]、几何空间对齐[57]和分辨率对齐[64],以消除变化前后遥感图像模态差异带来的域偏移问题,提高变化发现可靠度。特征空间对齐基于正向和反向融合回归分析、渐进式特征表达,深入挖掘变化前后高维度特征表达,继而完成高维度特征空间对齐。几何空间对齐从变化前后跨模态图像几何配准角度切入[55],对齐变化前后遥感图像的几何特征。分辨率对齐引入超分重建机制,对齐变化前后遥感图像的空间分辨率。图谱卷积建模[56]借助傅里叶变换和图结构,将遥感图像特征变换至频率域,再利用图卷积提取空谱联合特征,从关系层面消除模态差异带来的信息干扰问题。此类方法虽然在一定程度上消除了变化前后遥感图像的域偏移问题,但网络模型通常由复杂的结构组成,难以保证模型具有稳定的收敛性,为模型训练带来了挑战。

1.2.2 多模态融合变化检测

多模态融合变化检测旨在充分发挥多种模态协同表达优势,其假设变化前后均有对应的多模态数据作为支撑,并通过拼接、降维、对比、加权融合、注意力机制等方法将编码后的多模态特征向量融合或互补。目前,多模态融合变化检测主要分为二三维信息融合变化检测和图文融合变化检测两种方法。二三维信息融合变化检测同时将二维遥感图像和三维数字表面模型作为基础数据,通过数字表面模型提供的高程信息,有效辅助变化发现。就细节而言,二维和三维信息融合引入对比学习[57]和基于孪生网络的协同学习[58],能更有效地表达变化特征。此外,为满足多模态融合变化检测模型训练需求,通过仿真方式构建同时包含二维遥感图像、三维数字表面模型和变化信息真值的数据集,以便于开展多模态融合变化检测研究[59]。图文融合变化检测借助近年来兴起的自然语言大模型,形成了兼顾视觉和文本表达优势的变化检测方法。其中代表性的研究成果有ChangeCLIP[60]。ChangeCLIP借助CLIP图文表达模型,构建了面向遥感复杂场景的编码器和解码器,并融入变化差异特征,实现多模态联合变化特征增强[61]。此外,详细的消融试验证明了ChangeCLIP使用的双时相插值、分数图、注意力机制、加权融合等方法提升了模型对多模态数据中语义信息的理解。与单模态模型相比,多模态编码器集成了文本数据中特有的高级语义特征,帮助模型获得了更好的遥感语义理解能力并显著提升了模型精度。CDVQA是一种面向变化检测的视觉问答机制,包含多时相特征编码、多时相融合、多模态融合和答案预测4个部分,基于图文表达,更全面地理解图像中的变化并回答相关的自然语言问题。此类方法虽然利用多模态数据有效增强了特征表达,但同时数据依赖度亦显著提高,预训练成本高,限制了网络模型适用范围。

1.3 轻量级模型到大模型特征表达

轻量级深度学习模型主要分为数据融合、数据转换、孪生组合的方法。数据融合方法融合双时相影像输入现有性能较高的语义分割分类网络中进行特征学习与分类,将变化检测任务转换为分类任务[65]。双时相融合是其中的关键,通常可以简单地将影像直接进行波段叠加,也可以采取特征加强的方式增强差异信息,以获取更准确的变化信息[66]。数据转换方法主要是针对双时相影像因不同来源等原因造成的异质性问题,通过域转换的方法,将输入影像转换为特征描述相似的影像,减少因影像差异造成的结果误差,如GAN网络生成相同域的影像[67]、双时相影像特征转换[68]等。孪生组合方法分为真孪生网络与伪孪生网络。真孪生网络可以共享权值;伪孪生网络则不会共享特征,增加了特征获取难度,但更利于改进网络结构。Transformer是典型的真孪生网络[69],首先利用权值共享提取深度特征图,然后构造语义块输入Transformer模块中,采用多尺度或分块等方式进行处理,最终输出变化结果[70]。

随着AI大模型的兴起,以SAM、Mamba为代表的大模型能够检测和分析遥感影像中的时空变化,有效提高了变化检测的准确性和效率[71]。SAM视觉编码器具有提取多尺度特征的能力,引入的语义学习方法具有提取语义特征的能力,从而实现语义级变化检测[72]。Mamba具有全局特征建模能力,充分学习输入影像的全局空间上下文信息,从多尺度特征中充分挖掘时空关系,逐步获得精准的变化信息,优于传统方法中仅将大图像裁剪为较小块的做法[73],如ChangeMamba具有时空顺序建模、时空交叉建模和时空并行建模能力,能够更加精确地检测和分析遥感图像中的时空变化,有效提高了变化检测的准确性和效率,在多个基准数据集上优于现有的CNN和Transformer等方法[74](表3)。

表3   轻量级模型到大模型特征表达研究现状

Tab. 3  Overview of research on feature representation from lightweight models to large models


0929-006-003.png

基于CNN的特定任务模型(俗称“小模型”),其参数量小,对计算资源的需求较低,结构简单,响应速度快,但提取特征能力有限,迁移能力弱,往往只适用于单一任务,泛化能力和精度在模型参数量提升时达到明显瓶颈。大模型多由大规模数据集预训练得到,特征表达、语义理解能力强,能够根据多模态数据理解其含义和关系,能在未知数据或复杂环境下保持高性能和稳定性,具有更多参数和更深的层次结构,能对复杂的模式和规律进行准确建模,并通过不断学习和更新参数提高性能和准确度;可以作为基础模型,在此基础上构建领域及垂类模型,节省重复训练时间和计算资源,快速适配各类下游任务。如,SkySense可以灵活组合或单独使用以适应各种任务,从单模到多模、静态到时态、分类到定位,都展现了其显著的泛化能力;GeoChat在视觉对话、目标查询、目标检测等多任务处理方面表现突出。虽然大模型拥有数亿至数千亿甚至更多的参数,训练和推理过程需要大量的高性能计算资源,训练周期长,但是一经预训练完成,其泛化能力、解译精度、可迁移性和语义理解能力都显著高于小模型,达到“一个模型可以完成不同地域的多种业务”的效果。在计算资源有限的条件下,通过知识蒸馏等轻量化方法可以将大模型的知识传递到计算资源需求低的小模型中,效果稍有逊色,如原版SAM实际应用效果好于MobileSAM、Light HQ-SAM等版本,边界吻合度可视化效果更好(如图5中蓝色边界)。

图片

图5   SAM不同版本效果

Fig. 5   Results of different SAM versions


1.4 二值到多类别语义特征表达

从变化检测结果表现形式出发,深度学习驱动的变化检测可以分为二值变化检测和语义变化检测。二值变化检测结果只包含变与不变两种结果,仅在特征层面上进行机械的变化判定,不参考任何类别和语义信息[75]。语义变化检测表示变化由什么类型转变为什么类型,可以明确获取变化范围与变化类型信息[76]。虽然两类变化检测任务所采取的整体策略有所不同,但本质差异仍然存在于变化特征表达方式。二值变化检测专注于特征空间的二值分割,不需要对地物进行更加细致的特征表达;语义变化检测则需要在特征空间进行多类别的语义分割,且发掘每一类语义特征的变化信息,对特征表达的要求更加具体、细致。

语义变化检测主要包括分类后比较、多任务学习、差异特征表达和语义推理等4类方法。分类后比较法[77-80]先利用深度学习网络对两期影像进行分类,再比较分类结果得到语义变化检测结果,适用于缺少变化样本的情况,但依赖于分类结果的误差传递,分类误差会影响变化检测结果。多任务学习法[81-82]一般是孪生编码器和多任务解码器通用范式,编码器是权重共享的孪生结构,同时提取不同时相的语义感知特征图,然后进行时间融合以生成时空特征,用于区分变化区域和未变化区域,最后利用任务解码器分别实现二值和语义变化检测,该方法是目前语义变化检测的主流方法,但样本不平衡会降低检测性能。差异特征表达法[83]是利用两个结构不同的网络模型(如非对称孪生网络)提取两期影像的多尺度空间信息和特征表达,精确识别和定位变化区域,并区分不同类型的语义变化,这种方法能够提高模型对复杂变化场景的识别能力,同时提供更准确的语义变化检测结果,但挖掘复杂场景的差异特征是面临的挑战。语义推理法[84]利用两个独立的编码器提取两期影像的深层语义特征,通过深层变化检测单元融合特征来识别变化区域,并利用语义推理模块分析变化区域的语义信息,从而推断出变化前后的类别,但该方面依赖于语义推理模块的性能(表4)。

表4   二值到多类别语义特征表达研究现状

Tab. 4  Overview of research on binary to multi-class semantic feature representation

0929-006-004.png

2 遥感影像变化检测深度学习网络学习过程的演变

全监督模式的遥感变化检测精度高、稳定性强,但制作精细的变化标注耗费大量人力物力,因此,出现了弱监督、半监督甚至无监督的变化检测网络学习方法(图6)的研究,这些方法所解决的任务涵盖了变化前后同构数据和异构数据范畴。

图片

图6   网络学习方法

Fig. 6   Network learning methods

2.1 全监督变化检测

全监督变化检测在有标签的数据上进行模型训练,通过端到端的方式自动学习图像中变化的模式和特征,无须手工设计特征,能够简化流程,提高了变化检测的精度和稳健性。全监督变化检测需要制作有标签的训练数据,这些标签可以是像素级的标注,也可以是语义级别的标注。

全监督变化检测可分为卷积神经网络、注意力网络、语义变化网络等方法(表5)。基于卷积神经网络的全监督变化检测[85-93]研究突破了传统变化检测技术框架的束缚,利用端到端的神经网络学习图像的时空特征,识别出变化区域,有效提高了变化检测的准确性和细节表现,但有过拟合风险,模型解释性差,对变化类型敏感。基于注意力网络的全监督变化检测可以通过全局关系感知精准的变化信息[48],滤掉不相关的变化[93],对变化信息进行强化和细化,获得更准确的变化[94]。采用注意力模块对多尺度差异特征进行融合[95-103],增强了模型对变化区域的关注度,同时保留了丰富的空间细节[99],但过度依赖注意力突出的区域,忽略了其他潜在重要的变化信号。语义变化网络全监督变化检测能同时提取变化区域及其变化前后语义类别[102-103],使得变化检测结果更加具有可解释性和实用性,对于地球观测的实际应用至关重要[104]。但在有限的变化样本条件下,语义信息的利用仍然是挑战。

表5   全监督变化检测研究现状

Tab. 5  Overview of research on fully supervised change detection

0929-006-005.png

2.2 弱/半监督变化检测

弱/半监督学习从不完整的监督信息中进行优选,使模型能够对数据进行有意义的学习和推断。弱/半监督学习不要求每个训练样本都有准确的标签,使用包含部分标记、噪声标记、不准确标记的标签数据进行深度神经网络模型训练,可以缓解依靠样本标注带来的压力。通过模型自动获得未标注数据的粗提取结果,基于特征一致性进行评估,获得置信度较高的伪样本。将高质量伪样本与有标注的样本数据一同输入模型中进行训练,但由于缺乏标记数据,模型难以充分训练(表6)。

表6   弱/半监督变化检测研究现状

Tab. 6  Overview of research on weak/semi-supervised change detection

0929-006-006.png

2.2.1 半监督变化检测

半监督变化检测方法根据伪样本生成机制,可以分为基于知识推理的方法和基于样本生成的方法。基于知识推理的方法,利用有标签数据设计一种有效的知识推理机制,结合现有信息通过模型增强或教师-学生模型迁移有效性判别,获得可用的伪标签数据。模型增强判别通过设计可靠的样本判别机制,利用有限的有标签样本数据,对未标注数据进行处理,获取高置信度的标签。样本判别机制通过加强样本上下文关系,减少对象发生类别混淆,从而确定可靠伪样本[106-107],也可以利用多分支特征进行交叉监督和信息共享[116],加强样本特征相关性。教师-学生模型迁移判别利用教师模型知识迁移进行特征对齐,从而实现在无标签样本中的泛化性,无须在模型中设置复杂的判别机制。此方法关键在于知识迁移,多采用渐进优化的方式[117],以及多尺度机制进行特征对齐与共享[118],以减小类内差异增强不变表示[45]。考虑到不同模型的性能差异,为进一步提高伪标签的可靠性,可整合多个变化检测模型进行优化[108]。但该类方法模型结构较复杂,难以通过训练准确进行特征迁移。

基于样本生成的方法利用生成式深度学习网络实现未标注数据泛化,根据网络用途可以分为对抗转换方法和对抗生成方法。对抗转换方法是利用判别器进行域转换对齐特征,提高数据泛化能力[119],基于少量样本数据生成未标注数据的伪标签。其核心是利用判别器保证标记数据和未标记数据之间的特征分布一致性,如通过网络生成预测[112],或利用一致性正则化生成器[111],弥补领域差异,获取可靠的伪标签数据。而对抗生成方法是利用影像生成技术进行样本扩充,生成对抗网络能够通过风格迁移增加图像的多样性,提高模型的泛化能力,但需要人为控制,无法实现端到端学习,如此复杂过程易造成误差积累。

2.2.2 弱监督变化检测

弱监督变化检测方法与半监督学习的区别在于获取的标签数据不准确,通常仅使用区域性标注数据,通过对模糊变化区域判别并进行迭代,最终得到像素级变化,但其准确度受限。近年来,弱监督语义分割模型被引入高分辨率遥感影像领域,用于建筑物的变化检测等相关工作[113]。弱监督变化检测可分为类激活映射(class activation map,CAM)和模糊聚类两类方法。类激活映射方法是计算图像不同区域特定类别的相关性,定位变化特征区域,适用于图像分类任务。为了获得较精确位置,基于CAM进行优化,如通过不同视图的CAMs执行相互学习,实现了在混淆区域的一致性约束[73],引入SAM分割模型进行像素级定位,取得准确的像素级变化[114]。模糊聚类是通过特征转换等方法进行模糊区域提取[120],从而挑选样本进行训练。其关键在于面向聚类过程进行优化,在聚类过程中防止类别干扰[121],主要优化思路包括模糊区域特征融合[122]、区域约束或引导[120]。

2.3 无监督变化检测

随着深度学习技术的不断发展,无监督学习方法开始在变化检测任务中使用(表7)。其中,文献[123—124]的研究是无监督变化检测较早的尝试[56]。目前,无监督变化检测可以分为基于聚类分析的无监督变化检测、基于自监督学习的无监督变化检测和面向异构数据的无监督变化检测。

表7   无监督变化检测研究现状

Tab. 7  Overview of research on unsupervised change detection

0929-006-007.png

基于聚类分析的无监督变化检测通常利用深度学习网络提取高维度特征,然后引入传统的聚类分析,如C-Means[125]、稀疏表示[126]、字典学习[127]、极大似然估计[42]等,在特征空间进行二值聚类,以发现变化信息。深度学习网络在此过程中作为特征生成器,其提取的特征可区分度直接影响了变化检测可靠性。因此,此类研究在结合传统聚类分析的同时,在神经网络结构设计上做了大量研究。文献[125]面向SAR图像的特点,设计目标导向型深度学习网络,以削弱斑点噪声影响;文献[126]提出基于块相似图矩阵的变化检测方法,旨在增强深度学习网络对不同数据的泛化能力。聚类方法与深度学习网络的高效、协同优化方法仍是挑战。

自监督学习作为一种典型的无监督学习思想,其上游任务通过学习高维度特征表达,实现伪标签生成;然后,下游任务通过选择可靠的伪标签,实现自监督学习。目前,该思想已被引入无监督变化检测任务,此类方法通常引入或定义光谱-空间图模型[129]、循环交替机制[130]、结构回归融合[62]、对比学习[63]、空谱注意力机制[31]、多时序丰度张量[56]等与自监督学习相结合,以增强无监督变化检测可靠度。但训练过程复杂,难以实现端到端的训练。

面向异构数据无监督变化检测是面向变化前后数据模态存在差异情景,利用带有标签的源域数据及不含有标签的目标域数据训练网络模型,实现目标域数据变化检测,包括模型微调、域自适应迁移、知识蒸馏、样本合成等方法。模型微调通常包括预训练和模型微调两个步骤[25,131],预训练通过共享有监督的变化模型和无标签的生成模型参数,获取预训练模型;在微调阶段选择置信度较高的样本进行训练,以提高模型对目标域的适应能力。域自适应迁移基于迁移学习,形成了多样化的变化检测框架,引入基于生成对抗网络的图像风格迁移[134]、特征空间域自适应对齐机制[135]、混合注意力机制[136],缓解异构图像之间模态差异带来的干扰因素。然后,提取域不变特征,从不同模态前后时相遥感图像中识别变化信息。知识蒸馏以解决高质量图像训练得到的网络在低质量图像变化检测任务中性能显著下降为研究切入点[132],其核心思想是利用从高质量图像对获得的任务知识,来指导模型在处理质量差异较大的图像对时的学习过程。通常引入关联蒸馏方法(包括自相关、交叉相关和全局相关),强制学生模型复制教师模型中的关联关系,而不仅仅关注单个特征,这确保了有效的知识迁移,同时保持学生模型的训练灵活性。样本合成旨在解决伪标签质量低导致的性能下降甚至模型崩溃问题,该研究人工创建变化区域,并在真实样本上进行合成样本增强,一方面提升标签的可靠性,另一方面在减小域偏移的同时生成更多可迁移的样本,以提升变化检测可靠性[133]。

此外,尚有部分方法引入可变形卷积[137]、图卷积神经网络[138]、概率模型[26]和卷积自编码器[139],且均有自身的独特性。无监督变化检测方法虽然减轻了人工标注,并与传统聚类分析、自监督学习、迁移学习、知识蒸馏、样本合成等思想相结合,但其训练过程烦琐,且精度与全监督、弱/半监督方法仍然存在差距。

3 遥感变化检测深度学习方法的发展方向趋势

深度学习驱动的变化检测技术在变化特征表达、网络学习过程方面均取得了突破,但仍然面临诸多挑战,主要体现在两方面。一是变化特征表达稳定性与网络计算复杂度之间的平衡问题。为提升变化特征表达的稳定性,通常需要引入高阶注意力机制[9]、图结构[1]等模块,或构建遥感大模型[18],以增强低/高层次、局部/全局和时空联合特征表达能力。但同时,这些复杂模块和数以亿计参数的遥感大模型显著提高了网络计算复杂度,大幅拉长了网络训练和测试时间,且更加依赖高性能计算设备。如何平衡变化特征表达有效性和网络计算复杂度,减轻高性能计算设备依赖,是未来深度学习驱动的变化检测无法回避的挑战。二是训练样本依赖度与精度之间的平衡问题。为应对自然资源调查监测、智能化测绘任务的时效性需求,深度学习驱动的变化检测已经开始从全监督学习模式,向弱/半监督和无监督学习模式转变。这最大限度地缓解了训练样本依赖,缩短了网络训练周期,减轻了人工标注成本;但同时,变化检测精度显著下降。即使充分利用开放获取的、历史任务积累的样本数据辅助无监督学习模式,所取得的精度仍然与全监督学习模式存在显著差距。此外,即使具备大量训练样本,全监督模式训练得到的网络,仍然难以获取满足高精度监测任务的需求,依然需要人机协同模式精化网络预测结果。视觉-语言模型和生成式人工智能模型分别为变化特征表达和训练样本依赖问题提供了全新解决思路。这些方法的引入,或将为上述挑战带来有效解决方案。

3.1 图文融合模式变化检测

近年来,视觉-语言表示学习成为人工智能领域的热门主题,这类学习方法利用深度学习网络,从图像-文本对中学习可区分度更高的深度特征,并开始应用于诸多遥感视觉计算领域,包括变化检测[140]。变化检测的图文融合模式(图7)引入文本提示(前景和背景提示)辅助变化发现。首先,设计独特的文本和图像编码器,充分表达文本和图像信息。然后,将文本和图像特征融合,并设计视觉-文本联合解码器,充分挖掘图像和文本提示中所反映的变化特征,通过增强变化检测语义信息方式,提升变化发现可靠性。

图片

图7   遥感变化检测的图文融合模式

Fig. 7   Image-text fusion mode for remote sensing change detection


ChangeCLIP[60]是变化检测图文融合模式的成功尝试,设计了多模态编码器、差异特征补偿和视觉语言驱动解码器3个部分。多模态编码器包括语言编码器和视觉编码器,且均为Transformer编码器结构,其中文本编码器是基于Transformer结构的语言模型,可以根据已有的文本提示模板(如前景提示=“建筑物”,背景提示=“背景”)生成文本特征。通过多模态编码器将遥感影像和文本数据编码为特征向量,计算视觉文本特征之间的“得分图”,以将视觉和文本特征之间的高级语义特征连接并充分融合;随后通过差异特征补偿模块学习双时相差异特征,获取变化区域的抽象语义信息;最终将差异特征和文本提示一并输入视觉语言驱动解码器进行上采样,从而完成变化图斑的预测。ChangeCLIP在LEVIR-CD[66]、LEVIR-CD+[66]、WHUCD[141]、CDD[142]和SYSU-CD[98]数据集上进行了全面测试,详细测试结果见文献[60]。这里以LEVIR-CD上的测试结果为例说明ChangeCLIP的潜力。LEVIR-CD数据集是一个大型的建筑物变化检测数据集,由637幅大小为1024×1024像素的双时相超高分辨率遥感图像组成,时间跨度为5~14年,覆盖美国得克萨斯州20个地区,土地利用变化信息丰富,尤其是建筑物的种类多样,如别墅住宅、高层公寓、小车库和大型仓库等,已在变化检测研究的试验验证中得到了广泛应用。具体地,ChangeCLIP在LEVIR-CD数据集上取得的mIoU(mean intersection over union)精度达到了92.18%,预示了该模式的巨大成功。相应的可视化结果如图8所示,其中第3列是变化真值,第4列是ChangeCLIP的预测结果,第5列采用红色和绿色标示出ChangeCLIP预测结果的漏检和误检区域,漏检占比为9.33%,误检占比为6.60%,漏检和误检情况均较少,主要出现在建筑物边界区域。

图片

图8   ChangeCLIP在LEVIR-CD数据集上的变化检测可视化结果

注:前景提示=“建筑物”,背景提示=“背景”。

Fig. 8   Visualization results of ChangeCLIP on the LEVIR-CD dataset


目前,用于遥感变化检测的文本提示仍然有限,文本提示编码器在样本较少的情况下,难以充分发挥图文融合优势。同时,预示着图文融合变化检测方法具备较大的精度提升空间。

3.2 生成式变化检测

去噪扩散模型(denoising diffusion probabilistic models,DDPM)将概率论、随机微分方程和深度学习有机结合[143-144],由加噪和去噪过程组成,分别对应正向和逆向(重建)过程。正向过程通过利用扩散过程规律,有序添加噪声;逆向过程利用深度学习,求解随机微分方程参数,不断消除噪声,并引入标号、变化信息,生成目标数据。生成式变化检测GCD(generative change detection)-DDPM[4]基于DDPM,将变化前后图像与正向过程生成的噪声图像进行波段叠加,分别输入深度学习编码器,实现噪声与地物信息联合的深度特征表达(图9)。然后,设计含有噪声的联合特征噪声抑制模块及解码器,结合DDPM的重建过程,直接生成变化图。该过程重塑了遥感变化检测技术框架,取代了传统逐像素分类策略,能够通过迭代推理过程自适应地重新校准变化检测结果,同时准确区分多样化场景中的细微和不规则变化,显著提高了变化检测精度,但DDPM的逆向(重建)过程耗费时间长,效率较低。


图片

图9   生成式变化检测

Fig. 9   Generative change detection


GCD-DDPM在LEVIR-CD[66]、CDD[142]、WHUCD[141]和GVLM[145]数据集上进行了全面测试,详细结果见文献[4]。其中,在LEVIR-CD数据集上的mIoU精度达到了83.56%,虽然不及ChangeCLIP的精度,但具备一定潜力。LEVIR-CD数据集的概略信息如3.1节所述,这里不再赘述。GCD-DDPM在LEVIR-CD数据集上的可视化结果如图10所示,其中第4列是GCD-DDPM的预测结果,第5列采用红色和绿色标示出GCD-DDPM预测结果的漏检和误检区域,漏检占比为8.76%,误检占比为9.32%。可以发现,GCD-DDPM能够检测变化主体区域,变化区域的边界较容易出现漏检和误检现象。但是,DDPM具备理论的可解释性以及方法的可拓展性。目前,生成式变化检测仍然限于引入现有的扩散模型,并与注意力机制、深度学习编码器融合,尚未对扩散模型的原理进行研究和突破。而生成式变化检测的核心驱动力,即扩散模型的稳定性仍有待学者们继续深入研究。

图片

图10   GCD-DDPM在LEVIR-CD数据集上的变化检测可视化结果

Fig. 10   Visualization results of GCD-DDPM on the LEVIR-CD dataset


3.3 人机协同变化检测

针对智能变化检测模型算法与应用需求结合不紧密、尚难以满足业务需求等问题,通过人机协同技术把机器学习与专家知识、人脑与机器的优势结合起来,电脑负责自动化处理,将处理结果推送给解译人员,解译人员根据经验和自动处理结果进行综合判断与确认,再将综合决策结果反馈给电脑,使得系统被训练得更智能,解决问题的能力越来越强。大模型的兴起,出现了SAM、SEEM(segment everything everywhere all at once),以及MobileSAM、EfficientSAM、SAM-Lightening等轻量级模型,通过提示学习真正实现人机协同[146-147],如SEEM相比SAM支持更多模态的prompt,可以任意组合视觉、文本、引用区域提示信息,实现多功能和交互式分割[148]。


图片

图11   人机协同变化检测

Fig. 11   Human-computer collaborative change detection


利用SAM进行交互式地物提取,不仅能够提高提取效率,而且通过人工交互提示学习,保证了提取结果尤其是边界的精准性,真正实现了人机协同的理念,部分提取效果如图12所示。

图片

图12   SAM地物提取效果

注:蓝色区域表示SAM提示学习提取效果。

Fig. 12   Land cover extraction results of SAM


大模型时代,智能体是基于大模型的全新智能应用形态,具备感知、思考、行动和进化能力。在感知方面,应用多模态数据处理技术使智能体能够从复杂的业务环境中识别并理解关键信息;在思考方面,结合知识图谱和语言大模型,进行逻辑推理与策略规划,以提升决策效率和质量;在行动层面,通过强化学习和智能规划技术使智能体能快速实施决策;在进化方面,利用在线学习与自我优化机制使智能体在与环境的互动中持续进化,不断提升自身的感知精度、决策智能和执行力。智能体辅助的成长式遥感智能变化检测模式,是通过变化感知智能体自动生成变化信息,变化信息引导业务生产,形成生产数据,生产数据经过质量控制智能体形成最终成果,各智能体信息反馈给多模态遥感大模型,从而实现大模型-多智能体相互协同、自组织、自学习、自适应,持续优化迭代,形成一个自进化的智能系统,逐步提升遥感变化检测自动化、精准化、智能化水平。以Change-Agent为代表的交互式智能体,将多层次变化解释模型作为眼睛,将大型语言模型作为大脑,根据用户指令进行全面的变化解释和深入分析,实现了对地表变化的交互式和全面的解释和分析,具有智能对话和定制服务能力,为智能变化检测与解释分析开辟了新的机遇[18]。

4 结束语

本文从变化特征表达和网络学习过程两个维度,总结了现有深度学习驱动的遥感变化检测方法,顾及多模态遥感对地观测技术、深度学习前沿技术的发展,以及潜在应用导向。总结了4类特征表达的研究进展,即局部、全局到时空联合,单一模态到多模态,轻量级模型到大模型,二值到多类别语义变化特征表达;分析了全监督、弱/半监督和无监督网络学习过程的特点和发展关系。基于当前视觉-文本大模型和生成式人工智能的发展机遇,论述了未来遥感变化检测所面临的挑战,并结合人机协同的高可信变化检测应用导向,展望了遥感变化检测的未来发展。

由变化特征表达可知:局部、全局到时空联合特征表达方面,空间和时间的耦合建模仍是一个难题,训练和解释性方面存在挑战;单一模态到多模态特征表达方面,多模态特征协同表达是难题,对预训练大模型的依赖程度高;轻量级模型到大模型特征表达方面,大模型训练和推理过程依赖大量的高性能计算资源,大模型的高效训练、轻量化部署是挑战;二值到多类别语义特征表达方面,变化检测效果依赖语义推理能力,挖掘复杂场景的差异特征是面临的挑战。从网络学习过程看,全监督语义变化检测在有限的变化样本条件下,语义信息的利用仍然是挑战;弱/半监督变化检测模型结构复杂,易造成误差积累,难以准确获得像素标注;无监督变化检测模型训练过程复杂,难以实现端到端的训练。如何平衡变化特征表达有效性和网络计算复杂度,减轻高性能计算设备依赖;如何平衡训练样本依赖度与精度之间的关系;如何实现数据-模型-知识的协同表达与迭代反馈等;是未来深度学习驱动的变化检测无法回避的挑战。

变化检测应用场景复杂多样,单一方法、单一环节难以满足应用需求,需要回归领域本身去思考问题,摒弃拿来主义的简单思维,将应用场景、数据源、领域知识、模型方法结合起来。近年来,实景三维中国、国土空间规划和全球生态环境监测等应用在区域、全球范围全面展开,从应用场景、数据源、领域知识方面影响着遥感变化检测方法的发展。二维和三维协同变化信息发现[149]、高维度森林资源变化检测技术体系[150]、场景级变化检测[151]、变化矢量检测[152]亦将在各自应用领域得到发展。同时,深度学习技术的不断突破仍然无法在精细化变化检测中取代人的干预,未来变化检测仍然要统筹深度学习与专家知识,计算机负责海量数据处理和自动化检测,人的综合决策亦需要及时反馈给计算机,以形成一种持续增强学习的智能变化检测生态系统。


主管部门:
自然资源部
民政部
中国科协
京ICP备14037318号-1 京公网安备 11010802031220号
主办:中国测绘学会    技术支持 :江苏润溪时空智能科技股份有限公司
联系电话:010-63881345      邮箱地址:zgchxh1401@163.com
联系地址:北京市海淀区莲花池西路28号西裙楼四层