李海峰1, 郭旺1, 吴梦伟1, 彭程里1, 朱庆2, 刘瑜3, 陶超1
1.
2.
3.
摘要
当前遥感智能解译主要依赖视觉模型在遥感影像与语义标签之间建立映射关系,但受限于有限类别的语义标注,模型难以学习地物及其关系的深层语义,进而无法涌现对世界知识的理解能力。随着大语言模型的兴起,依托其对语言中蕴含的人类知识的强大编码能力,有望突破遥感视觉模型知识获取的局限。通过大语言模型引导视觉模型,可显著拓展其知识学习范围,推动遥感智能解译从语义匹配向世界知识理解跃迁。本文认为,视觉-语言联合的多模态遥感解译模型将引发新一轮范式变革。在此基础上,本文进一步围绕遥感地物概念表达展开系统分析。通过深入分析遥感地物的概念内涵与外延,揭示了单纯依赖视觉模态在表达复杂遥感地物特征方面的不足,剖析了联合视觉-语言两种模态数据进行遥感地物概念表达的价值和意义。在此基础上,详细分析了遥感地物概念表达范式背后所面临的模态对齐问题及其代表性解决方法,探讨了该范式如何催化遥感解译模型新能力的涌现,并对该能力的产生原因和实际应用价值进行分析。最后,本文总结并讨论了在这种遥感地物概念表达框架下遥感影像智能解译领域所面临的机遇与挑战。
关键词
基金项目
湖南省杰出青年基金(2022JJ10072); 国家自然科学基金(42471419;42171376;41771458)
作者简介
第一作者:李海峰(1980—),男,博士,教授,研究方向为多模态时空通用大模型、多模态时空信息记忆模型。E-mail:
通信作者:陶超 E-mail:kingtaochao@csu.edu.cn
本文引用格式
李海峰, 郭旺, 吴梦伟, 彭程里, 朱庆, 刘瑜, 陶超.
LI Haifeng, GUO Wang, WU Mengwei, PENG Chengli, ZHU Qing, LIU Yu, TAO Chao.
阅读全文
http://xb.chinasmp.com/article/2025/1001-1595/1001-1595-2025-05-0853.shtml
理解遥感影像中所捕获的地物概念及相互关系是遥感影像智能解译的主要目标。传统遥感智能解译方法以视觉模型为基础,利用模型自动提取遥感影像中地物的视觉特征[1],并通过建立视觉特征与地物标签之间的映射关系描述地物概念,进而完成场景理解[2]、地物分类[3-4]、目标检测[5-6]等多种遥感影像理解任务。然而现有的视觉模型在学习地物间复杂概念关系方面存在局限[7-8],这在处理背景复杂和环境动态变化的遥感影像时尤为明显,导致模型的识别和分类性能受到限制。特别是在识别视觉上相似但功能或属性有所不同的地物时,这些模型往往难以捕捉它们之间的细微差异。以细粒度耕地分类为例,不同耕地在视觉上仅存在细微差别,如颜色或纹理,但实际上它们的作物种类和耕作方式大不相同。如一个耕地可能主要种植水稻,另一个类似的区域却用于种植小麦。传统视觉模型在缺乏深入理解这些差异的情况下,可能无法准确区分这些耕地类型。因此,增强视觉模型对复杂遥感概念的理解能力,提升概念和概念关系的理解粒度,对于提高遥感影像解释的精确度和可信度至关重要。
人类常用语言来表达和理解地物概念及其相互关系。如当观察一张城市风光照片时,人们可能会评论:“这张照片中,我们可以看到一座现代化的大桥横跨在宽阔的河流上,连接着两岸的商业区。河流的这一侧是一个繁忙的港口,装满了货船和集装箱,而对岸则是一片高楼林立的商业中心。”通过这样的描述,人们不仅能够理解照片中呈现的具体地物,如大桥、河流、港口和商业中心,还能够把握它们之间的空间关系和相互作用,如大桥作为连接两岸的重要交通枢纽,港口的经济活动对商业中心的支持作用等。这种通过语言描述来辅助图像理解的过程,使得人们能够更加深入和全面地把握图像所代表的场景和含义,开启了图像理解范式从传统仅使用视觉模型到使用视觉-语言联合表征模型的转变。这一转变在计算机视觉领域已经发生,一系列突破性的视觉-语言预训练模型[9-10]的出现,如CLIP[11]、GPT-4V[12]和Flamingo[13]等,标志着这一领域的重大进展。同时,大量的图文数据集的出现进一步推动了视觉-语言预训练模型的边界。这些图文数据集,如COCO[14]、Visual Genom[15]和LAION[16]等,提供了丰富的视觉内容和对应的自然语言描述,为视觉-语言模型训练提供了必要的数据基础。
从2023年开始,遥感领域对从传统视觉模型过渡到视觉-语言模型范式的转变给予了极大关注[17],新的多模态模型框架研究如AllSpark[18]已经开始探索依靠语言模态统一多种模态数据的可行性。文献[19—21]梳理了视觉-语言遥感智能解译模型的应用现状,并跟踪了这些模型在遥感图像描述任务上的快速发展。然而,在建立视觉-语言联合空间表达遥感地物概念的意义、如何能够提升遥感影像智能解译效果,以及如何促进现有遥感解译任务的发展等方面,仍缺乏深入的探讨和分析。因此,本文致力于弥补这一空缺,通过深入分析遥感地物概念中的本体与实体,探讨仅依赖单一模态(视觉或语言)表达遥感地物存在的局限性。在此基础上进一步剖析构建面向遥感智能解译的视觉-语言联合空间的重要性及其基本理论方法。最后,探讨为何视觉-语言联合空间能够促进遥感解译模型性能的提升,并分析这种性能提升的可能条件。通过这一系列分析,旨在提供一个全面的视角,以理解视觉和语言模态融合对提升遥感影像解译效果的潜力及其实现机制。本文的主要贡献如下。
(1)本文以地物概念为起点,深入探讨了视觉-语言模型在描述地物概念中的作用,并建立了一个综合的概念描述框架。本文认为语言模态擅长负责阐释地物概念的本体属性和关系,而视觉模态擅长界定这些概念的具体实体。因此,在视觉-语言联合的地物概念表达空间内,语言模态扮演着构建地物本体间相互关系的角色,而视觉模态则具体化语言描述的地物实体,由此确立了一个清晰的框架来理解和描绘遥感地物概念及其相互复杂关系。
(2)本文通过对现有语言与视觉模型中概念表达方式的分析,阐释了构建视觉-语言联合地物概念表达空间的重要性,并探讨了面临的主要挑战——模态对齐问题。本文对现有对齐技术进行了分类,区分为显式对齐和隐式对齐两种策略,并讨论了各自的优势与限制。
(3)本文探讨了在视觉-语言联合地物概念表达空间中,视觉和语言模态如何互为补充,进而催生了两种创新的能力:一是通过概念组合泛化涌现的开放环境下未知目标识别辨别能力;二是通过继承了语言模态表达的地物概念关系表现出的解译模型生成预测能力。本文深入探讨了这两种能力产生的原因,并综述了相关研究进展。
(4)本文总结并讨论了构建视觉-语言联合的地物概念表达空间为遥感影像智能解译领域带来的机遇与挑战,同时提出了潜在的研究方向,包括未被先前综述所覆盖的方向。
本文整体组织结构如图1所示。
图1 本文的整体组织结构
Fig. 1 Overall organizational structure of this paper
1 遥感地物概念空间
认识地物概念是遥感影像智能解译的基础。遥感影像本质上是在特定时空条件下对物理世界中的地物实体进行数字化采样,而解译性能则取决于模型对地物本身特性的认知能力[22-23]。因此,本文首先构建了一个由地物本体和地物实体组成的遥感地物概念空间框架,作为理解和解译遥感地物的基础。在这一基础上,探讨了地物本体和实体在认识地物概念中扮演的角色,并分析了单独在视觉模态下或语言模态下表达遥感地物概念存在的不足,以此揭示利用单一模态解译遥感影像的固有限制。
1.1 遥感地物概念空间的定义
在遥感影像智能解译领域,影像本质上是在特定时空条件下对地物实体的数字化采样,而解译目标则是在影像中识别这些地物实体,并理解其所对应的地物本体[24-25]。基于这一认识,本文将遥感地物概念空间定义为一个结构化的知识图谱(图2),由地物本体和地物实体两部分组成。然后通过地物本体和地物实体构建遥感地物概念空间理论框架,用于深入理解、认识和描述遥感地物。
图2 遥感地物概念空间组成及相互关系
Fig. 2 Composition and interrelationships of the conceptual space for remote sensing geo-objects
(1)遥感地物概念空间组成:遥感地物概念空间由地物本体和地物实体两部分组成,如图2所示,不同节点代表各种地物本体,如林地、水稻田和耕地等,它们的外延是地物实体。在遥感地物概念空间中,本体和实体通过关系相连接。
(2)地物本体的定义与内涵:地物本体是对地物实体的概念化表达,这一表达通过本体属性和本体关系共同实现。本体属性定义了地物的基本特征,如:地物类别,基于地物实体的特征和属性,对其进行分类和归类的标准;地物功能,描述地物的用途和作用;结构特性,概括同类地物实体所共有的结构特点;生态特性,揭示地物与其所处生态系统之间的相互作用和依存关系。本体关系则刻画了地物本体之间的相互作用和逻辑联系,包括:语义关系,基于共享的属性或功能,描述地物本体之间的相似性或同一性;组成关系,表明某一地物本体是如何由其他地物构成的;作用关系,反映地物本体之间的功能性影响,描述它们如何相互作用以实现特定的生态功能。
(3)地物实体的定义与内涵:地物实体代表地物在物理世界中的具体存在形式,通常通过实体属性和实体关系进行描述。实体属性反映地物在遥感影像中的可观测特性,包括:光谱特性,描述地物在不同波长光谱中的反射或吸收特性;几何特性,刻画地物的形状、大小及空间布局;纹理特性,体现地物表面的视觉和结构特征;时序变化,描述上述特性随时间的动态变化情况。实体关系揭示地物实体在空间和时间上的联系,主要包括:空间关系,描述地物实体在地理空间中的相对位置关系;时间关系,反映地物实体随时间的变化及其演化趋势。
1.2 视觉模态下的遥感地物概念空间表达
在遥感地物概念空间中,地物实体是具体的、可观测的。通过无人机、卫星或其他视觉传感器采集的遥感影像,能够详尽地提供地物实体的形状、颜色、纹理和光谱特性等信息。因此,遥感影像作为视觉模态数据,在描述地物实体方面具有显著优势,具体体现如下。
(1)视觉模态的感知性:视觉模态能高效感知地物实体,通过遥感影像的像素反映地物实体属性和实体关系。如春天的耕地在遥感影像中表现出规则的地块形状和网格状的纹理,其地表农作物呈现碧绿的颜色。
(2)视觉模态的解析性:视觉解析性指通过视觉感知信息对地物类别进行推断的能力。视觉模态能够捕捉地物实体的视觉特征,通过特征的差异实现对地物实体精细的识别和分类。如在影像中,耕地和水体在光谱特性、几何形态和纹理特征上存在显著差异。
以视觉模态为中心的遥感影像智能解译模型,通过视觉影像描述的地物实体信息与通过“类别标签”描述的地物本体类别构建关联。但这种关系通常是不完备的,因为地物本体属性涉及更抽象的地物功能、结构特性或生态特性,而这些特性无法通过视觉捕捉,也难以通过“类别标签”表达。因此,在表达地物概念时,虽然视觉模态下的遥感影像能捕获并表达地物实体及实体关系,并将其映射至地物类别,但难以解析出地物本体关系中包含的语义关系、作用关系或组成关系。
1.3 语言模态下的遥感地物概念空间表达
地物本体是抽象的、不可观测的。相对于视觉模态,语言模态尤其擅长捕捉和表达地物本体的属性和关系,不仅能够直接描述抽象的地物类别、功能、结构特性和生态特性,还能基于这些特性推断地物本体间的语义关系、组成关系和作用关系。这种特性由语言模态的描述性和逻辑性所支撑。
(1)语言模态的描述性:语言能够详细描述地物本体属性,其特性能通过语句的组合直接表达。如在“城市公园不仅为城市提供了绿地,改善了空气质量,还通过丰富的植被和水体调节了城市气候”这句话中,城市公园的地物功能和生态特性得到明确的描述。
(2)语言模态的逻辑性:语言的逻辑性指基于语言描述可以进行逻辑推理。在遥感数据处理中,语言模态的逻辑性体现为通过逻辑推理来解释复杂的地物关系,如“如果在连续的遥感图像中观察到城市公园内的绿地面积逐年增加,同时周边的居民区也在扩展,那么可以推断该城市公园不仅在生态保护方面发挥了重要作用,还可能提升了周边区域的居住吸引力和生活质量”。
尽管语言模态在描述遥感地物本体的属性和关系方面表现出良好的性质,但它缺乏对地物实体属性及实体关系的表达能力。如语言可以描述一个地区的“城市绿化率高”,但无法直观展现城市公园在影像中的光谱特性、几何形状和空间布局等视觉细节。这种局限使得语言模态表达的地物概念不如视觉模态直观和精确。
综上,视觉模态和语言模态在描述地物概念上各有侧重(表1)。视觉模态擅于描述地物实体,能够通过视觉解析性推测本体类别,但难以捕捉或描述地物本体关系;语言模态擅长描述地物本体,却难以细致表达地物本体外延的地物实体。两种模态各有优势,在描述地物概念上存在较强互补性。
表1 视觉模态与语言模态对地物实体及地物本体表达
Tab. 1
2 遥感视觉-语言联合地物概念表达空间构建
在遥感影像智能解译领域中,语言模态擅长描述地物本体,而视觉模态则擅长直观地表达地物实体。因此单独使用语言或视觉模态来描述地物概念是不完备的。鉴于此,联合视觉与语言模态,构建一个视觉-语言联合地物概念表达空间(图3),使用语言描述地物本体,视觉描述地物实体,使两种模态在地物概念表达空间中互补融合,从而实现对地物概念准确且完整的表达。本节将详细讨论在遥感影像智能解译模型中构建视觉-语言联合地物概念表达空间的意义及其面临的挑战。
图3 视觉-语言联合地物概念表达空间下的地物概念描述
Fig. 3 Geo-object concept description within the unified visual-language conceptual space
2.1 视觉-语言联合地物概念表达空间构建的意义
目前遥感影像智能解译领域主要依赖视觉模型,通过建立视觉特征与标签之间的映射关系,为地物分类、分割、目标检测和变化检测等解译任务提供了强大支持。然而,视觉模型仅建立了实体属性特征与地物类别的静态映射关系,并未真正“理解”影像,具体表现在两个方面。①缺乏语义理解能力:视觉模型主要依赖像素级特征进行分类,而缺乏对地物本体属性的理解,如模型可以识别出绿色区域为公园,但不能理解公园在城市生态系统中的重要作用。②缺乏复杂关系推理能力:视觉模型难以推理地物本体间的复杂关系。模型可以检测到城市公园的存在,但难以推断城市公园与城市园林和水体之间的语义关系和作用关系。
语义理解能力的缺失导致模型难以分辨视觉特征相似的影像所代表的不同语义。已有的基于知识图谱的遥感影像智能解译方法,通过视觉-语言联合表达地物概念,显著提升了模型的语义理解能力[26-27]。然而,这些方法主要依赖预先定义的地理专家知识所构成的结构化知识单元进行推理,如知识三元组[28]。在推理复杂地物本体关系时,尽管能提供有效的推理路径,但相比于直接利用语言逻辑性进行推理,其动态性和准确性不足,难以适应并揭示时空变化背景下的复杂地物关系,从而导致模型在应对动态环境时表现不佳。因此,利用语言的逻辑性来增强模型对复杂关系的推理能力,并构建联合地物概念表达空间,是提升遥感影像智能解译模型地物理解能力的关键路径。然而,由于视觉和语言模态在表达地物特征时各具特点与局限性,如何有效对齐二者以形成一致的地物概念表征,成为视觉-语言联合地物概念表达的核心挑战。
2.2 遥感视觉-语言模态的对齐
2.2.1 遥感视觉-语言模态对齐的意义
视觉-语言模态的对齐是构建联合地物概念表达空间的基础,实现视觉模态和语言模态的一致表达是消除视觉歧义、描述复杂地物本体关系、实现地物概念层面组合泛化的关键。在计算机视觉和自然语言处理领域,研究人员很早就认识到了将视觉与语言相结合的巨大潜力,并进行了初步的探索[29-30]。尽管这些早期工作为跨模态研究奠定了基础,但他们并未充分挖掘语言模态的潜力,这一局面随着CLIP[11]等突破性的工作的出现而得以改变。这类工作将自然语言作为监督信号,充分利用了语言模态的特有优势,开启了视觉-语言模型研究的新篇章。而在遥感领域,视觉-语言模型的应用也取得显著进展,并且不断有新的研究成果涌现。在遥感视觉-语言模型中,对齐(alignment)是实现视觉和语言结合的关键过程。通过对齐,遥感图像中的视觉采集的实体属性与语言表达的本体属性相互关联,这不仅增强了地物概念的丰富性和精确性,还充分利用了语言在描述复杂、动态的物理世界中概念本体的独特优势,推动模型对遥感图像的深层次理解。
(1)消除视觉歧义:在理解遥感影像时,视觉虽然能够传达更丰富的信息,但受视角、环境条件、遮挡、阴影及对象多样性等因素影响,不同观察者可能对同一视觉信息产生不同的解读,而语言可以提供关键的上下文信息,有助于消除视觉表征中的歧义。以图4为例,由于不同本体属性的遥感影像可能具有相似的视觉特征,仅依赖视觉模态推断地物类别存在误判的风险。然而,当视觉信息与相关的语言描述相结合时,语言表达的地物属性和作用关系信息能够帮助模型确认图示土地是耕地而非荒地,从而有效消除视觉信息中的歧义。
图4 视觉影像相似地物存在不同地物本体属性情况
Fig. 4 Different geo-concept attributes for visually similar geo-entities
(2)描述复杂地物本体关系:语言在描述地物本体关系方面具有独特优势,这是单纯依赖视觉难以实现的。尽管计算机视觉在图像分类、目标检测等任务上取得了显著进展,但这些技术主要关注学习地物实体的独立视觉特征及其相互间的视觉差异,而非地物的本体属性或本体关系。以图4中左侧影像为例,传统的计算机视觉方法能够准确将该图分类为耕地,但其无法理解这张图像其实是“耕地”与“春季”综合作用的结果。借由语言,解译过程可以突破时空的束缚,理解物候、地区和结构特性与“耕地”影像之间的作用关系。因此,语言不仅是信息的载体,更是理解和揭示地物本体关系的关键工具。语言与视觉的结合,是提升模型对复杂场景理解能力的必要手段。
(3)实现地物概念的组合泛化:语言和视觉的对齐为模型提供了实现地物概念组合泛化的基础。现实世界中概念的组合是无穷无尽的,而人类之所以能够进行高效复杂的认知与推理,很大程度上依赖于出色的概念解耦(将某种概念分解为若干子概念)和组合推理(将若干子概念组合以形成新概念)能力。语言作为人类表达和传递信息的主要媒介,天然具备这两种能力。如前所述,借助于语言,遥感影像解译模型能够理解图4中左侧影像是“耕地”与春季物候综合作用的结果,并且能够在未见过冬季耕地影像的情况下,通过对语义的推理生成冬季的耕地影像。可见,语言的加入能够引导模型建立语义推理能力,使其在应对复杂多样的现实情境时,展现出更灵活、准确的组合泛化能力。
2.2.2 遥感视觉-语言模态对齐方法
尽管近年来在计算机视觉领域已开展大量视觉-语言对齐相关的研究工作,但这些研究往往基于一个假设:不同模态数据的收集成本相同,并且它们之间具有容易获得的对应关系(如互联网爬虫获取的图像-文本数据对[31],视频数据中同时存在的图像-文本-声音数据对[32])。然而,这一假设在遥感领域往往不成立,实际可用的遥感视觉-语言对齐数据十分有限,因此亟须一种不依赖于配对数据的对齐方法。近期的LAMP[33]、LM4VisualEncoding[34]等工作使用未预先定义配对关系视觉-语言数据就能达到模态对齐效果,这表明语言模态和视觉模态之间可能存在一种更为深层的隐式对齐关系。基于这一观点,本文将现有的模态对齐研究划分为显式对齐和隐式对齐两类,并讨论了这两类工作的价值和意义,内容组织如图5所示。
图5 遥感视觉-语言模态对齐现有研究工作组织结构
Fig. 5 Overall organizational structure of the remote sensing visual language alignment
(1)显式对齐。为有效实现视觉与语言的模态对齐,一种直观的方法是利用具有预先定义的视觉-语言对应关系(如图像文本配对数据集)来训练模型。在这种训练框架下,模型通过学习图像与文本之间的配对关系,本质上达成了模态间的对齐。以现有方法中图像与文本对齐粒度的差异作为分类依据,本文将当前主流的视觉语言模型对齐相关工作分为3类:基于图像-描述(image-caption)、区域-短语(region-Phrase)和图像-指令(image-instruction)的对齐(图6)。
图6 显式对齐方法
Fig. 6 The explicit alignment method
基于图像-描述的对齐:在基于图像-描述的对齐方法重点关注如何将图像整体与其相应的文本描述进行对齐,旨在让模型学习图像内容与文本描述之间的关联性。CLIP[11]是这类方法的代表工作之一,通过对比学习构建图像与文本的联合表征空间,并激发了一系列改进性工作,如UniCL[35]、KLITE[36]和LaCLIP[37]。鉴于对比学习的任务无关特性,这类方法适合作为视觉-语言基础模型,可通过微调、少样本甚至零样本学习迅速适应各种下游任务。然而,这类方法依赖于大量高质量的图文配对数据,且难以兼顾图像理解和文本生成任务。为此,SimVLM[10]引入了PrefixLM预训练任务来实现多任务兼容,BLIP[38]通过Cap Filt机制降低数据中的噪声,显著提升了模型对图像和文本模态的理解能力。为了在遥感领域引入视觉语言模型,文献[39]利用UCM Captions[40]数据集训练并构建了遥感视觉语言模型。然而,该数据集规模较小且语义表达有限,制约了模型对复杂遥感场景的理解能力。随着RSICD[41]、RSIT MD[42]等大规模多样化数据集的出现,特别是RemoteCLIP[19]和GeoRSCLIP[43]构建的百万级遥感图文数据集,结合Transformer[44]架构的深度建模能力,显著提升了模型对复杂遥感场景的解析能力。然而,基于图像-描述的对齐方法仍普遍缺乏对图像内容的深层次、细粒度理解。这一局限主要源于简单的图文配对数据无法提供足够的引导信息,从而限制了模型在理解复杂视觉-语言关系方面的能力。
基于区域-短语的对齐:为增强模型对图像的细粒度理解能力,一些研究开始探索将图像区域与文本单词或短语之间的深层次对应关系融入数据中。如ViLBert[45]通过外部目标检测器识别感兴趣区域,并运用RoIAlign[46]等技术提取特征,进而与相应文本单词或短语进行匹配。然而,这种方法存在显著缺陷:首先,依赖预训练的外部检测器限制了目标类别范围,并直接影响模型性能;其次,附加的检测模块增加了模型的容量并降低了训练效率。为此,VL-BERT[47]将检测模块整合进训练过程中,ViLT[48]则彻底摒弃检测模块,直接采用Transformer[44]提取图像特征,而背景模糊[49]、掩膜[50]和特征融合[51]等策略则缓解了仅提取局部特征导致的上下文信息丢失问题。文献[52—53]发现这种对齐方式同样能提升遥感视觉语言模型的解译能力,它们利用编码器-解码器架构提取目标区域特征,但忽视了对空间结构信息的提取。为此,文献[54]提出了结构化注意力机制,将高分辨率影像的语义拓扑关系融入区域-短语对齐。GeoVG[55]通过双流网络融合视觉特征与地理空间关系图,实现更精确的视觉定位,而RSVG[56]进一步引入MGVLF模块,强化显著特征并抑制噪声,大幅提升对齐精度。此外,在小样本目标检测任务中,TEMO[57]通过加入多类别语义描述有效缓解了类别歧义,揭示了跨模态先验知识对细粒度理解的核心价值。这些研究表明,去除对外部检测器的依赖、深度融合领域知识、优化局部与全局特征平衡,是提升视觉-语言对齐效果的关键路径。
基于图像-指令的对齐:虽然前述的图像-描述和区域-短语对齐方法能有效实现视觉与语言模态的直接对齐,然而在表达概念间的复杂抽象关系方面存在局限,制约了模型对地物概念的组合泛化能力。基于图像-指令的对齐方法则显现出其独特价值,其核心思路在于通过丰富语言模态下的概念关系表达,引导模型在更精细的概念粒度下对齐视觉与语言模态。早期工作[58-59]基于CNN[60]、RNN[61]或LSTM[62]架构的图像-指令对齐方法受限于特征提取能力,导致模型难以深度理解图像和文本及其对齐关系,这一问题在遥感影像解译领域也有所体现[63]。随着Transformer[44]在NLP领域的突破,以及ChatGPT[64]展现出的通用知识理解与逻辑推理能力,视觉-语言多模态模型的语言理解能力得到了显著提升[65-66]。文献[67]通过在指令中加入遥感专家知识,构建了VQA-Text RS图像-指令数据集,并提出了基于Transformer[44]架构的VQA模型,能够深度理解遥感影像中的地物关系。LLaVA[68]和InstructCLIP[69]等框架能通过指令微调,精准把握图像中的深层次概念关系。然而,尽管文本指令增强了模型的视觉理解能力,图像与文本的对齐关系却未得到充分保障。为此,CAT[70]在纯文本指令的基础上构建图像-文本指令,以此引入模态对齐关系,而SEA L[71]通过视觉搜索机制,使模型能够精准捕捉图像关键区域及其复杂语义关联,从而进一步提升视觉理解能力。
综上,从图像-描述到区域-短语,再到当前热门的图像-指令对齐方式,随着图像-文本匹配粒度从粗到细的发展,遥感智能解译技术在地物理解层次上逐步深化。具体而言:图像-描述对齐方式主要针对整幅图像与整体文本描述的匹配,属于图像文本均为粗粒度的对齐方式,这种方法侧重于捕捉图像的整体语义;区域-短语对齐方式则细化了图像内容,将图像划分为多个区域,并与相应的短语进行匹配。这种方法中图像为细粒度,但文本仍为粗粒度(对区域整体的描述),虽然能够更精确地定位并描述图像中的具体地物目标,但缺乏对地物目标间概念关联的细致描述;图像-指令对齐方式则进一步细化了图像-文本的对齐粒度,通过复杂指令描述地物间的关联关系,并引导模型关注影像中的多种地物目标。这种方法不仅能够对齐影像中的多地物目标,还能通过丰富的语义指令表达地物目标间的关联关系,深化解译模型对遥感影像的理解层次。
(2)隐式对齐。尽管显式对齐已成为构建视觉-语言模型的主流范式,但在实践中仍面临诸多挑战。首先,显式对齐依赖大规模图文数据集,而构建高质量的图文配对关系需要大量人力成本。其次,模态联合训练显著增加了计算和时间开销。虽然语言和视觉在概念表达上是异构的,但两者本质上描述的是同一个物理世界,这一事实意味着无论视觉语言模态对齐关系是否被人为定义,两者应当存在内在的统一收敛条件。文献[72]验证了不同架构、训练目标的视觉模型在表征上存在高度的一致性,随着模型规模和数据规模的增大继续提升,这一规律在跨模态的视觉语言模型上同样适用。无独有偶,文献[73]证明利用未进行对齐的视觉编码器和语言编码器也能完成字幕匹配或检索任务,同样佐证了视觉和语言表征空间存在内在的一致性。这进一步引出了一个根本性的疑问:语言和视觉之间是否存在一种内在的、未显式定义的对齐关系?倘若如此,即使仅依赖单模态数据,也有可能实现视觉与语言之间的概念对齐,即真正意义上的隐式对齐。
视觉到语言空间的隐式对齐旨在深入探索视觉信息如何通过单模态的视觉数据对应到语言表征空间。在此研究领域中,LM4VisualEncoding[34]发现,即使仅在文本数据上进行训练,大语言模型中的编码器在纯视觉任务和多模态任务上也能提取有效特征。此外,LAMP[33]则证实了预训练的语言模型能直接识别三维点云数据的语义,进一步表明语言模型具备在非传统文本数据理解处理中的广泛适应性。随着遥感及其相关技术的快速发展,每天都可以生产大量的遥感数据,然而想要构建遥感领域的大规模图像-文本对数据仍然是十分困难的。因此,将隐式对齐引入遥感领域是十分必要的。最近也有一些工作沿该路线进行探索,如GRAFT[74]利用地面上拍摄的共同位置的互联网图像作为连接遥感图像和语言的中介,提出了一种在不使用任何文本注释的情况下训练遥感视觉-语言模型的方法。这类尝试在遥感领域引入隐式对齐的工作,为解决大规模图像-文本对数据不足的问题提供了研究方向,但仍处在初级阶段,需要未来进一步的探索。
3 视觉-语言联合地物概念表达空间激发的遥感解译模型的性能涌现
构建视觉-语言联合地物概念表达空间面临诸多挑战,但也带来了巨大的机遇。在视觉-语言联合地物概念表达空间中,语言模型和视觉模型的结合不仅弥补了各自的不足,还涌现出了两类能力:通用辨别能力和生成预测能力(图7)。通用辨别能力是指通过对地物概念的组合推理,视觉-语言模型能够推断未见影像的地物本体属性;生成预测能力指通过关联地物实体视觉特征和地物本体属性,模型能够利用语言模态的逻辑性推理出语言所描述地物本体的实际影像。下面将进一步讨论这两种能力产生的原理与其应用。
图7 视觉-语言模型能力涌现
Fig. 7 Emergent abilities of vision-language model
3.1 遥感影像解译模型通用辨别能力的涌现
3.1.1 通用辨别能力涌现的原理
视觉-语言模型通用辨别能力的涌现本质上是视觉模态感知性与语言模态逻辑性高效结合的结果。这种能力的形成源于视觉-语言联合地物概念表达空间对视觉特征所关联的地物本体间关系的推理。在联合地物概念表达空间中,语言作为表达地物本体关系的媒介与视觉模态提供的地物实体属性相结合,实现对未知地物概念本体属性的推断。这一过程中首先通过视觉模态描述影像中包含的地物实体属性,并解析它们对应的地物本体,如图7(a)所示,影像中地形特点、地块形状和地表特征被视觉模态感知,作为视觉嵌入被关联至对应的地物本体,再借助语言模态的逻辑性,实现从“耕地+冬季”到“冬季耕地”的推理。
3.1.2 通用辨别能力的应用
通用辨别能力主要体现在零样本识别任务中。在遥感影像智能解译领域,零样本识别任务的目的在于能够准确识别和分类从未见过的地物类型,这对于应对快速变化的地理环境和探索未知区域至关重要。如面对一个未知型号的舰船影像,尽管模型没有预先被训练识别这种型号,但它可以通过分析已捕获的视觉特征,如甲板结构、雷达位置及船舱布局等,推测出舰船的型号。在引入视觉-语言模型前,传统的视觉模态在处理零样本识别任务时面临巨大挑战。其核心问题在于视觉模型难以构建已知视觉表征和未知地物本体间的关联,无法有效地理解和组合新的地物概念。
引入视觉-语言模型后,语言模态的逻辑性为零样本识别带来了突破。语言模态不仅能够描述地物的本体属性和本体关系,还具备通过逻辑推理来重组和推广地物本体的能力。这使得模型能够在没有目标地物本体直接视觉证据的情况下,通过已知实体属性的地物类别来推断未知地物本体。零样本识别方法的核心在于将视觉特征与语言模态的词向量相关联,以弥补视觉模态的局限性。在这种方法中,从语言模态数据中提取的词向量空间用于量化不同地物本体之间的关系,从而通过对已知地物本体的逻辑推理,实现对未知地物实体的本体预测。现有零样本识别工作可以按词向量空间的特点分为两类方法:①基于静态词向量模型;②基于动态词向量模型。
(1)基于静态词向量空间的零样本识别方法:静态词向量模型如Word2Vec[75]、GloVe[76]和Fast Text[77]等是一种通过将高维词汇表征映射到低维空间,捕捉词语的语义关系和内部结构的方法。基于这一词向量空间,SAE[78]方法通过将视觉特征与知识图谱及Word2Vec[75]词向量相结合,构建了一个统一的概念空间,实现了图像目标的零样本识别。这种方法利用了知识图谱的丰富语义和Word2Vec[75]的语言模型能力,以提升对未见类别的识别效果。在遥感领域,一些早期探索零样本遥感影像场景识别的工作[79-80]基于SAE[78]方法,利用视觉模型从遥感影像中提取视觉表征,再将表征通过地理知识图谱关联到语义空间,最后利用静态词向量表征构建语义关系以推测未见地物本体属性,实现对未知地物实体的零样本识别。
(2)基于动态词向量空间的零样本识别方法:在开放场景上下文变化的动态语境中,ELMo[81]、Bert[82]和GPT[83]等语言模型通过引入深度神经网络,能在上下文中动态地提取地物本体属性及它们间的局部和全局关系。在此基础上,视觉-语言模型如CLIP[11]及其改进方法A LGIN[84]和BLIP[38],通过在大规模视觉文本对上训练多模态模型,有效地结合了视觉模型和这类语言模型。CLIP[11](图8(a))不仅能够捕捉遥感图像的视觉细节,还能理解和表达与这些图像相关的地物本体。GeoRSCLIP[43]方法采用遥感视觉-语言数据集RS5M[43]训练(图8(b)),利用针对遥感影像的语言描述,使语料内容更加精细和专业化。通过微调CLIP[11]的视觉-语言联合表征空间,GeoRSCLIP[43]显著提升了遥感影像零样本分类任务的精度。
图8 零样本识别方法及训练数据集
Fig. 8 Zero-shot recognition method and training dataset
综上所述,基于静态词向量空间的方法难以准确表示复杂环境下地物本体的动态变化。相比之下,基于动态词向量空间的方法能够根据上下文准确推断地物本体属性,但仍面临视觉和语言概念表达粒度不一致的问题。随着语言模态的引入,基于语言逻辑性的地物本体推理有效解决了面对未见地物实体或未知地物本体情况下的识别问题,然而模态间的错误对齐将直接影响视觉特征与地物本体的匹配精度,进而影响后续的推理。
3.2 遥感影像解译模型生成预测能力的涌现
生成预测能力,本质上是一种基于语言描述的地物本体理解,生成地物实体影像的能力。这种能力不仅体现了对地物本体的深层次理解,还能够刻画出地物实体的精细视觉特征,帮助解译模型更准确地理解和识别遥感影像中的地物,构建地物本体与地物实体的关联。由此可见,在遥感影像智能解译中,遥感影像生成任务具有重要意义。首先,生成影像能够弥补实际影像采集中的时空局限性,提供额外的训练数据,丰富模型的学习样本,从而提升解译性能。其次,生成影像还能有效克服噪声数据对模型训练的影响,通过增加高质量的样本来提高模型的稳健性。此外,通过生成影像,模型可以进一步验证其对地物本体的理解,确保其在复杂环境中的解译能力,增强模型在多变场景中的适应性和准确性。
3.2.1 生成预测能力涌现的原理
语言模型以其擅长的逻辑推理为基础,能够利用已知的语言描述信息精确推断出所描述场景中的细致语义构成。然而,单独依靠语言模态无法直接重建出与这些语义构成对应的具体影像,视觉模态的嵌入为语言模态提供了地物实体属性信息的补充,这使得从语言描述到具体影像的转化成为可能。如图7(b)所示,在遥感影像解译中,模型可以通过分析语言描述(如“生成一幅冬季的耕地遥感影像”)理解并预测出影像中将显示的具体内容(如裸露的土地和地表上的积雪)。这不仅仅是简单的图像匹配,而是一种动态的、创造性的重建过程,依赖于对场景语义深层次的推理和视觉信息的细致解析。
3.2.2 生成预测能力的应用
生成预测能力主要应用于遥感影像生成任务中,这一任务极大地解决了目标地区观测受限或无法观测情况下数据难获取的解译难题。如在去云、去雾等任务中,传统方法面对被云雾遮挡的区域时往往无法有效处理。然而,通过视觉-语言模型的生成预测能力,模型能够基于已观测到的视觉信息生成被云雾遮挡区域的潜在遥感影像。
遥感影像生成任务在引入语言模态前后产生了巨大的变化,引入视觉-语言模型前,遥感影像生成方法主要依赖扩散模型[85]技术,扩散模型是一种基于概率扩散过程的生成模型,首先通过引入噪声逐步将数据x0“扩散”到一个随机的状态z,如图9所示,然后再逐步学习如何从这种高噪声状态逆向恢复出清晰的图像,模型在这一扩散过程中学习,关注如何从xt状态恢复xt-1状态的影像。这种方法在生成细节丰富且具有高质量的图像方面表现出色。在遥感影像领域,利用扩散模型进行图像生成的关键问题在于如何设计控制条件,以确保生成的影像能够遵循遥感影像的特性。如DDRF[86]通过扩散过程实现遥感影像融合图像的生成,将两幅待拼接影像作为生成预期影像的强控制条件;DMDC[87]基于扩散模型进行超像素影像生成,利用低分辨率影像作为生成高分辨率影像的强控制条件。控制条件在这些应用中起到了至关重要的作用,确保了生成影像的准确性和稳定性。然而,在弱化控制条件的情况下,扩散模型难以准确和稳定地生成预期的遥感影像。缺乏强控制条件的引导,模型可能会在生成过程中偏离遥感影像的特性,导致生成结果与实际需求不符。
图9 扩散模型扩散过程概念
Fig. 9 Diffusion process concept of diffusion model
引入语言模态后,语言的描述性为可控图像生成带来了突破。利用语言模态,用户可以通过自然语言描述指定生成影像的内容、细节和风格,从而实现更精细的控制和个性化的图像输出。遥感影像生成任务中语言描述作为控制条件允许研究人员和专业人士精确地定义所需观察的地物本体,如特定类型的植被、土地利用情况或气候条件,使得生成的图像不仅在视觉上符合预期,而且在语义上与描述紧密对应。这类工作如RemoteDiffusion[88]、CRSDiff[89]和Diffusionsat[90],通过整合语言模型到扩散模型中,实现了更精细的可控遥感影像生成(图10)。
图10 语言描述及遥感影像生成结果示例
Fig. 10 Examples of text captions and remote sensing image generation results
得益于语言的描述性,这类方法有效解决了传统图像生成技术中生成影像可控性差和可解释性差的问题。通过利用语言模态对地物本体的细致描述,这类技术能够提供更加直观和精确的控制方式,从而生成符合具体描述的高质量图像。尽管如此,该技术目前仍然面临图像与文本对齐准确性的挑战,尤其是在处理复杂的语义或多义性强的文本描述时,模型通常难以生成预期影像。因此,如何在遥感影像生成过程中确保图像内容与文本描述之间的高度一致性,以实现更精细的图像内容控制,将是未来推动这一技术进步的核心任务。
4 视觉-语言联合地物概念表征在遥感影像智能解译中的应用
本文旨在探讨视觉-语言联合地物概念表征在遥感影像智能解译中的应用,并通过试验案例重点分析在场景分类、目标检测、语义分割和影像生成4类任务中,视觉-语言联合的解译范式相较于传统纯视觉解译范式的解译性能差异,以展示视觉语言模型如何通过增强语义理解、提高识别准确性和扩展生成能力,显著提升遥感影像智能解译性能。
4.1 遥感影像场景分类
遥感影像场景识别任务是指对遥感影像中所呈现的整体场景进行自动分类和识别的过程。与目标检测或语义分割任务不同,场景识别关注的是影像中较大范围内的综合特征,这些特征可能包括多个地物类型、不同的地理结构和复杂的环境元素。
传统视觉模型在学习多目标耦合的视觉特征与单一场景标签的映射关系时,往往将场景类别与影像中的具体目标组合紧密关联。这种强耦合的映射方式在目标组成发生变化时,模型难以适应,进而导致泛化性降低。视觉-语言模型的引入打破了这一困境,通过利用语言描述地物本体关系,模型能够引导不同视觉目标特征与其对应的地物概念相关联,在复杂场景中根据影像中的地物概念推理场景类别。RemoteCLIP[19]在试验中验证了这一观点,在采用相同的视觉编码器骨干网络(ResNet50[91]或ViT-Base[92])条件下,联合视觉-语言的场景分类模型在不同场景数据集(AID[93]、RSC11[94]和WHU-RS19[95])上均取得优于纯视觉模型的平均分类精度(表2)。
表2 分类精度(OA)对比
Tab. 2
在任务场景存在新类别的情况下,视觉模型无法通过下游任务的微调来发挥其场景识别能力。相比之下,遥感视觉语言模型通用辨别能力的涌现,使得模型能够依托已知地物概念及地物本体关系,在零样本的情况下推理场景类别,显著增强了解译模型对不同解译场景的适应性。近期的视觉语言遥感智能解译模型,如GeoChat[101]、LHRS-Bot[102]、H2RSVLM[103]和SkySenseGPT[104],能够在未见过的场景数据集SIRI-WHU[105]、AID[98]和WHU-RS19[100]下实现场景识别,且达到较高精度,试验对比结果见表3。
表3 零样本场景识别精度(OA)对比
Tab. 3
4.2 遥感影像目标检测
目标检测是遥感影像解译领域中的一项核心任务,主要通过识别物体的边界框和类别标签来检测目标实例。近年来,小样本目标检测在遥感影像中的应用逐渐成为一个备受关注的研究领域。这一任务的挑战在于如何在仅有少量标注样本的情况下,有效检测遥感影像中的感兴趣目标。随着视觉语言模型的引入,遥感影像智能解译模型在这一任务中展现出了显著的性能提升。遥感视觉语言模型如TEMO[57]和TSF-RGR[106]依托语言模态中的地物本体关系,通过将视觉特征与语言描述进行深度融合,能够更好地捕捉和理解复杂的地物语义结构。相比之下,纯视觉模型如Meta RCNN[107]、TFA[108]和FSCE[109]主要依赖于视觉特征的匹配,在应对复杂多变的遥感场景时存在一定局限性。表4反映了上述视觉模型和视觉-语言模型基于相同视觉骨干网络(ResNet101[91]),在遥感影像目标检测数据集DIOR[110]和NWPU VHR-10[111]等数据集上的试验结果,通过对比mAP可以观察到视觉-语言模型在少样本条件下的目标检测精度优于纯视觉模型。
表4 小样本目标检测性能对比(mAP)
Tab. 4
4.3 遥感影像语义分割
遥感影像语义分割是遥感影像智能解译领域中的一项基础任务。与目标检测任务仅需识别地物的类别与位置不同,语义分割任务进一步要求准确识别地物类别及其在影像中占据的具体像素区域。这通常依赖于基于视觉模型的监督学习方法,利用高质量的像素级标签来学习地物语义与像素区域间的映射关系。然而,由于遥感影像中地物目标的复杂多样性,高质量的语义分割标签获取困难,这使得传统的监督学习方法在没有充分标注数据的情况下效果受限。为了降低模型对大量高质量标注数据的依赖,小样本语义分割问题近年来备受关注。基于视觉模态的小样本学习方法,如PANet[112]、TBPN[113]和PCNet[114]等,通过从少量样本中提取原型(prototype)特征,并与影像中的视觉特征进行匹配来实现语义分割。这些方法在目标场景与训练样本的视觉表现较为一致时表现良好。然而,当面临视觉表现差异较大的新场景时,这些方法往往难以有效分割。在这一领域的最新发展中,HSE[115]模型通过引入语言模态,在利用视觉模型提取地物的原型特征基础上,将这些特征与通过语言模态表达的地物概念相关联。通过这种方式,地物的原型特征不再是孤立的,而是与其语义描述紧密连接,使得模型能够利用丰富的语言信息来增强视觉特征的泛化能力。在ISAID-5I[116]数据集上的试验结果见表5。
表5 小样本语义分割性能对比(mIoU)
Tab. 5
在零样本语义分割方面,随着视觉-语言模型和视觉基础模型的发展,计算机视觉领域相关工作如SAM[119]、GDINO[120]和CLIP[11]在探索零样本语义分割和零样本分类问题上取得突破进展。然而,视觉基础模型能提取单一语义在影像中的像素区域,却难以判断其语义的具体类别;视觉-语言模型能够判断影像类别,但难以分辨这一类别所占据的具体像素区域。能否通过关联这两类模型,实现遥感影像地物概念的深度表达,以尝试在零样本情况下对遥感影像进行语义分割呢?Text2Seg[121]做出了相关尝试,通过组合GDINO[120]、CLIPS[122]和SAM[119],在UAVid[123]、LoveDA[124]、Vaihingen[125]和Potsdam[125]数据集上验证零样本下的遥感影像语义分割效果。表6展示了不同组合下的分割性能。
表6 零样本遥感影像语义分割性能(mIoU)
Tab. 6
4.4 遥感影像生成任务
遥感影像生成在遥感影像智能解译中发挥着至关重要的作用。首先,遥感影像生成技术能够为深度学习模型的训练提供丰富的样本数据,特别是在数据稀缺或获取成本高的情况下,通过生成高质量的模拟遥感影像,显著增强模型的泛化能力和稳健性。其次,遥感影像生成技术还可以用于数据增强,通过生成多样化的影像样本,提升模型在不同场景和条件下的表现,增强其对不同地物特征的识别能力。如RemoteDiffusion[88]、CRS-Diff[89]和Diffusion-SAT[90]等,通过语言模态的描述性引导模型精确生成所需的影像;类似地,MetaEarth[126]实现了全球尺度的遥感影像生成,极大地扩充了高质量遥感影像样本库,试验中利用该方法生成5倍数量于预训练遥感数据的扩充数据训练骨干网络,如VGG[127]、ResNet[91]和ViT[92],并在下游任务适配中观察模型识别精度得到了有效提升(表7)。
表7 场景识别精度(OA)对比
Tab. 7
5 未来研究方向
5.1 视觉-语言联合地物概念表达空间下的多模态遥感数据联系与对齐
多模态遥感数据(如光学、红外、高光谱、SAR、LiDAR等)能够反映地物不同特征,如能有效利用,将发挥“1+1>2”的效果。然而,不同模态数据因其内在机理(如空间分辨率和光谱特性等)或外在因素(如时间覆盖差异和空间覆盖差异等)的差异,导致结构层面上通常是高度异质的,这种高度异质性为它们的对齐和协同解析带来了巨大挑战。大量研究发现人类在认知世界的过程中,听觉、触觉、嗅觉、视觉等多个模态的信息经过解析形成的概念最终是以语言为载体,且通过语言来进行关联、推理、表达等思考行为。这表明,语言不仅精确编码了我们对世界的感知和理解,还隐式地建立了各个模态中的联系。尽管光学、红外、高光谱、SAR、LiDAR等遥感数据存在内在机理或外在因素上的差异,但从语义角度来看它们都属于对同一地物对象的不同视图表达。因此,如果能够将语言作为一个统一的参考框架,将这些不同模态的遥感数据通过模态专用编码器映射到语言模态,再在语言层面通过概念对齐实现多模态遥感数据的联系与对齐,就可能克服它们之间的异质性,从而实现更加精确和精细的遥感地物目标理解。
5.2 视觉-语言联合地物概念表达空间下的可解释遥感影像智能理解范式构建
端到端的解译方法(即将输入图像直接转换成解译结果)目前是遥感影像智能解译的主流范式。然而,这种方法的推理过程缺乏透明度并且难以被外界理解,因此经常被诟病为“黑箱模型”。这一“黑箱”性质极大地增加了对模型预测结果置信度评估的难度,进而制约了遥感智能解译技术在如国防安全、资源监测等容错率低的领域中应用。笔者认为真正的人工智能应该像人类一样,能够明确知道在不同条件下能做什么,不能做什么,并在可行的情况下提供一个可解释的推理路径,在不可行的情况下给出确切的原因。考虑到语言不仅是人类智能的显著标志,也是思考和交流的基本工具,因此,探索如何指导模型在统一的语言空间中解析不同模态的数据,并以类似人类思考的方式整合不同模态和层次的视觉线索,完成视觉任务推理,将是未来一个极具吸引力和挑战的研究方向。
5.3 视觉-语言联合地物概念表达空间下的多类型遥感解译任务耦合
联合多个相关任务进行多任务学习达到任务间彼此促进的作用,已是计算机视觉研究领域的基本共识。大量研究也表明不同遥感解译任务之间存在很强的层次相关性。但目前预训练大模型向下游任务的迁移多是独立进行的,这使得下游模型之间形成了信息孤岛,无法有效地实现任务关联,从而限制了不同任务之间潜在的协同效应。众多视觉心理学的研究揭示,人们在认知遥感影像时,往往不是简单地完成单个视觉任务(如场景理解或目标识别),而是通过一种协同的认知机制,即首先提取对应不同视觉任务需要的视觉信息,然后在大脑中完成信息综合,最后构建思维链完成复杂的影像认知。这种认知过程也得到了萨丕尔-沃尔夫假说[128]的支持。该假说强调语言在人类认知过程中的中心地位,即个体通过内在的语言机制组织思维并执行推理,因此,能否在视觉-语言联合地物概念表达空间下,构建一个以语言为核心的通用视觉任务接口,利用语言指令消除不同遥感视觉任务统一表达的鸿沟,以促进多类型遥感解译任务的耦合和交互,将是一个极具吸引力和挑战的研究方向。
5.4 视觉-语言联合地物概念表达空间下的遥感地学知识提炼与挖掘
随着遥感技术的飞速进步,能够捕获的地球表面多模态数据包括光学、红外、高光谱、SAR和LiDAR等。这些数据中隐藏着丰富的地学信息,但挖掘这些信息的高效和精确方法仍是一个挑战。未来研究的一个关键方向是探索如何利用大语言模型,将这些多样化的遥感数据与人类的自然语言有效融合。在一个统一的语言空间内,这种整合不仅使不同来源和类型的遥感数据(包括遥感图像、地理信息数据、历史记录等)描述和解释地学现象变得更加自然,而且能够帮助地学专家以更直观、更精确的方式理解这些数据,进而推动新知识的产生。此外,模型能力的涌现在此过程中将可能发挥关键作用。这一过程涉及利用大语言模型自动从庞大的遥感数据集中探索和提炼新知识,揭示地球系统中之前未被发现或理解的模式和联系。
6 结语
构建视觉模型以建立遥感影像数据与语义标签间的映射关系是当前遥感智能解译的核心范式。尽管这一范式在实践中被广泛应用,但它忽视了对遥感地物及其相互关系的深层次语义理解,导致在学习地物间复杂概念关系方面存在局限,进而极大限制了遥感解译模型的应用潜力。
针对上述问题,本文以遥感地物概念表达为起点,深入分析了视觉与语言两种模态数据在描述遥感地物概念中的独特作用,即视觉模态擅长描述地物实体,而语言模擅长描述地物本体。基于这一认识,本文剖析了联合视觉-语言两种模态数据进行遥感地物概念表达的价值和意义,并讨论了构建这一表达范式背后面临的关键挑战——模态对齐问题。在此基础上,讨论了这一范式如何催化遥感解译模型新能力的涌现,并对这些新能力的产生原因和实际应用价值进行分析。最后,分别从视觉-语言联合地物概念表达空间下的多模态遥感数据联系与对齐、可解释遥感影像智能理解范式构建、多类型遥感解译任务耦合、遥感地学知识提炼与挖掘4个方面,对未来开展视觉-语言联合的遥感地物概念表达与智能解译研究的主要方向进行展望,以期为人工智能时代背景下定义并构建新一代遥感影像智能解译框架提供视角。