近日,《自然·机器智能》(Nature Machine Intelligence, IF=23.9)在线发表了题为“A semantic-enhanced multi-modal remote sensing foundation model for earth observation”的研究成果,提出并公开了新一代语义增强遥感大模型SkySense++,为迈向通用地球观测智能提供了全新解决方案。
武汉大学张永军教授、李彦胜教授与蚂蚁集团资深算法专家陈景东为论文通讯作者,武汉大学博士生武康与蚂蚁集团算法专家张营营、汝理想为论文第一作者。研究成果得到蚂蚁集团杨铭、王剑等专家的学术指导。武汉大学遥感信息工程学院为第一作者单位。
图1 语义增强遥感大模型SkySense++的论文信息
当前,遥感基础大模型虽然展现出较大潜力,仍面临多模态遥感影像数据融合性能有限、下游任务微调数据依赖性强、遥感语义信息利用不充分等挑战,限制了其在复杂动态地球观测场景中的普适性应用。针对上述挑战,研究团队在前期多模态遥感大模型SkySense的基础上,研发了新一代语义增强多模态遥感大模型SkySense++。
基于来自11个卫星载荷的2700万组多模态遥感影像,SkySense++采用两阶段渐进式学习完成预训练。第一阶段的表征增强预训练,首创多粒度对比学习范式,通过引入像素级-目标级-图像级的多层级对比学习机制,引导模型学习跨粒度表征关联,以适配不同空间粒度的下游任务。这一过程有效捕获跨模态多粒度视觉表征,赋予模型通用的视觉表征能力。第二阶段的语义增强预训练,首创掩码语义学习范式,通过对大规模有标签数据进行语义标注的掩码和重建,引导模型深度理解像素和区域级的语义上下文关联。这一过程显著提升模型的语义感知与表征能力,并赋予模型上下文感知能力。该能力使模型仅需提供少量标注样本作为提示,无需微调即可完成新的地球观测任务。这一特性显著缓解了大模型对复杂微调流程和高昂标注数据的依赖,提升了模型的实用性与泛化性。
图2 SkySense++的预训练流程
在农业、林业、灾害管理等7个领域的12种典型地球观测任务上,研究团队对SkySense++进行了全面评估。实验结果表明,SkySense++在12项典型地球观测任务上均取得了最优性能。相比同期最先进方法,SkySense++在全量微调分类与检测任务上平均精度提升4.79%,在少样本提示分割任务上平均交并比提升14.08%。
图3 SkySense++在典型地球观测任务上的性能表现
SkySense++前序版本SkySense在国际计算机视觉领域顶会CVPR发表并在2024年世界人工智能大会发布,在蚂蚁集团的普惠金融等多个业务上发挥了重要作用,得到国内外权威专家的正面引用评价。与SkySense相比,SkySense++在农业生产评估、灾害应急响应、国土资源监测等任务上都展现出更优异、更稳定的性能,尤其新增具备了免微调部署能力。展望未来,研究团队将致力于降低遥感大模型的预训练成本、提升遥感大模型的数据与设备适配性,推动地球观测智能向低成本、高泛化方向发展,为全球可持续发展等国际重大议题提供可靠的技术支持。
论文链接:https://www.nature.com/articles/s42256-025-01078-8