进入2025年,AI智能体热度持续攀升,备受各界瞩目。百度的李彦宏、Open AI的山姆·奥特曼、华为的汪涛等行业领军人物,均在不同时间节点、各类场合中表达过类似观点:2025年是AI智能体元年。
在地理信息领域,AI智能体技术进展如何,有哪些应用场景?在2025空间智能软件技术大会(GISTC 2025)上,自然资源部地理信息系统技术创新中心主任、超图软件董事长宋关福作《探索空间智能体技术,重塑GIS应用范式》报告。以下为报告图文,分享给大家。
智能体这个名字看起来有些“玄乎”,它究竟具有怎样的内涵?在GIS领域又有怎样的应用场景?下面,我将为大家汇报。
智能体的英文名是“AI Agent”,Agent意为“代理”,即代表他人开展工作的人。哲学家亚里士多德曾在书中提到,Agent是一个可以通过理性推理实现目标的行动者,这种说法更是给智能体拥有自主思考能力提供了理论依据。
尽管今年被认为是智能体元年,但早在一年前的2024空间智能软件技术大会(GISTC 2024)上,超图便发布了空间智能体(技术预览版)。在介绍地理空间AI技术底座时,我分享了五项技术/产品,其中第四项就是空间智能体。
当时我们给它的定义为:能够理解人类意图、自主规划和分解任务,然后自动调用地理信息软件工具来达成目标、完成任务的一项智能技术。
我们说的空间智能体,就是地理空间智能体的简称。空间智能体能给我们带来什么价值?有的人讲了很多特性,但归根结底来讲:大语言模型可以告诉我们怎么做,而空间智能体能替我们做。
自主地开展工作、提升人类的工作效率,就是空间智能体的核心价值。
空间智能体技术的原理是什么?
从下图可以清晰地看出,左侧为输入端,右侧为输出端,而中间核心部分需要依托大语言模型来实现关键功能。
在构建空间智能体时,我们需要搭建四大系统:首先是认知系统,它能够精准地理解人类的意图;其次是规划系统,它负责对任务进行合理规划与分解;接着是执行系统,它能够调用地理信息软件工具来高效完成既定任务;最后,还需要一个记忆系统来存储和调用相关信息。
这四大系统与大语言模型相互配合、协同工作,共同支撑空间智能体的功能实现。
一个完整的空间智能体应用由“应用层”“空间智能体层”和“地理信息软件工具层”构成。
在中间的空间智能体层,我们依托大语言模型,打造了知识问答式、工作流式以及自主规划式三类空间智能体,以满足多样化的应用需求;在地理信息软件工具层,我们不仅封装了SuperMap GIS和遥感APIs,还预留了接口,便于将第三方APIs灵活注册进来,从而进一步拓展空间智能体技术的应用范围和功能边界。
下面,我来简单地给大家汇报一下三类智能体。
01 知识问答式智能体
智能知识问答这几年在各个领域应用非常广泛,大家或许会有疑问,智能体要调用工具,这也算是智能体吗?智能知识问答要调用RAG,可以被认为是一种弱智能体。通过RAG+专业知识库降低大语言模型的幻觉,避免“一本正经地胡说八道”,提升专业度。因此,智能知识问答算是空间智能体的一种初阶应用。
让我们来看一个具体场景。超图的门户产品SuperMap iPortal,融入了AI联机帮助功能。以往,用户在使用联机帮助时,需要先输入关键词进行搜索,操作相对繁琐;而现在,借助智能体技术,可以直接以提问的方式获取所需信息。
比如,询问“如何给城市建立一个大型可视化展示平台”,它不仅能推荐对应产品,还会详细地介绍产品所具备的功能和优势,为用户提供参考。
再例如,用户有一台Linux服务器,咨询如何快速部署SuperMap iPortal,它也会给出专业答案,包括如何拉取镜像、启动服务等等。
在SuperMap iPortal平台中,我们提供了一种通用的专业知识库构建工具。借助该工具,用户能够自主创建专业知识库。
以国土空间规划专业知识库的创建为例,我们将大量行业标准、指南等文档作为语料输入至大模型中,使其具备回答国土空间规划相关问题的能力。面对较为简单直接的背景、意义等问题,该工具可基于知识库检索结果输出现有答案并附上参考文献;面对建设路径等深度问题,该工具亦能对知识进行重新理解和组织,从而给出专业答案。
以不动产登记智能问答为为例,连云港不动产登记平台支持专业水平的精准问答和多轮对话,并且遇到疑难问题时,可以自动转接人工。
02 工作流式智能体
工作流式智能体作为智能体的中级应用形态,通过融合人工设计的工作流程,有效降低了大语言模型的思考复杂度。尽管其自主性相对较弱,但却拥有较高的执行成功率,能够应对较为复杂的问题,是当前较为切实可行的应用模式之一。
举几个例子:
在跨平台桌面软件SuperMap iDesktopX(可运行于Linux环境)中,嵌入了智能制图AI助理功能。用户仅需在界面右下角的文本框内输入相应指令,例如要求其依据全国人口数据制作分段专题图,系统将迅速呈现制图结果。
随后,用户还可进一步指令生成标签专题图,标注省份名称,或基于近年GDP数据绘制亮色系统计图。相较于传统的鼠标与键盘操作方式,这种基于指令的制图方法更为便捷、直观,显著提升了操作效率与用户体验。
这是智能制图的内部工作流程,除了可以制作专题图,它还支持调整图层的属性、地图的配置等参数。
那么,我们能不能构建更复杂的工作流程、完成更复杂的任务?这就涉及到很多GIS软件都具备的地理空间处理自动化功能(Geo-Processing Automation,即“GPA”)。将空间智能体与GPA结合,能高效地完成比较复杂的任务。
具体而言,任务执行分为两步:首先,空间智能体将传统GPA人工进行可视化建模构建处理流程的步骤,借助空间自律性转为自动构建流程,将第一步的人工操作交由AI完成,人工审核确认参数及工具;第二步,系统自动执行任务。这种结合方式显著增强了GPA的自动构建能力,使其在处理复杂任务时表现更为出色。
以下为桌面软件中GPA AI助理的应用实例。该软件界面右下角设有输入框,用户可在此处输入指令,要求其导入F盘中的道路数据,并基于该数据构建一条宽度为40米的道路,同时计算该道路占用各类土地的面积。
用户发出指令后,GPA AI助理并非立即执行任务,而是先进行思考,进而构建一个GPA工作流程。用户点击“添加”按钮后,工作流程即构建完成。
随后,用户可对相关参数进行检查,确认无误后点击“执行”,系统随即运行,最终生成结果,用户可查看道路占用的耕地面积及各类土地面积的统计数据。
再来看一个相对复杂的服务器软件WebGIS中AI助理的应用实例。我们指定构建一个土地适宜性评价模型,该模型需利用DEM数据进行坡度和坡向计算,同时结合土壤质地数据,构建一个GPA模型。
经过思考,AI助理构建出该模型,我们将数据配置妥当,之后启动运行,运行结束后再查看运行结果。这便是工作流式智能体的应用过程。
WebGPA工作流式智能体的内部逻辑如下,它要去不断地循环迭代,构建一个比较复杂的工作流程。
下面我要介绍一个内置空间智能体的新产品——SuperMap TransformX(空间数据转换处理软件)。
SuperMap TransformX有以下特性:
一是支持点对点的数据格式转换。例如,当需要将SuperMap之外的两个软件的数据格式进行转换时,以往使用超图的桌面软件通常需要分两步操作:首先将a数据导入SuperMap,再将SuperMap中的数据导出为b格式,这一过程较为复杂。而SuperMap TransformX能够直接将a数据转换为b软件的格式,实现高效的点对点转换;
二是在数据格式转换过程中,可同步进行空间分析和处理。例如,用户可以同时进行投影系转换、Overlay操作以及数据拆分等操作。此外,SuperMap TransformX还支持可视化建模和自动化执行,类似于GPA的功能。
三是具备广泛的硬件和操作系统兼容性,不仅支持传统的X86架构CPU,还支持ARM 架构及其他类型的CPU,并兼容多种操作系统。
SuperMap TransformX的定位包括以下三个方面:其一,作为空间数据迁移工具;其二,作为空间数据治理工具之一;其三,作为FME的升级替代工具。
以下是SuperMap TransformX的一个界面,分为深色系和浅色系,中间也是一个构建工作流程框,可以自动执行非常复杂的工作任务。
SuperMap TransformX之所以能替代FME,是因为它不仅具有丰富的空间数据处理转换功能,还拥有全面的跨平台兼容性,支持华为鲲鹏、飞腾等ARM架构指令集芯片,及涵盖龙芯、海光、兆芯等国产处理器。
此外,它兼容各类国产操作系统与数据库,同时对开源数据库及操作系统提供支持,也兼容国外主流商业基础软硬件。
在SuperMap TransformX中进行数据转换与处理时,界面右下角设有输入框。用户可在此处指定将一个三维模型文件与一个二维数据导入系统。
处理流程包括首先执行坐标转换,随后将二维数据中的属性赋予三维模型。构建好整个流程并检查参数无误后,即可执行。执行完成后,导入的模型将携带二维数据的属性,整个过程实现了一体化处理。
03 自主规划式智能体
自主规划式智能体的工作逻辑如下:首先进行任务规划,随后生成任务并执行第一步。执行完成后,系统将重新规划,再次生成任务并执行第二步。每执行一步,系统都会评估结果,以优化下一步的执行策略。这一过程会循环进行若干次,直至任务完成。
与工作流式智能体相比,自主规划式智能体具有更高的自主性,用户无需构建流程,系统会自行思考并规划任务执行方式。然而,目前自主规划式智能体的执行成功率相对较低,这主要源于大语言模型在思考和调用工具方面的局限性。尽管如此,自主规划式智能体仍被视为一种高级应用模式。
相比之下,工作流式智能体在任务执行成功率和应用落地性方面表现更为出色,是一种较为成熟的中间过渡形态。而自主规划式智能体的进一步发展和完善仍需持续探索和研究。
在此演示三个例子:
第一个,是利用SuperMap iPortal门户产品中的AI助理开展三维建模与分析。具体任务如下:以房屋建筑数据资源中的高度字段作为拉伸高度,以tTexture字段作为顶面纹理贴图,以sTexture字段作为侧面纹理贴图,从而拉伸出三维模型。随后,利用新生成的三维模型场景,在松一小区26号楼、高度86米的位置设置观察点,设定观察距离为600米,水平视角为90度,垂直视角为60度,开展可视域分析。
该任务被分解为两个步骤:第一步,构建白模与纹理贴图;第二步,执行可视化及可视域分析。尽管整个流程看似简单,仅包含两步操作,但对于大模型而言,这一过程仍具有相当的复杂性。
第二个例子包含更多步骤:首先,利用乡村土地利用的影像数据集进行地物分类;接着,计算其中4类地物的占地面积;最后,绘制一个环状统计图。当我们将指令输入系统后,系统便开始进行迭代思考。
在解析出几类地物之后,系统在执行第二步思考的同时,还可以操作可视化的缩放功能。完成面积计算之后,第三步是绘制图表。这一过程包含三个步骤,相较于前一个例子,稍显复杂。
能不能做更复杂的?我们再看一个例子:分析北京市小学和行政区划数据,统计各行政区内各小学数量并制作分段专题图;告诉我哪个行政区内小学数量最多,并列出这个行政区内的小学的清单;分析这些小学周边5千米范围内的住宅均价,查看该区域学区房均价地图。
我们也试了几次,因为这种复杂场景的自主规划任务很难一次成功,要不断地修改提示词。我们来看它执行的结果,第一做汇总分析,查找范围内有多少个小学的点,查出来点后做分段专题图,然后做统计分析,最后再做邻近分析,统计小学周围的房价,形成一个符号专题图。这5个步骤在我们看来可能比较简单,但是对目前的智能体说还是蛮复杂的,它可以让我们摆脱复杂的软件操作,让AI帮我们思考。
以上是我们提供给大家的三种智能体能力,如果落到具体的行业里,我们该怎么用智能体去解决行业的问题?能不能够定制一个行业智能体或者特殊应用场景的智能平台?
这就涉及到一个今天发布的另一个新产品:空间智能体服务平台——SuperMap AgentX Server。
SuperMap AgentX Server在SuperMapGIS云边端产品体系里,属于云GIS服务器产品。
以下简要介绍相关内容。在大语言模型方面,我们接入了千问系列和DeepSeek系列。综合测试结果显示,这两个模型在当前阶段表现较为出色。其中,经过我们的测试,千问系列(Qwen)在调用工具方面的成功率较高,而DeepSeek系列在推理逻辑方面表现更为优异。
在架构的第三层,我们将SuperMap GIS和遥感能力封装为一种标准接口,命名为“MCP服务”。行业扩展同样基于MCP服务进行封装,从而实现对Agent技术本身不具备的能力的调用与扩展。
刚才我们提到目前自主规划式智能体的任务执行成功率不是很高,那么执行成功率取决于什么?取决于三个因素,体现为三个“率”。
第一个是意图识别准确率,即能不能理解我们想要做的事;第二个是工具调用准确率,即能不能准确找到调用工具;第三个是工具的完备率,即是不是具备完成任务所需的工具。
假设平均每一个部分成功率为80%,这三个80%乘起来成功率就小很多。但是我们也在想办法去提高各部分的成功率。
首先我们微调了大语言模型来提升意图识别准确率和工具调用准确率。我们把千问做了一些微调,使意图识别准确率提升1-12个百分点、工具调用准确率提升1-9个百分点。每提升一个百分点都很难,我们后面还会用其它方式进一步提高准确率。
在工具完备度上,我们在SuperMap GIS里面封装了一些 MCP工具,包括我们跟华为联合开发的一个开源空间数据库——禹贡,我们封装了一些MCP服务。在
SuperMap iServer MCP工具中,共接入了200多个算子;在SuperMap iPortal门户产品里,接入了60多个算子,我们以后还会不断迭代和完善MCP的工具数量。
那么在行业应用中,遇到我们没有的业务功能怎么办?我们用第三方扩展的方式,把业务API封装成MCP Server,然后把它注册到SuperMap AgentX Server里,如此我们的SuperMap AgentX Server便可以去理解和调用业务工具,来实现行业扩展。
我们来看一个例子,接入高德的MCP服务,结合本地数据和功能联合去完成一个任务。
第一步注册高德MCP服务;第二步输入指令:我要去北京参加大会,帮我查一下北京地铁线路分布;第三步查一下北京市国家会议中心和故宫博物院两个坐标点的位置,这是本地数据的计算;第四步把本地数据的两个坐标点传送给高德,让它去做一个地铁的路线规划(这只是个演示,这些任务高德都可以做,我们说这个演示就是为了说明外部的MCP能力可以接入进来,与SuperMap GIS能力互补)。
SuperMap AgentX Server平台具备以下三大特点:其一,支持多类智能体,涵盖知识问答式、工作流式以及自主规划式三类空间智能体;其二,支持二次开发,在服务器后端可扩展MCP服务,在前端可定制应用界面,并将其嵌入业务系统;其三,支持跨平台,兼容英特尔X86芯片、华为鲲鹏ARM芯片等多种运行环境。
以下简要介绍SuperMap AIF地理空间AI技术底座的最新进展。去年,我们发布了基础底座,其能够在各类软件中实现AI能力的共享。下文中以红字标注的部分,即为此次升级的具体内容。
第一项优化是基于AI的建筑自动单体化三维建模:去年,我们的建模支持已达到LOD2.0级别,涵盖坡屋顶结构,但尚未实现侧面纹理的精准贴合。今年,我们已完成纹理映射技术的升级,可实现侧面纹理的精确贴合,进一步提升了建模的真实感与细节表现。
第二项是AI纹理修复,我们在建模的过程中会有一些树挡住建筑,可以通过AI来修复三维建模纹理,从而解决三维模型纹理遮挡问题,通过修复前后对比可以看出,优化效果较为明显。
第三项优化是在遥感影像处理技术方面,我们对AI影像匹配技术进行了升级。去年,我们推出了AI影像匹配算法,与传统算法相比,该算法能够匹配更多的同名点,成功率显著提高。
今年,我们进一步优化了这一算法,使得匹配的同名点数量进一步增加。特别值得一提的是,在沙漠、密林等难以匹配的区域,该算法能够更加稳定地实现影像匹配。
第四项是相比去年,对遥感影像处理中DSM算法做了AI方面的进一步升级,可以让右图高架桥的轮廓更加清晰。
第五项,在山区地区,基于新的算法,右图山脊线更加清晰。
第六项为遥感智能解译功能的优化。我们新增了若干预训练模型,涵盖备受关注的光伏板、道路等要素,对影像超分辨率技术也提供了相应的算法支持。此外,建筑物变化检测作为新推出的预训练模型,以“开箱即用”的模式为用户带来便捷。
这是超分辨率重建的效果展示。经过超分辨率重建处理后,原始影像的清晰度显著提升。
然而,当我们进一步放大图像进行观察时,左侧的图像若用于地物检测,其目标识别难度较大,边界线不够清晰;而中间的图像在清晰度和边界线的明确度上则有显著改善,表现更为出色。
第七项升级是支持对SAR影像的目标检测。
第八项优化涉及去年发布的地物分类大模型——SuperMap LIM地物分类大模型,去年的模型参数量为1亿,而今年的参数量增至5亿,各项指标与精度均有所提升。
下图从左到右依次是:传统监督分类模型、去年的1亿参数规模大模型、今年的5亿参数规模大模型,我们可以看到建筑物的识别精准很多。
在探讨是否进一步扩大参数规模的过程中,我们曾考虑将参数量从5亿提升至10亿甚至20亿。然而,在与部分研究成果进行对比分析后,我们发现,当使用相同的公开数据集进行测试时,模型精度的提升并不显著。
基于此,我们判断,单纯增加参数规模对于模型性能的提升作用有限。因此,我们决定探索其他方法来进一步提高模型的准确度。
第九项是AI规划生图的优化。去年,我们发布了AI规划生图,它确实能够显著提高生产效率。
今年,我们新增了基于白模生成渲染图的功能,该功能通过将二维建筑物矢量面拉伸生成白模,进而生成三维渲染图。用户在选择参数和效果后,即可等待生成的结果。
最终,系统会提供两个方案供用户选择。与传统的手工绘制渲染图相比,这一功能的效率大幅提升,能够在几十秒内完成出图。
去年,我们将空间AI技术的发展与AI的成熟度模型进行了对标。具体分级如下:L1级为初始级,略优于无经验者;L2级为熟练级,超越了50%的熟练者;L3级为专家级,超越了90%的熟练者;L4级为大师级,超越了99%的熟练者;L5级为超人级。
目前,像AlphaZero处于L5级,而AlphaGo处于L4级。专业的空间AI目前大多处于L2和L3级别。
那么,空间智能体处于何种成熟度呢?知识问答式智能体尚未完全达到L3级,尚不能解决90%的问题,但后续将通过迭代进一步发展;工作流式智能体目前处于L2级水平;自主规划式智能体仍处于L1级,其成功率有待提高,但一旦成功,将带来诸多惊喜。
以下简要阐述这三类智能体的现状与展望。
知识问答式智能体虽能力有限,无法直接采取行动,但其应用范围广泛,未来仍将延续其存在,并有望成为复杂智能体的重要组成部分。
自主规划式智能体具备较强的自主规划能力,尽管目前尚未成熟,但其迭代速度有望加快,且被视为最终理想的智能体形态。
工作流式智能体则处于过渡阶段,在自主规划式智能体尚未成熟之际,它能够承担任务且成功率相对较高。待自主规划式智能体发展成熟后,工作流式智能体可能会逐渐淡出历史舞台,但在某些特定场景下,它或许仍将得以保留。
从宏观角度来看,智能体主要分为三大类:通用水平智能体、领域水平智能体以及垂类智能体。
通用水平智能体,例如近期备受关注的Manus和扣子空间,具备广泛的适用性;超图的空间智能体则属于领域水平智能体,其优势在于能够跨行业应用;此外,还有针对特定行业的垂类智能体,如自然资源、水利、住建、交通和文旅等领域,均可基于底层的水平智能体构建相应的行业垂类智能体。
空间智能体技术重塑了GIS的应用范式,这一新的应用范式可概括为“三自”:自然交互、自主思考、自动执行。
自然交互是一个螺旋式上升的过程,最早的GIS采用命令行交互,对使用者要求极高,需熟悉成百上千的命令,且参数输入需精准无误,否则无法运行。Windows出现后,GIS升级为图形界面交互,通过菜单和工具栏操作,降低了使用者要求,但仍较为复杂。而自然交互则更为简便,只需发出指令,系统即可执行,极大地提升了用户体验。
新的范式究竟意味着什么?旧的范式要求我们既需精通业务,又要熟练操作软件。对于像GIS这样复杂的软件系统来说,熟练掌握操作并非易事。因此,通常需要两人协作:领导负责理解业务并发出指令,信息中心的工程师则负责操作软件,依据领导的意图完成任务。任务完成后需提交给领导审核,若不符合要求还需修改,往往需多次往返才能完成任务,耗时较长。
而新的范式则只需用户会提出需求,无需深入了解软件操作,系统便能自动执行任务。领导在终端发出指令后,后台信息中心的机器随即开始计算。若计算结果不符合预期,只需调整提示词重新计算,迭代效率大幅提升。这无疑是未来理想的应用场景,我们可逐步推进其落地实施。这一切,仅仅是开始。
今年被视为智能体发展的元年,但我们有理由预见,在未来3到5年的时间跨度内,空间智能体有望开启GIS软件应用的新纪元,并将对我们的工作方式产生革命性的变革。