当无人机遇上Agentic AI:新的应用场景及挑战

简介: 本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战

什么是Agentic AI?美国康奈尔大学等研究机构指出,Agentic AI是多个智能体(Agents)通过任务动态分解、共享记忆、协同工作等机制,来实现更高水平智能的一种新范式[1]。

Title_1B.jpg

上述的研究还指出,Agentic AI在概念上有别于AI Agents。

Agentic AI通过汇集多个AI模型,来完成比较复杂的任务。例如:根据视频写文章,就需要具有不同能力的多个AI模型来协作完成;在水果自动采摘的场景中,需要多个机器人和无人机分别负责采摘、分拣、运输、指挥等工作;在网络安全事件响应的场景中,多个Agents可以分别负责威胁分类、日志关联、评估事件严重程度等工作。

Figure_11b.jpg

相比之下,AI Agents一般以单独的AI模型为核心,通过集成AI模型之外的其它工具和API,来实现对单个AI模型能力的拓展,例如:为AI模型增加联网搜索能力、为AI模型增加查询数据库的能力、等等。尽管AI Agents也具有一定的自主和自适应能力,其所能完成的任务比起Agentic AI来要相对单一一些。

Agentic无人机

上述机构的研究人员近期围绕Agentic AI与无人机的融合、以及由此形成的Agentic无人机(Agentic UAV)的概念,发表了最新一篇综述性论文[2],探讨了Agentic无人机的架构、关键技术、与传统无人机的比较、多领域应用、面临的挑战以及未来发展方向等。

Title_2.jpg

论文目录[2]:

Contents_2.jpg

根据这篇综述性论文[2],Agentic无人机的架构主要围绕感知(Perception)、认知(Cognition)、控制(Control)和通信(Communication)四个核心层次组成。

Figure_2a.jpg

  • 无人机上可能搭载有图像、热成像、激光雷达、多光谱、声音、惯性测量单元(IMU)、气压等多种探测器;感知层负责收集并处理多种探测器的探测结果,并通过AI模型,来理解周围环境中的物体、地形、人员等;
  • 认知层‌通过推理、任务分解、规划、以及强化学习等技术,将探测结果转换成决策,例如在无人机播种的任务中,根据地面植被的覆盖情况、任务目标、以及无人机的能耗目标等,来规划飞行路径;
  • 控制层‌将计划动作转换成为具体轨迹,例如在多作物农田的无人机喷洒任务中,根据路径规划、风、地形、障碍物等来实时控制飞行轨迹;
  • 通信层‌负责数据交换和任务协调,通过V2X(Vehicle-to-Everything)协议,实现无人机与其它无人机、云端或地面设备的交互,也可以通过自然语言接口、共享语义地图等,让无人机成为智能、可互操作的生态系统的一部分。

Agentic无人机所使用的关键技术包括[2]:

Figure_2b.jpg

  • 边缘侧AI/机载计算——用于进行语义分割、目标检测、路径重配置、避障等的计算;
  • 多模态传感器的融合——多方位感知环境,也可以在不同的照明、气象等条件下增强感知的鲁棒性;
  • 视觉-语言模型(Vision-Language Models)——Flamingo、LLaVA和OpenFlamingo等AI模型可以理解并协助无人机执行自然语言指令(例如“检查太阳能板是否损坏”、“在河流附近寻找植被少的地段”、“检查屋顶上有没有挥手的人”等)。

Agentic无人机应用场景

根据上述论文[2]的描述,Agentic无人机已经不止是一个遥控平台,其搭载的新一代技术,为拓展应用场景提供了新的可能性。

灾害响应与搜救

Figure_4a.jpg

灾害响应与搜救对于时间的要求非常紧迫;同时,灾害现场的环境千差万别。与使用预设路线、高度依赖无人机飞手的传统无人机相比,Agentic无人机可以更好地在这种场景中发挥作用。

机载的彩色相机、热成像、激光雷达等探测器、以及SLAM和边缘AI处理器,可以让Agentic无人机自主生成3D地形图,发现结构不稳定的区域,以及构建并更新环境模型。机载的热成像、运动跟踪和声音定位等功能还可以用于废墟及难以抵达区域中的幸存者检测。

当灾害现场的区域较大、救援人员短缺、或者大量救援人员尚未到达现场时,Agentic无人机集群可以发挥重要作用。

基础设施巡检

Figure_4e.jpg

在桥梁、建筑、铁塔、公路、隧道、太阳能板、屋顶等基础设施的巡检中,Agentic无人机能够沿着复杂的形状自主导航,依靠视觉、红外、超声、激光雷达等探测器以及多角度拍摄,检测坑洼、裂缝、腐蚀、材料疲劳、线缆破损、密封老化、结构错位、表面变形、生物繁殖等缺陷和安全隐患,提高巡检的效率和安全性。

野生动物保护及生态监测

Figure_5c.jpg

野生动物保护及生态监测所涉及的地区往往比较偏远,相关的野外工作不仅耗时费力,而且人力能够覆盖的区域有限。载有热成像、超光谱、声音等探测器的Agentic无人机能够在植被之下、夜间、以及崎岖的地形中发现野生动物,还能够通过视觉模型发现捕猎行为,并将捕猎行为的位置快速传给有关人员。

Agentic无人机还能用于发现濒危动物的繁殖地点、通过多光谱相机发现入侵植物物种。

Agentic无人机能够在跟随野生动物时,自主调整跟随的距离、高度和速度,以避免打扰野生动物。此外,Agentic无人机能够通过简化的人机交互以及自然语言来进行操作,便于当地人员、护林队员等使用无人机。

建筑与采矿自动化

Figure_5d.jpg

在采矿作业和建筑施工现场,Agentic无人机可以自主地进行测绘、统计原材料数量、跟踪进度、发现施工中的结构偏差、检查缺失零部件,还可以自主地检测地质不稳定性、结构不稳定性、接线松动、物料泄漏、燃气泄漏等,同时为ERP软件或工地信息系统实时传递数据。

Agentic无人机面临的挑战与局限

上述论文[2]也指出了Agentic无人机的应用所面临的诸多挑战与局限。

一、技术方面的制约[2][3]:

  • Agentic无人机所能搭载的AI处理器、各种探测器、通信设备等耗能较多,大计算量、连续监测、远距离飞行等,都需要考虑电池的容量问题;

Figure_3.jpg

  • 多种机载设备会导致无人机总重量增加;如果采用轻型的设备,则需要考虑设备的重量与分辨率、有效范围等性能指标的平衡;
  • 在卫星信号受限的条件下进行无人机的导航和定位,仍是有待进一步研究的问题——现有的解决方案,包括视觉惯性里程计(Visual-Inertial Odometry)、激光SLAM(LiDAR SLAM)、以及声学定位(Acoustic Localization)等,都比较容易受到环境的影响;
  • Agentic无人机需要融合视觉、热成像、深度、惯性测量单元等多种探测器的探测结果,来对环境进行语义理解;然而,不同的探测器有不同的时间和空间分辨率,实时对齐多种探测信号,需要校准、时间同步、异常点去除等,从而增加系统的复杂程度;在快速变化的环境中(如火灾烟雾、行驶中的车辆等),多探测器的融合计算哪怕出现轻微误差,可能就会影响到无人机的决策、避障、异常检测等;
  • 在偏远地区、或者需要低延迟计算的场景中,依靠云端计算不太现实,需要依靠机载计算;然而很多小型无人机上仅能搭载NVIDIA Jetson系列、或者类似的GPU;当运行基于Transformer的视觉-语言模型、或者进行高分辨率的3D重建、大型强化学习的策略计算时,需要在AI模型的复杂程度、帧频、计算延迟等之间寻找平衡;
  • 计算设备的散热也是需要解决的问题,解决不好会导致组件退化、空中停机等。

二、法规、伦理与安全方面的问题[2]:

  • 与传统的无人机相比,Agentic无人机能够自主决策,但也因此带来了更多的空管、合规、责任、认证、社会接受程度等问题;
  • 很多的远距离送货、搜救、野生动物监测等无人机应用都涉及超视距(Beyond Visual Line of Sight,简称BVLOS)飞行;多数国家的民航管理部门对超视距飞行有严格的限制——超视距飞行需要具备可靠的检测和规避(Detect-and-Avoid,简称DAA)系统、实时遥测功能、以及备用通讯协议;按照现有的监管标准和规则,Agentic无人机尽管具有自主导航和自适应决策的能力,但难以得到监管的认证;这其中的部分原因也包括缺乏无人机的自主等级、可解释性、冗余性等的统一标准;
  • 在Agentic无人机自主执行任务时,往往会收集图像、热成像扫描、或者人的行为数据。在基础设施巡检等城市或民用环境中,无人机可能会在无意中收集到个人信息,触及个人隐私;无人机的自主拍摄和跟踪应该由谁来负责?此外,限制非必要的数据收集、实施地理围栏、无人机上的匿名化处理等机制都变得非常重要。

三、数据与模型的可靠性问题[2]:

  • 机载的AI模型在应用中可能会由于输入数据的复杂多变、模型泛化能力的不足、语义理解错误、计算的不确定性等而影响性能的发挥,甚至带来安全风险;
  • 很多AI模型,例如目标检测、语义分割、视觉-语言模型等,其训练数据来自于受控环境、或者较理想的环境;当遇到新的天气状况、多样化的地形、或者特殊情况时,AI模型的泛化能力可能会暴露出不足,例如:采用城市交通数据训练出来的目标检测模型,可能会难以识别出矿区的施工车辆、灾害地区的应急车辆等;语义场景理解(Semantic Scene Understanding)可能会将阴影识别为障碍物,或者无法识别出玻璃、水等透明或反光表面;
  • Agentic无人机应该能够实时处理大量的、多模态的探测器数据,然而在各种实际条件下,AI推理可能会由于硬件的限制、输入的噪音、丢帧、传感器阻塞、硬件过热等,出现延迟、瘫痪、或者返回部分结果、返回不准确结果;
  • 很多AI模型在输出结果时,不能提供结果的置信度、或者预测的不确定性指标;
  • AI模型的训练数据往往不够全面(例如:应该既包括森林又包括沙漠,既包括白天又包括黑夜,既包括晴天又包括雨天,等等);此外、数据标注的前后不一致、训练数据的类别间不平衡、大规模、高质量航拍数据集的短缺等,都有可能影响到Agentic无人机的性能,制约Agentic无人机的鲁棒性。

参考文献

[1] AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges

https://arxiv.org/abs/2505.10468

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] UAVs Meet Agentic AI: A Multidomain Survey of Autonomous Aerial Intelligence and Agentic UAVs

https://arxiv.org/abs/2506.08045

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[3] Deep Reinforcement Learning based Autonomous Decision-Making for Cooperative UAVs: A Search and Rescue Real World Application

https://arxiv.org/abs/2502.20326

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/


封面图:JESHOOTS.com、Pexels

目录
相关文章
|
2月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
24天前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
|
2月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
279 40
|
2月前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
|
2月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
108 11
|
2月前
|
数据采集 机器学习/深度学习 人工智能
代理IP:企业AI应用的隐形加速器与合规绞索
代理IP作为企业AI应用的重要基础设施,既是效率提升的加速器,也可能成为合规风险的来源。它通过技术演进重塑数据采集、模型训练与安全防护等核心环节,如智能路由、量子加密和边缘计算等创新方案显著优化性能。然而,全球法规(如GDPR)对数据流动提出严格要求,促使企业开发自动化合规审计系统应对挑战。未来,代理IP将向智能路由3.0、PaaS服务及量子网络方向发展,成为连接物理与数字世界的神经网络。企业在享受其带来的效率增益同时,需构建技术、法律与伦理三位一体的防护体系以规避风险。
54 0
|
10天前
|
人工智能 监控 算法
基于无人机与AI视觉的矿山盗采智能监测系统技术解析
本文提出融合无人机与AI的三维监管方案。通过全天候视频覆盖、AI车辆识别与行为分析、数据闭环管理及动态算法迭代,实现对矿区24小时智能监控,大幅提升响应效率与监管精度,有效降低人工成本,保障矿区安全。
46 6
|
1月前
|
SQL 存储 人工智能
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!
Quick BI 5.5版本应运而生,围绕"AI赋能+全场景提效",助力企业加速释放数据价值。此次升级,不仅让复杂分析"开箱即用",更通过智能工具与场景化能力,助力企业实现从数据洞察到决策落地的全流程闭环。
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!
|
2月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
257 34
|
2月前
|
传感器 人工智能 供应链
穿越AI周期,卫浴新场景的九牧答卷
两年前,阿里巴巴CEO张勇提出“所有行业都值得基于AI重做一遍”的观点。如今,AI正重构多个行业,如AIPC提升生产力、电商优化供需匹配、搜索跃升语义理解等。九牧在第29届上海厨卫展前夕发布AI BATH场景品牌,通过全链路AI解决方案,重新定义卫浴空间。文章探讨了智能化进程中“伪智能”问题,分析九牧如何以DeepSeek大模型、健康守护功能及跌倒报警系统等,实现主动式服务,推动场景智能从单品向互联互通转变。最后指出,随着政策支持与技术进步,“场景革命”已来临,九牧或成行业分水岭,引领新增长曲线。
63 14

热门文章

最新文章

OSZAR »