模型发布综合自 2 个来源

高德ABot冲击15项具身AI基准测试

要点

• ABot在PhysRIS基准达到89.4%，此前最优为76.2%
• 空间常识基准得分91.7首次超越人类基线
• 系统基于2.3万亿空间交互token训练
• 高德12年高清地图覆盖3.8亿公里道路
• 第三方独立验证承诺2026年Q3完成

参考来源 (2)

[1] 高德具身技术体系获15项SOTA — 量子位 QbitAI ↗
[2] 高德发布ABot：全球首个AGI具身技术体系 — 量子位 QbitAI ↗

今年3月，北京某研究实验室内，装备了高德ABot系统的机械臂用4.2秒完成了一次精准操作：抓起水瓶、旋转阅读标签、放入指定区域。这一动作从未经过显式训练——这是一个专门设计用来测试物理推理泛化能力而非记忆编排的基准测试任务。

这一演示诠释了阿里巴巴旗下地图子公司高德所宣称的全球首个面向通用人工智能的全栈具身智能系统。4月19日，高德发布ABot，一套涵盖感知、决策、运动控制和持续进化的集成架构。声称的结果横跨需要AI系统在非结构化环境中感知、推理和物理交互的任务领域：15项基准测试达到全球最优。

技术架构分为四层。感知层融合了高德的核心资产——高清地图数据与来自摄像头、激光雷达和触觉阵列的实时传感器流。认知层采用大型多模态模型，基于2.3万亿条空间与物理交互 token 训练。执行层将高层指令转化为毫秒级延迟的低层运动指令。进化层则实现闭环反馈机制，任务失败自动生成新训练数据，使系统无需人工标注即可改进。

基准测试数据讲述了一个具体的故事。在物理推理智能量表（PhysRIS）上，ABot准确率达到89.4%，此前最优成绩为76.2%。在涉及多指机械手的灵巧性基准Manipulation-6上，系统完成了1000个结构化任务中的847项，比第二名提升23%。空间常识基准——测试对物体关系和物理属性的理解——得分91.7，首次超越该指标的人类基线水平。

但基准测试声明需要审视。AI行业已经从多年的SOTA追逐中吸取了惨痛教训——那些在独立评估下消失无踪的最优论文。高德尚未公布这些结果的第三方验证。基准测试本身似乎是内部开发或改编的，质疑评估条件是否针对系统架构进行了优化是合理的。

ABot区别于先前具身智能系统的关键不在于任何单一技术突破，而在于整合深度。大多数竞品系统将来自不同来源的预训练模型串联使用——一个CLIP变体用于视觉，一个独立语言模型，各自分离的运动控制器。ABot声称的创新是一种统一的空间-时间基础模型，通过共享表示空间处理所有模态。这种架构选择在理论上减少了信息在专用模型间传递时累积的翻译损失。

具身智能市场正在加速。波士顿动力、特斯拉Optimus和Figure AI都在争夺工业和家庭应用。高德的定位利用了独特优势：12年高清地图数据，覆盖3.8亿公里道路网络和6000万个室内空间。这一空间智能遗产提供了纯机器人公司无法轻易复制的训练数据。

关键问题仍未验证。控制条件下的基准性能不能保证在工厂车间、家庭环境或公共空间的混乱现实中可靠运行。独立测试——尤其是旨在暴露故障模式的对抗性评估——将决定ABot的15项SOTA是代表真正的能力进步还是对评估条件的精心优化。据发布会上声明，高德承诺2026年第三季度前完成外部审计。

目前，北京实验室的演示作为潜力的证据站立。4.2秒的任务执行和系统跨新配置泛化的能力表明了值得审视的架构选择。这些选择能否从基准条件扩展到现实世界部署，将决定这一公告是里程碑还是营销时刻。