中国首款通用具身基座模型发布 智元机器人突破运动速度极限

当机器人能够像人类一样通过观察视频学习”挂衣服”的完整流程,并在不同衣柜、不同衣物材质的环境中自主调整操作步骤时,具身智能就跨越了实验室与真实场景的鸿沟。智元机器人最新发布的Genie Operator-1(GO-1)大模型,通过ViLLA架构构建起三维认知体系:视觉模态理解空间关系,语言模型解析任务意图,隐式规划器解码操作逻辑,这种分层认知结构使机器人在陌生环境中完成任务的成功率提升了32%,倒水、清理桌面等日常任务的训练数据需求锐减90%。

ViLLA架构的核心突破在于实现了知识迁移的范式转换。传统具身模型依赖真机示教数据,而GO-1的数字金字塔体系打通了互联网图文、跨本体视频、仿真数据、真机数据四层信息流。当模型需要完成”制作餐点”这类复合任务时,语言理解模块会调用维基百科中的烹饪知识,动作规划模块参考YouTube上的厨师操作视频,仿真系统生成不同厨具的交互参数,最终通过真机数据微调执行精度。这种分层学习机制使得单一模型可适配人形、四足、机械臂等不同形态的机器人本体,在AgiBot World数据集中覆盖的家居、工业场景中保持85%以上的任务完成率。

在技术实现层面,GO-1的混合专家系统(MoE)解决了动作精度的关键难题。隐式规划器将跨本体视频中提取的抽象动作模式,转化为可执行的动作序列编码,动作专家系统则通过百万级真机轨迹数据建立微操作库。当机器人执行”迎接外宾”这类包含行走、手势、语音交互的复合任务时,混合专家系统能动态调用行走平衡模型、机械臂运动模型、语音交互模型,实现多模态动作的毫秒级协调。这种模块化设计使机器人本体运动速度突破传统串联控制架构的物理极限,在动态避障测试中展现出0.3秒的实时响应能力。

该模型的产业化价值体现在训练成本的结构性下降。传统工业机器人每项新任务需要200小时以上的示教编程,而GO-1通过小样本学习机制,仅需10段人类操作视频就能生成可部署的动作策略。在咖啡冲泡测试中,模型观看不同咖啡机使用视频后,自主推导出压力控制参数与水流量的映射关系,将萃取温度误差控制在±1.5℃。这种快速迁移能力使机器人柔性生产线改造周期从三个月缩短至两周,为智能制造提供了可进化的神经中枢。

具身智能的突破正在重构人机协作的边界。GO-1展示的持续进化特性,意味着每台部署该模型的机器人都能通过日常操作积累经验数据,这些数据经过联邦学习系统加密处理后,可反向增强基座模型的泛化能力。当某个机器人学会处理新型智能门锁时,全球部署的同构系统都会获得这项技能更新。这种分布式智能进化模式,使机器人群体在三个月内将挂衣任务的完成率从68%提升至92%,验证了开放世界场景下的协同学习潜力。

技术革命往往发轫于底层架构的创新。智元机器人通过ViLLA架构证明,将人类认知模式解构为场景理解、逻辑推理、动作执行三个独立模块,再通过隐式空间进行信息融合,比端到端的黑箱模型更具进化潜力。这种设计思想打破了传统人工智能”暴力计算”的路径依赖,为具身智能的可持续发展开辟了新航道。当机器人的学习能力开始逼近人类学徒的成长曲线,我们或许正站在通用人工智能的真正起点。

科技分享

首批小米SU7 Ultra车标被抠

2025-3-11 10:14:55

科技分享

海外 AI 圈热议中国 Manus 智能体 通用 AI 实现跨领域任务处理

2025-3-11 10:33:35

搜索