​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

近日,智源研究院正式发布了具身大脑RoboBrain 2.0的32B版本及跨本体大小脑协同框架RoboOS 2.0单机版。这一突破性进展标志着具身智能技术迈入新阶段,通过整合感知、推理与规划能力,RoboBrain 2.0在多项权威基准上刷新纪录,而RoboOS 2.0作为全球首个具身智能SaaS开源框架,实现了轻量化部署和跨本体协作。双引擎联动将加速机器人从“单机智能”向“群体智能”的转型,赋能真实场景应用。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

​Part 1: RoboBrain 2.0突破三大能力瓶颈,模块化架构提升复杂推理​

当前主流AI模型在真实物理环境中常面临空间理解精度不足、时间依赖建模薄弱和长链推理能力欠缺的瓶颈。RoboBrain 2.0通过创新设计全面突破这些限制,显著提升了复杂具身任务的处理能力。

  • 空间理解​:RoboBrain 2.0支持精确点定位和边界框预测,能根据复杂指令在图像中定位物体或区域。它还具备空间关系理解能力,如物体相对位置和方向的分析,并基于场景图进行实时三维空间推理。
  • 时间建模​:模型强化了长期规划功能,支持多步任务分解和闭环交互,能动态调整策略以适应环境变化,并协调多智能体协作完成复杂任务。
  • ​长链推理​​:RoboBrain 2.0实现了链式推理和因果逻辑提取,能从指令中推导出多步决策,并生成透明、可解释的推理过程,确保决策可靠性。
​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

在架构上,RoboBrain 2.0采用模块化的编码器-解码器设计,统一处理感知、推理和规划。不同于传统视觉-语言模型(VLMs),它专为具身任务优化,支持高分辨率图像、多视图输入、视频帧、语言指令和场景图的融合编码。这一架构使其在保持通用视觉问答能力的同时,强化了空间感知、时间建模和长链推理。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

​Part 2: 多模态数据集与分阶段训练策略,驱动性能飞跃​

RoboBrain 2.0依托全面多模态数据集,涵盖高分辨率图像、多视角视频序列、场景图、3D场景数据和复杂自然语言指令。数据集聚焦三大核心领域:

  • ​通用多模态理解​​:整合视觉问答、区域级查询和OCR任务,提升模型对多样场景的响应能力。
  • ​空间感知​​:支持物体定位和功能性识别,应对遮挡和多视角挑战。
  • 时间建模​:强化长程任务规划和多智能体协作,确保动态环境中的高效执行。

 

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

训练采用智源自研的FlagScale框架,分三阶段递进:

  1. ​基础时空学习​​:通过图文和视频数据构建空间感知和时间理解基础。
  2. ​具身时空增强​​:引入高分辨率多视图图像和导航任务,强化长期规划和动态决策。
  3. ​具身情境推理链训练​​:使用监督和强化微调,提升复杂任务中的链式推理能力。

性能验证基于FlagEvalMM框架,RoboBrain 2.0在空间和时间推理基准上全面领先:

  • ​空间推理​​:在BLINK(83.95分)、CV-Bench(85.75分)等9项测试中超越Gemini和GPT-4o,实现SOTA。
  • ​时间推理​​:在多机器人规划(80.33分)和Ego-Plan2(57.23分)中显著优于Qwen2.5-VL等模型。
​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

具体来看,7B模型在BLINK和CV-Bench登顶,32B模型在RoboSpatial和Where2Place刷新纪录。时间推理方面,7B模型在RoboBench以72.16分夺魁,32B模型在Ego-Plan2大幅领先基线。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

​Part 3: RoboOS 2.0赋能群体智能,实现跨本体协作​

RoboOS 2.0作为全球首个具身智能SaaS开源框架,创新集成MCP协议无服务器架构,支持轻量化部署。它打通了大脑与异构本体的协同通路,并推出单机版产品线及RoboSkill技能商店,实现技能模块的智能匹配和一键适配。标准化接口消除了硬件差异,开箱即用镜像支持“三行指令”极速部署。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

框架核心包含云计算大脑(负责认知与协同)、分布式小脑模块(执行专项技能)和实时共享内存机制(强化环境感知)。相较于1.0,RoboOS 2.0优化了推理链路,性能提升30%,响应时延低于3ms,通信效率提升27倍。新增功能包括多本体时空记忆场景图共享和多粒度任务监控,提升了任务稳定性。

协作流程分为四阶段:分层任务分解、子任务动态分配、分布式执行和环境状态更新。结合RoboBrain 2.0,它能实现高精度操作(如抓取和搬运)和闭环反馈,适应动态环境。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

​Part 4: 全面开源,共建具身智能生态​

RoboBrain 2.0和RoboOS 2.0已全面开源,提供模型权重、训练代码和评测基准。开源资源包括:

智源研究院已与全球20余家企业和实验室合作,邀请开发者加入开源社区,共同推动具身智能生态的繁荣。

​​智源研究院发布RoboBrain 2.0与RoboOS 2.0:推动具身智能从“单机智能”迈向“群体智能”​

​结语​

RoboBrain 2.0和RoboOS 2.0的发布,不仅解决了具身智能的核心瓶颈,还通过开源框架降低了开发门槛。双引擎协同将加速技术从实验室走向商超、厨房等真实场景,构建开放、高效的群体智能生态。随着全球开发者的参与,具身智能有望迎来爆发式增长。


这篇文章基于文档内容原创撰写,突出了技术创新、性能优势和应用前景。所有图片嵌入均严格对齐原始描述位置,确保图文一致。如需进一步细节,可参考提供的开源链接。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...