在人工通用智能(AGI)连接数字与物理世界的关键探索阶段,中兴通讯近日正式推出具身视觉-语言基础模型EmbodiedBrain,以7B和32B双参数规格构建全流程创新框架,成功突破当前具身智能任务规划的核心瓶颈,在多维度基准测试中刷新SOTA成绩。同时,中兴将模型全量训练数据、权重参数及创新评估环境开源共享,为全球具身智能科研与产业发展注入强劲动力。
三大核心突破,破解具身智能行业痛点
当前主流大语言模型在具身场景中普遍面临"环境适配难、实时性与性能失衡、评估脱离实际"三大痛点,导致其难以胜任长链路的复杂任务。EmbodiedBrain通过架构、数据训练与评估体系的全链条创新,实现关键技术突破:
模块化架构创新,实现感知-推理-行动一体化
模型以Qwen2.5-VL为基础,创新采用模块化编码器-解码器架构,打通"感知-推理-行动"全链路。原生分辨率视觉Transformer凭借窗口注意力机制与二维旋转位置编码,精准捕捉图像细节与空间几何关系;轻量级MLP融合器高效对齐视觉与语言模态语义;基于Qwen2.5初始化的解码器引入时间对齐多模态ROPE技术,强化长视频时序理解能力。最终输出自然语言响应、分步规划与可执行动作序列的结构化结果,实现从语义理解到物理执行的直接闭环,对于"从冰箱取番茄并加热"这类任务可生成清晰的导航与操作步骤及对应动作指令。

图 1:EmbodiedBrain 1.0 架构
训练策略创新,突破长程规划瓶颈
为解决模型与具身智能体需求脱节问题,EmbodiedBrain设计规划中心型结构化数据格式,既满足机器可解析性,又保留人类可解释性,数据涵盖通用多模态指令、空间推理、任务规划、视频理解四大类高质量数据,并通过多阶段筛选来保障数据质量。训练采用"监督微调+强化学习"两阶段范式,创新提出Step-GRPO(分步增强的组相对策略优化)方法,通过引入前置规划步骤"引导先验",将复杂长任务拆解为可逐步优化的子问题,配合多维度奖励系统与异步计算架构,实现约20%训练加速,显著提升长程任务规划的连贯性与可靠性。

图 2:Step-GRPO强化学习方法
三维评估体系创新,还原真实场景能力
针对传统离线评估的局限性,模型构建涵盖"通用多模态能力、空间感知、端到端仿真规划"的三维评估体系,覆盖14项主流基准测试。实测数据显示,EmbodiedBrain-32B在MM-IFEval指令遵循测试中达46.98%,超越Qwen2.5-VL 32B与RoboBrain 2.0 32B;空间感知领域,32B版本在CV-Bench达83.64%、EmbSpatial达77.03%,均居测试模型首位;任务规划方面,其在长程规划Internal Planning基准的F1分数达90.50%,较Qwen2.5-VL 32B提升超2倍,在自主设计的VLM-PlanSim-99仿真基准中成功率达46.46%,几乎是同类模型的两倍,充分验证了在真实复杂场景中EmbodiedBrain 不是一个只会做选择题的模型,而是一个真正能干活的具身大脑。

表 1:EmbodiedBrain Benchmark测试对比数据
全量开源共享,赋能具身智能生态共建
秉持开放协作的发展理念,中兴通讯已通过官方平台开源EmbodiedBrain的全部训练数据、7B与32B参数模型权重、代码及评估方法,同时开源创新的VLM-PlanSim-99仿真环境。该仿真基准包含99个手动验证的家庭任务,有效解决当前具身智能研究中"数据封闭"、"评估标准不一"的行业痛点,为全球科研机构与开发者提供统一的基准平台与工具链,降低具身智能技术研发门槛。
开源链接(- 项目主页:https://zterobot.github.io/EmbodiedBrain.github.io/,代码仓库:https://github.com/ZTERobot/EmbodiedBrain1.0/)

图 3:EmbodiedBrain 实时规划能力展示:“在开放的厨房中找到盘子并放入微波炉”

图 4:EmbodiedBrain 完成长程任务可视化演示:“在水槽里把碗洗干净,然后用微波炉加热”
中兴通讯表示,未来将持续推进EmbodiedBrain的技术迭代:一方面拓展至多智能体协同任务,探索智能体间分工、通信与协作机制;另一方面深耕领域随机化技术,提升模型在家庭服务机器人、工业协作机器人等不同真实平台的适配性,推动具身智能从仿真环境走向实际产业应用。EmbodiedBrain 的发布与开源,是中兴通讯突破具身智能技术边界的里程碑,未来中兴通讯将围绕 “芯片 -开源操作系统 - 推理引擎 - 模型 - 网络” 全链路发力,通过开源协作构建良性产业生态,打破技术壁垒、降低成本,加速人工通用智能在千行百业的规模化应用。
(责任编辑:康玲华)
运营商财经(官方微信公众号yyscjrd)—— 主流财经网站,一家全面覆盖科技、金融、证券、汽车、房产、食品、医药、日化、酒业及其他各种消费品网站。


