广告
中国青年网

发现

首页 >> 科技速递 >> 正文

京东云JoyBuilder全新升级,具身智能模型训练效率提升3.5倍

发稿时间:2025-12-08 13:58:00 来源: 中国青年网

  近日,京东云JoyBuilder模型开发平台迎来全新升级,成功支撑模型GR00T N1.5的千卡训练,成为支持具身智能千卡级LeRobot开源训练框架的AI开发平台,训练效率提升3.5倍。

  近年来,具身智能成为AI领域的重要研究方向,但训练一个高效的具身模型,需要同步处理图像、文本和连续动作信号等众多环节,在工程落地方面存在着数据供给读取慢、算力效率低下,以及数据预处理和存储I/O与GPU计算等多个环节未能有效协同产生的性能瓶颈,是具身智能从实验室走向规模化落地的最大挑战。

  围绕具身智能模型训练,京东云AI Infra及相关团队基于JoyBuilder模型研发平台进行了全栈优化:

  在具身数据链路优化方面,通过重构具身数据预处理与加载流,JoyBuilder平台实现CPU数据处理与GPU计算异步执行,减少等待时间。针对海量具身小数据文件,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取,支持高并发访问。在1024卡集群上,读取带宽超过400GB/s,保障数据持续高速供给。

  在具身模型计算优化方面,针对主流开源的VLA(视觉-语言-动作)模型的计算特点从Attention层、Token裁剪和训练后量化等多方位优化,全方位提升模型的训练效率。

  在具身模型基础设施方面:通过搭建3.2T RDMA后端网络,基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟,并在单点故障时快速恢复,支持长周期训练稳定运行。同时,基于云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率。

  具身智能的发展依赖于算法、数据、算力及基础设施的系统化协同,京东云JoyBuilder模型开发平台,基于在全链路数据处理、模型计算效率和AI基础设施等的全面优化,支持业界当前最主流的LeRobot训练数据最新协议,并成为支持具身模型千卡级开源训练框架的AI开发平台。

  早期LeRobot V2.1数据协议采用“单 episode 单文件”设计,大规模样本训练时,海量小文件易导致数据加载瓶颈和存储压力。京东云JoyBuilder平台支持一键升级至“多 episode 合并分片”的V3协议,经过并行流水线和高效索引查询优化,显著提升云侧算力利用率和训练效率,满足大规模分布式训练需求。

  当前,基于京东集团复杂场景实践,京东云已经构建了一站式大模型产品矩阵,从底层的智算基础设施,到中间层的模型服务和工具,再到上层的Agent应用开发,支持具身智能企业快速部署大模型及AI应用,共同推动机器人更好地理解和服务物理世界。

责任编辑:ZER