(网经社讯)12月8日消息,京东云近期对其JoyBuilder模型开发平台进行了全面升级,该平台现已能够支持业界领先的GR00T N1.5模型的千卡规模训练,并成为首个兼容具身智能千卡级LeRobot开源训练框架的AI开发工具。升级后,平台训练效率较开源社区版本显著提高3.5倍,这主要得益于软硬件协同优化与算法改进。例如,处理超过1亿条数据的千卡训练任务时间从原来的15小时大幅缩减至22分钟,为具身智能技术的规模化应用奠定了基础。
据网经社云计算台(CC.100EC.CN)了解,在技术优化方面,京东云聚焦三个核心环节:数据链路、模型计算和基础设施。数据链路通过重构预处理流程,实现了CPU数据处理与GPU计算的异步执行,减少了等待延迟;针对海量小文件,自研的高性能并行文件系统云海JPFS支持高并发访问,在1024卡集群中读取带宽超过400GB/s,保障了数据供给的稳定性。模型计算层面对主流的VLA(视觉-语言-动作)模型进行了多维度优化,包括Attention层调整、Token裁剪和训练后量化,全面提升了计算效率。基础设施上,通过构建3.2T RDMA后端网络,并结合多轨道优化与智能调度技术,确保了千卡集群通信的高吞吐和低延迟,同时云原生AI数据湖优化了端到端处理流水线。
此外,平台还支持LeRobot训练数据的最新协议,解决了早期版本中数据加载的瓶颈问题,进一步强化了其作为行业首批千卡级开源训练框架的支持能力。

































