(网经社讯)6 月 13 日 - 14 日,第十届 A2M 人工智能创新峰会(北京站)于中关村国家自主创新示范区会议中心举办。作业帮受邀参会,公司基础架构研发工程师张浩然以《AI 时代资源效率困境和破局之道》为主题,面向数百位行业技术负责人、架构师,分享大规模异构 GPU 集群调度、算力资源提效降本的一线落地实践,为行业破解算力利用率低、资源碎片化、跨地域调度难等共性痛点提供可复用工程方案。
本届 A2M 峰会由 msup 主办,是国内聚焦 AI 工程化落地的标杆技术盛会,本届以 “规模化提效:重塑 AI-DRIVEN 时代的生产力” 为核心议题,覆盖 AI 原生基础设施、企业大模型工程化、算力调度、智能运维等前沿赛道,汇聚互联网、AI、制造、金融等多领域技术团队交流落地经验。当前行业普遍存在算力投入持续走高、GPU 平均利用率不足 30%、跨多云集群调度割裂、在线推理与离线训练资源冲突等难题,算力效率已成为制约大模型规模化商用的核心瓶颈,也是本次峰会重点探讨的核心方向。
据网经社教育台(EDU.100EC.CN)获悉,演讲中,张浩然首先剖析行业普遍面临的算力矛盾:AI 算力需求增速远超硬件扩容速度,单纯依靠采购 GPU 硬件难以可持续发展;而多数企业算力分散在多地域、多厂商异构集群,资源碎片化、潮汐流量错配进一步加剧资源浪费。作业帮依托自身覆盖全国多云、多地域的教育大模型算力集群,沉淀出一套三层递进式算力优化体系,核心包含跨地域统一算力网络、自研 GPU 调度治理工具、深度在离线混合部署三大实践路径。
其一,搭建跨地域无感统一算力网络,筑牢算力调度底座。作业帮自研全域流量调度系统,打通北京、南京、上海等多地算力节点,区分专线、公网双链路智能传输,自动依据各集群负载、硬件健康度分发推理流量,业务侧无需感知底层算力地域差异。该架构实现多地算力容灾互补,即便单地域资源出现大幅波动,线上服务 SLA 稳定维持 99.99% 以上,彻底打破单云、单地域算力扩容约束。
其二,自研 “GPU 调度器 + RS-Webhook + 碎片整理任务” 三件套,根治集群资源碎片化。调度环节区分整卡、显存密集型模型差异化堆叠部署,最大化硬件填充率;资源回收摒弃 K8s 原生默认逻辑,优先释放可腾出最多完整 GPU 节点的 Pod;非业务高峰自动执行碎片整理,在不影响在线服务前提下迁移零散占用卡资源,盘活闲置碎片算力,解决长期存在的 “大量半占用 GPU 无法复用” 行业通病。
其三,落地抢占式在离线深度混部,释放闲置潮汐算力。区别于传统固定时段离线任务窗口模式,作业帮构建 BT 底层抢占调度机制,集群出现空闲整机资源即自动填充大模型离线训练任务;当在线推理流量突增、资源不足时,系统自动驱逐任务量最小的离线任务,优先保障线上教学、AI 问答等核心业务稳定。这套机制充分利用夜间、午间闲置算力,实现在线推理与离线训练资源错峰复用。
经全链路落地验证,作业帮整套算力优化方案实现显著量化收益:集群 GPU 平均利用率稳定保持 90% 以上,整体可用算力提升约 20%,大幅降低大模型推理、训练硬件采购与运维成本;依托模型分发链路优化,大模型镜像跨区分发时长由 6 小时压缩至 45 分钟,分发效率提升超 80%;配套 AI 智能运维体系,系统异常根因自动分析准确率超 90%,大幅减少人工运维投入。
“AI 时代,规模只是入场券,效率才是生死线。” 张浩然在演讲中表示,教育场景大模型承载亿级用户高频实时推理,对算力稳定性、资源成本敏感度极高,作业帮基础架构团队长期聚焦算力精细化治理,不依赖硬件堆叠,通过云原生调度、自研工具链、混合部署的组合技术手段挖掘存量算力价值。未来团队也将持续开放相关工程实践经验,与行业共同探索 AI 算力高效利用路径。


































.png)



