在2025AI容器应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布了AI容器技术——Flex:ai。华为联合上海交通大学、西安交通大学与厦门大学共同宣布将此项产学合作成果开源。
发布的Flex:ai XPU池化与调度软件基于Kubernetes容器编排平台构建,通过精细化管理与智能调度GPU、NPU等智能算力资源,实现AI工作负载与算力资源的匹配,大幅提升算力利用率。当前AI产业高速发展带来大量算力需求,但全球算力资源利用率偏低的问题日益凸显。据业内人士透露,行业内算力资源的平均利用率仅为30%至40%,甚至更低。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态。
如何唤醒并高效利用算力集群资源成为行业难题。容器技术作为一种轻量级虚拟化技术,可以将模型代码和运行环境打包成独立镜像,实现跨平台无缝迁移,并按需挂载GPU、NPU算力资源,提升集群整体资源利用率。Gartner分析师预测,到2027年,超过75%的AI工作负载将采用容器技术进行部署和运行。
在AI容器领域,已有不少企业推出相关产品。例如英伟达以7亿美元收购了以色列AI公司Run:ai,该公司核心产品基于kubernnetes构建,用于调度GPU计算资源,优化资源利用率,让深度学习训练与推理任务高效运行。华为发布并开源的Flex:ai XPU池化与调度软件,在虚拟化和智能调度方面实现了突破。
针对AI小模型训推场景中“一张卡跑一个任务”的资源浪费问题,华为与上海交通大学联合研发XPU池化框架,可将单张GPU或NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%。这一技术使单卡同时承载多个AI工作负载,通过弹性灵活的资源隔离技术,实现算力单元的按需切分,提高整体算力利用率。