GPU正在成为企业AI建设中"昂贵的资产",却也往往是容易被闲置的资源。在研发测试、轻量推理、模型验证、教学实验等场景下,整卡分配的方式造成了大量显存闲置和成本浪费。如何将昂贵的算力切碎,提供按需分配、灵活回收的细粒度服务,成为了降本增效的关键。
近日,ZStackCloud5.5.16正式发布。本次升级的核心,是推出dGPU(动态GPU)算力切分技术,打破了整卡分配的物理限制,让云主机能够按需动态加载与释放显存,将一张物理卡切分为多份贴合业务实际的算力单元。同时,DPU加速弹性裸金属、企业级网络增强等能力也在同一版本中同步上线。
ZStackCloud5.5.16版本的核心功能包括:
●弹性裸金属增强:引入DPU加速技术,实现网络与存储的硬件级卸载,彻底释放主机算力;支持Ceph块存储作为系统盘,大幅提升I/O性能并保障业务高可用;新增灾备支持,为关键业务提供多重安全保障。
●AI算力增强:创新推出dGPU(dynamicGPU)技术,打破物理显存限制,实现算力的按需分配,大化昂贵GPU资源的利用率;新增GPU全局及规格级分配策略(紧凑/分散),灵活平衡业务高可用与资源利用率。全面支持国产算力(昇腾/海光)的统一监控。
●云网络能力增强:支持网卡IP、掩码、网关及DNS的全自定义配置,满足复杂网络环境需求;新增VPC路由器SNAT转发溯源,满足严格的网络安全合规审计要求;负载均衡支持端口级精细化转发,提升业务管理的灵活性。
重点特性介绍
弹性裸金属增强:性能跃升,安全无忧
新增DPU加速弹性裸金属集群
本次更新重磅引入DPU技术,重构弹性裸金属集群架构。通过DPU设备直接管理裸金属节点,实现了去中心化设计,彻底消除单点故障隐患。
利用DPU的硬件卸载能力实现虚拟网络的加速,结合高性能的存储引擎(SPDK)加速分布式存储,大幅降低了主机CPU的负载,显著提升了存储IOPS与网络吞吐性能,为数据库、高性能计算等关键业务提供了的物理机体验。
创建DPU加速弹性裸金属集群
DPU加速集群目前支持对接Ceph主存储,可基于Ceph主存储创建弹性裸金属实例并实现核心运维功能,包括创建、启动、停止、删除、加/卸载Ceph云盘等。
支持使用Ceph块存储卷作为弹性裸金属系统盘
新版本打破了传统限制,支持将Ceph块存储卷作为弹性裸金属实例的系统盘。这一特性不仅提升了系统盘的读写性能,更通过多路径机制实现了存储层面的冗余,避免了单点故障,从底层保障了业务的连续性与高可用。
Ceph块存储卷作弹性裸金属系统盘
弹性裸金属实例支持灾备
为了应对数据安全风险,新版本全面支持弹性裸金属实例的全量备份与一键恢复。用户可按需选择仅备份系统盘,或同时备份已加载的数据盘(不包含共享云盘),并在需要时进行一键恢复。
该能力为运行在弹性裸金属上的数据库、核心业务系统、高性能应用等提供更完善的数据保护机制,帮助企业降低误操作、故障或其他异常情况下的数据安全风险。
弹性裸金属实例备份(含数据盘)
AI算力增强:资源切分,国产适配
新增云主机dGPU(动态GPU)软件切分能力
dGPU是这次5.5.16版本重要的能力升级。在虚拟化场景里,主流做法是把整张GPU直通给单台云主机,研发测试、轻量推理这类不需要满血算力的业务也只能独占整卡,结果是GPU利用率长期偏低,算力成本被严重浪费。
ZStackCloud基于CUDAAPI拦截转发技术实现dGPU切分能力,平台无需预先对整卡做静态划分,云主机可以按需动态加载和释放显存。一张大显存物理卡能够被切分为多份细粒度算力,同时分配给多个云主机使用。这是当前云平台市场上的差异化能力,把GPU这种高价资源从"独占式"使用方式带入"按需共享"。
dGPU资源深度融入云平台管理体系,支持显存规格模板配置、部门/项目级配额管控以及实时健康监控。对于AI研发团队和教学实验场景,这意味着同样一张H100或A100,可以同时支撑多个研发人员、多个推理服务、多个验证任务,显著降低AI研发的算力门槛和投入成本。
创建云主机加载dGPU
新增GPU全局及规格级分配策略
新版本新增GPU全局及规格级分配策略,支持“分散优先”与“紧凑优先”两种模式,让用户可根据业务特性灵活编排算力资源。
●分散优先:适用于高可用场景,将GPU业务尽可能分布在不同物理节点,降低单点故障影响;
●紧凑优先:适用于资源利用率优先场景,优先填满单节点后再调度下一节点,便于保留完整空闲节点以承载大模型训练等高规格任务。
通过更精细的调度策略,企业可在AI训练、推理、研发测试等多类型任务并行运行时,更好地平衡业务连续性与资源利用效率。
设置GPU分配策略
GPU运维支持容器国产算力(昇腾/海光)的监控
在信创与国产化趋势下,新版本进一步完善了对国产芯片的支持。容器集群现已支持查看昇腾、海光等国产芯片的详细监控数据,实现了异构算力的统一纳管与可视化运维,助力企业构建自主可控的AI算力底座。
查看国产GPU监控数据
云网络能力增强:灵活配置,合规溯源
支持网卡网络参数自定义配置
为了适配更复杂的业务场景与混合云环境,新版本赋予了用户更高的网络配置自由度。现在,用户可为云主机网卡灵活指定IP地址,并独立设置子网掩码、网关及DNS。这一改进提升云主机在混合云、专有网络、复杂业务系统迁移等场景中的网络适配能力。
单独设置IP地址、网关、子网掩码、DNS
支持VPC路由器SNAT转发溯源
面对日益严格的安全合规要求,新版本在VPC路由器开启SNAT功能后,支持记录转发日志。用户只需添加SNAT日志服务器并开启开关,即可轻松实现IP转发的溯源审计,满足企业级网络的安全合规需求。
开启VPC路由器SNAT日志开关
添加SNAT日志服务器
负载均衡监听器转发规则支持单独指定端口
新版本优化了负载均衡的精细化管理能力,支持为转发规则单独指定后端服务器组端口。这意味着,来自不同域名或URL的请求可以被精准分发到后端服务器组的特定服务端口,实现了更灵活的业务路由与微服务管理。
转发规则指定后端服务器组端口
其他优化
ZStackCloud5.5.16版本还针对用户在日常运维中的痛点进行了大量体验升级:
●集群绑定机制简化:将复杂的绑定逻辑简化为“强/弱绑定”两种模式,并支持集群粒度的一键开启与实例级的灵活覆盖,满足了混合业务场景的调度需求。
●VNC控制台全屏化:优化了云主机的远程操作体验,支持全屏展示,消除视觉干扰,提升运维效率。
●底层环境升级:Python版本升级至3.11,不仅提升了运行效率,更增强了系统的安全性与长期维护能力。
●AI部署效率提升:创建推理服务UI全面优化,提供默认配置;支持云主机通过virtio-fs一键挂载自定义模型,系统自动生成启动命令;支持AI业务跨项目统一下发,解决了跨团队资源交付的繁琐流程。
●资源利用率优化:推理容器支持CPU/内存申请量与限制量分离,解决模型“启动吃内存、运行低消耗”的资源闲置痛点。
●体验优化:模型管理降本增效,支持模型下载断点续传与去重校验,并增强GPU资源概览与云主机/容器监控的可视化展示。
●国产适配:新增支持阿里PPU-ZW810E芯片推理和精调模型,国产算力生态更加多样。为客户在信创及国产算力场景下提供更多硬件选择,降低供应链风险。
●模型引擎:新版本升级了vLLM/MindIE等核心推理系统模板,对底层性能进行了深度优化。用户无需繁琐的环境配置,即可“开箱即用”新发布的主流开源模型(如Qwen3.5),大幅缩短了从模型下载到服务上线的周期。
●系统稳定性加固:优化了双管理节点同步机制、云平台升级体验及KVMAgent内存管理,进一步降低了边缘场景故障风险,提升了物理机长期运行的稳定性。
ZStackCloud云平台的每一次更新,都源于对真实运维场景的洞察与响应。我们相信,技术的价值在于切实解决问题、提升效率。未来,我们将继续围绕“简单、健壮、弹性、智能”的核心理念,让云平台成为企业数字化转型中更可靠、更高效的基石。
ZStackCloud5.5.16已正式发布。如果企业内部正在评估弹性裸金属、AI算力切分或异构GPU监控等场景,欢迎移步云轴科技ZStack官网,联系ZStack各区域团队,了解新版本特性。
