ZStack Cloud 5.5.16 发布：dGPU切分+DPU加速，破解算力成本与性能难题

GPU正在成为企业AI建设中"昂贵的资产"，却也往往是容易被闲置的资源。在研发测试、轻量推理、模型验证、教学实验等场景下，整卡分配的方式造成了大量显存闲置和成本浪费。如何将昂贵的算力切碎，提供按需分配、灵活回收的细粒度服务，成为了降本增效的关键。

近日，ZStackCloud5.5.16正式发布。本次升级的核心，是推出dGPU（动态GPU）算力切分技术，打破了整卡分配的物理限制，让云主机能够按需动态加载与释放显存，将一张物理卡切分为多份贴合业务实际的算力单元。同时，DPU加速弹性裸金属、企业级网络增强等能力也在同一版本中同步上线。

ZStackCloud5.5.16版本的核心功能包括：

●弹性裸金属增强：引入DPU加速技术，实现网络与存储的硬件级卸载，彻底释放主机算力；支持Ceph块存储作为系统盘，大幅提升I/O性能并保障业务高可用；新增灾备支持，为关键业务提供多重安全保障。

●AI算力增强：创新推出dGPU（dynamicGPU）技术，打破物理显存限制，实现算力的按需分配，大化昂贵GPU资源的利用率；新增GPU全局及规格级分配策略（紧凑/分散），灵活平衡业务高可用与资源利用率。全面支持国产算力（昇腾/海光）的统一监控。

●云网络能力增强：支持网卡IP、掩码、网关及DNS的全自定义配置，满足复杂网络环境需求；新增VPC路由器SNAT转发溯源，满足严格的网络安全合规审计要求；负载均衡支持端口级精细化转发，提升业务管理的灵活性。

重点特性介绍

弹性裸金属增强：性能跃升，安全无忧

新增DPU加速弹性裸金属集群

本次更新重磅引入DPU技术，重构弹性裸金属集群架构。通过DPU设备直接管理裸金属节点，实现了去中心化设计，彻底消除单点故障隐患。

利用DPU的硬件卸载能力实现虚拟网络的加速，结合高性能的存储引擎（SPDK）加速分布式存储，大幅降低了主机CPU的负载，显著提升了存储IOPS与网络吞吐性能，为数据库、高性能计算等关键业务提供了的物理机体验。

创建DPU加速弹性裸金属集群

DPU加速集群目前支持对接Ceph主存储，可基于Ceph主存储创建弹性裸金属实例并实现核心运维功能，包括创建、启动、停止、删除、加/卸载Ceph云盘等。

支持使用Ceph块存储卷作为弹性裸金属系统盘

新版本打破了传统限制，支持将Ceph块存储卷作为弹性裸金属实例的系统盘。这一特性不仅提升了系统盘的读写性能，更通过多路径机制实现了存储层面的冗余，避免了单点故障，从底层保障了业务的连续性与高可用。

Ceph块存储卷作弹性裸金属系统盘

弹性裸金属实例支持灾备

为了应对数据安全风险，新版本全面支持弹性裸金属实例的全量备份与一键恢复。用户可按需选择仅备份系统盘，或同时备份已加载的数据盘（不包含共享云盘），并在需要时进行一键恢复。

该能力为运行在弹性裸金属上的数据库、核心业务系统、高性能应用等提供更完善的数据保护机制，帮助企业降低误操作、故障或其他异常情况下的数据安全风险。

弹性裸金属实例备份（含数据盘）

AI算力增强：资源切分，国产适配

新增云主机dGPU(动态GPU)软件切分能力

dGPU是这次5.5.16版本重要的能力升级。在虚拟化场景里，主流做法是把整张GPU直通给单台云主机，研发测试、轻量推理这类不需要满血算力的业务也只能独占整卡，结果是GPU利用率长期偏低，算力成本被严重浪费。

ZStackCloud基于CUDAAPI拦截转发技术实现dGPU切分能力，平台无需预先对整卡做静态划分，云主机可以按需动态加载和释放显存。一张大显存物理卡能够被切分为多份细粒度算力，同时分配给多个云主机使用。这是当前云平台市场上的差异化能力，把GPU这种高价资源从"独占式"使用方式带入"按需共享"。

dGPU资源深度融入云平台管理体系，支持显存规格模板配置、部门/项目级配额管控以及实时健康监控。对于AI研发团队和教学实验场景，这意味着同样一张H100或A100，可以同时支撑多个研发人员、多个推理服务、多个验证任务，显著降低AI研发的算力门槛和投入成本。

创建云主机加载dGPU

新增GPU全局及规格级分配策略

新版本新增GPU全局及规格级分配策略，支持“分散优先”与“紧凑优先”两种模式，让用户可根据业务特性灵活编排算力资源。

●分散优先：适用于高可用场景，将GPU业务尽可能分布在不同物理节点，降低单点故障影响；

●紧凑优先：适用于资源利用率优先场景，优先填满单节点后再调度下一节点，便于保留完整空闲节点以承载大模型训练等高规格任务。

通过更精细的调度策略，企业可在AI训练、推理、研发测试等多类型任务并行运行时，更好地平衡业务连续性与资源利用效率。

设置GPU分配策略

GPU运维支持容器国产算力(昇腾/海光)的监控

在信创与国产化趋势下，新版本进一步完善了对国产芯片的支持。容器集群现已支持查看昇腾、海光等国产芯片的详细监控数据，实现了异构算力的统一纳管与可视化运维，助力企业构建自主可控的AI算力底座。

查看国产GPU监控数据

云网络能力增强：灵活配置，合规溯源

支持网卡网络参数自定义配置

为了适配更复杂的业务场景与混合云环境，新版本赋予了用户更高的网络配置自由度。现在，用户可为云主机网卡灵活指定IP地址，并独立设置子网掩码、网关及DNS。这一改进提升云主机在混合云、专有网络、复杂业务系统迁移等场景中的网络适配能力。

单独设置IP地址、网关、子网掩码、DNS

支持VPC路由器SNAT转发溯源

面对日益严格的安全合规要求，新版本在VPC路由器开启SNAT功能后，支持记录转发日志。用户只需添加SNAT日志服务器并开启开关，即可轻松实现IP转发的溯源审计，满足企业级网络的安全合规需求。

开启VPC路由器SNAT日志开关

添加SNAT日志服务器

负载均衡监听器转发规则支持单独指定端口

新版本优化了负载均衡的精细化管理能力，支持为转发规则单独指定后端服务器组端口。这意味着，来自不同域名或URL的请求可以被精准分发到后端服务器组的特定服务端口，实现了更灵活的业务路由与微服务管理。

转发规则指定后端服务器组端口

其他优化

ZStackCloud5.5.16版本还针对用户在日常运维中的痛点进行了大量体验升级：

●集群绑定机制简化：将复杂的绑定逻辑简化为“强/弱绑定”两种模式，并支持集群粒度的一键开启与实例级的灵活覆盖，满足了混合业务场景的调度需求。

●VNC控制台全屏化：优化了云主机的远程操作体验，支持全屏展示，消除视觉干扰，提升运维效率。

●底层环境升级：Python版本升级至3.11，不仅提升了运行效率，更增强了系统的安全性与长期维护能力。

●AI部署效率提升：创建推理服务UI全面优化，提供默认配置；支持云主机通过virtio-fs一键挂载自定义模型，系统自动生成启动命令；支持AI业务跨项目统一下发，解决了跨团队资源交付的繁琐流程。

●资源利用率优化：推理容器支持CPU/内存申请量与限制量分离，解决模型“启动吃内存、运行低消耗”的资源闲置痛点。

●体验优化：模型管理降本增效,支持模型下载断点续传与去重校验，并增强GPU资源概览与云主机/容器监控的可视化展示。

●国产适配：新增支持阿里PPU-ZW810E芯片推理和精调模型,国产算力生态更加多样。为客户在信创及国产算力场景下提供更多硬件选择，降低供应链风险。

●模型引擎：新版本升级了vLLM/MindIE等核心推理系统模板，对底层性能进行了深度优化。用户无需繁琐的环境配置，即可“开箱即用”新发布的主流开源模型（如Qwen3.5），大幅缩短了从模型下载到服务上线的周期。

●系统稳定性加固：优化了双管理节点同步机制、云平台升级体验及KVMAgent内存管理，进一步降低了边缘场景故障风险，提升了物理机长期运行的稳定性。

ZStackCloud云平台的每一次更新，都源于对真实运维场景的洞察与响应。我们相信，技术的价值在于切实解决问题、提升效率。未来，我们将继续围绕“简单、健壮、弹性、智能”的核心理念，让云平台成为企业数字化转型中更可靠、更高效的基石。

ZStackCloud5.5.16已正式发布。如果企业内部正在评估弹性裸金属、AI算力切分或异构GPU监控等场景，欢迎移步云轴科技ZStack官网，联系ZStack各区域团队，了解新版本特性。