ZStack Cloud 5.5.16 发布：dGPU切分+DPU加速，破解算力成本与性能难题

GPU正在成为企业AI建设中"昂贵的资产"，却也往往是容易被闲置的资源。在研发测试、轻量推理、模型验证、教学实验等场景下，整卡分配的方式造成了大量显存闲置和成本浪费。如何将昂贵的算力切碎，提供按需分配、灵活回收的细粒度服务，成为了降本增效的关键。
近日，ZStackCloud5.5.16正式发布。本次升级的核心，是推出dGPU（动态GPU）算力切分技术，打破了整卡分配的物理限制，让云主机能够按需动态加载与释放显存，将一张物理卡切分为多份贴合业务实际的算力单元。同时，DPU加速弹性裸金属、企业级网络增强等能力也在同一版本中同步上线。
ZStackCloud5.5.16版本的核心功能包括：
●弹性裸金属增强：引入DPU加速技术，实现网络与存储的硬件级卸载，彻底释放主机算力；支持Ceph块存储作为系统盘，大幅提升I/O性能并保障业务高可用；新增灾备支持，为关键业务提供多重安全保障。
●AI算力增强：创新推出dGPU（dynamicGPU）技术，打破物理显存限制，实现算力的按需分配，大化昂贵GPU资源的利用率；新增GPU全局及规格级分配策略（紧凑/分散），灵活平衡业务高可用与资源利用率。全面支持国产算力（昇腾/海光）的统一监控。
●云网络能力增强：支持网卡IP、掩码、网关及DNS的全自定义配置，满足复杂网络环境需求；新增VPC路由器SNAT转发溯源，满足严格的网络安全合规审计要求；负载均衡支持端口级精细化转发，提升业务管理的灵活性。
重点特性介绍
弹性裸金属增强：性能跃升，安全无忧
新增DPU加速弹性裸金属集群
本次更新重磅引入DPU技术，重构弹性裸金属集群架构。通过DPU设备直接管理裸金属节点，实现了去中心化设计，彻底消除单点故障隐患。
利用DPU的硬件卸载能力实现虚拟网络的加速，结合高性能的存储引擎（SPDK）加速分布式存储，大幅降低了主机CPU的负载，显著提升了存储IOPS与网络吞吐性能，为数据库、高性能计算等关键业务提供了的物理机体验。
创建DPU加速弹性裸金属集群
DPU加速集群目前支持对接Ceph主存储，可基于Ceph主存储创建弹性裸金属实例并实现核心运维功能，包括创建、启动、停止、删除、加/卸载Ceph云盘等。
支持使用Ceph块存储卷作为弹性裸金属系统盘
新版本打破了传统限制，支持将Ceph块存储卷作为弹性裸金属实例的系统盘。这一特性不仅提升了系统盘的读写性能，更通过多路径机制实现了存储层面的冗余，避免了单点故障，从底层保障了业务的连续性与高可用。
Ceph块存储卷作弹性裸金属系统盘
弹性裸金属实例支持灾备
为了应对数据安全风险，新版本全面支持弹性裸金属实例的全量备份与一键恢复。用户可按需选择仅备份系统盘，或同时备份已加载的数据盘（不包含共享云盘），并在需要时进行一键恢复。
该能力为运行在弹性裸金属上的数据库、核心业务系统、高性能应用等提供更完善的数据保护机制，帮助企业降低误操作、故障或其他异常情况下的数据安全风险。
弹性裸金属实例备份（含数据盘）
AI算力增强：资源切分，国产适配
新增云主机dGPU(动态GPU)软件切分能力
dGPU是这次5.5.16版本重要的能力升级。在虚拟化场景里，主流做法是把整张GPU直通给单台云主机，研发测试、轻量推理这类不需要满血算力的业务也只能独占整卡，结果是GPU利用率长期偏低，算力成本被严重浪费。
ZStackCloud基于CUDAAPI拦截转发技术实现dGPU切分能力，平台无需预先对整卡做静态划分，云主机可以按需动态加载和释放显存。一张大显存物理卡能够被切分为多份细粒度算力，同时分配给多个云主机使用。这是当前云平台市场上的差异化能力，把GPU这种高价资源从"独占式"使用方式带入"按需共享"。
dGPU资源深度