智算云时代，ZStack如何在实践中重塑全栈硬件加速架构？

一、硬件加速的三条主线：网络、存储、算力

最近一段时间，业界关于“KernelBypass网卡+超融合”的讨论再度热起来。低延时网卡(Solarflare、Mellanox、CiscoExaNIC等)绕开内核协议栈，把网络收发延迟从十几微秒压到个位数，确实是金融快速交易场景的关键突破。

站在云平台厂商的视角，KernelBypass在整套硬件加速体系中只属于单点加速手段。一个真正能够支撑快速交易、量化策略、AI训练推理、信创、安全敏感行业场景的智算云平台，需要在网络、存储、算力三条主线上同时具备硬件加速能力，并通过虚拟化层把这些能力以可调度、可迁移、可统一管理的方式交付给业务。

云轴科技ZStack用四大产品线承接这一架构判断：

•ZCF(ZStackCloudFoundation)：私有云核心平台，承载SR-IOV、KernelBypass、OVS-DPDK、DPU()、NVMe-oF接入等计算侧硬件加速能力，默认搭配ZBS(ZStackBlockStorage)作为底层分布式存储，提供RDMA零拷贝、SPDK用户态等存储侧加速能力；

•ZVF(ZStackVirtualizationFoundation)：虚拟化产品线(含ZSphere、ZLR)，承担VMware替代主力，把ZCF的硬件加速能力打包给虚拟化场景客户；

•AIOS智塔:智算平台，负责GPU/真武810E等异构算力调度、dGPU弹性切片、智算高性能网络；

•HCI(ZStackCube超融合一体机)：把ZCF+ZVF+AIOS的能力打包成软硬一体方案，覆盖金融快速交易一体机、信创一体机、智算一体机、阿里云联合一体机。

本文按照“网络、存储、算力”三条主线展开ZCF/ZBS/AIOS/ZVF/HCI的能力，拆解ZStack在金融快速交易、信创云、VMware替代、AIInfra一体机几类典型客户场景中的落地路径。

ZStack能做到全栈加速的三个前提条件：第一，完整的产品矩阵——从私有云、虚拟化、存储、智算到超融合一体机，所有产品在同一套代码主线下演进;第二，阿里云控股带来的软硬协同——真武810E、神龙、通义大模型与ZStack在产品规划层面拉通；第三，十余年在金融、信创、政企、能源、AI场景的实际交付沉淀，把零散的加速技术沉淀成可复制的解决方案模板。

下图把ZStack的全栈硬件加速能力按“业务层→平台加速能力层→硬件层”三层×“网络/存储/算力”三条主线整理成一张总览图，后续章节按此结构展开。

二、ZCF计算侧：从SR-IOV到DPU的四级火箭

ZCF是ZStack私有云的核心平台，网络与存储的所有硬件加速能力都首先在ZCF上落地，再通过ZVF、AIOS、HCI三个产品线下传到对应场景。

ZCF在网络硬件加速方向规划了四级火箭:

外加NVMe-oF接入(存储接入协议)、PTP授时、NUMA()绑定作为辅助调优能力。

2.1SR-IOV+PCI直通：把网卡“切片”给虚拟机

SR-IOV(SingleRootI/OVirtualization)是PCIe标准定义的硬件虚拟化技术。一块物理网卡可以被划分为多个VF(VirtualFunction)，每个VF在虚拟机眼中等同于一块独立的物理网卡，绕开了Hypervisor的vSwitch转发路径。

ZCF自4.x版本起完整支持SR-IOV：

•延迟表现：基于ZStack内部实验室数据，SR-IOV虚拟机网卡延迟约为普通虚拟网卡的1/3，小包转发能力可达2.5Mpps量级；

•网卡兼容性：覆盖Intel、Mellanox、Solarflare等主流低延时与RDMA网卡，以及多款国产RoCE网卡，具体认证清单以版本兼容性矩阵为准；

•配合KernelBypass用户态协议栈(Onload/VMA/自研用户态TCP)，在ZStack与低延时网卡厂商、金融客户的联合测试中，端到端延迟可达个位微秒级，在调优场景下进一步逼近2–3微秒区间；具体数值取决于网卡型号、CPU隔离与NUMA调优策略。

2.2ZCF差异化能力一：VF网卡热迁移

行业里大部分超融合平台对SR-IOV虚拟机的处理是“绑死在物理机上”——一旦做了VF直通，就失去了热迁移能力。这对金融生产环境是不可接受的，因为硬件故障、内核补丁、机房腾挪都需要无中断的迁移窗口。

ZCF通过VF热迁移机制(基于qemu/libvirt的VFIO迁移框架，叠加ZStack调度层与网络后备通道的工程化封装)，实现SR-IOV虚拟机在不停机的前提下跨物理机迁移:

1.源主机上VF被动态从虚拟机解绑；

2.网络流量短暂切到virtio后备通道；

3.迁移完成后，目标主机上重新绑定新的VF；

4.整个切换过程对上层应用透明。

这一能力在多家头部券商的OMS、行情分发、风控引擎场景中已经验证。

2.3ZCF差异化能力二：双网卡Bond+SR-IOV切割还原

金融生产环境对链路冗余的要求是不可妥协的——单网卡故障必须能秒级切换。但传统SR-IOV方案与Bond几乎不兼容：VF直通后，Bond的活动备援逻辑无法生效。

ZCF较新版本引入双网卡Bond支持SR-IOV切割还原机制：

•平台为每张物理网卡创建VF池；

•业务虚拟机使用Bond模式接入，底层映射到主备两张物理网卡的VF；

•主链路故障时，平台自动将虚拟机网卡从主VF切换到备VF，业务感知不到中断；

•故障恢复后，平台执行"还原"动作，把流量切回主链路，保持原有性能基线。

这一能力让ZCF在云平台层面把高性能(SR-IOV直通)和高可用(双链路Bond)两个看似矛盾的目标同时满足。

2.4ZCF差异化能力三：OVS-DPDK用户态转发兜底

不是所有业务都适合SR-IOV直通——VF数量受网卡硬件限制，大规模租户隔离、复杂SDN策略、灵活的安全组规则，这些场景仍然需要软件vSwitch。

ZCF近期版本上线OVS-DPDK用户态转发：把数据平面从内核态搬到用户态，通过DPDK的PMD(PollModeDriver)轮询机制，把vSwitch的吞吐和延迟拉到接近硬件直通水平，同时保留完整的OVS流表、VXLAN、安全组、QoS能力。

2.5ZCF差异化能力四：DPU方案——把基础设施“挪到卡上”

ZCF已规划DPU方案，与亚格等DPU厂商完成深度对接，在客户环境进入联合验证阶段。这是网络硬件加速的第四级火箭:把网络、存储、管理三类基础设施流量，从主机CPU卸载到DPU卡上。

技术要点：

•弹性裸金属新形态：ZCF定义了新的弹性裸金属虚拟化类型，DPU卡直接接管裸金属节点的上下电、云盘加载/卸载、网络配置、网卡创建等动作，替代传统弹性裸金属架构中的“网卡节点+部署网络”角色；

•DPU卡上的OVS-DPDK：网络数据面运行在DPU卡上的高性能OVS-DPDK，主机侧CPU不再参与vSwitch转发，释放出来的CPU全部归业务；

•存储、管理、业务流量统一收敛：DPU作为“网关节点”承载多类流量，简化主机网卡数量，降低布线复杂度；

•商务模式延续：DPU方案是现有ZCF弹性裸金属能力的延伸，沿用同一套授权模式，客户无需重新购买独立产品线。

对客户的直接价值:主机CPU利用率提升、网络吞吐与延迟逼近硬件机柜密度提升、整体TCO下降。

2.6ZCF计算侧的NVMe-oF接入

NVMe-oF是ZCF计算侧的存储接入协议。ZCF作为initiator，把后端存储(第三方NVMe-oF存储阵列)以块设备的形式直接挂载给虚拟机，跳过传统的iSCSI/FCSAN协议栈，获得接近本地NVMe盘的延迟与吞吐。

这条路径与SR-IOV、DPU、ZBSRDMA在端到端层面叠加，构成ZCF计算侧的全用户态、零拷贝存储高速公路。

2.7PTP准确授时与NUMA绑定

快速交易场景对时钟一致性有微秒级要求。ZCF配合硬件PTP(IEEE1588)网卡，实现虚拟机时钟与主时源的亚微秒到微秒级对齐；配合CPU绑核、NUMA亲和、Hugepage预分配、中断隔离等一整套调优手段，平台层把硬件性能完整释放给业务。

形成的组合拳是：延迟→SR-IOV+KernelBypass+PTP；大规模租户+灵活策略→OVS-DPDK;双高(性能+可用)→Bond+SR-IOV切割还原;基础设施卸载+CPU释放→DPU。客户可以按业务画像选型，不被单一技术路线绑死。

三、ZBS存储侧：RDMA零拷贝与高IOPS集群

网络硬件加速只是入口，存储侧的硬件加速同样关键。ZStack自研分布式存储ZBS(ZStackBlockStorage)在这条路径上的工程投入：

3.1RDMA/RoCE零拷贝集群网络

ZBS全面支持RDMA(RoCEv2)，节点间数据传输绕过CPU和内核协议栈，实现真正的零拷贝。基于ZStack实验室与典型客户环境的实测:

•单卷随机读IOPS可达数十万级别；

•集群聚合IOPS随节点规模线性扩展，可进入以上区间；

•集群聚合带宽随网络规模线性扩展，可进入数十GiB/s以上区间；

•4K随机读延迟稳定在亚毫秒级，在金融快速交易等场景可达百微秒级。

3.2SPDK用户态存储栈

ZBS服务端整合SPDK用户态存储栈，把存储IO路径从内核态搬到用户态轮询模式，与ZCF计算侧的DPDK/SR-IOV/DPU/NVMe-oF形成端到端的“用户态高速公路”。

3.3落地场景

ZBS已经在多个金融、能源、运营商生产环境运行:

•某全国性期货交易所：核心交易系统底层存储，支撑数万合约实时撮合；

•某头部量化基金：高频策略回测平台，订单/秒级别压力测试；

•多家政企信创云：核心业务底层存储，满足国密合规与性能双重要求。

四、AIOS智算平台：算力+高网融合

第三条主线是算力。AI训练推理、图形渲染、科学计算场景，GPU/异构加速卡是核心生产力。AIOS智塔是ZStack在智算赛道的核心产品。

4.1GPU全直通

AIOS支持NVIDIA、AMD、寒武纪、海光DCU、华为昇腾、阿里平头哥真武810E等主流加速卡的全卡直通：虚拟机独占整张物理卡，性能损耗趋近于零，适合LLM()训练、大规模推理。

4.2dGPU：动态GPU虚拟化

ZStackCloud发布动态GPU虚拟化(dGPU)方案，并在AIOS智塔产品线中作为GPU资源管理的能力之一对外提供:

•显存与算力按需切分：在单张物理GPU上创建多个vGPU实例，显存粒度可达GB级别，算力按比例分配；

•资源调度统一管理：GPU资源与CPU、内存、存储、网络资源池一体化管理，纳入AIOS调度面；

•硬件覆盖范围：不同厂商GPU采用各自的切片技术(NVIDIA基于vGPU授权、华为昇腾基于vNPU、寒武纪基于SMLU等)，ZStack在AIOS与Cloud中对接主流卡型，具体适配清单按版本滚动更新，以新发布说明为准。

客户价值:推理服务、桌面云、AI开发平台等多租户场景下，单卡承载的业务密度提升，GPU投资回报周期缩短。

4.3智算高性能网络：InfiniBand/RoCE/RDMA全栈支持

智算集群与传统云平台的大差异，是网络从“南北向访问"变成"东西向数据洪流”——GPU节点之间的张量同步、节点与存储之间的数据集加载，任何一个网络瓶颈都会让GPU卡变成空转。AIOS在网络层面提供以下能力:

具体能力：

•多张物理网络分离部署：AIOS标配业务、存储、管理、带外四张网络，从硬件层规避不同流量相互干扰，网络架构与ZStack在金融、政企超融合场景中的实践对齐;

•存储网络走RDMA/RoCE：与ZBSRDMA集群对接，大规模数据集以接近本地盘的延迟流入GPU节点；容器侧也可通过RDMADevicePlugin直接对接高性能S3对象存储；

•训练专用高性能网络：针对大规模分布式训练场景，AIOS支持额外部署InfiniBand或RoCE高速网络，用于GPU节点间张量同步；具体网卡速率(25G/100G/200G/400G)按客户集群规模与算力规划匹配；

•GPU资源调度：AIOS通过GPU池化管理、DevicePlugin把GPU资源对外暴露，上层AI框架(PyTorch/TensorFlow/vLLM等)可在此基础上直接调用NVIDIANCCL、AMDRCCL等通信库做集合通信加速，平台不做侵入式封装。

4.4真武810E与阿里云软硬协同

真武810E是阿里平头哥2026年1月29日官宣的GPGPU处理器，96GBHBM2e显存，性能对标英伟达H20，已经支撑阿里云万卡集群与超过400家企业的实际负载。

ZStack作为阿里云控股的云基础软件公司，在AIOS智塔产品线中深度集成对真武810E的调度与管理能力，联合阿里云推出AIInfra一体机与ZStackCube智算版，把真武810E算力、英伟达GPU算力、国产GPU算力统一纳入调度池，对客户呈现为一个“算力黑盒”。

这套组合让客户获得算力供应链的稳定性——某一种GPU缺货时，不用改造整个AI平台。

五、ZVF虚拟化：VMware替代的主力

ZVF(ZStackVirtualizationFoundation)是ZStack面向虚拟化场景的产品线，包含ZSphere(服务器虚拟化平台)与ZLR(容灾产品)，核心定位是VMware替代。

ZVF把ZCF沉淀下来的硬件加速能力——SR-IOV、Bond+SR-IOV切割还原、OVS-DPDK等——以兼容VMware操作习惯的方式打包给虚拟化场景客户:

•V2V工具链：支持从vCenter/ESXi批量导入虚拟机，迁移规模从百台到数千台；

•运维体验对齐：界面、API、操作概念与VMware用户的操作习惯兼容；

•价格体系替代：不绑定昂贵的Broadcom订阅模式；

•容灾联动：ZLR提供同城双活、异地容灾，部分场景已替代SRM。

落地案例：多家头部券商、期货公司、制造业、医疗机构已启动或完成VMware替代，迁移规模覆盖核心数据库、ERP、桌面云、生产线控制系统。

六、客户实践

以下三个案例均来自ZStack已交付的真实生产项目，客户名做匿名化处理，聚焦"硬件加速能力如何在客户场景中落地"这一主线。

6.1某头部量化私募基金：RDMA低延迟超融合，4KIOPS突破物理机基线

•客户背景：技术驱动的创新型量化投资基金公司，依托高频机器学习模型构建端到端深度学习投研流程，业务对IO延迟敏感

•业务挑战：原有业务部署在高性能物理机，Allinone模式部署量化模型业务与数据库，资源利用率低、硬件投入高;批流引擎需要毫秒级聚合海量原始量价数据，Tick级特征计算对小块随机IO提出要求

•方案组合：ZStack3节点超融合+25G存储网络+RDMA低延迟+ZBS第二代全闪高性能分布式存储

•硬件加速实测数据：单台云主机4K随机读15万IOPS/随机写11万IOPS，延迟0.4ms/0.5ms，远超物理机单机性能基线

•客户价值：在不牺牲性能的前提下实现云化交付，自服务+工单审批简化精简IT团队的资源管理成本;弹性扩容能力支撑AI投研业务架构的持续迭代

6.2某全国性期货交易所：存算分离+国产ARM+ZBS高性能存储底座

•客户背景：某全国性期货交易所，科技部门为所内及期货会员单位提供交易相关业务的基础设施服务

•业务挑战：核心及会员业务原以物理机+本地SSDRAID为主，业务分散、运维复杂;在推进国产化的同时，需要保留低延迟、高IOPS的存储能力

•方案组合：ZStackCloud弹性计算与裸金属服务(覆盖Intel、鲲鹏、海光集群)+ZBS全闪高性能分布式存储+存算分离架构

•硬件加速实测效果：基于国产ARM(鲲鹏)与海光芯片集群，叠加ZBS全闪存储，在国产化技术路线下保留了核心交易、数据库类业务所需的低延迟、高并发IO性能

•客户价值：计算与存储互不影响、各自发挥大性能，故障概率显著下降;帮助客户从传统物理机+本地虚拟化平滑迈向"国产化+高性能+高可靠"的现代云平台架构

6.3某大型金融公司：DPDK网络加速+全闪存储，核心数据库上云

•客户背景：某大型金融公司，推进从传统虚拟化架构向现代混合云架构的转型升级

•业务挑战：金融核心数据库对网络吞吐、IO延迟、稳定性的要求高，原有架构无法同时满足业务性能与混合云演进需要

•方案组合：ZStackCloud+DPDK网络加速+ZBS全闪存储的存算分离架构；集群一包含23+8计算节点和3节点ZBS，集群二包含13计算节点和3节点ZBS

•硬件加速实测效果：借助DPDK用户态网络加速+ZBS全闪存储，金融系统核心数据库成功上云，同时承接公有云托管业务向本地私有云的回迁，构建出高性能、高稳定性的混合云体系

•客户价值：在不牺牲性能的前提下完成混合云架构演进;通过利旧原有硬件资源有效控制建设成本；为后续CMP多云统一调度、ZDR异地容灾、DTS跨云数据同步预留扩展空间

七、阿里云控股下的软硬协同：一体机+公私一栈

ZStack的另一层差异化，来自股权与产品层面的双重协同：阿里云是ZStack的控股股东。这意味着ZStack四大产品线与阿里云的公共云、神龙、真武810E、通义大模型，可以在产品、方案、商务、交付四个层面深度联动。

具体表现：

•一体机产品线：ZStackCube系列HCI一体机、智算一体机，部分型号直接采用阿里云供应链的硬件平台与真武810E算力卡；

•公私一栈：客户在阿里云公共云上的工作负载可以平滑迁移到ZStack私有云，反之亦然，ZCenter提供统一控制面；

•联合方案：在金融、能源、政企、AI等垂直行业，ZStack与阿里云联合GTM，共享渠道、共享案例、共享专家资源；

•技术共建：在硬件加速(真武810E协同、DPU、RDMA网络、机密计算)、AI基础设施、云原生数据库等方向开展技术联合研发。

对客户而言，这是一个“既要公有云生态，又要私有部署”的优解。