智算云时代，ZStack如何在实践中重塑全栈硬件加速架构？

一、硬件加速的三条主线：网络、存储、算力
最近一段时间，业界关于“KernelBypass网卡+超融合”的讨论再度热起来。低延时网卡(Solarflare、Mellanox、CiscoExaNIC等)绕开内核协议栈，把网络收发延迟从十几微秒压到个位数，确实是金融快速交易场景的关键突破。
站在云平台厂商的视角，KernelBypass在整套硬件加速体系中只属于单点加速手段。一个真正能够支撑快速交易、量化策略、AI训练推理、信创、安全敏感行业场景的智算云平台，需要在网络、存储、算力三条主线上同时具备硬件加速能力，并通过虚拟化层把这些能力以可调度、可迁移、可统一管理的方式交付给业务。
云轴科技ZStack用四大产品线承接这一架构判断：
•ZCF(ZStackCloudFoundation)：私有云核心平台，承载SR-IOV、KernelBypass、OVS-DPDK、DPU()、NVMe-oF接入等计算侧硬件加速能力，默认搭配ZBS(ZStackBlockStorage)作为底层分布式存储，提供RDMA零拷贝、SPDK用户态等存储侧加速能力；
•ZVF(ZStackVirtualizationFoundation)：虚拟化产品线(含ZSphere、ZLR)，承担VMware替代主力，把ZCF的硬件加速能力打包给虚拟化场景客户；
•AIOS智塔:智算平台，负责GPU/真武810E等异构算力调度、dGPU弹性切片、智算高性能网络；
•HCI(ZStackCube超融合一体机)：把ZCF+ZVF+AIOS的能力打包成软硬一体方案，覆盖金融快速交易一体机、信创一体机、智算一体机、阿里云联合一体机。
本文按照“网络、存储、算力”三条主线展开ZCF/ZBS/AIOS/ZVF/HCI的能力，拆解ZStack在金融快速交易、信创云、VMware替代、AIInfra一体机几类典型客户场景中的落地路径。
ZStack能做到全栈加速的三个前提条件：第一，完整的产品矩阵——从私有云、虚拟化、存储、智算到超融合一体机，所有产品在同一套代码主线下演进;第二，阿里云控股带来的软硬协同——真武810E、神龙、通义大模型与ZStack在产品规划层面拉通；第三，十余年在金融、信创、政企、能源、AI场景的实际交付沉淀，把零散的加速技术沉淀成可复制的解决方案模板。
下图把ZStack的全栈硬件加速能力按“业务层→平台加速能力层→硬件层”三层×“网络/存储/算力”三条主线整理成一张总览图，后续章节按此结构展开。
二、ZCF计算侧：从SR-IOV到DPU的四级火箭
ZCF是ZStack私有云的核心平台，网络与存储的所有硬件加速能力都首先在ZCF上落地，再通过ZVF、AIOS、HCI三个产品线下传到对应场景。
ZCF在网络硬件加速方向规划了四级火箭:
外加NVMe-oF接入(存储接入协议)、PTP授时、NUMA()绑定作为辅助调优能力。
2.1SR-IOV+PCI直通：把网卡“切片”给虚拟机
SR-IOV(SingleRootI/OVirtualization)是PCIe标准定义的硬件虚拟化技术。一块物理网卡可以被划分为多个VF(VirtualFunction)，每个VF在虚拟机眼中等同于一块独立的物理网卡，绕开了Hypervisor的vSwitch转发路径。
ZCF自4.x版本起完整支持SR-IOV：
•延迟表现：基于ZStack内部实验室数据，SR-IOV虚拟机网卡延迟约为普通虚拟网卡的1/3，小包转发能力可达2.5Mpps量级；
•网卡兼容性：覆盖Intel、Mellanox、Solarflare等主流低延时与RDMA网卡，以及多款国产RoCE网卡，具体认证清单以版本兼容性矩阵为准；
•配合KernelBypass用户态协议栈(Onload/VMA/自研用户态TCP)，在ZStack与低延时网卡厂商、金融客户的联合测试中，端到端延迟可达个位微秒级，在调优场景下进一步逼近2–3微秒区间；具体数值取决于网卡型号、CPU隔离与NUMA调优策略。
2.2ZCF差异化能力一