一、硬件加速的三条主线:网络、存储、算力
最近一段时间,业界关于“KernelBypass网卡+超融合”的讨论再度热起来。低延时网卡(Solarflare、Mellanox、CiscoExaNIC等)绕开内核协议栈,把网络收发延迟从十几微秒压到个位数,确实是金融快速交易场景的关键突破。
站在云平台厂商的视角,KernelBypass在整套硬件加速体系中只属于单点加速手段。一个真正能够支撑快速交易、量化策略、AI训练推理、信创、安全敏感行业场景的智算云平台,需要在网络、存储、算力三条主线上同时具备硬件加速能力,并通过虚拟化层把这些能力以可调度、可迁移、可统一管理的方式交付给业务。
云轴科技ZStack用四大产品线承接这一架构判断:
•ZCF(ZStackCloudFoundation):私有云核心平台,承载SR-IOV、KernelBypass、OVS-DPDK、DPU()、NVMe-oF接入等计算侧硬件加速能力,默认搭配ZBS(ZStackBlockStorage)作为底层分布式存储,提供RDMA零拷贝、SPDK用户态等存储侧加速能力;
•ZVF(ZStackVirtualizationFoundation):虚拟化产品线(含ZSphere、ZLR),承担VMware替代主力,把ZCF的硬件加速能力打包给虚拟化场景客户;
•AIOS智塔:智算平台,负责GPU/真武810E等异构算力调度、dGPU弹性切片、智算高性能网络;
•HCI(ZStackCube超融合一体机):把ZCF+ZVF+AIOS的能力打包成软硬一体方案,覆盖金融快速交易一体机、信创一体机、智算一体机、阿里云联合一体机。
本文按照“网络、存储、算力”三条主线展开ZCF/ZBS/AIOS/ZVF/HCI的能力,拆解ZStack在金融快速交易、信创云、VMware替代、AIInfra一体机几类典型客户场景中的落地路径。
ZStack能做到全栈加速的三个前提条件:第一,完整的产品矩阵——从私有云、虚拟化、存储、智算到超融合一体机,所有产品在同一套代码主线下演进;第二,阿里云控股带来的软硬协同——真武810E、神龙、通义大模型与ZStack在产品规划层面拉通;第三,十余年在金融、信创、政企、能源、AI场景的实际交付沉淀,把零散的加速技术沉淀成可复制的解决方案模板。
下图把ZStack的全栈硬件加速能力按“业务层→平台加速能力层→硬件层”三层ד网络/存储/算力”三条主线整理成一张总览图,后续章节按此结构展开。
二、ZCF计算侧:从SR-IOV到DPU的四级火箭
ZCF是ZStack私有云的核心平台,网络与存储的所有硬件加速能力都首先在ZCF上落地,再通过ZVF、AIOS、HCI三个产品线下传到对应场景。
ZCF在网络硬件加速方向规划了四级火箭:
外加NVMe-oF接入(存储接入协议)、PTP授时、NUMA()绑定作为辅助调优能力。
2.1SR-IOV+PCI直通:把网卡“切片”给虚拟机
SR-IOV(SingleRootI/OVirtualization)是PCIe标准定义的硬件虚拟化技术。一块物理网卡可以被划分为多个VF(VirtualFunction),每个VF在虚拟机眼中等同于一块独立的物理网卡,绕开了Hypervisor的vSwitch转发路径。
ZCF自4.x版本起完整支持SR-IOV:
•延迟表现:基于ZStack内部实验室数据,SR-IOV虚拟机网卡延迟约为普通虚拟网卡的1/3,小包转发能力可达2.5Mpps量级;
•网卡兼容性:覆盖Intel、Mellanox、Solarflare等主流低延时与RDMA网卡,以及多款国产RoCE网卡,具体认证清单以版本兼容性矩阵为准;
•配合KernelBypass用户态协议栈(Onload/VMA/自研用户态TCP),在ZStack与低延时网卡厂商、金融客户的联合测试中,端到端延迟可达个位微秒级,在调优场景下进一步逼近2–3微秒区间;具体数值取决于网卡型号、CPU隔离与NUMA调优策略。
2.2ZCF差异化能力一:VF网卡热迁移
行业里大部分超融合平台对SR-IOV虚拟机的处理是“绑死在物理机上”——一旦做了VF直通,就失去了热迁移能力。这对金融生产环境是不可接受的,因为硬件故障、内核补丁、机房腾挪都需要无中断的迁移窗口。
ZCF通过VF热迁移机制(基于qemu/libvirt的VFIO迁移框架,叠加ZStack调度层与网络后备通道的工程化封装),实现SR-IOV虚拟机在不停机的前提下跨物理机迁移:
1.源主机上VF被动态从虚拟机解绑;
2.网络流量短暂切到virtio后备通道;
3.迁移完成后,目标主机上重新绑定新的VF;
4.整个切换过程对上层应用透明。
这一能力在多家头部券商的OMS、行情分发、风控引擎场景中已经验证。
2.3ZCF差异化能力二:双网卡Bond+SR-IOV切割还原
金融生产环境对链路冗余的要求是不可妥协的——单网卡故障必须能秒级切换。但传统SR-IOV方案与Bond几乎不兼容:VF直通后,Bond的活动备援逻辑无法生效。
ZCF较新版本引入双网卡Bond支持SR-IOV切割还原机制:
•平台为每张物理网卡创建VF池;
•业务虚拟机使用Bond模式接入,底层映射到主备两张物理网卡的VF;
•主链路故障时,平台自动将虚拟机网卡从主VF切换到备VF,业务感知不到中断;
•故障恢复后,平台执行"还原"动作,把流量切回主链路,保持原有性能基线。
这一能力让ZCF在云平台层面把高性能(SR-IOV直通)和高可用(双链路Bond)两个看似矛盾的目标同时满足。
2.4ZCF差异化能力三:OVS-DPDK用户态转发兜底
不是所有业务都适合SR-IOV直通——VF数量受网卡硬件限制,大规模租户隔离、复杂SDN策略、灵活的安全组规则,这些场景仍然需要软件vSwitch。
ZCF近期版本上线OVS-DPDK用户态转发:把数据平面从内核态搬到用户态,通过DPDK的PMD(PollModeDriver)轮询机制,把vSwitch的吞吐和延迟拉到接近硬件直通水平,同时保留完整的OVS流表、VXLAN、安全组、QoS能力。
2.5ZCF差异化能力四:DPU方案——把基础设施“挪到卡上”
ZCF已规划DPU方案,与亚格等DPU厂商完成深度对接,在客户环境进入联合验证阶段。这是网络硬件加速的第四级火箭:把网络、存储、管理三类基础设施流量,从主机CPU卸载到DPU卡上。
技术要点:
•弹性裸金属新形态:ZCF定义了新的弹性裸金属虚拟化类型,DPU卡直接接管裸金属节点的上下电、云盘加载/卸载、网络配置、网卡创建等动作,替代传统弹性裸金属架构中的“网卡节点+部署网络”角色;
•DPU卡上的OVS-DPDK:网络数据面运行在DPU卡上的高性能OVS-DPDK,主机侧CPU不再参与vSwitch转发,释放出来的CPU全部归业务;
•存储、管理、业务流量统一收敛:DPU作为“网关节点”承载多类流量,简化主机网卡数量,降低布线复杂度;
•商务模式延续:DPU方案是现有ZCF弹性裸金属能力的延伸,沿用同一套授权模式,客户无需重新购买独立产品线。
对客户的直接价值:主机CPU利用率提升、网络吞吐与延迟逼近硬件机柜密度提升、整体TCO下降。
2.6ZCF计算侧的NVMe-oF接入
NVMe-oF是ZCF计算侧的存储接入协议。ZCF作为initiator,把后端存储(第三方NVMe-oF存储阵列)以块设备的形式直接挂载给虚拟机,跳过传统的iSCSI/FCSAN协议栈,获得接近本地NVMe盘的延迟与吞吐。
这条路径与SR-IOV、DPU、ZBSRDMA在端到端层面叠加,构成ZCF计算侧的全用户态、零拷贝存储高速公路。
2.7PTP准确授时与NUMA绑定
快速交易场景对时钟一致性有微秒级要求。ZCF配合硬件PTP(IEEE1588)网卡,实现虚拟机时钟与主时源的亚微秒到微秒级对齐;配合CPU绑核、NUMA亲和、Hugepage预分配、中断隔离等一整套调优手段,平台层把硬件性能完整释放给业务。
形成的组合拳是:延迟→SR-IOV+KernelBypass+PTP;大规模租户+灵活策略→OVS-DPDK;双高(性能+可用)→Bond+SR-IOV切割还原;基础设施卸载+CPU释放→DPU。客户可以按业务画像选型,不被单一技术路线绑死。
三、ZBS存储侧:RDMA零拷贝与高IOPS集群
网络硬件加速只是入口,存储侧的硬件加速同样关键。ZStack自研分布式存储ZBS(ZStackBlockStorage)在这条路径上的工程投入:
3.1RDMA/RoCE零拷贝集群网络
ZBS全面支持RDMA(RoCEv2),节点间数据传输绕过CPU和内核协议栈,实现真正的零拷贝。基于ZStack实验室与典型客户环境的实测:
•单卷随机读IOPS可达数十万级别;
•集群聚合IOPS随节点规模线性扩展,可进入以上区间;
•集群聚合带宽随网络规模线性扩展,可进入数十GiB/s以上区间;
•4K随机读延迟稳定在亚毫秒级,在金融快速交易等场景可达百微秒级。
3.2SPDK用户态存储栈
ZBS服务端整合SPDK用户态存储栈,把存储IO路径从内核态搬到用户态轮询模式,与ZCF计算侧的DPDK/SR-IOV/DPU/NVMe-oF形成端到端的“用户态高速公路”。
3.3落地场景
ZBS已经在多个金融、能源、运营商生产环境运行:
•某全国性期货交易所:核心交易系统底层存储,支撑数万合约实时撮合;
•某头部量化基金:高频策略回测平台,订单/秒级别压力测试;
•多家政企信创云:核心业务底层存储,满足国密合规与性能双重要求。
四、AIOS智算平台:算力+高网融合
第三条主线是算力。AI训练推理、图形渲染、科学计算场景,GPU/异构加速卡是核心生产力。AIOS智塔是ZStack在智算赛道的核心产品。
4.1GPU全直通
AIOS支持NVIDIA、AMD、寒武纪、海光DCU、华为昇腾、阿里平头哥真武810E等主流加速卡的全卡直通:虚拟机独占整张物理卡,性能损耗趋近于零,适合LLM()训练、大规模推理。
4.2dGPU:动态GPU虚拟化
ZStackCloud发布动态GPU虚拟化(dGPU)方案,并在AIOS智塔产品线中作为GPU资源管理的能力之一对外提供:
•显存与算力按需切分:在单张物理GPU上创建多个vGPU实例,显存粒度可达GB级别,算力按比例分配;
•资源调度统一管理:GPU资源与CPU、内存、存储、网络资源池一体化管理,纳入AIOS调度面;
•硬件覆盖范围:不同厂商GPU采用各自的切片技术(NVIDIA基于vGPU授权、华为昇腾基于vNPU、寒武纪基于SMLU等),ZStack在AIOS与Cloud中对接主流卡型,具体适配清单按版本滚动更新,以新发布说明为准。
客户价值:推理服务、桌面云、AI开发平台等多租户场景下,单卡承载的业务密度提升,GPU投资回报周期缩短。
4.3智算高性能网络:InfiniBand/RoCE/RDMA全栈支持
智算集群与传统云平台的大差异,是网络从“南北向访问"变成"东西向数据洪流”——GPU节点之间的张量同步、节点与存储之间的数据集加载,任何一个网络瓶颈都会让GPU卡变成空转。AIOS在网络层面提供以下能力:
具体能力:
•多张物理网络分离部署:AIOS标配业务、存储、管理、带外四张网络,从硬件层规避不同流量相互干扰,网络架构与ZStack在金融、政企超融合场景中的实践对齐;
•存储网络走RDMA/RoCE:与ZBSRDMA集群对接,大规模数据集以接近本地盘的延迟流入GPU节点;容器侧也可通过RDMADevicePlugin直接对接高性能S3对象存储;
•训练专用高性能网络:针对大规模分布式训练场景,AIOS支持额外部署InfiniBand或RoCE高速网络,用于GPU节点间张量同步;具体网卡速率(25G/100G/200G/400G)按客户集群规模与算力规划匹配;
•GPU资源调度:AIOS通过GPU池化管理、DevicePlugin把GPU资源对外暴露,上层AI框架(PyTorch/TensorFlow/vLLM等)可在此基础上直接调用NVIDIANCCL、AMDRCCL等通信库做集合通信加速,平台不做侵入式封装。
4.4真武810E与阿里云软硬协同
真武810E是阿里平头哥2026年1月29日官宣的GPGPU处理器,96GBHBM2e显存,性能对标英伟达H20,已经支撑阿里云万卡集群与超过400家企业的实际负载。
ZStack作为阿里云控股的云基础软件公司,在AIOS智塔产品线中深度集成对真武810E的调度与管理能力,联合阿里云推出AIInfra一体机与ZStackCube智算版,把真武810E算力、英伟达GPU算力、国产GPU算力统一纳入调度池,对客户呈现为一个“算力黑盒”。
这套组合让客户获得算力供应链的稳定性——某一种GPU缺货时,不用改造整个AI平台。
五、ZVF虚拟化:VMware替代的主力
ZVF(ZStackVirtualizationFoundation)是ZStack面向虚拟化场景的产品线,包含ZSphere(服务器虚拟化平台)与ZLR(容灾产品),核心定位是VMware替代。
ZVF把ZCF沉淀下来的硬件加速能力——SR-IOV、Bond+SR-IOV切割还原、OVS-DPDK等——以兼容VMware操作习惯的方式打包给虚拟化场景客户:
•V2V工具链:支持从vCenter/ESXi批量导入虚拟机,迁移规模从百台到数千台;
•运维体验对齐:界面、API、操作概念与VMware用户的操作习惯兼容;
•价格体系替代:不绑定昂贵的Broadcom订阅模式;
•容灾联动:ZLR提供同城双活、异地容灾,部分场景已替代SRM。
落地案例:多家头部券商、期货公司、制造业、医疗机构已启动或完成VMware替代,迁移规模覆盖核心数据库、ERP、桌面云、生产线控制系统。
六、客户实践
以下三个案例均来自ZStack已交付的真实生产项目,客户名做匿名化处理,聚焦"硬件加速能力如何在客户场景中落地"这一主线。
6.1某头部量化私募基金:RDMA低延迟超融合,4KIOPS突破物理机基线
•客户背景:技术驱动的创新型量化投资基金公司,依托高频机器学习模型构建端到端深度学习投研流程,业务对IO延迟敏感
•业务挑战:原有业务部署在高性能物理机,Allinone模式部署量化模型业务与数据库,资源利用率低、硬件投入高;批流引擎需要毫秒级聚合海量原始量价数据,Tick级特征计算对小块随机IO提出要求
•方案组合:ZStack3节点超融合+25G存储网络+RDMA低延迟+ZBS第二代全闪高性能分布式存储
•硬件加速实测数据:单台云主机4K随机读15万IOPS/随机写11万IOPS,延迟0.4ms/0.5ms,远超物理机单机性能基线
•客户价值:在不牺牲性能的前提下实现云化交付,自服务+工单审批简化精简IT团队的资源管理成本;弹性扩容能力支撑AI投研业务架构的持续迭代
6.2某全国性期货交易所:存算分离+国产ARM+ZBS高性能存储底座
•客户背景:某全国性期货交易所,科技部门为所内及期货会员单位提供交易相关业务的基础设施服务
•业务挑战:核心及会员业务原以物理机+本地SSDRAID为主,业务分散、运维复杂;在推进国产化的同时,需要保留低延迟、高IOPS的存储能力
•方案组合:ZStackCloud弹性计算与裸金属服务(覆盖Intel、鲲鹏、海光集群)+ZBS全闪高性能分布式存储+存算分离架构
•硬件加速实测效果:基于国产ARM(鲲鹏)与海光芯片集群,叠加ZBS全闪存储,在国产化技术路线下保留了核心交易、数据库类业务所需的低延迟、高并发IO性能
•客户价值:计算与存储互不影响、各自发挥大性能,故障概率显著下降;帮助客户从传统物理机+本地虚拟化平滑迈向"国产化+高性能+高可靠"的现代云平台架构
6.3某大型金融公司:DPDK网络加速+全闪存储,核心数据库上云
•客户背景:某大型金融公司,推进从传统虚拟化架构向现代混合云架构的转型升级
•业务挑战:金融核心数据库对网络吞吐、IO延迟、稳定性的要求高,原有架构无法同时满足业务性能与混合云演进需要
•方案组合:ZStackCloud+DPDK网络加速+ZBS全闪存储的存算分离架构;集群一包含23+8计算节点和3节点ZBS,集群二包含13计算节点和3节点ZBS
•硬件加速实测效果:借助DPDK用户态网络加速+ZBS全闪存储,金融系统核心数据库成功上云,同时承接公有云托管业务向本地私有云的回迁,构建出高性能、高稳定性的混合云体系
•客户价值:在不牺牲性能的前提下完成混合云架构演进;通过利旧原有硬件资源有效控制建设成本;为后续CMP多云统一调度、ZDR异地容灾、DTS跨云数据同步预留扩展空间
七、阿里云控股下的软硬协同:一体机+公私一栈
ZStack的另一层差异化,来自股权与产品层面的双重协同:阿里云是ZStack的控股股东。这意味着ZStack四大产品线与阿里云的公共云、神龙、真武810E、通义大模型,可以在产品、方案、商务、交付四个层面深度联动。
具体表现:
•一体机产品线:ZStackCube系列HCI一体机、智算一体机,部分型号直接采用阿里云供应链的硬件平台与真武810E算力卡;
•公私一栈:客户在阿里云公共云上的工作负载可以平滑迁移到ZStack私有云,反之亦然,ZCenter提供统一控制面;
•联合方案:在金融、能源、政企、AI等垂直行业,ZStack与阿里云联合GTM,共享渠道、共享案例、共享专家资源;
•技术共建:在硬件加速(真武810E协同、DPU、RDMA网络、机密计算)、AI基础设施、云原生数据库等方向开展技术联合研发。
对客户而言,这是一个“既要公有云生态,又要私有部署”的优解。
