CPU、GPU、存储、网络都不一样,云平台还能一样吗?

摘要

企业数据中心里的异构,大多是在业务发展中一步步生长出来的。

企业数据中心里的异构,大多是在业务发展中一步步生长出来的。

几年前采购的 Intel、AMD 服务器还在跑核心业务,信创建设推进后,鲲鹏、飞腾、海光、龙芯、兆芯等国产算力陆续进入资源池。AI 项目启动之后,NVIDIA、昇腾、海光 DCU、AMD、天数智芯等不同 GPU 也开始出现在同一个数据中心里。存储侧,老的 FC-SAN 还没退役,Ceph、NFS、iSCSI、SharedBlock、ZStone 分布式存储等多种形态已经在不同业务里并行使用。网络也在从传统 VLAN,走向 SDN、VPC、OVS-DPDK 和 DPU 加速。

这些资源各有来源,各有优势,也各有历史包袱。

所谓"一以贯之",落在企业基础设施里,不是把所有硬件变成同一种形态。CPU 可以不同,GPU 可以不同,存储和网络也可以保留各自路线。真正需要统一的,是资源模型、管理入口、调度逻辑和运维体系。

底层保持多样,平台保持一致,这才是异构基础设施长期运行的前提。

ZStack Cloud 的异构能力,正是沿着这条逻辑展开:从 GPU、CPU、DPU 到存储与网络,把底层差异收进同一套云平台,让企业面对的不是一堆分散资源,而是一套可纳管、可调度、可运维的基础设施底座。

ZStack Cloud 全栈异构能力图】

多品牌 GPU 纳入统一管理,AI 算力不再各管各的

AI 把异构问题推向了更复杂的一层。

CPU 异构主要影响底层计算平台,GPU 异构则直接影响 AI 研发、模型推理、资源调度和日常运维。NVIDIA 有自己的工具链,昇腾有自己的生态,海光 DCU、AMD、天数智芯等也各有驱动、监控和调度方式。如果每种 GPU 都配一套运维体系,AI 基础设施很快会变成新的烟囱。

ZStack Cloud 已将多品牌 GPU 纳入统一管理体系,覆盖 NVIDIA、昇腾、海光 DCU、AMD、天数智芯等主流和国产算力生态。不同品牌 GPU 的分配、监控、告警和配额管控,可以在同一套平台能力中完成。在 GPU 虚拟化层面,ZStack Cloud 同时支持 GPU 直通、NVIDIA vGPU、MIG、dGPU 动态切分四种方式,覆盖从整卡独占到细粒度共享的完整场景。

这意味着 GPU 不再只是服务器上的硬件卡,而是可以被平台管理、调度和运营的企业级算力资源。

GPU 的统一管理解决了 AI 算力的调度问题,但数据中心里更大面积的异构,发生在 CPU 层面。

从 x86 到 ARM 到 LoongArchCPU 异构统一进入一个云底座

ZStack Cloud 已支持 Intel、AMD、鲲鹏、飞腾、海光、兆芯、龙芯等多类 CPU 平台,覆盖 x86、ARM、LoongArch 等多种主流架构生态。对企业来说,这个能力的价值不只在"能适配",更在于存量 x86 与新增国产算力可以被放进同一套资源体系里。

运维团队不需要为鲲鹏单独维护一套云平台,为海光再准备一套权限体系,为龙芯重新建立一套监控流程。不同架构服务器接入 ZStack Cloud 后,可以在统一界面完成资源申请、交付、监控和回收。

信创替代过程中最常见的问题,是"两套平台并行运维"。一边是原有 x86 资源,一边是新增国产芯片资源。业务还没有真正迁完,运维复杂度已经先翻了一倍。ZStack Cloud 要解决的,就是让不同 CPU 架构进入同一个平台,避免信创建设变成新的资源孤岛。

ZStack 信创版已适配 120+ 国产软硬件产品,首批通过可信云一云多芯先进级认证,兼容四架构八平台,首评云平台中支持架构和平台类别最全。联合麒麟、鲲鹏在 SPEC Cloud 同等环境测试中排名第一。

这里真正重要的,不是一张更长的兼容清单,而是多架构算力可以在同一云平台里持续运行。

DPU 加速,让高性能业务少背一层负载

异构能力继续向下走,会进入 DPU。

数据库、高性能计算、弹性裸金属、AI 数据通路这类场景,对网络和存储性能都很敏感。传统架构里,部分网络与存储处理仍然要消耗主机 CPU 资源,业务负载和基础设施处理抢同一份算力。

ZStack Cloud 5.5.16 已支持 DPU 加速弹性裸金属,通过网络与存储处理的硬件级卸载,释放更多主机 CPU 资源,让数据库、高性能计算等负载获得更接近物理机的性能体验。

多种存储和网络方案,统一进入平台体系

异构不只发生在算力层。

企业数据中心里,存储和网络往往更复杂。老业务还依赖 FC-SAN,新业务开始使用 Ceph 和分布式存储,部分系统需要 NFS,部分场景还在用 iSCSI、SharedBlock 或本地盘。网络侧也一样,传统 VLAN、Open vSwitch、Linux Bridge、OVS-DPDK、SDN、VPC 会在较长时间里共存。

ZStack Cloud 支持 Ceph、NFS、iSCSI、FC-SAN、SharedBlock 等多种存储协议,也提供 ZStone 分布式存储,覆盖块、文件、对象等不同存储形态。企业不需要为了适配新平台一次性推翻已有存储体系,新旧存储可以在同一平台下共存和统一管理。

网络方面,ZStack Cloud 支持 Open vSwitch、Linux Bridge、OVS-DPDK 等多种网络方案,提供分布式路由、VPC、VLAN、VXLAN、VPN、NAT、QoS 等企业级网络能力。网络配置不再被单一硬件路径锁住,而是可以随业务场景变化,以软件定义的方式交付。

这类能力不像 CPU、GPU 那样容易被看见,却决定了异构云平台能不能真正进入企业生产环境。芯片适配只是开始,存储和网络能不能一起被平台收住,才决定异构环境是否可运营。

从金融信创到能源智算,异构统一纳管具备规模化落地能力

某省级城商行在推进金融信创过程中,需要在保障核心交易系统连续性的前提下,完成从 x86 到国产芯片的平滑过渡。基于 ZStack Cloud,该行在单集群内同时纳管鲲鹏与海光服务器,通过 V2V 迁移工具将 VMware 虚拟机批量转换至信创环境,业务中断时间控制在分钟级。生产中心与灾备中心跨架构异步复制,满足监管对两地三中心的要求。

某大型电力集团则面临"双碳"数字化与信创替代的双重任务,基于 ZStack Cloud 与 AIOS 智塔,该集团将昇腾、海光 DCU 及 NVIDIA GPU 统一纳入算力资源池,底层计算节点混合部署飞腾与兆芯,训练任务与电网实时推理任务通过容器平台分时复用异构资源,整体利用率提升超过 40%。

两个案例的共同点是:异构硬件各有各的来源和选型逻辑,但进入 ZStack Cloud 之后,资源管理、运维监控和业务交付回到了同一套体系。

异构统一纳管的价值,最终落在运维效率、硬件自由度和投资可持续性上

把多品牌 GPU、多类 CPU 平台、DPU 加速能力、多种存储协议和多种网络方案收进同一个平台,技术上是统一纳管,业务上最终落到三件事。

运维复杂度显著降低。 异构环境最容易被低估的成本,不在硬件采购,而在多套管理平台并行带来的长期消耗。CPU 一套入口,GPU 一套工具,存储一套流程,网络再独立维护一套配置,资源越多,运维越碎。统一平台把资源申请、交付、监控、告警、配额和回收重新收进同一套流程里,运维团队不必在多个系统之间来回切换。

硬件选型不受单一厂商锁定。 企业可以根据业务性能、性价比、供应链安全和信创合规要求选择不同硬件,不必被单一厂商、单一架构、单一技术路线锁住。Intel、AMD 可以继续承接存量业务,鲲鹏、飞腾、海光、龙芯、兆芯可以支撑信创建设;NVIDIA、昇腾、海光 DCU、AMD、天数智芯等,也可以按训练、推理、研发测试等不同场景进入资源池。

每一阶段的投入在下一阶段持续延续。 异构不是一次性建设出来的,它会随着业务变化持续增加。今天接入一批国产 CPU,明天新增一批 AI GPU,后天高性能业务需要 DPU 加速,存储侧也可能从 FC-SAN 走向分布式存储和对象存储。企业最怕的不是新增资源,而是每新增一种资源,就要重新建设一套孤立系统,前一阶段的投入在下一阶段被迫重来。

不绑定硬件,不绑定厂商,不绑定技术栈。ZStack Cloud 的价值,正在于把这些底层差异留在底层。 CPU 可以不同,GPU 可以不同,存储和网络也可以保留各自路线,但进入 ZStack Cloud 之后,资源模型、管理入口、调度逻辑和运维体系回到同一套云平台。

底层多样,平台统一;资源异构,治理一致。

如果企业正在推进信创替代、AI 算力建设或异构资源的统一管理,欢迎联系 ZStack 各区域团队,了解异构管理方案或预约技术沟通。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。