国内精品人妻无码久久久影院蜜桃,久久发布国产伦子伦精品,强壮公让我高潮八次苏晴,无码日韩精品一区二区免费暖暖,夜夜爽www

瑞技科技

重磅消息

 
WEKA 携手 NVIDIA Blackwell,释放 AI 推理无限潜能
首页 > 网站博客 > WEKA 携手(shou) NVIDIA Blackwell,释放(fang) AI 推理(li)无限潜能

WEKA 携手 NVIDIA Blackwell,释放 AI 推理无限潜能

NVIDIA GB200(Blackwell)平台正以前所未有的速度、规模(mo)和效率重塑 AI 计算(suan)。NVIDIA Blackwell 专为满足下一代(dai) AI 工(gong)作(zuo)负载(zai)的(de)(de)(de)巨大需求(qiu)而设计,在(zai)推理(li)模(mo)型、AI 代(dai)理(li)和 Token 生成等方面展现(xian)了突(tu)破性进展。凭(ping)借(jie)其先进的(de)(de)(de)架构,Blackwell GPU 提供超高速通(tong)信(xin)、巨大的(de)(de)(de)内存带宽以及(ji)无与伦比的(de)(de)(de)计算(suan)能力(li),这(zhei)些都是实(shi)现(xian)实(shi)时(shi) AI 决策(ce)所(suo)必需的(de)(de)(de)。随着 AI 从单纯的(de)(de)(de)训练转向(xiang)复杂的(de)(de)(de)推理(li)和决策(ce),基础设施(shi)必须不断进化以跟上(shang)步伐。

新型 AI 超级芯片
新(xin)型 AI 超级芯片
Blackwell 架构 GPU 拥有2080亿个晶体管(guan),采(cai)用(yong)专门定制的(de)(de)(de)台(tai)积电(dian) 4NP 工艺制造。所有 Blackwell 产品均采(cai)用(yong)双倍光刻极限(xian)尺寸(cun)的(de)(de)(de)裸片,通过 10 TB/s 的(de)(de)(de)片间互联(lian)技术连接成一块统一的(de)(de)(de) GPU。

然而,仅靠强大的 GPU 性能(neng)还(hai)远远不够(gou)。

 

要充分释放 AI 推理的潜力,云服务商还需要同样高性能的数据基础设施,以消除瓶颈并最大化资源利用率。这也是 WEKA 获得 NVIDIA GB200 高性能数据存储认证的重要原因,为 NVIDIA 云合作伙伴(NCP)提供支持。使他们在构建 AI 云、GPU 即服务或其他新一代云产品时,能够提供最快、最具扩展性的数据基(ji)础(chu)设施。该认(ren)证基(ji)于 WEKA 此前获得的 NVIDIA HGX H100/H200 系统认(ren)证,并(bing)为与(yu) Yotta、Ori Cloud、Sustainable Metal Cloud 等众多(duo)领先新型云(yun)服务商(shang)的长期合作带来(lai)更多(duo)价值。

为什么这至关重要:AI 不仅更快,而是本质上不同

AI 的发展正经历深刻(ke)变(bian)革。随着推理模型和 AI 代(dai)理的普及,AI 工作(zuo)负载变(bian)得更(geng)加复杂,不仅需要高(gao)速通信、充足内存及强大计算能(neng)(neng)力,还(hai)要能(neng)(neng)够实(shi)时生成(cheng)和处理海量数据(ju) Tokens,这要求数据(ju)基础设施必须能(neng)(neng)够与 GPU 高(gao)性能(neng)(neng)协同工作(zuo)。

 

但传统(tong)的(de)数据(ju)存(cun)储在(zai)以下几方面存(cun)在(zai)严重短(duan)板(ban):

  • 性能鸿沟:传统存储无法满足现代 AI 工作负载的对 I/O 的高要求,计算与数据基础设施之间的高延迟导致 GPU 利用率不足。
  • 扩展困境:许多服务商往往不得不过度配置存储来满足性能目标,从而大幅推高成本。
  • 多租户支持不足:传统存储缺乏有效隔离机制,迫使服务商为每个客户建立低效的存储孤岛。
  • 运维成本和复杂性高:基于复制的传统容灾模型进一步抬高了管理成本。

WEKA + NVIDIA GB200 :为 AI 时代量身打造

WEKA 现已获得 NVIDIA GB200 部署高性能存储(chu)认证,NCP 可利(li)用 WEKA 全面提升 AI 云服务能力:

  • 极致的性能:WEKA 零调优架构能动态适配任何工作负载,实现亚毫秒级延迟和百万级 IOPS。单套 8U 基础配置即可满足 GB200 Blackwell 可扩展集群(1,152颗 GPU)的极端 I/O 需求。
  • 面向 AI 管道优化的 S3 对象存储:WEKA 通过优化的 S3 对象存储接口,为 AI、机器学习和数据分析工作负载中的小对象的访问提供超低延迟和高吞吐量支持。
  • 最大化 GPU 利用率:存储瓶颈常常扼杀 AI 性能,而 WEKA 能帮助消除这一障碍,使数据性能提升 10 倍或更多。在实际部署中,客户的 GPU 利用率从 30-40% 跃升至超过 90%。
  • 真正的多租户支持:WEKA 的可组合集群利用容器技术实现逻辑与物理双重隔离,从而提供安全、高性能的 AI 云多租户服务,实现性能零妥协。
  • 大规模扩展能力:WEKA 在单一命名空间内可支持多达 32,000 颗 NVIDIA GPU 集群,助力英伟达云合作伙伴在全球范围内实现从 PB 到 EB 级的无缝扩展,而无需担心架构受限。
  • 无缝迁移:无论是在数据中心、超大规模云还是新一代云环境,WEKA 统一的软件架构均可实现工作负载的无缝迁移。

基准测试与实际性能表现

WEKApod Nitro 设备为 NVIDIA 云合作(zuo)伙(huo)伴部署提供了(le)卓越的(de)性能密度和能效:

WEKApod Nitro 设备
WEKApod Nitro 设(she)备
  • 吞吐性能:WEKApod 单节点实现 70GB/s 读取速度(最低配置下可达 560GB/s)和 40GB/s 写入速度(最低配置下可达 320GB/s),确保 Blackwell GPU 持续获得高速数据,最大化利用率。
  • 延迟优化:亚毫秒级延迟,确保 AI 训练和推理工作负载延迟最小化,助力实时推理 AI 模型高效运行。
  • 扩展性实践:借助 WEKApod,NCP 已实现从 PB 级到 EB 级的数据规模扩展,支持数千个并发工作负载而不牺牲性能。
  • GPU 利用率提升:WEKA 的可组合集群利用容器技术实现逻辑与物理双重隔离,从而提供安全、高性能的 AI 云多租户服务,实现性能零妥协。
  • 能效优化:WEKApod 优化的数据处理显著降低了每个 AI 工作负载的能耗,为 AI 云服务商降低了整体运营成本。
  • NVIDIA 认证:WEKA 荣获 NVIDIA 系统存储解决方案认证,确保为 AI 和数据分析工作负载提供高性能、可扩展且可靠的存储解决方案。

NVIDIA MGX 部署的推荐存储配置

合理(li)的(de)(de)存储配置对确(que)保(bao) AI 训练和推理(li)的(de)(de)最佳性(xing)能(neng)(neng)至关重要(yao)。存储性(xing)能(neng)(neng)目标因模(mo)型类型、数据(ju)集大小和工作(zuo)负载(zai)特征而异(yi)。为支持 NVIDIA MGX 系(xi)统上的(de)(de)高性(xing)能(neng)(neng)训练和推理(li),WEKA Data Platform 提供了(le)一(yi)套(tao) NVIDIA Blackwell 认证(zheng)的(de)(de)、可扩展且(qie)高吞吐量的(de)(de)存储方案,完美(mei)契合现代 AI 工作(zuo)负载(zai)的(de)(de)需求(qiu)。

 

对于大规模 AI 训练来(lai)说,检查(cha)点的读写(xie)性能(neng)尤为关(guan)键(jian),这是一个(ge)同步任务(wu),若(ruo)优化不当,可(ke)能(neng)会导(dao)致训练停滞。大型语言模型(LLM)在检查(cha)点阶段需极高写(xie)入吞(tun)吐(tu)量,其需求(qiu)也会随(sui)着(zhe)模型规模增(zeng)长而增(zeng)加。例(li)如,一个(ge)5300 亿参数(shu)模型可(ke)能(neng)需要 206 GB/s 的总写(xie)入速(su)率,而一个(ge) 1 万(wan)亿参数(shu)模型则(ze)可(ke)能(neng)需要近(jin) 389 GB/s 的写(xie)入速(su)率。

 

下表(biao)展示了(le) WEKApod Nitro 设备在满足(zu) NVIDIA GB200 NVL72 机架(jia)(最(zui)低存(cun)储容量 10,924TB)增强(qiang)型(xing)指导/性(xing)能(neng)要求下的存(cun)储密(mi)度与(yu)认证(zheng)性(xing)能(neng):

通过使(shi)用 WEKApod,云服务(wu)商可以(yi)彻底消除存储瓶颈,确(que)保(bao) Blackwell GPU 始终(zhong)以(yi)最(zui)佳状态运行(xing),而无需过度超配(pei)。

未来已来:构建 AI 推理时代的基础设施

AI 推理(li)时代需要一(yi)种(zhong)全新的数据基础设施,它(ta)不(bu)仅要运行快(kuai)速、高效,还(hai)能应对 Token 经(jing)济的爆发式(shi)增长(zhang)。现在,借助 WEKA 与 NVIDIA GB200 NVL72 强(qiang)强(qiang)联手,AI 云服务(wu)商可以同时获得(de)出色的性能、强(qiang)大的扩展(zhan)性和安全保障(zhang)长(zhang)。

 

如果您是正(zheng)(zheng)在(zai)构建下(xia)一代(dai) AI 云(yun)服务的 NVIDIA 云(yun)合作伙伴,现在(zai)正(zheng)(zheng)是解锁 GPU 潜能的最佳时机,与(yu) WEKA 携(xie)手(shou),让您的 AI 云(yun)服务更加快速、稳定、简单!

WEKA 携手 NVIDIA Blackwell,释放 AI 推理无限潜能

联系瑞技

您(nin)正在(zai)为您(nin)的 AI 云(yun)服务(wu)寻找突破性的性能、弹(dan)性、可扩展(zhan)性和数据灵活(huo)性吗?立即联系(xi)瑞(rui)技(ji)。