Meta 已经在其最新的基于以太网的 AI 集群中部署了Arista 7700R4 分(fen)布式以(yi)太网交换机(DES)。
当 ChatGPT 开始与更广泛(fan)的(de)(de)世界产生共鸣时,AI 市场发(fa)生了变化。Arista 与 Meta 在共同开发(fa)上的(de)(de)合作可(ke)以追溯(su)到2018年发(fa)布的(de)(de)“7368X4”迷你包100G系统,随后是一(yi)系列 OCP 相关的(de)(de)系统,这些系统被广泛(fan)部署。
人工智能网络的持续演变
Arista 在(zai)高性(xing)(xing)能(neng)计(ji)算(suan)(suan)(HPC)、AI 和机器学习方面的(de)(de)经验可以(yi)追溯到(dao)(dao)公司成立之初,当(dang)时许多(duo)(duo)首批客户正在(zai)构(gou)建大(da)型计(ji)算(suan)(suan)网(wang)络(luo)来处理(li)工(gong)作负(fu)载——用(yong)于石油和天(tian)然气、研究、医疗、金(jin)融(高频(pin)交易)等领(ling)域。2008年的(de)(de)网(wang)络(luo)需(xu)求特征与2024年的(de)(de)并没有太(tai)大(da)不(bu)同——非(fei)阻(zu)塞性(xing)(xing)能(neng)、高速接口、流量管(guan)理(li)工(gong)具(ju)、监控和可见性(xing)(xing),不(bu)同的(de)(de)是规模(mo)。2010年的(de)(de)一个(ge)典型 HPC 集群运行(xing)在(zai)10G以(yi)太(tai)网(wang)上,有几(ji)百个(ge)节(jie)点连(lian)接到(dao)(dao)一个(ge)模(mo)块化的(de)(de)7500E系(xi)(xi)列系(xi)(xi)统的(de)(de)网(wang)络(luo)。到(dao)(dao)了(le)2024年,事(shi)实上的(de)(de)标准速度(du)是400G以(yi)太(tai)网(wang),互连(lian)运行(xing)在(zai)800G,AI 集群的(de)(de)规模(mo)增加到(dao)(dao)了(le)数万个(ge)计(ji)算(suan)(suan)节(jie)点,每个(ge)节(jie)点都包含多(duo)(duo)个(ge)XPU。
随着大型人工智能语言模型(LLM)的(de)扩展,更高的(de)带宽和更具挑战(zhan)性的(de)工作负(fu)载越(yue)来越(yue)适(shi)合以太网(wang)!
苛刻的 AI 应用需要最好的网络
在(zai)单(dan)(dan)个系统(tong)中容纳整个数据(ju)中心(xin)网(wang)(wang)络(luo)(luo)的(de)(de)网(wang)(wang)络(luo)(luo)需(xu)求是不可能(neng)的(de)(de)。任(ren)何单(dan)(dan)一系统(tong)都受到单(dan)(dan)个网(wang)(wang)络(luo)(luo)包处(chu)理器的(de)(de)物理和逻辑容量的(de)(de)限制,或者在(zai)多芯(xin)片系统(tong)中,受到网(wang)(wang)络(luo)(luo)机架(jia)的(de)(de)大(da)小和计算节点之(zhi)间的(de)(de)距离的(de)(de)限制。因此,Arista 构建(jian)了(le)多层(ceng)“网(wang)(wang)络(luo)(luo)”来满足总需(xu)求。
Arista 7800R4是一(yi)个(ge)(ge)(ge)高性(xing)能的(de)(de)(de)(de)多芯片(pian)系(xi)(xi)统,可以扩展到超过1000个(ge)(ge)(ge)400G端口(kou),是许(xu)多大(da)规模(mo)(mo)数据中(zhong)心网络的(de)(de)(de)(de)骨干。连接到数万个(ge)(ge)(ge)400G附加XPU的(de)(de)(de)(de)人(ren)工智能网络,很快(kuai)就(jiu)达(da)到了(le)(le)(le)(le)单个(ge)(ge)(ge)7800R4的(de)(de)(de)(de)上(shang)限。今(jin)天,许(xu)多大(da)规模(mo)(mo)的(de)(de)(de)(de) AI 设(she)计已经部署了(le)(le)(le)(le)2层甚至3层的(de)(de)(de)(de)系(xi)(xi)统,在叶脊架(jia)构的(de)(de)(de)(de)后(hou)端网络中(zhong),有固(gu)定和模(mo)(mo)块化系(xi)(xi)统的(de)(de)(de)(de)选择。在这些设(she)计中(zhong),每个(ge)(ge)(ge)平(ping)台(tai)都(dou)是一(yi)个(ge)(ge)(ge)独立的(de)(de)(de)(de)节(jie)点,做(zuo)出转发(fa)决策,没(mei)有自(zi)动或协调的(de)(de)(de)(de)节(jie)点间通信以实(shi)现(xian)无损传输。虽(sui)然这提供了(le)(le)(le)(le)最大(da)的(de)(de)(de)(de)自(zi)主性(xing)和广(guang)泛的(de)(de)(de)(de)多供应商(shang)互操作性(xing),但它也被迫配置了(le)(le)(le)(le)拥(yong)塞管理、性(xing)能调整和节(jie)点间的(de)(de)(de)(de)负载(zai)平(ping)衡机制,增(zeng)加了(le)(le)(le)(le)额外的(de)(de)(de)(de)复杂性(xing)。
供应商和(he)(he)客户正集(ji)体作(zuo)为超以(yi)太网(wang)(wang)联盟的一(yi)部分(fen),提出(chu)可(ke)以(yi)解决(jue)与大规模多级(ji)网(wang)(wang)络(luo)中无损传输(shu)、高效(xiao)数据包(bao)分(fen)发、拥塞和(he)(he)流(liu)量管理相(xiang)关的一(yi)些(xie)挑(tiao)战,这些(xie)网(wang)(wang)络(luo)具(ju)有密集(ji)的 AI 工作(zuo)负(fu)载。
理想情况下,一(yi)个单一(yi)的系(xi)统可以扩展并提供避(bi)免(mian)构建两层网络的需求的能力,但通(tong)常(chang)可用的模块化数据中心(xin)交换机系(xi)统都(dou)是围绕单个机架的容(rong)量和(he)其他限制设(she)计的。
分布式 AI 平台变革的时候已经到来
7700R4 DES平(ping)台非常(chang)不同。虽然(ran)它(ta)在物(wu)理(li)上看起来像一(yi)个(ge)两层叶/脊(ji)网络一(yi)样被布线,但 DES 提(ti)供了单跳转发,具有一(yi)个(ge)高效的(de)织物(wu)脊(ji)层,这(zhei)是一(yi)个(ge)独(du)立(li)的(de)、自治的(de)系统,具有本(ben)地转发查找和独(du)立(li)的(de)路(lu)径选择(ze)决策。
7700R4 DES汇集了 Arista R系(xi)列架构的优点,具有(you)专用的 VoQ 用于缓冲大(da)流量,内部100%高效(xiao)的负载平衡,让您无需调整,以及实现快速的故障转(zhuan)移。
Arista 7700R4 DES是在(zai) Arista 长期客户(hu) Meta 的介入(ru)下开发的。根据他(ta)们对7800R3的经验以及(ji)R系(xi)列架构(gou)对 AI 工(gong)作负载的好处(chu)(chu),Meta 想要一(yi)个更大规模的解决方案(an)——提供所有相(xiang)同的好处(chu)(chu),并(bing)顺利过(guo)渡到800G。
7700R4的行为就像(xiang)一(yi)个单一(yi)的系(xi)统,具有专用的深缓冲区,确保在整(zheng)个基于以太(tai)网的人工(gong)智能网络中实(shi)现系(xi)统范(fan)围的无损传输。DES 不(bu)受(shou)拓(tuo)扑(pu)限制,UEC就(jiu)绪,针(zhen)对训练和推理工作负(fu)载进行了优化(hua),具有100%高(gao)效的(de)架构,并(bing)提供(gong)了现代人(ren)工智(zhi)能(neng)(neng)中心所需的(de)丰富的(de)遥(yao)测和智(zhi)能(neng)(neng)功能(neng)(neng)。
总结
AI 中(zhong)心的崛(jue)起对现代开放网络(luo)提出了更高的要(yao)求。Arista Etherlink 产品组合(he)提供(gong)了新的选择,从单芯片系统扩展(zhan)到模(mo)块化的多芯片、多层网络和数千(qian)个(ge)XPU端口(kou)。7700R4分布式以太网交换机为人工(gong)智能中心带(dai)来(lai)了(le)结构简单(dan)和可扩展(zhan)的优势,以(yi)及经济(ji)高(gao)效和节能的解决方案。
联系瑞技
AI 崛起既给人(ren)们带来(lai)了无限机遇,同时又给旧有基础设(she)施带来(lai)了巨(ju)大的(de)挑战。携(xie)手 Arista,一起为你(ni)的(de) IT 基础设(she)施升级换代。
400-8866-490 | sales.cn@bytebt.com
