国内精品人妻无码久久久影院蜜桃,久久发布国产伦子伦精品,强壮公让我高潮八次苏晴,无码日韩精品一区二区免费暖暖,夜夜爽www

瑞技科技

重磅消息

 
Arista EOS 系统助力构建强大的 AI 网络
首页 > 网站博客 > 欢迎来到(dao) AI 中心(xin)新(xin)时代——Arista EOS 系统(tong)助力构建强大的(de) AI 网络

欢迎来到 AI 中心新时代——Arista EOS 系统助力构建强大的 AI 网络

1984年(nian),孙正义因宣称“网(wang)络(luo)即计算机(ji)”而闻(wen)名。四十年(nian)后,随着(zhe)人工智能的(de)(de)到来,我们再一(yi)次看到这一(yi)周期的(de)(de)到来。AI 训练模(mo)型的(de)(de)集(ji)体性(xing)质依赖于无(wu)损、高(gao)可用(yong)性(xing)的(de)(de)网(wang)络(luo),以便无(wu)缝(feng)地(di)将集(ji)群中(zhong)的(de)(de)每个 GPU 相互(hu)连接,并实(shi)现(xian)峰值性(xing)能。网(wang)络(luo)还(hai)将训练过的(de)(de) AI 模(mo)型与(yu)数(shu)据中(zhong)心(xin)(xin)的(de)(de)最终用(yong)户和其他(ta)系统(如(ru)存(cun)储系统)连接起来,从而使系统成为(wei)超越各部分总和的(de)(de)存(cun)在。因此,数(shu)据中(zhong)心(xin)(xin)正在演(yan)变(bian)为(wei)新的(de)(de) AI 中(zhong)心(xin)(xin),而网(wang)络(luo)则成为(wei) AI 管理的(de)(de)中(zhong)心(xin)(xin)。

AI 趋势

为了理(li)解这一(yi)点,让我(wo)们首先关注 AI 数(shu)据集的(de)(de)爆炸式增长。随着 AI 训练中(zhong)大(da)型语言模(mo)(mo)型(LLMs)规(gui)模(mo)(mo)的(de)(de)扩大(da),数(shu)据并行化变得不可避免。训练这些更大(da)规(gui)模(mo)(mo)模(mo)(mo)型所(suo)需的(de)(de) GPU 数(shu)量无(wu)法跟上(shang)庞大(da)的(de)(de)参数(shu)数(shu)量和数(shu)据集大(da)小。无(wu)论(lun)是数(shu)据、模(mo)(mo)型还(hai)是管道,AI 并行化的(de)(de)有(you)效性都(dou)取决于将 GPU 相互(hu)连接的(de)(de)网(wang)络。GPU 必(bi)须(xu)交换和计算全局梯(ti)度以(yi)调整(zheng)模(mo)(mo)型的(de)(de)权(quan)重(zhong)。为此,AI 难题的(de)(de)各个(ge)不同组成部分(fen)必(bi)须(xu)作为单一(yi)的(de)(de) AI 中(zhong)心协(xie)同工作:GPU、网(wang)卡(NICs)、光学/线缆等(deng)互(hu)连配件、存储(chu)系统(tong),以(yi)及最重(zhong)要的(de)(de)中(zhong)心网(wang)络。

信息孤岛

在当今基于 AI 的(de)(de)数(shu)据(ju)中心(xin)中,性能不理(li)想的(de)(de)原(yuan)因有很多。首先,AI 网络(luo)需要一致的(de)(de)端到(dao)端服务(wu)质量(liang)以(yi)(yi)(yi)保证无(wu)损传输(shu)。这意味(wei)着服务(wu)器中的(de)(de)网卡(ka)以(yi)(yi)(yi)及网络(luo)平(ping)台必须拥(yong)有统一的(de)(de)标记/映射、精确(que)的(de)(de)控(kong)制和拥(yong)塞(sai)(sai)通知(包括使用数(shu)据(ju)中心(xin)量(liang)化拥(yong)塞(sai)(sai)控(kong)制(DCQCN)的(de)(de)优先流控(kong)制(PFC)和显式拥(yong)塞(sai)(sai)通知(ECN))以(yi)(yi)(yi)及适当的(de)(de)缓冲区利(li)用率阈值,以(yi)(yi)(yi)使每个组件都能及时响应网络(luo)事件(如拥(yong)塞(sai)(sai)),确(que)保发(fa)送方能够精确(que)控(kong)制流量(liang)速率,避(bi)免(mian)丢包。然(ran)而,目前网卡(ka)和网络(luo)设备是(shi)分开配(pei)置的(de)(de),在大型 AI 网络(luo)中,任何配(pei)置不匹配(pei)都极难调试。


性(xing)能(neng)不(bu)佳(jia)的(de)(de)(de)(de)一(yi)个常见原因是组(zu)件故障。服务器、GPU、网卡、收发(fa)(fa)器、电(dian)缆、交换机和路由器都(dou)可(ke)(ke)(ke)能(neng)出现(xian)(xian)故障,导(dao)(dao)致重传(go-back)或(huo)更糟(zao)糕的(de)(de)(de)(de)结果——可(ke)(ke)(ke)能(neng)使整个作业停滞,从(cong)而导(dao)(dao)致巨大(da)的(de)(de)(de)(de)性(xing)能(neng)损失。随着集群规模的(de)(de)(de)(de)扩大(da),组(zu)件发(fa)(fa)生故障的(de)(de)(de)(de)可(ke)(ke)(ke)能(neng)性(xing)变得(de)越来越大(da)。传统上(shang),GPU 供应商的(de)(de)(de)(de)集体通信库(CCL)会尝试使用定(ding)位技术来发(fa)(fa)现(xian)(xian)底层网络拓(tuo)(tuo)扑(pu),但发(fa)(fa)现(xian)(xian)的(de)(de)(de)(de)拓(tuo)(tuo)扑(pu)与实(shi)际拓(tuo)(tuo)扑(pu)之间(jian)的(de)(de)(de)(de)差异可(ke)(ke)(ke)能(neng)会严(yan)重影(ying)响 AI 训练的(de)(de)(de)(de)作业完(wan)成时间(jian)。


AI 网络的(de)另一(yi)个问题(ti)是,大多数(shu)运营(ying)商都有单(dan)独的(de)团队来设(she)计和(he)(he)管理不同(tong)的(de)计算和(he)(he)网络基础设(she)施。这涉及(ji)使用不同(tong)的(de)编(bian)排系(xi)统进行配(pei)置、验证、监控(kong)和(he)(he)升级。缺乏单(dan)点控(kong)制和(he)(he)可见(jian)性使得(de)(de)识别和(he)(he)定位(wei)性能问题(ti)变得(de)(de)极其(qi)困(kun)难。随着 AI 集群规模的(de)扩大,这些(xie)问题(ti)会变得(de)(de)更加严重。


不(bu)难看(kan)出(chu),这(zhei)些孤(gu)(gu)岛问题是如(ru)(ru)何不(bu)断(duan)加剧问题的(de)(de)严重性的(de)(de)。计(ji)算(suan)(suan)和(he)网(wang)(wang)络之间的(de)(de)分割会(hui)导致(zhi)将这(zhei)两(liang)项(xiang)技(ji)术结合起来以最(zui)大化(hua)性能的(de)(de)操(cao)作充(chong)满(man)挑战,同时(shi)延误诊断(duan)和(he)解决性能下降或宕(dang)机等问题。网(wang)(wang)络本(ben)身也可以分为基(ji)于以太网(wang)(wang)的(de)(de)数据中心(xin)网(wang)(wang)络和(he) InfiniBand 高性能计(ji)算(suan)(suan)(HPC)集群孤(gu)(gu)岛网(wang)(wang)络。这(zhei)反过来又可能造成孤(gu)(gu)岛间数据传(chuan)输(shu)的(de)(de)挑战,迫(po)使组织使用(yong)笨拙的(de)(de)网(wang)(wang)关,并造成计(ji)算(suan)(suan)和(he)存储到(dao)最(zui)终用(yong)户的(de)(de)连接障碍(ai)。只关注(zhu)某一技(ji)术(如(ru)(ru)计(ji)算(suan)(suan))而忽(hu)(hu)视整(zheng)体解决方案的(de)(de)其他(ta)方面(mian),会(hui)忽(hu)(hu)视技(ji)术之间相互依(yi)赖(lai)和(he)相互连接的(de)(de)本(ben)质(zhi),如(ru)(ru)下图所(suo)示。

当今的数据孤岛示意图
当前的网络孤(gu)岛(dao)示(shi)意(yi)图

新 AI 中心的崛起

新(xin)的(de) AI 中心(xin)(xin)认识和接受了(le)这(zhei)一(yi)现(xian)代、相互依(yi)存(cun)的(de)生(sheng)态系(xi)(xi)统的(de)整体性。整个系(xi)(xi)统共同提升以达到(dao)最(zui)(zui)佳性能,而不是(shi)像(xiang)之前的(de)网(wang)络(luo)孤岛那(nei)样孤立无(wu)援。GPU 需(xu)要(yao)一(yi)个优化(hua)和无(wu)损的(de)网(wang)络(luo),以便在最(zui)(zui)短的(de)时(shi)间内(nei)完成 AI 训(xun)练,然(ran)后这(zhei)些训(xun)练好的(de) AI 模型需(xu)要(yao)连(lian)接到(dao) AI 推理集群(qun),以便最(zui)(zui)终用户能够查询模型。计算节点(dian),包括 GPU / AI 加速器和 CPU / 通(tong)用计算,也需(xu)要(yao)与存(cun)储系(xi)(xi)统以及现(xian)有(you)数据(ju)中心(xin)(xin)中的(de)其他(ta) IT 系(xi)(xi)统进行通(tong)信和连(lian)接。没(mei)有(you)任何部分是(shi)孤立工作的(de),网(wang)络(luo)就像(xiang)连(lian)接组织(zhi)一(yi)样,激(ji)发了(le)所(suo)有(you)交(jiao)互点(dian),就像(xiang)神(shen)经(jing)系(xi)(xi)统为人(ren)类神(shen)经(jing)元提供通(tong)路一(yi)样。


每个(ge)部分的(de)价值在(zai)(zai)于整个(ge)系(xi)统(tong)作为一个(ge)整体(ti)相互连接(jie)所(suo)产生的(de)集(ji)(ji)体(ti)结果(guo),而(er)不(bu)是单个(ge)部分孤立工作的(de)成(cheng)果(guo)。对于人(ren)类(lei)来(lai)说(shuo),价值来(lai)自于神经(jing)系(xi)统(tong)所(suo)赋予的(de)思(si)想(xiang)和(he)行动(dong),而(er)不(bu)仅仅是神经(jing)元本(ben)身。同样,AI 中(zhong)(zhong)心的(de)价值在(zai)(zai)于最终用户(hu)通过 AI 解(jie)决问题所(suo)消耗(hao)的(de)输(shu)出,这些输(shu)出是由训练集(ji)(ji)群与(yu)推(tui)理集(ji)(ji)群、存储系(xi)统(tong)和(he)其他 IT 系(xi)统(tong)相连接(jie),并集(ji)(ji)成(cheng)到一个(ge)无损网(wang)络中(zhong)(zhong)作为中(zhong)(zhong)枢神经(jing)系(xi)统(tong)而(er)实现的(de)。AI 中(zhong)(zhong)心通过消除(chu)孤岛(dao),实现完美的(de)性能调(diao)优、故障排除(chu)和(he)运营而(er)大放异彩,其中(zhong)(zhong)中(zhong)(zhong)央网(wang)络在(zai)(zai)创(chuang)建和(he)驱动(dong)这一互联(lian)系(xi)统(tong)中(zhong)(zhong)发挥着核心作用。

大规模(mo)以太网:AI 中心

Arista EOS 为 AI 中心提供支持

EOS 是 Arista 的(de)顶级操作(zuo)系统(tong),它支持(chi)全(quan)球最(zui)大的(de)扩展型 AI 网(wang)络,将(jiang)生(sheng)态系统(tong)的(de)所(suo)有部分整合在一(yi)起,以创建新的(de) AI 中(zhong)心。如(ru)果说网(wang)络是 AI 中(zhong)心的(de)神(shen)经(jing)系统(tong),那么 EOS 就是驱动这(zhei)个神(shen)经(jing)系统(tong)的(de)大脑。


Arista 的(de)(de)(de)一(yi)项新创新被集(ji)成到 EOS 中(zhong)(zhong)(zhong),通(tong)过更紧密地(di)将(jiang)网络(luo)(luo)(luo)与连接(jie)的(de)(de)(de)主(zhu)机(ji)作为(wei)一(yi)个整体系统联系起来,进(jin)一(yi)步扩展了 AI 中(zhong)(zhong)(zhong)心的(de)(de)(de)互联概(gai)念。EOS 将(jiang)网络(luo)(luo)(luo)范围内的(de)(de)(de)控(kong)制、遥测和(he)(he)(he)(he)无损 QoS(服(fu)务质量(liang))特性从网络(luo)(luo)(luo)交换(huan)机(ji)扩展到直连在(zai)(zai)服(fu)务器(qi) / GPU 上的(de)(de)(de)网卡上的(de)(de)(de)远(yuan)程 EOS 代(dai)理(li)(li)。部署在(zai)(zai) AI 网卡 / 服(fu)务器(qi)上的(de)(de)(de)远(yuan)程代(dai)理(li)(li)将(jiang)交换(huan)机(ji)转变(bian)为(wei) AI 网络(luo)(luo)(luo)的(de)(de)(de)中(zhong)(zhong)(zhong)心,以(yi)便对 AI 主(zhu)机(ji)和(he)(he)(he)(he) GPU 进(jin)行(xing)(xing)配(pei)置(zhi)、监控(kong)和(he)(he)(he)(he)故障(zhang)调试。这(zhei)(zhei)将(jiang)产生一(yi)个单一(yi)且统一(yi)的(de)(de)(de)控(kong)制和(he)(he)(he)(he)可(ke)(ke)视化点。利用远(yuan)程代(dai)理(li)(li),可(ke)(ke)以(yi)确保包括端到端流量(liang)调优(you)在(zai)(zai)内的(de)(de)(de)配(pei)置(zhi)的(de)(de)(de)一(yi)致性。Arista EOS 实现(xian)了 AI 中(zhong)(zhong)(zhong)心的(de)(de)(de)通(tong)信,以(yi)便即时跟(gen)踪和(he)(he)(he)(he)报(bao)告主(zhu)机(ji)和(he)(he)(he)(he)网络(luo)(luo)(luo)行(xing)(xing)为(wei)。这(zhei)(zhei)样就可(ke)(ke)以(yi)在(zai)(zai)网络(luo)(luo)(luo)中(zhong)(zhong)(zhong)运(yun)行(xing)(xing)的(de)(de)(de) EOS 与主(zhu)机(ji)上的(de)(de)(de)远(yuan)程代(dai)理(li)(li)之间(jian)的(de)(de)(de)通(tong)信中(zhong)(zhong)(zhong)隔离故障(zhang)。这(zhei)(zhei)意味着 EOS 可(ke)(ke)以(yi)直接(jie)报(bao)告网络(luo)(luo)(luo)拓(tuo)扑(pu),集(ji)中(zhong)(zhong)(zhong)进(jin)行(xing)(xing)拓(tuo)扑(pu)发现(xian),并(bing)利用熟悉(xi)的(de)(de)(de) Arista EOS 配(pei)置(zhi)和(he)(he)(he)(he)管(guan)理(li)(li)结构来跨所有 Arista Etherlink™ 平台和(he)(he)(he)(he)合作伙伴(ban)进(jin)行(xing)(xing)操(cao)作。

丰富的合作生态系统:AMD、Broadcom、Intel 和 NVIDIA

Arista AI 中心(xin)(xin)的(de)(de)目标是以(yi)最低的(de)(de)作(zuo)(zuo)业时间来构建强大(da)、超(chao)大(da)规模的(de)(de) AI 网络(luo)(luo)。它正在将网络(luo)(luo)交换机、网卡、收发器、电(dian)缆(lan)、GPU 和服(fu)务(wu)器等(deng)整(zheng)个(ge)生态系统整(zheng)合到(dao)新(xin)的(de)(de) AI 中心(xin)(xin)中,并作(zuo)(zuo)为单(dan)一(yi)组件进行配置、管理和监控。这种方(fang)式降低了(le)总成本,并提高了(le)计算(suan)或网络(luo)(luo)的(de)(de)生产力(li)。AI 中心(xin)(xin)的(de)(de)愿(yuan)景(jing)是实现 AI 网络(luo)(luo)与主机之间开(kai)放、连贯的(de)(de)互操作(zuo)(zuo)性和可管理性的(de)(de)第一(yi)步。欢迎来到(dao) AI 中心(xin)(xin)的(de)(de)新(xin)世界!

Arista EOS 系统助力构建强大的 AI 网络

联系瑞技

Arista 坚持 EOS 开放标准的承(cheng)诺,利(li)用 OpenConfig 来支持新(xin)时(shi)代的 AI 中心。欢(huan)迎联系(xi) Arista 在(zai)华正规(gui)授(shou)权(quan)代理商(shang)——瑞技科技,一(yi)起探讨 AI 中心的奥妙吧。

400-8866-490   |  sales.cn@bytebt.com