缃戠粶褰掓。 - 鐟炴妧绉戞妧 //tedxccu.net/tag/网络 一站å¼IT解决方案æä¾›å•?/description> Fri, 11 Oct 2024 09:20:21 +0000 zh-Hans hourly 1 //wordpress.org/?v=6.8.3 //tedxccu.net/wp-content/uploads/2023/06/cropped-fav-32x32.png 缃戠粶褰掓。 - 鐟炴妧绉戞妧 //tedxccu.net/tag/网络 32 32 缃戠粶褰掓。 - 鐟炴妧绉戞妧 //tedxccu.net/bytebridge-blog/ai-center-era-with-arista-eos.html?utm_source=rss&utm_medium=rss&utm_campaign=ai-center-era-with-arista-eos Fri, 30 Aug 2024 09:41:39 +0000 //tedxccu.net/?p=24591 1984年,孙正义因宣称“网络å³è®¡ç®—机â€è€Œé—»å。四åå¹´åŽï¼Œéšç€äººå·¥æ™ºèƒ½çš„到æ¥ï¼Œæˆ‘们å†ä¸€æ¬¡çœ‹åˆ°è¿™ä¸€å‘¨æœŸçš„到æ¥ã€‚A […]

欢迎æ¥åˆ° AI 中心新时代——Arista EOS 系统助力构建强大çš?AI 网络最先出现在瑞技科技ã€?/p> ]]>

1984年,孙正义因宣称“网络å³è®¡ç®—机â€è€Œé—»å。四åå¹´åŽï¼Œéšç€äººå·¥æ™ºèƒ½çš„到æ¥ï¼Œæˆ‘们å†ä¸€æ¬¡çœ‹åˆ°è¿™ä¸€å‘¨æœŸçš„到æ¥ã€‚AI 训练模型的集体性质ä¾èµ–于无æŸã€é«˜å¯ç”¨æ€§çš„网络,以便无ç¼åœ°å°†é›†ç¾¤ä¸­çš„æ¯ä¸?GPU 相互连接,并实现峰值性能。网络还将训练过çš?AI 模型与数æ®ä¸­å¿ƒçš„æœ€ç»ˆç”¨æˆ·å’Œå…¶ä»–系统(如存储系统)连接起æ¥ï¼Œä»Žè€Œä½¿ç³»ç»Ÿæˆä¸ºè¶…è¶Šå„部分总和的存在。因此,数æ®ä¸­å¿ƒæ­£åœ¨æ¼”å˜ä¸ºæ–°çš?AI 中心,而网络则æˆä¸º AI 管ç†çš„中心ã€?/p>

AI 趋势

为了ç†è§£è¿™ä¸€ç‚¹ï¼Œè®©æˆ‘们首先关æ³?AI æ•°æ®é›†çš„爆炸å¼å¢žé•¿ã€‚éšç€ AI 训练中大型语言模型(LLMs)规模的扩大,数æ®å¹¶è¡ŒåŒ–å˜å¾—ä¸å¯é¿å…。训练这些更大规模模型所需çš?GPU æ•°é‡æ— æ³•è·Ÿä¸Šåºžå¤§çš„å‚æ•°æ•°é‡å’Œæ•°æ®é›†å¤§å°ã€‚无论是数æ®ã€æ¨¡åž‹è¿˜æ˜¯ç®¡é“,AI 并行化的有效性都å–决于将 GPU 相互连接的网络。GPU 必须交æ¢å’Œè®¡ç®—全局梯度以调整模型的æƒé‡ã€‚为此,AI 难题的å„个ä¸åŒç»„æˆéƒ¨åˆ†å¿…须作为å•一çš?AI 中心ååŒå·¥ä½œï¼šGPUã€ç½‘å¡ï¼ˆNICs)ã€å…‰å­?线缆等互连é…ä»¶ã€å­˜å‚¨ç³»ç»Ÿï¼Œä»¥åŠæœ€é‡è¦çš„中心网络ã€?/p>

ä¿¡æ¯å­¤å²›

在当今基äº?AI 的数æ®ä¸­å¿ƒä¸­ï¼Œæ€§èƒ½ä¸ç†æƒ³çš„原因有很多。首先,AI 网络需è¦ä¸€è‡´çš„端到端æœåŠ¡è´¨é‡ä»¥ä¿è¯æ— æŸä¼ è¾“。这æ„å‘³ç€æœåŠ¡å™¨ä¸­çš„ç½‘å¡ä»¥åŠç½‘络平å°å¿…须拥有统一的标è®?映射ã€ç²¾ç¡®çš„æŽ§åˆ¶å’Œæ‹¥å¡žé€šçŸ¥ï¼ˆåŒ…括使用数æ®ä¸­å¿ƒé‡åŒ–拥塞控制(DCQCNï¼‰çš„ä¼˜å…ˆæµæŽ§åˆ¶ï¼ˆPFCï¼‰å’Œæ˜¾å¼æ‹¥å¡žé€šçŸ¥ï¼ˆECN))以åŠé€‚当的缓冲区利用率阈值,以使æ¯ä¸ªç»„ä»¶éƒ½èƒ½åŠæ—¶å“应网络事件(如拥塞),确ä¿å‘逿–¹èƒ½å¤Ÿç²¾ç¡®æŽ§åˆ¶æµé‡é€ŸçŽ‡ï¼Œé¿å…丢包。然而,目å‰ç½‘å¡å’Œç½‘络设备是分开é…置的,在大åž?AI 网络中,任何é…ç½®ä¸åŒ¹é…都æžéš¾è°ƒè¯•ã€?/p>


性能ä¸ä½³çš„一个常è§åŽŸå› æ˜¯ç»„ä»¶æ•…éšœã€‚æœåС噍ã€GPUã€ç½‘å¡ã€æ”¶å‘器ã€ç”µç¼†ã€äº¤æ¢æœºå’Œè·¯ç”±å™¨éƒ½å¯èƒ½å‡ºçŽ°æ•…éšœï¼Œå¯¼è‡´é‡ä¼ ï¼ˆgo-back)或更糟糕的结果——å¯èƒ½ä½¿æ•´ä¸ªä½œä¸šåœæ»žï¼Œä»Žè€Œå¯¼è‡´å·¨å¤§çš„æ€§èƒ½æŸå¤±ã€‚éšç€é›†ç¾¤è§„模的扩大,组件å‘生故障的å¯èƒ½æ€§å˜å¾—è¶Šæ¥è¶Šå¤§ã€‚传统上,GPU 供应商的集体通信库(CCL)会å°è¯•ä½¿ç”¨å®šä½æŠ€æœ¯æ¥å‘现底层网络拓扑,但å‘现的拓扑与实际拓扑之间的差异å¯èƒ½ä¼šä¸¥é‡å½±å“ AI è®­ç»ƒçš„ä½œä¸šå®Œæˆæ—¶é—´ã€?/p>


AI 网络的å¦ä¸€ä¸ªé—®é¢˜æ˜¯ï¼Œå¤§å¤šæ•°è¿è¥å•†éƒ½æœ‰å•独的团队æ¥è®¾è®¡å’Œç®¡ç†ä¸åŒçš„计算和网络基础设施。这涉åŠä½¿ç”¨ä¸åŒçš„编排系统进行é…ç½®ã€éªŒè¯ã€ç›‘控和å‡çº§ã€‚缺ä¹å•点控制和å¯è§æ€§ä½¿å¾—è¯†åˆ«å’Œå®šä½æ€§èƒ½é—®é¢˜å˜å¾—æžå…¶å›°éš¾ã€‚éšç€ AI 集群规模的扩大,这些问题会å˜å¾—更加严é‡ã€?/p>


ä¸éš¾çœ‹å‡ºï¼Œè¿™äº›å­¤å²›é—®é¢˜æ˜¯å¦‚何䏿–­åŠ å‰§é—®é¢˜çš„ä¸¥é‡æ€§çš„。计算和网络之间的分割会导致将这两项技术结åˆèµ·æ¥ä»¥æœ€å¤§åŒ–性能的æ“ä½œå……æ»¡æŒ‘æˆ˜ï¼ŒåŒæ—¶å»¶è¯¯è¯Šæ–­å’Œè§£å†³æ€§èƒ½ä¸‹é™æˆ–宕机等问题。网络本身也å¯ä»¥åˆ†ä¸ºåŸºäºŽä»¥å¤ªç½‘的数æ®ä¸­å¿ƒç½‘络å’?InfiniBand 高性能计算(HPC)集群孤岛网络。这å过æ¥åˆå¯èƒ½é€ æˆå­¤å²›é—´æ•°æ®ä¼ è¾“的挑战,迫使组织使用笨拙的网关,并造æˆè®¡ç®—和存储到最终用户的连接障ç¢ã€‚åªå…³æ³¨æŸä¸€æŠ€æœ¯ï¼ˆå¦‚计算)而忽视整体解决方案的其他方é¢ï¼Œä¼šå¿½è§†æŠ€æœ¯ä¹‹é—´ç›¸äº’ä¾èµ–和相互连接的本质,如下图所示ã€?/p>

当今的数æ®å­¤å²›ç¤ºæ„图
当å‰çš„网络孤岛示æ„图

�AI 中心的崛�/h2>

æ–°çš„ AI 中心认识和接å—了这一现代ã€ç›¸äº’ä¾å­˜çš„生æ€ç³»ç»Ÿçš„æ•´ä½“æ€§ã€‚æ•´ä¸ªç³»ç»Ÿå…±åŒæå‡ä»¥è¾¾åˆ°æœ€ä½³æ€§èƒ½ï¼Œè€Œä¸æ˜¯åƒä¹‹å‰çš„网络孤岛那样孤立无æ´ã€‚GPU 需è¦ä¸€ä¸ªä¼˜åŒ–和无æŸçš„网络,以便在最短的时间内完æˆ?AI 训练,然åŽè¿™äº›è®­ç»ƒå¥½çš?AI 模型需è¦è¿žæŽ¥åˆ° AI 推ç†é›†ç¾¤ï¼Œä»¥ä¾¿æœ€ç»ˆç”¨æˆ·èƒ½å¤ŸæŸ¥è¯¢æ¨¡åž‹ã€‚计算节点,包括 GPU / AI 加速器å’?CPU / 通用计算,也需è¦ä¸Žå­˜å‚¨ç³»ç»Ÿä»¥åŠçŽ°æœ‰æ•°æ®ä¸­å¿ƒä¸­çš„å…¶ä»– IT 系统进行通信和连接。没有任何部分是孤立工作的,网络就åƒè¿žæŽ¥ç»„织一样,激å‘了所有交互点,就åƒç¥žç»ç³»ç»Ÿä¸ºäººç±»ç¥žç»å…ƒæä¾›é€šè·¯ä¸€æ ·ã€?/p>


æ¯ä¸ªéƒ¨åˆ†çš„ä»·å€¼åœ¨äºŽæ•´ä¸ªç³»ç»Ÿä½œä¸ºä¸€ä¸ªæ•´ä½“ç›¸äº’è¿žæŽ¥æ‰€äº§ç”Ÿçš„é›†ä½“ç»“æžœï¼Œè€Œä¸æ˜¯å•ä¸ªéƒ¨åˆ†å­¤ç«‹å·¥ä½œçš„æˆæžœã€‚对于人类æ¥è¯´ï¼Œä»·å€¼æ¥è‡ªäºŽç¥žç»ç³»ç»Ÿæ‰€èµ‹äºˆçš„æ€æƒ³å’Œè¡ŒåŠ¨ï¼Œè€Œä¸ä»…仅是神ç»å…ƒæœ¬èº«ã€‚åŒæ ·ï¼ŒAI 中心的价值在于最终用户通过 AI 解决问题所消耗的输出,这些输出是由训练集群与推ç†é›†ç¾¤ã€å­˜å‚¨ç³»ç»Ÿå’Œå…¶ä»– IT 系统相连接,并集æˆåˆ°ä¸€ä¸ªæ— æŸç½‘络中作为中枢神ç»ç³»ç»Ÿè€Œå®žçŽ°çš„ã€‚AI ä¸­å¿ƒé€šè¿‡æ¶ˆé™¤å­¤å²›ï¼Œå®žçŽ°å®Œç¾Žçš„æ€§èƒ½è°ƒä¼˜ã€æ•…障排除和è¿è¥è€Œå¤§æ”¾å¼‚彩,其中中央网络在创建和驱动这一互è”ç³»ç»Ÿä¸­å‘æŒ¥ç€æ ¸å¿ƒä½œç”¨ã€?/p>

大规模以太网:AI 中心

Arista EOS ä¸?AI 中心æä¾›æ”¯æŒ

EOS æ˜?Arista 的顶级æ“作系统,它支æŒå…¨çƒæœ€å¤§çš„æ‰©å±•åž?AI 网络,将生æ€ç³»ç»Ÿçš„æ‰€æœ‰éƒ¨åˆ†æ•´åˆåœ¨ä¸€èµ·ï¼Œä»¥åˆ›å»ºæ–°çš?AI 中心。如果说网络æ˜?AI 中心的神ç»ç³»ç»Ÿï¼Œé‚£ä¹ˆ EOS 就是驱动这个神ç»ç³»ç»Ÿçš„大脑ã€?/p>


Arista 的一项新创新被集æˆåˆ° EOS 中,通过更紧密地将网络与连接的主机作为一个整体系统è”系起æ¥ï¼Œè¿›ä¸€æ­¥æ‰©å±•了 AI ä¸­å¿ƒçš„äº’è”æ¦‚念。EOS 将网络范围内的控制ã€é¥æµ‹å’Œæ— æŸ QoS(æœåŠ¡è´¨é‡ï¼‰ç‰¹æ€§ä»Žç½‘ç»œäº¤æ¢æœºæ‰©å±•到直连在æœåС噍 / GPU 上的网å¡ä¸Šçš„远程 EOS 代ç†ã€‚部署在 AI ç½‘å¡ / æœåŠ¡å™¨ä¸Šçš„è¿œç¨‹ä»£ç†å°†äº¤æ¢æœºè½¬å˜ä¸º AI 网络的中心,以便å¯?AI 主机å’?GPU 进行é…ç½®ã€ç›‘控和故障调试。这将产生一个å•一且统一的控制和å¯è§†åŒ–点。利用远程代ç†ï¼Œå¯ä»¥ç¡®ä¿åŒ…括端到端æµé‡è°ƒä¼˜åœ¨å†…çš„é…置的一致性。Arista EOS 实现äº?AI ä¸­å¿ƒçš„é€šä¿¡ï¼Œä»¥ä¾¿å³æ—¶è·Ÿè¸ªå’ŒæŠ¥å‘Šä¸»æœºå’Œç½‘络行为。这样就å¯ä»¥åœ¨ç½‘络中è¿è¡Œçš?EOS 与主机上的远程代ç†ä¹‹é—´çš„通信中隔离故障。这æ„å‘³ç€ EOS å¯ä»¥ç›´æŽ¥æŠ¥å‘Šç½‘络拓扑,集中进行拓扑å‘现,并利用熟悉的 Arista EOS é…置和管ç†ç»“æž„æ¥è·¨æ‰€æœ?Arista Etherlinkâ„? class= å¹³å°å’Œåˆä½œä¼™ä¼´è¿›è¡Œæ“作ã€?/p>

丰富的åˆä½œç”Ÿæ€ç³»ç»Ÿï¼šAMDã€Broadcomã€Intel å’?NVIDIA

Arista AI ä¸­å¿ƒçš„ç›®æ ‡æ˜¯ä»¥æœ€ä½Žçš„ä½œä¸šæ—¶é—´æ¥æž„建强大ã€è¶…大规模的 AI ç½‘ç»œã€‚å®ƒæ­£åœ¨å°†ç½‘ç»œäº¤æ¢æœºã€ç½‘å¡ã€æ”¶å‘器ã€ç”µç¼†ã€GPU å’ŒæœåŠ¡å™¨ç­‰æ•´ä¸ªç”Ÿæ€ç³»ç»Ÿæ•´åˆåˆ°æ–°çš„ AI 中心中,并作为å•一组件进行é…ç½®ã€ç®¡ç†å’Œç›‘æŽ§ã€‚è¿™ç§æ–¹å¼é™ä½Žäº†æ€»æˆæœ¬ï¼Œå¹¶æé«˜äº†è®¡ç®—或网络的生产力。AI 中心的愿景是实现 AI 网络与主机之间开放ã€è¿žè´¯çš„互æ“作性和å¯ç®¡ç†æ€§çš„第一步。欢迎æ¥åˆ?AI 中心的新世界ï¼?/p>

Arista EOS 系统助力构建强大�AI 网络

è”系瑞技

Arista åšæŒ EOS 开放标准的承诺,利ç”?OpenConfig æ¥æ”¯æŒæ–°æ—¶ä»£çš?AI 中心。欢迎è”ç³?Arista åœ¨åŽæ­£è§„授æƒä»£ç†å•†â€”—瑞技科技,一起探è®?AI 中心的奥妙å§ã€?/p>

400-8866-490 �|  sales.cn@bytebt.com

欢迎æ¥åˆ° AI 中心新时代——Arista EOS 系统助力构建强大çš?AI 网络最先出现在瑞技科技ã€?/p> ]]>