数据中心行业目前正处于(yu)一个(ge)关键的转折点。AI工作负载的(de)快(kuai)速(su)增长显然正在将传(chuan)统的(de)冷(leng)却(que)基础设施推(tui)向极限(xian),迫使运营商从(cong)根本上(shang)重新思(si)考如何管(guan)理数(shu)据中心(xin)的(de)热挑(tiao)战。
就在(zai)十年前(qian),一个 10 兆(zhao)瓦的数据中心(xin)已经被认为相当庞大。如今,支(zhi)持AI工作负(fu)载的设施(shi)通常超过 100 兆瓦(wa)(wa),这(zhei)(zhei)正迅速成为新的常态。事实上,一些最雄心勃(bo)勃(bo)的项目已经(jing)远远超出了这(zhei)(zhei)一水平。例(li)如,亚马逊已经(jing)宣布了一个(ge)核动力(li)数据中心园区,计划将(jiang)其总容(rong)量扩展至 960 兆瓦(wa)(wa)。
高盛(sheng)研究估计,科技巨头 2024 年在AI方(fang)面的支出约为 2000 亿美元(yuan),并预测这一(yi)数字(zi)将在 2025 年(nian)增(zeng)加(jia)到 2500 亿美元(yuan)。拜登卸任(ren)前(qian)签署(shu)了一(yi)项(xiang)行政令(ling),以加(jia)快美国AI运营的发(fa)展,而(er)在特朗(lang)普总统任期内,我们(men)已经看(kan)到了(le)大型AI数据中心的(de)(de)公告,例如 5000 亿美元的(de)(de)星际之门项目。
热管理的需求
这种前所未(wei)有的计(ji)算能(neng)(neng)力规模产生了传(chuan)统空气冷却系统根本无法处理(li)的极高热(re)量。传(chuan)统的空气冷却方(fang)法通(tong)常(chang)在每机架(jia)超过(guo) 50 千瓦时(shi)就(jiu)会遇到困难。行业迫切(qie)需(xu)要能(neng)(neng)够有效(xiao)管理(li)这种热(re)负荷同时(shi)保持运营(ying)团队所依赖的可靠性的冷却解决(jue)方(fang)案(an)。
解决热量问题的(de)影响将远(yuan)远(yuan)超出满足当前计(ji)算需求。高(gao)效的(de)热管(guan)理实际上(shang)是实现(xian)下一(yi)代(dai)计(ji)算能(neng)力的(de)关键(jian)因素。NVIDIA 的(de)新一(yi)代(dai) AI 加速器完美地说明了这(zhei)一(yi)挑战。以(yi) NVIDIA 新的(de) Blackwell GPU 系(xi)列(lie)为(wei)例,GB200 每个(ge)芯片的(de)功耗可达(da)到 700 瓦(wa)至 1200 瓦(wa)。当将其组合(he)到 GB200 NVL72 系(xi)统(tong)(tong)中,该系(xi)统(tong)(tong)容纳 72 个(ge) GPU 时,单个(ge)机架可能(neng)需要高(gao)达(da) 140 千瓦(wa)的(de)冷却能(neng)力,这(zhei)远(yuan)远(yuan)超出了传统(tong)(tong)空气冷却的(de)有效管(guan)理范围(wei)。
对于数据中心工程师(shi)和运营(ying)商及其用户(hu)来(lai)说,需(xu)求是(shi)(shi)明确的(de)。技术要求正在发生变(bian)化,这也意味(wei)着底层基础(chu)设(she)施(shi)也必须随之改变(bian)。问题不再在于是(shi)(shi)否需(xu)要液冷,而在于如何(he)有(you)效地实施(shi)液冷,同时保持(chi)卓越的(de)运营(ying)和可靠性。这需(xu)要仔细考虑以下几个关键(jian)因素(su):
可靠(kao)性(xing)和风险管(guan)理
对于任何数据中心运(yun)营商来说,首(shou)要(yao)关注(zhu)的(de)是正常运(yun)行时间(jian)。现代(dai)液(ye)冷解(jie)决(jue)方案已经(jing)取(qu)得了显著进步,单相电(dian)介(jie)质(zhi)冷却液(ye)提供了经(jing)过(guo)验证的(de)可靠性和与标(biao)准服(fu)务器硬件的(de)兼容性。最新的(de)解(jie)决(jue)方案可以有效管理极端热量,同时提供设施(shi)团(tuan)队所需的(de)运(yun)营稳定性。
运营(ying)效率(lv)
数据(ju)中心可能(neng)会消(xiao)(xiao)耗高达 40% 的(de)总能(neng)量用于冷却,液冷提(ti)供(gong)了一条显(xian)著提(ti)高效(xiao)率的(de)直接途(tu)径。通过(guo)实现更有(you)效(xiao)的(de)热(re)传递,这(zhei)些解决方案有(you)助于减(jian)少能(neng)源和水的(de)消(xiao)(xiao)耗,这(zhei)是面临资源压力日益增大(da)的(de)设施的(de)关键考(kao)虑(lv)因素。
实施和(he)维护
我们(men)从运营团队听到的(de)最常(chang)见担忧之(zhi)一与(yu)转向液冷的(de)复杂(za)性有(you)关。然(ran)而,通过(guo)适当的(de)规划(hua)和合作(zuo)伙(huo)伴支持(chi),实施过(guo)程可以在没(mei)有(you)重大中(zhong)断的(de)情(qing)况下进行(xing)管理。差异化因素(su)在于与(yu)既了(le)解(jie)技术又(you)了(le)解(jie)数据中(zhong)心(xin)环境(jing)运营现实的(de)有(you)经验的(de)供应(ying)商(shang)合作(zuo)。
前瞻(zhan)性
随着芯(xin)片制(zhi)造商(shang)继续突(tu)破计算(suan)能(neng)力的(de)界限,热(re)管理(li)要求只(zhi)会继续增加(jia)。NVIDIA 首席执行官黄仁(ren)勋已(yi)经确认,即将(jiang)推出的(de) DGX 系统将(jiang)采用(yong)液(ye)冷(leng)(leng)(leng),并且他们已(yi)经制(zhi)定了(le)特(te)定的(de)水冷(leng)(leng)(leng)机架规(gui)格(ge)以应对这些冷(leng)(leng)(leng)却挑战(zhan)。这种将(jiang)液(ye)冷(leng)(leng)(leng)用(yong)于其性(xing)(xing)(xing)能(neng)最(zui)高的(de) AI 处理(li)器(qi)的(de)趋(qu)势(shi)只(zhi)是整个行业趋(qu)势(shi)的(de)一个例子。下一代处理(li)器(qi)将(jiang)产生更多的(de)热(re)量,使液(ye)冷(leng)(leng)(leng)成为维持性(xing)(xing)(xing)能(neng)和可(ke)靠性(xing)(xing)(xing)的(de)必然选择。
通过合作(zuo)实现创新
对于数据(ju)中心(xin)运营商来说,转向液冷需(xu)要精心(xin)规划和(he)(he)(he)正确的(de)(de)合作(zuo)伙(huo)伴关系(xi)。除了提(ti)(ti)供先(xian)进的(de)(de)液体和(he)(he)(he)基(ji)础(chu)设施外(wai),与能够提(ti)(ti)供解决方案部(bu)署前的(de)(de)全(quan)面(mian)测试和(he)(he)(he)验(yan)证,以(yi)及(ji)部(bu)署期间的(de)(de)持续支持和(he)(he)(he)维(wei)护的(de)(de)组织合作(zuo)也将变得(de)重要。为了跟上新技术(shu)的(de)(de)步(bu)伐,数据(ju)中心(xin)需(xu)要投资(zi)研(yan)发并继续快速(su)响应(ying)。
行(xing)业逐渐意识到,液冷将在资源限制内实现下一代计(ji)算(suan)方面发挥(hui)越(yue)来(lai)越(yue)重要的作用。现在拥抱这项技术的公司(si)将在支持(chi)未(wei)来(lai)苛刻(ke)的工作负载(zai)的同(tong)时,更好地(di)保持(chi)其(qi)组织(zhi)所依(yi)赖(lai)的可靠性和(he)效率。
瑞技液冷方案
瑞技(ByteBridge)致力于依据客户个性化需求,定制专属的高效制冷方案(并推出了业内首个面向企业的液(ye)冷培训课程)。在液冷技术领域,尤其是D2C直接芯片液冷解决方案方面,积累了精湛的专业技术,能够协助客户精心打造优化、高效且节能的数据中心制冷系统,确保数据中心顺畅扩展并充分发挥效能。携手瑞技,您将获得一位可靠的伙伴,共同应对AI数据中心制冷难题,打造适配未来的AI就绪数据中心,为AI工作负载筑牢根基。立即联系我们,获取最新液冷部署案例(助力(li) NVIDIA 云供应商完成印尼首个 GB200 液冷部(bu)署)!
