①英偉達(dá)GPU及機(jī)柜的散熱、信號(hào)干擾等問題陸續(xù)浮現(xiàn),甚至影響到頂級(jí)客戶訂單,公司亟需解法。 ②大摩最新報(bào)告預(yù)估,2023至2030年,CPO市場(chǎng)規(guī)模將從800萬美元激增至93億美元——7年千倍成長(zhǎng)空間,年復(fù)合成長(zhǎng)率高達(dá)172%。
《科創(chuàng)板日?qǐng)?bào)》1月19日訊 GPU新品出現(xiàn)散熱問題、大客戶訂單受影響,這些天的英偉達(dá),或許并不好過。想要保住“算力霸主”的寶座,這家巨頭亟需一劑良藥。
日前有消息稱,英偉達(dá)將在今年3月的GTC大會(huì)上推出CPO交換機(jī),若試產(chǎn)順利,則有望8月量產(chǎn),屆時(shí)CPO交換機(jī)可實(shí)現(xiàn)115.2T的信號(hào)傳輸。
媒體援引供應(yīng)鏈猜測(cè)稱,“針對(duì)(CPO交換機(jī))產(chǎn)能,英偉達(dá)非常著急?!?/strong>
雖然黃仁勛對(duì)外宣稱供貨一切順利,但目前GB200系列出貨實(shí)在不容樂觀。GB200 NVL72機(jī)柜設(shè)計(jì)復(fù)雜,高性能計(jì)算帶來了高功耗及高散熱需求。零部件廠商表示,單機(jī)柜問題已經(jīng)“大致解決”,但多機(jī)柜連接問題“巨大”——機(jī)柜連接需要高達(dá)8萬根銅線,散熱、信號(hào)干擾等問題陸續(xù)浮現(xiàn)。
這不是聳人聽聞的夸大其辭——散熱和連接的巨大問題,已經(jīng)影響到了英偉達(dá)那些頂級(jí)大客戶的訂單。
本周有另一報(bào)道指出,微軟、亞馬遜、谷歌和Meta等公司已經(jīng)選擇推遲Blackwell訂單、或直接“棄B(Blackwell)投H(Hopper)”。一方面,GB200的功耗“前所未有得高”,每個(gè)機(jī)柜功耗高達(dá)120-132千瓦,直接將傳統(tǒng)冷卻系統(tǒng)推向極限。另一方面,Blackwell機(jī)柜還出現(xiàn)連接故障,妨礙了熱量分配,又進(jìn)一步加劇了熱管理問題。
散熱互連問題步步緊逼,英偉達(dá)拿什么解決?芯片級(jí)優(yōu)化,更先進(jìn)的冷卻方案,還是徹底改造機(jī)柜?
這一次,光通信或許成為現(xiàn)階段的最佳技術(shù)解藥,英偉達(dá)將目光投向了CPO。
▌7年千倍成長(zhǎng)空間與172% CAGR
為什么是CPO?
CPO全稱為Co-Packaged Optics,中文譯為光電共封裝,是一種新型光電子集成技術(shù)。通過進(jìn)一步縮短光信號(hào)輸入和運(yùn)算單位之間的電學(xué)互連長(zhǎng)度,CPO在提高光模塊和ASIC芯片之間互連密度的同時(shí),實(shí)現(xiàn)了更低功耗,已成為解決未來數(shù)據(jù)運(yùn)算處理中海量數(shù)據(jù)高速傳輸問題的重要技術(shù)途徑。
在2023年2月發(fā)表的一篇研究論文中,英偉達(dá)研究人員曾直言,“現(xiàn)在,隨著CPO面世,我們正處于新一場(chǎng)重大變革的邊緣。在CPO架構(gòu)中,光學(xué)器件將和ASIC封裝在一起,以降低能耗、實(shí)現(xiàn)更高帶寬。雖然十年前CPO就已開啟系統(tǒng)部署,但最近的一系列研究演示以及相關(guān)產(chǎn)品說明都表明,未來幾年,CPO將得到市場(chǎng)廣泛采用?!?/p>
摩根士丹利在最新發(fā)布的AI供應(yīng)鏈產(chǎn)業(yè)報(bào)告中指出,CPO具備AI數(shù)據(jù)中心的傳輸潛力,預(yù)估2023年至2030年期間,其市場(chǎng)規(guī)模將從800萬美元激增至93億美元——7年千倍的成長(zhǎng)空間,年復(fù)合成長(zhǎng)率高達(dá)172%。
此前有消息稱,英偉達(dá)計(jì)劃從2025年下半年推出的GB300芯片開始采用CPO,Rubin平臺(tái)(Blackwell下一代平臺(tái))也將采用該技術(shù),旨在突破目前NVLink 72互連(最多可連接72個(gè)GB200芯片)的限制,提升通信質(zhì)量。
大摩的報(bào)告則指出,英偉達(dá)的Rubin平臺(tái)及其NVL服務(wù)器機(jī)柜系統(tǒng),在導(dǎo)入CPO的能見度更高,且每系統(tǒng)中的內(nèi)含價(jià)值更高,預(yù)估2027年占全球CPO需求的75%。
▌與巨頭同行
不論如何,CPO這條路,英偉達(dá)也許是選對(duì)了,從AMD、思科、IBM到英特爾,都是同行者。
例如1月6日,美國(guó)芯片大廠Marvell(美滿電子)宣布,公司在定制AI加速器架構(gòu)上取得突破,整合了CPO技術(shù),大幅提升服務(wù)器性能。這種新架構(gòu)能讓AI服務(wù)器能力實(shí)現(xiàn)拓展,從目前使用銅互連的單個(gè)機(jī)架內(nèi)的數(shù)十個(gè)XPU,拓展到橫跨多個(gè)機(jī)架的數(shù)百個(gè)XPU。通過這一架構(gòu),超大云服務(wù)商將能開發(fā)定制XPU,實(shí)現(xiàn)更高的帶寬密度,并在單個(gè)AI服務(wù)器內(nèi)提供更長(zhǎng)距離的XPU到XPU連接,同時(shí)具有最佳延遲和功率效率。
2024年末IBM宣布實(shí)現(xiàn)一項(xiàng)重大CPO技術(shù)突破,可以以“光速”訓(xùn)練AI模型,同時(shí)節(jié)省大量能源。根據(jù)IBM結(jié)論,這項(xiàng)CPO技術(shù)可以將標(biāo)準(zhǔn)大模型的訓(xùn)練時(shí)間從3個(gè)月縮短至3周;并且,與中端電氣連接相比,能耗降低了5倍多,數(shù)據(jù)中心互連電纜的長(zhǎng)度可以從1米延伸至數(shù)百米,大幅降低拓展生成式AI的成本。
除此之外,英特爾、AMD、思科等均有在近年OFC展上推出CPO原型機(jī)。
▌還有多遠(yuǎn)?
站在當(dāng)下節(jié)點(diǎn),CPO這根“稻草”能救得了英偉達(dá)嗎?
或許還需要等待。
在1月16日的投資者會(huì)議上,作為英偉達(dá)CPO合作伙伴臺(tái)積電的董事長(zhǎng),魏哲家表示,雖然CPO已經(jīng)有初步成果(Good Result),但想要達(dá)到量產(chǎn)階段仍需要1年甚至1年半以上時(shí)間。
另有媒體援引分析師表述稱,CPO進(jìn)度將影響英偉達(dá)Rubin系列的量產(chǎn)進(jìn)程。供應(yīng)鏈透露,目前“量產(chǎn)確實(shí)有難度,尤其是在設(shè)備部分仍相當(dāng)吃緊,另外良率也有待提升”。
值得一提的是,1月16日,針對(duì)GB200服務(wù)器散熱問題,黃仁勛表示,Blackwell平臺(tái)散熱技術(shù)相對(duì)復(fù)雜,不過Blackwell系統(tǒng)已開始全面量產(chǎn),初期面對(duì)的挑戰(zhàn)對(duì)比系統(tǒng)的復(fù)雜度,是很正常的,Blackwell系統(tǒng)已開始銷售給全球客戶。
![arrow](https://cdnjs.cls.cn/www/20200601/image/right-arrow.png)