AMD計劃打造一個由120萬顆GPU組成的計算機集群

by: admin 行業(yè)資訊 0 2024-06-27 18:34:52

AMD，作為全球知名的半導(dǎo)體和計算機處理器制造商，最近透露了一個雄心勃勃的計劃——打造一個擁有多達120萬顆GPU的超級計算機集群。這一消息在業(yè)界引起了廣泛關(guān)注，被認(rèn)為是AMD與英偉達在AI計算領(lǐng)域競爭的重要一步。

AMD計劃打造一個由120萬顆GPU組成的計算機集群.jpg

AMD的這一表態(tài)來自于公司執(zhí)行副總裁兼數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod。當(dāng)被問及AMD是否已經(jīng)收到關(guān)于120萬顆GPU集群的咨詢時，F(xiàn)orrest表示，這一表述幾乎是準(zhǔn)確的。這意味著AMD不僅有了這樣的計劃，而且已經(jīng)與潛在的客戶進行了深入的溝通。

然而，業(yè)界對于這樣一個龐大的GPU集群持有一定的疑慮。通常來說，AI訓(xùn)練集群由幾千個GPU構(gòu)建，通過高速互聯(lián)能力進行連接。而擁有120萬個GPU的集群，其規(guī)模之大幾乎超出了人們的想象。在這樣的系統(tǒng)中，延遲、功耗以及硬件故障等問題將變得尤為突出。

首先，AI工作負(fù)載對延遲極為敏感。在AI訓(xùn)練中，大量的數(shù)據(jù)需要在各個GPU之間進行傳輸和處理。如果某些數(shù)據(jù)傳輸比其他數(shù)據(jù)傳輸耗時更長，就會對整個系統(tǒng)的性能產(chǎn)生負(fù)面影響，甚至干擾正常的工作流程。因此，在構(gòu)建這樣一個龐大的GPU集群時，如何確保數(shù)據(jù)傳輸?shù)母咝院头€(wěn)定性將是一個巨大的挑戰(zhàn)。

其次，功耗也是一個不可忽視的問題。GPU作為計算密集型設(shè)備，其功耗通常較高。在一個擁有120萬個GPU的集群中，功耗將是一個巨大的負(fù)擔(dān)。這不僅會增加能源成本，還可能對環(huán)境產(chǎn)生不良影響。因此，如何在保證性能的同時降低功耗，將是AMD需要重點考慮的問題。

此外，硬件故障也是構(gòu)建這樣一個龐大集群時需要考慮的因素。目前的超級計算機每隔幾小時就會發(fā)生一次硬件故障。當(dāng)規(guī)模擴大至目前已知最da集群的30倍時，硬件故障的頻率和嚴(yán)重程度將大大增加。這不僅會影響系統(tǒng)的穩(wěn)定性和可靠性，還可能對數(shù)據(jù)安全造成威脅。因此，如何設(shè)計出一個具有高度容錯性和自我修復(fù)能力的系統(tǒng)，將是AMD需要解決的關(guān)鍵問題。

目前已知運行速度最快的超級計算機之一Frontier，其GPU數(shù)量“僅有”37888個。相比之下，AMD計劃打造的120萬顆GPU集群無疑是一個巨大的飛躍。這一構(gòu)思不僅表明了AMD在AI計算領(lǐng)域的雄心壯志，也反映了2020年代AI競賽的嚴(yán)肅性。盡管存在諸多挑戰(zhàn)和疑慮，但AMD的這一計劃無疑將推動整個行業(yè)向前發(fā)展，并為我們帶來更多驚喜和可能性。

Forrest Norrod沒有透露哪個組織正考慮構(gòu)建如此規(guī)模的系統(tǒng)，但確實提到有“非常清醒的人”正考慮花費數(shù)百億乃至千億美元在AI訓(xùn)練集群上。這意味著，盡管面臨諸多挑戰(zhàn)和困難，但仍有許多企業(yè)和機構(gòu)對AI技術(shù)抱有極大的信心和期望。他們愿意投入巨額資金和資源來推動AI技術(shù)的發(fā)展和應(yīng)用，以應(yīng)對日益復(fù)雜的業(yè)務(wù)挑戰(zhàn)和市場需求。

億配芯城 (2).png