AI集群,對抗英偉達的新“殺手锏”?
大力出奇跡,也是一個新思路。
上周,英偉達以3.3萬億美元成功超越蘋果等巨頭,登上了全球市值第一。
除了股價上的成功外,英偉達以不可阻擋的膨脹勢頭,再次證明了自己在AI設施領域的王者地位。
目前,英偉達的AI芯片已經占據了全世界數據中心約80%的份額,包括大模型、智能汽車、機器人在內,多個行業都依賴著英偉達龐大的算力體系。
反觀同樣逐鹿AI浪潮的AMD,在戰略上已經遠遠落后于英偉達。
這其中,英偉達在軟件生態上的優勢占了很大一部分原因。而另一方面,AMD其實選擇了一條不一樣的思路——他們思考如何將數量龐大的GPU構建成一個更大規模的超大規模集群。
近日,AMD執行副總裁兼數據中心解決方案集團總經理Forrest Norrod在接受采訪時表示,AMD將構建全球最大的單體AI訓練集群,將集成高達120萬片的GPU。
作為對比,目前全球最強的超級計算機Frontier所配備的GPU數量只有37888片,這也意味著這個AI訓練集群的GPU規模將是目前最強超算的30多倍。
不過AMD方面并沒有透露哪個組織正在考慮構建這種規模的AI系統,但提到這個AI訓練集群將花費數百億到數千億美元。
AI集群并不是什么新概念,包括英偉達自己也多次提到“AI工廠”。
單從字面意思就非常好理解,就是把成千上萬個GPU集成到一個工廠里,從而來訓練大模型或是進行其他工作。
而其他組織搭建AI集群的初衷大多是想降低AI的訓練成本。要知道訓練AI的花銷大頭還是GPU,且不說單個芯片根本沒辦法滿足大模型訓練的需求,更重要的是高算力的GPU供不應求,只能將算力稍差的GPU進行互連。
但對比通常由幾千個 GPU構建而成AI集群,如果要創建一個擁有高達120萬個 GPU 的單體 AI 集群,意味著將會面臨極為復雜的高速互連網絡,并且還會有延遲、功耗、硬件故障等諸多的問題,這似乎是難以實現的。
另外,如此龐大的AI訓練集群,將會產生極為龐大的能耗,供電將會是一個大難題。
值得一提的是,英偉達早已預料到這個風險。因此在去年,黃仁勛召集了一系列會議,與公司高管討論了數據中心空間不足的問題以及客戶是否有足夠電廠來容納、運行所訂購的GPU。
對于AMD來說,他們是優勢之一就是優秀的“計算能效”。
近些年以來,AMD的核心目標之一就是提升計算能效。蘇姿豐也在演講中多次提到,提高計算能效可以更好地解決能源與算力之間的矛盾,并且讓超級計算中心可以被部署到更多的地方。
可見,AMD的產品在設計時就已經考慮到能源負擔與AI能力之前的關系,最終也是為大面積建設AI集群提供基礎。
總的來說,AI集群的思路就是“大力出奇跡”,雖然有許多客觀因素的限制,但確實是一條值得探索的道路。
一方面,算力需求的膨脹的是可以長期預測的趨勢。另一方面,隨著臺積電代工能力日趨飽和,來自硬件層面的限制將影響單個GPU上限的發展速度。
或許一個由120萬片GPU組成的瘋狂計劃,很快就能成為現實。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新