英偉達H200發布,性能很強,奈何買不到
“皮衣刀客”才是最大贏家
前幾天,OpenAI一場開發者大會,讓整個AI人工智能行業的從業者幾乎徹夜難眠。而今天,NVIDIA英偉達同樣帶來了一個重磅消息——幾乎可以說是目前最快的AI算力芯片H200正式發布。
距離上一次英偉達發布“新品”還沒過去多久,皮衣刀客的步伐可以說是又快又穩。根據官方透露的信息,H200相比于此前的旗艦H100,直接性能提升有60%到90%,參數可以說是拉滿了。
算力GPU作為當下“地球上最稀缺的工程資源之一”,一度引來科技大廠們的“瘋搶”。在H200發布之后,相信已經有AI公司開始訂貨了。
不過仔細看H200的規格就能發現,H200的升級可能并沒有那么夸張,值得期待的,也許還是后來者。
只是一個“小”升級
對比H200與前代H100的規格,主要負責計算能力的核心單元部分規格并沒有改變,算力規模完全一致,所帶來的提升只是顯存容量從80GB提高到了141GB,顯存的規格從原本的HBM3升級到了HBM3e。
(圖源:anandtech)
由于本身算力部分并沒有變化,因此換用H200并不會對AI大模型的訓練速度產生更好的影響,以訓練175B大小的GPT-3舉例,同規模的H200大概只比H100快10%左右。
而它主要的提升之處在于“推理”。
一般而言,推理對于算力的需求并不高,限制反而在于單芯片的顯存大小以及顯存帶寬,如果應用到多GPU的互聯,那么信息通信的帶寬反而會不夠。即便如NV Link提供的900GB/s的數據通信速度,也無法媲美單卡內部超過3TB/s的速度,更不用說換了HBM3e顯存后高達4.8TB/s的性能了。
(圖源:NVIDIA)
同樣,更大的單卡顯存容量也能有效減少跨卡訪問的次數,算是一種變相的效率提升。
隨著當前AI大語言模型逐步邁向應用化,計算任務的重心已經由早期的訓練模型轉變為應用端的推理行為。
此前OpenAI就曾苦于AI太過火爆,擠占了大量的推理資源,國內比如此前曾紅極一時的“妙鴨相機”也因為用戶太多,沒有足夠的推理資源而需要等待很長時間才能出片。
而H200對比H100的推理能耗直接減半,極大降低了使用成本,真應了那句話——「買的越多,省的越多」
(圖源:NVIDIA)
有業內人士推測,后續消費級GPU可能也會出現類似的轉變,即在算力一定的情況下,通過提升顯存容量和帶寬以獲得更好的模型推理體驗,畢竟在“全民AI”的時代,客戶端的性能也需要跟上。
英偉達大規模與高性能計算副總裁Ian Buck表示:要利用生成式人工智能和高性能計算應用創造智能,必須使用大型、快速的GPU顯存,來高速高效地處理海量數據。借助H200,業界領先的端到端人工智能超算平臺的速度會變得更快,一些世界上最重要的挑戰,都可以被解決。
顯存是關鍵
自從近兩年AI爆火后就迅速帶動了AI服務器的需求爆發,AI大模型的數據參數龐大,除了需要算力支撐模型訓練,同樣需要數據的傳遞和處理。
過去20年間,算力硬件的性能提升了90000倍,但是內存、存儲的互聯帶寬只提升了30倍,二者已然有所脫節,數據傳遞的速度可能遠低于數據處理的效率。因此,如英偉達這樣的GPU廠商,就引入了HBM代替原本的GDDR內存,通過硅中介層與計算核心緊密互聯,加快數據傳輸速度。
據SK海力士介紹,HBM3e不僅滿足了用于AI的存儲器速度規格,也在發熱控制和客戶使用便利性等所有方面有所提升。在速度方面,其最高每秒可以處理1.15TB的數據。
早在今年8月,NVIDIA就已經計劃發布配備HBM3e顯存的 Grace Hopper GH200 超級芯片版本。
(圖源:NVIDIA)
根據anandtech的描述,H200差不多就是GH200的GPU部分,從前面也可以看到,H200的HBM3e顯存的容量有些奇怪,是141GB,HBM3e的物理容量應該是144GB,這是由于產量和良率而保留了部分容量。另一方面,H200的顯存頻率應該是6.5Gbps,雖然比H100提升了25%,但依舊沒有達到美光希望中的9.2Gbps。
所以,此次發布的H200可能依舊算不上“滿血版”,只能算是加上了HBM3e顯存的H100小更新,也正因此兩者是互相兼容的,已經在使用H100進行模型訓練的可以直接更換成H200。
需要注意的是,H200的實際出貨時間是2024年第二季度,也是由于海力士的HBM3e顯存需要到今年年底才能產出,最快量產得到明年初。由此可見顯存其實才是整個AI發展的重中之重。
(圖源:NVIDIA)
不過,在發布中還提到了一些細節,比如2024年的B100,似乎在性能上又能有接近兩倍的提升?推測未來的新架構可能會帶來一些不同,說不定就是那個真正的“滿血版”。
寫在最后
當然,受制于美國的出口禁令,H200再強,也賣不到國內。
前兩天有消息稱,英偉達專為中國市場又開發了新的HGX H20、L20 PCle和L2 PCle GPU,幾乎卡在了管制的算力極限上。
(圖源:知乎)
只可惜這個規格,嗨……希望國產替代盡快到來吧。
本文作者:Visssom,觀點僅代表個人,圖源:NVIDIA
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新