華為近日推出了最新的AI系統架構CloudMatrix 384 Supernode,該系統採用了高達384顆Ascend 910C晶片,整體算力高達300 PFLOPS,比起NVIDIA的GB200 NVL72性能高出約1.7倍,標誌著中國在美國晶片禁令下的強勁反擊。不過,這種「以量補質」的策略同時付出了高耗電的代價,每日功耗比對手高出將近4倍。
CloudMatrix 384 Supernode已經在中國安徽蕪湖的數據中心投入使用。華為內部形容這套系統為「原子能級」AI解決方案,主要競爭對手是NVIDIA的NVL72架構。NVL72配備72顆Blackwell GPU,透過高速NVLink互連,整體算力為180 PFLOPS。儘管Ascend 910C的單顆效能約為Blackwell的三分之一,但華為藉著5倍的數量堆疊,再加上3.6倍的記憶體容量和2.1倍的記憶體頻寬,成功超越NVIDIA的旗艦系統。
華為還與中國初創企業SiliconFlow展開合作,計劃利用CloudMatrix架構來支援自主研發的推理模型DeepSeek-R1。這一部署顯示出中國正在穩步實現AI計算基礎設施的去美國化,進一步加深中美間的科技對抗。
儘管CloudMatrix 384在系統設計上展現了創新,包括大規模的光學互連和軟體優化,但其電力效率卻偏低。總功耗為NVL72的3.9倍,每FLOP的耗電量為其2.3倍,每TB/S的記憶體頻寬下的耗電為1.8倍,而記憶體容量耗電比則為1.1倍。雖然這些數據在歐美會引起關注,但在中國,電力供應並不構成主要限制。
根據SemiAnalysis的報告,中國仍以燃煤發電為主,並持續擴展太陽能、水力、風能及核能,能源增長速度位於全球之冠,自2011年以來新增的電網容量相當於整個美國電網的規模。這種電力優勢使得中國能夠在效率上作出妥協,以獲得更大範圍的AI擴展能力。
報告指出,CloudMatrix架構包含16個機櫃,其中12個為運算機櫃,每個機櫃內放置32顆Ascend晶片,而其餘的4個則作為光學互連核心。整體系統使用高達6,912顆400G LPO(線性可插拔光模組)收發器,取代傳統銅線,提升了互連密度及延展能力,這一點與NVIDIA曾計劃但未量產的DGX H100 NVL256「Ranger」架構有一定相似之處。
儘管Ascend 910C完全由華為設計,但其製造過程仍高度依賴外國供應鏈,包括來自韓國的HBM高頻寬記憶體、台灣TSMC提供的晶圓,以及美國、荷蘭及日本製的半導體製造設備。據悉,TSMC因涉嫌繞過制裁供應晶圓,可能面臨高達10億美元的罰款。
華為亦透過第三方公司Sophgo向TSMC採購約2.9百萬顆晶圓裸晶,能夠生產80萬顆Ascend 910B和105萬顆Ascend 910C。同時,三星也成為中國主要的HBM供應商,據傳華為已儲備高達1300萬組HBM堆疊組件,足以支援160萬顆Ascend晶片的封裝。
儘管中國本土晶圓代工廠SMIC的技術尚未完全達到先進製程,但正在擴充在上海、深圳及北京的產能,預計今年的月產量將達到5萬片晶圓。假若可以持續獲得外國供應的光阻材料及工具維護支援,SMIC的產量仍有進一步提升的空間。
整體來看,CloudMatrix 384彰顯了中國透過系統整合來彌補晶片代工不足的策略。雖然單顆晶片效能不敵NVIDIA,但華為成功利用大規模堆疊與光學網絡擴展,讓計算總體性能上實現「彎道爬頭」,從而縮短與西方科技巨頭的差距。
