华为近日推出了最新的AI系统架构CloudMatrix 384 Supernode,该系统采用了高达384颗Ascend 910C芯片,整体算力高达300 PFLOPS,比起NVIDIA的GB200 NVL72性能高出约1.7倍,标志着中国在美国芯片禁令下的强劲反击。不过,这种以量补质的策略同时付出了高耗电的代价,每日功耗比对手高出将近4倍。
CloudMatrix 384 Supernode已经在中国安徽芜湖的数据中心投入使用。华为内部形容这套系统为原子能级AI解决方案,主要竞争对手是NVIDIA的NVL72架构。NVL72配备72颗Blackwell GPU,通过高速NVLink互连,整体算力为180 PFLOPS。尽管Ascend 910C的单颗性能约为Blackwell的三分之一,但华为借着5倍的数量堆叠,再加上3.6倍的内存容量和2.1倍的内存带宽,成功超越NVIDIA的旗舰系统。
华为还与中国初创企业SiliconFlow展开合作,计划利用CloudMatrix架构来支持自主研发的推理模型DeepSeek-R1。这一部署显示出中国正在稳步实现AI计算基础设施的去美国化,进一步加深中美间的科技对抗。
尽管CloudMatrix 384在系统设计上展现了创新,包括大规模的光学互连和软件优化,但其电力效率却偏低。总功耗为NVL72的3.9倍,每FLOP的耗电量为其2.3倍,每TB/S的内存带宽下的耗电为1.8倍,而内存容量耗电比则为1.1倍。虽然这些数据在欧美会引起关注,但在中国,电力供应并不构成主要限制。
根据SemiAnalysis的报告,中国仍以燃煤发电为主,并持续扩展太阳能、水力、风能及核能,能源增长速度位居全球之冠。自2011年以来新增的电网容量相当于整个美国电网的规模。这种电力优势使得中国能够在效率上做出一定妥协,以获得更大范围的AI扩展能力。
报告指出,CloudMatrix架构包含16个机柜,其中12个为运算机柜,每个机柜内放置32颗Ascend晶片,而其余的4个则作为光学互连核心。整体系统使用高达6,912颗400G LPO(线性可插拔光模块)收发器,取代传统铜线,提升了互连密度及延展能力,这一点与NVIDIA曾计划但未量产的DGX H100 NVL256游侠架构有一定相似之处。
尽管Ascend 910C完全由华为设计,但其制造过程仍高度依赖外国供应链,包括来自韩国的HBM高频宽记忆体、台湾TSMC提供的晶圆,以及美国、荷兰及日本制的半导体制造设备。据悉,TSMC因涉嫌绕过制裁供应晶圆,可能面临高达10亿美元的罚款。
华为亦通过第三方公司Sophgo向TSMC采购约2.9百万颗晶圆裸晶,能够生产80万颗Ascend 910B和105万颗Ascend 910C。同时,三星也成为中国主要的HBM供应商,据传华为已储备高达1300万组HBM堆叠组件,足以支持160万颗Ascend芯片的封装。
尽管中国本土晶圆代工厂SMIC的技术尚未完全达到先进制程,但正在扩充在上海、深圳及北京的产能,预计今年的月产量将达到5万片晶圆。假若可以持续获得外国供应的光阻材料及工具维护支援,SMIC的产量仍有进一步提升的空间。
整体来看,CloudMatrix 384彰显了中国通过系统整合来弥补晶片代工不足的策略。虽然单颗晶片性能不敌NVIDIA,但华为成功利用大规模堆叠与光学网络扩展,让计算总体性能上实现弯道超车,从而缩短与西方科技巨头的差距。



