華為公布昇騰芯片路線:打造 “超節(jié)點+集群”算力,滿足持續(xù)增長需求
今天華為在上海舉行了2025年華為全聯(lián)接大會,華為輪值董事長徐直軍發(fā)表了題為“以開創(chuàng)的超節(jié)點互聯(lián)技術(shù),引領(lǐng)AI基礎(chǔ)設(shè)施新范式”的主題演講,正式發(fā)布全球最強算力超節(jié)點和集群。其中華為介紹了目前計算卡的開發(fā)情況,公布了昇騰芯片路線。
本次大會,華為推出了基于靈衢和超節(jié)點架構(gòu)的全新產(chǎn)品,包括全液冷數(shù)據(jù)中心AI超節(jié)點Atlas 950 SuperPoD、企業(yè)級風冷AI超節(jié)點服務(wù)器Atlas 850和Atlas 860、AI新一代標卡Atlas 350、業(yè)界首個通算超節(jié)點TaiShan 950 SuperPoD等。
其中Atlas 950 SuperPoD面向超大型AI計算任務(wù),從基礎(chǔ)器件、協(xié)議算法到光電技術(shù),實現(xiàn)系統(tǒng)級創(chuàng)新突破。通過正交架構(gòu),Atlas 950實現(xiàn)零線纜電互聯(lián),采用液冷接頭浮動盲插設(shè)計做到零漏液,獨創(chuàng)的材料和工藝讓光模塊液冷可靠性提升一倍。其創(chuàng)新的UB-Mesh遞歸直連拓撲網(wǎng)絡(luò)架構(gòu),支持單板內(nèi)、單板間和機架間的NPU全互聯(lián),以64卡為步長按需擴展,最大可實現(xiàn)8192卡無收斂全互聯(lián)。
另外TaiShan 950超節(jié)點基于Kunpeng 950打造,是全球首個通用計算超節(jié)點,其最大支持16節(jié)點,32個處理器,最大內(nèi)存48TB,同時支持內(nèi)存、SSD、DPU池化,上市時間是2026年第一季度。華為表示超節(jié)點的價值,不僅僅體現(xiàn)在智算和通算傳統(tǒng)業(yè)務(wù)領(lǐng)域。互聯(lián)網(wǎng)產(chǎn)業(yè)廣泛應(yīng)用的推薦系統(tǒng),正在從傳統(tǒng)推薦算法向生成式推薦系統(tǒng)演進。我們可以基于TaiShan 950和Atlas 950打造成混合超節(jié)點,為下一代生成式推薦系統(tǒng)打開全新架構(gòu)方向。
值得注意的是,華為將CANN 編譯器和虛擬指令集接口開放,其它軟件全開源,CANN基于Ascend 910B/C的開源開放將于2025年12月31日前完成,未來開源開放與產(chǎn)品上市同步。Mind系列應(yīng)用使能套件及工具鏈會全面開源,并于2025年12月31日前完成。此外,openPangu基礎(chǔ)大模型也將全面開源。
華碩還公布了昇騰芯片路線,表示至2028年,正在開發(fā)和規(guī)劃了三個系列:2026年是Ascend 950系列,包括了Ascend 950PR和Ascend 950DT兩顆芯片;2027年會有Ascend 960系列;2028年將迎來Ascend 970系列。
Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die,與前一代昇騰芯片相比,實現(xiàn)了幾個方面的提升:
第一,新增支持業(yè)界標準FP8/MXFP8/MXFP4等低數(shù)值精度數(shù)據(jù)格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。并特別支持華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。
第二,大幅度提升了向量算力。這主要通過三個方面實現(xiàn):其一,提升向量算力占比;其二,采用創(chuàng)新的新同構(gòu)設(shè)計,即支持 SIMD/SIMT 雙編程模型,SIMD能夠像流水線一樣處理“大塊”向量,而SIMT便于靈活處理“碎片化”數(shù)據(jù);其三,把內(nèi)存訪問顆粒度從512字節(jié)減少到128字節(jié),內(nèi)存訪問更精細,從而更好地支持了離散且不連續(xù)的內(nèi)存訪問。
第三,互聯(lián)帶寬相比Ascend 910C提升了2.5倍,達到2TB/s。
第四,結(jié)合推理不同階段對于算力、內(nèi)存、訪存帶寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構(gòu)成芯片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。
Ascend 950PR主要面向推理Prefill階段和推薦業(yè)務(wù)場景,將在2026年一季度推出,首先支持的產(chǎn)品形態(tài)是標卡和超節(jié)點服務(wù)器。Ascend 950DT更注重推理Decode階段和訓練場景,將在2026年第四季度推出。
規(guī)劃中的Ascend 960在算力、內(nèi)存訪問帶寬、內(nèi)存容量、互聯(lián)端口數(shù)等各種規(guī)格上相比Ascend 950翻倍,大幅度提升訓練、推理等場景的性能,計劃2027年四季度推出。同時還支持華為自研的HiF4數(shù)據(jù)格式,這是目前業(yè)界最優(yōu)的4bit精度實現(xiàn),能進一步提升推理吞吐,并且比業(yè)界FP4方案的推理精度更優(yōu)。
圍繞Ascend 960,華為將發(fā)布第二款超節(jié)點產(chǎn)品Atlas 960超節(jié)點,最大可支持15488卡。其擁有176個計算柜,44個互聯(lián)柜,共220個機柜,占地面積約2200平方米。
Ascend 970的規(guī)格還沒有完全確定,總體方向是在各項指標上大幅度升級,全面升級訓練和推理性能,計劃2028年四季度推出。相比Ascend 960,Ascend 970的FP4算力、FP8算力、互聯(lián)帶寬要全面翻倍,內(nèi)存訪問帶寬至少增加1.5倍。
為了配合超節(jié)點產(chǎn)品,華為的鯤鵬處理器將往更多核、更高性能等方向持續(xù)演進。同時通過自研的雙線程靈犀核,使鯤鵬處理器能方便支持更多線程。2026年第一季度將推出Kunpeng 950處理器,包括兩個版本,分別是:96核/192線程和192核/384線程;支持通用計算超節(jié)點;安全方面新增四層隔離,成為鯤鵬首顆實現(xiàn)機密計算的數(shù)據(jù)中心處理器。
2028年第一季度,鯤鵬處理器將在芯片微架構(gòu)、先進封裝技術(shù)等領(lǐng)域持續(xù)突破關(guān)鍵技術(shù),將再次推出兩個版本,分別是高性能版本,96核/192線程,單核性能提升50%+,主要面向AI host、數(shù)據(jù)庫等場景。以及高密版本,不少于256核/512線程,主要面向虛擬化、容器、大數(shù)據(jù)、數(shù)倉等場景。