在人工智能領(lǐng)域,華為再次展現(xiàn)了其強(qiáng)大的技術(shù)實(shí)力與創(chuàng)新精神。2025年4月16日,華為最新發(fā)布的密集模型——盤古Ultra,在性能上已與國際頂尖模型DeepSeek-R1相媲美,這一成就不僅標(biāo)志著國產(chǎn)AI算力生態(tài)的進(jìn)一步成熟,更彰顯了華為在超大規(guī)模模型訓(xùn)練領(lǐng)域的自主可控技術(shù)實(shí)力。
華為盤古Ultra模型是一款擁有1350億參數(shù)的密集大模型,其整個(gè)訓(xùn)練過程完全基于華為自研的昇騰AI集群,未使用任何英偉達(dá)硬件。這一突破性的技術(shù)實(shí)現(xiàn),打破了以往國內(nèi)研究團(tuán)隊(duì)在獲取高性能計(jì)算資源方面的限制,為國內(nèi)大模型技術(shù)的快速發(fā)展開辟了新道路。
盤古Ultra模型在復(fù)雜推理、多模態(tài)理解等任務(wù)中表現(xiàn)優(yōu)異,這得益于華為團(tuán)隊(duì)在模型架構(gòu)和系統(tǒng)優(yōu)化方面的深入研究和創(chuàng)新。為了穩(wěn)定訓(xùn)練過程,華為團(tuán)隊(duì)提出了深度縮放夾心歸一化(Depth-Scaled Sandwich-Norm)和微小初始化(TinyInit)兩種關(guān)鍵技術(shù)。這些技術(shù)有效解決了超深網(wǎng)絡(luò)訓(xùn)練中的不穩(wěn)定性和收斂困難等問題,使得盤古Ultra模型能夠在13.2萬億高質(zhì)量數(shù)據(jù)上進(jìn)行全流程無損失突刺的長穩(wěn)訓(xùn)練。
在預(yù)訓(xùn)練階段的評(píng)估中,盤古Ultra模型在絕大多數(shù)英文基準(zhǔn)任務(wù)以及所有中文任務(wù)上均取得了最佳性能,顯著優(yōu)于Llama 405B、DeepSeek-V3等主流基線模型。特別是在MMLU、TriviaQA、GSM8K等高難度數(shù)據(jù)集上,盤古Ultra展現(xiàn)了卓越的語言理解與推理能力。
經(jīng)過進(jìn)一步的指令微調(diào)后,盤古Ultra模型的性能得到了進(jìn)一步提升。在AIME 2024、MATH-500等數(shù)學(xué)推理任務(wù)以及LiveCodeBench等編程競賽題中,盤古Ultra達(dá)到了業(yè)界領(lǐng)先水平。此外,在Arena Hard、MMLU-pro等涉及通用語言理解和推理能力的測試中,盤古Ultra同樣表現(xiàn)出色,充分展示了其在高性能推理領(lǐng)域的競爭力和技術(shù)實(shí)力。
華為表示,盤古Ultra模型的未來應(yīng)用前景廣闊。憑借其卓越的性能和自主可控的技術(shù)實(shí)力,盤古Ultra將優(yōu)先應(yīng)用于金融、醫(yī)療等行業(yè)。在金融領(lǐng)域,盤古Ultra可以幫助銀行和金融機(jī)構(gòu)進(jìn)行智能風(fēng)控,提高信貸審批效率和準(zhǔn)確性;在醫(yī)療領(lǐng)域,盤古Ultra可以輔助醫(yī)生進(jìn)行疾病診斷和治療方案制定,提高醫(yī)療服務(wù)的質(zhì)量和效率。
值得一提的是,盤古Ultra模型的訓(xùn)練過程完全基于國產(chǎn)技術(shù)棧,未使用任何英偉達(dá)硬件。這一成就不僅體現(xiàn)了華為在AI芯片和計(jì)算集群方面的技術(shù)積累和創(chuàng)新能力,也彰顯了國產(chǎn)AI算力生態(tài)的進(jìn)一步成熟和自主可控的重要性。
總之,華為盤古Ultra模型的發(fā)布是國產(chǎn)AI算力生態(tài)邁向新高度的重要標(biāo)志。隨著盤古Ultra在金融、醫(yī)療等行業(yè)的廣泛應(yīng)用和不斷迭代升級(jí),我們有理由相信,國產(chǎn)AI技術(shù)將在全球范圍內(nèi)展現(xiàn)出更加強(qiáng)勁的競爭力和影響力。
友情提示: 軟盟,專注于提供全場景全棧技術(shù)一站式的軟件開發(fā)服務(wù),歡迎咨詢本站的技術(shù)客服人員為您提供相關(guān)技術(shù)咨詢服務(wù),您將獲得最前沿的技術(shù)支持和最專業(yè)的開發(fā)團(tuán)隊(duì)!更多詳情請(qǐng)?jiān)L問軟盟官網(wǎng)http://www.greendata.org.cn獲取最新產(chǎn)品和服務(wù)。