在DeepSeek極低成本的推動下,開源模型和閉源模型的差距顯著縮小,也掀起一輪國產(chǎn)AI芯片廠商競相適配風潮。
21世紀經(jīng)濟報道記者綜合觀察發(fā)現(xiàn),大約自2月1日開始,國產(chǎn)頭部AI芯片廠商先后宣布實現(xiàn)與DeepSeek旗下不同模型陸續(xù)展開適配工作。據(jù)不完全統(tǒng)計,目前有不少于20家國內(nèi)廠商參與其中。
AI芯片市場主要包含CPU、GPU、ASIC、FPGA等不同類型芯片,在AI對大規(guī)模并行計算的需求下,GPU芯片需求快速攀升,由此帶來英偉達業(yè)績和股價的雙重飆升。但DeepSeek的出現(xiàn),象征著AI推理側(cè)成本正在快速下探,由此將拉動更為廣闊的應用市場涌現(xiàn)。
這意味著,不僅限于GPU芯片,在AI推理側(cè)有細分優(yōu)勢的ASIC、FPGA等芯片也將有豐富的發(fā)展機會。此外,國產(chǎn)AI芯片廠商恰恰在AI推理領(lǐng)域有更多能力沉淀,因此多名業(yè)內(nèi)人士對記者表示,這有望推動國內(nèi)廠商有機會在推理側(cè)與英偉達搶占一定份額。
但是,此前DeepSeek多采用英偉達GPU系列芯片,更多適配CUDA生態(tài),國產(chǎn)芯片如何在此條件下撬動更多份額,這又是否會為英偉達的市場帶來擠壓?都是業(yè)內(nèi)的關(guān)注焦點。
圖片來源:創(chuàng)意制圖 梁遠浩
伴隨DeepSeek席卷全球而來的,是國內(nèi)芯片廠商的涌動。2月以來,多家國內(nèi)AI芯片廠商密集宣布,與DeepSeek不同規(guī)格模型陸續(xù)完成適配。
例如,2月2日,Gitee AI稱上線1.5B、7B、14B、32B四個尺寸的DeepSeek R1模型,并均部署在國產(chǎn)沐曦曦云GPU上。2月5日,Gitee AI又宣布,經(jīng)測試已確認DeepSeek-V3全精度滿血版(671B)可以成功運行在沐曦訓推一體GPU上,并將V3滿血版上線到平臺上。
2月4日,天數(shù)智芯稱在與Gitee AI協(xié)作下,用時一天完成與DeepSeek R1的適配工作,上線1.5B、7B、14B規(guī)格大模型服務(wù)。2月9日,天數(shù)智芯稱,DeepSeek R1-Distill-Qwen(1.5B/7B/14B/32B)、DeepSeek R1-Distill-Llama(8B/70B)等多款不同參數(shù)模型服務(wù)已經(jīng)在各大平臺上線。
2月6日,燧原科技完成對DeepSeek全量模型適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。
綜合觀察這些廠商的表述不難發(fā)現(xiàn),“適配速度”是尤其被重視的指標。率先被適配的是模型參數(shù)量偏小的蒸餾模型,MoE基礎(chǔ)模型的適配時間顯然會更長。
這背后其實透露出,國內(nèi)AI芯片廠商在試圖證實,自身在AI生態(tài)適配方面的速度和實力。
對比來看,英偉達GPU芯片目前被全球廣泛使用,大有壟斷態(tài)勢,背后源自其構(gòu)建了三大護城河:硬件GPU芯片+軟件CUDA生態(tài)+NV Link連接。國產(chǎn)芯片要在GPU領(lǐng)域加速發(fā)展?jié)B透,生態(tài)建設(shè)就是重要一環(huán),生態(tài)的完善程度,一定程度決定了AI芯片的能力是否可以被充分釋放以及應用落地速度。
但CUDA生態(tài)已發(fā)展十多年,在這一層面要很快完成追趕顯然不容易,目前國產(chǎn)芯片廠商中,有的選擇自主架構(gòu)、先從垂直應用領(lǐng)域著手構(gòu)建生態(tài),有的則兼容CUDA生態(tài)來推動發(fā)展。
海光信息就指出,因其DCU芯片采用了GPGPU通用加速計算架構(gòu),DeepSeek模型可直接在DCU上運行,并不需要大量適配工作,技術(shù)團隊的主要工作是進行精度驗證和持續(xù)的性能優(yōu)化。
“眾多國產(chǎn)AI芯片廠商與DeepSeek的快速適配潮是中國芯片實現(xiàn)國際化突擊的第一步。”CIC灼識咨詢高級咨詢顧問張笑璐對記者分析道,DeepSeek對于中國AI芯片廠商的利好非常確定,通過與DeepSeek合作,中國芯片廠商加速了深度學習框架和分布式訓練適配,推動了中國“國產(chǎn)算力+國產(chǎn)大模型”閉環(huán)生態(tài)。
她進一步指出,過去中國AI芯片的核心挑戰(zhàn)是英偉達GPU和其CUDA生態(tài)在全球AI訓練芯片領(lǐng)域的統(tǒng)治地位。而DeepSeek的出現(xiàn),通過模型蒸餾技術(shù)和高效的算法優(yōu)化,降低模型對于硬件算力要求。同時DeepSeek通過專家混合系統(tǒng)(MoE)、多頭潛在注意力機制(MLA)和RMSNorm核心組件,并采用專家共享機制、動態(tài)路由算法和潛在變量緩存技術(shù),在模型保持高性能水平的同時降低計算開銷,以實現(xiàn)在有限計算資源的情況下的高效運行。
“性能表現(xiàn)角度來看DeepSeek推理任務(wù)表現(xiàn)與OpenAI媲美,甚至在部分任務(wù)有所領(lǐng)先。這使得國產(chǎn)AI芯片在推理端可以快速實現(xiàn)商業(yè)化,同時說明了用國產(chǎn)AI芯片替換英偉達GPU是非??尚械??!睆埿﹁纯偨Y(jié)道。
當然她也指出,訓練端國產(chǎn)芯片與英偉達的差異依然存在,在更復雜的模型訓練場景下,國產(chǎn)芯片還需提升。此外也有挑戰(zhàn),中國AI芯片生態(tài)碎片化問題還需要進一步統(tǒng)一,來提升整體開發(fā)效率,降低開發(fā)成本。
在DeepSeek帶動下,近日來,包括OpenAI、豆包、百度等巨頭也證實了推理側(cè)成本正在快速下降的現(xiàn)實。
張笑璐對21世紀經(jīng)濟報道記者分析,DeepSeek訓練成本的大幅下降打破了行業(yè)更高訓練成本與更好的模型/產(chǎn)品性能表現(xiàn)的局限,因此行業(yè)關(guān)注點更多從過去決定下限的訓練環(huán)節(jié),轉(zhuǎn)向現(xiàn)在能夠確定上限的推理環(huán)節(jié)。對于下游行業(yè)來說,中算力的玩家也能夠在DeepSeek的助力下實現(xiàn)性能提升。
通常來說,被廣泛采用的英偉達GPU芯片早期多被用于AI大模型訓練,但到了推理階段,考慮到不同廠商的訴求差異,更多應用類廠商都開始著力開發(fā)自己的AI推理芯片,多為定制化ASIC芯片。
海外云服務(wù)廠商谷歌、Meta、亞馬遜等在近期發(fā)布財報過程中都或多或少提到了自研推理芯片的業(yè)務(wù)進展。例如谷歌借助自研TPU芯片Trillium系列,加速搜索引擎能力優(yōu)化;Meta借助自研芯片MTIA系列強化社群算法和廣告分發(fā)能力等。
對此,TrendForce集邦咨詢分析師龔明德對記者分析,“預期在DeepSeek驅(qū)動下,將促使CSP(云服務(wù)商)業(yè)者更積極投入較低成本的自有ASIC方案,并從AI Training(訓練)重心轉(zhuǎn)往AI Inference(推理)。展望2028年,其占比預期將逐漸提升至五成?!?/p>
在此發(fā)展態(tài)勢下,他認為,這將有望帶動國內(nèi)各行業(yè)(如車用、電商、互聯(lián)網(wǎng)及各種基建等)的AI推理芯片開發(fā)或相關(guān)業(yè)者發(fā)展商機。然而,仍面臨主要挑戰(zhàn)在于,無論AI芯片硬件或軟件方面,均需投入相當?shù)某杀净驎r間累積。
不過這由此引發(fā)ASIC芯片是否會搶占AI芯片整體市場中GPU芯片的地位。根據(jù)21世紀經(jīng)濟報道記者綜合了解,業(yè)內(nèi)普遍認為并非如此,應該說,ASIC芯片和GPU芯片是在共同“做大蛋糕”,而非“分食”。
TrendForce集邦咨詢分析師邱珮雯對21世紀經(jīng)濟報道記者指出,從AI芯片來看,未來市場GPU與ASIC會同時并存。云端業(yè)者除了采用英偉達GPU以外,也在積極研發(fā)自身ASIC芯片,除了針對自身應用定制化以外,還能降低對英偉達芯片的依賴度,同時降低支出成本。
“ASIC芯片的成本優(yōu)勢可能會逐步顯現(xiàn)。”張笑璐也認為,盡管ASIC在某些特定推理場景中會持續(xù)蠶食GPU的市場份額,但不會導致GPU需求的總體下降?!霸谛枰笠?guī)模部署和嚴格功耗控制的應用場景中,GPU依然會在更多通用計算任務(wù)中保持強勁需求,尤其是在多任務(wù)和多場景的計算需求下。兩者的市場需求可能不會簡單地‘互相替代’,而是將互為補充?!?/p>
另據(jù)21世紀經(jīng)濟報道記者了解,目前在大模型能力適配方面,國內(nèi)AI芯片廠商更強于AI推理側(cè),但是在有更大規(guī)模集群計算需求的AI訓練側(cè)則還有差距。這也是DeepSeek多款模型更適配這些廠商能力的原因。
考慮到DeepSeek此前多適配英偉達旗下芯片,國內(nèi)廠商要承接其生態(tài)是否面臨門檻?
張笑璐告訴21世紀經(jīng)濟報道記者,從模型架構(gòu)通用性看,DeepSeek模型基于Transformer架構(gòu),是諸多領(lǐng)域模型的基礎(chǔ),因此適配并非難題。在軟件生態(tài)部分,部分國產(chǎn)芯片兼容CUDA,可復用TensorFlow/PyTorch生態(tài)資源、加快適配,也有實力廠商也能自研軟件棧優(yōu)化性能。
“目前國內(nèi)廠商多進行了推理的適配,推理計算需求較低,可通過優(yōu)化內(nèi)存和指令集適配。而訓練適配的要求更高,涉及分布式計算和梯度同步,國產(chǎn)芯片大多仍依賴英偉達GPU,訓練適配是難點?!彼m(xù)稱。