DeepSeek突發(fā)!本周啟動!
來源:證券時報網(wǎng)作者:周春媚2025-02-24 20:12

萬眾矚目的DeepSeek“開源周”,第一彈來了。

2月24日,DeepSeek開源了首個代碼庫FlashMLA。據(jù)了解,這是DeepSeek針對Hopper GPU優(yōu)化的高效MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼內(nèi)核,專為處理可變長度序列而設(shè)計,現(xiàn)在已經(jīng)投入生產(chǎn)使用。

上周四,DeepSeek宣布將在本周舉辦“開源周”活動,連續(xù)開源五個代碼庫,由此引燃了大家的期待。作為“開源周”的第一彈,F(xiàn)lashMLA給業(yè)界帶來頗多驚喜。本周的剩下四個工作日,DeepSeek還將繼續(xù)開源四個代碼庫。業(yè)內(nèi)人士分析,其余四個代碼庫可能會與AI算法優(yōu)化、模型輕量化、應(yīng)用場景拓展等相關(guān),涵蓋多個關(guān)鍵領(lǐng)域。

進(jìn)一步突破GPU算力瓶頸

根據(jù)DeepSeek的介紹,F(xiàn)lashMLA主要實現(xiàn)了以下的突破:

一是BF16支持,提供更高效的數(shù)值計算能力,減少計算精度損失,同時優(yōu)化存儲帶寬使用率。

二是分頁KV(Key-Value,一種緩存機(jī)制)緩存,采用高效的分塊存儲策略,減少長序列推理時的顯存占用,提高緩存命中率,從而提升計算效率。

三是極致性能優(yōu)化,在H800GPU上,F(xiàn)lashMLA通過優(yōu)化訪存和計算路徑,達(dá)到了3000GB/s內(nèi)存帶寬和580TFLOPS的計算能力,最大化利用GPU資源,減少推理延遲。

據(jù)了解,傳統(tǒng)解碼方法在處理不同長度的序列時,GPU的并行計算能力會被浪費,就像用卡車運小包裹,大部分空間閑置。而FlashMLA通過動態(tài)調(diào)度和內(nèi)存優(yōu)化,將HopperGPU的算力“榨干”,提升相同硬件下的吞吐量。

簡單理解,F(xiàn)lashMLA能夠讓大語言模型在H800這樣的GPU上跑得更快、更高效,尤其適用于高性能AI任務(wù),進(jìn)一步突破GPU算力瓶頸,降低成本。

值得注意的是,DeepSeek之所以能夠?qū)崿F(xiàn)大模型訓(xùn)練與成本的大幅降低,與其提出的創(chuàng)新注意力架構(gòu)MLA密不可分。MLA(多頭潛在注意力機(jī)制)又被稱為低秩注意力機(jī)制,是與傳統(tǒng)的多頭注意力機(jī)制(Multi-head Attention)不同的一種創(chuàng)新性注意力機(jī)制。自從V2模型開始,MLA就幫助DeepSeek在一系列模型中實現(xiàn)成本大幅降低,但是計算、推理性能仍能與頂尖模型持平。

浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院和軟件學(xué)院黨委書記、人工智能研究所所長吳飛表示,我們理解一篇文章,更關(guān)切單詞所刻畫的主題概念,而非單詞從頭到尾的羅列等。傳統(tǒng)大模型中的注意力機(jī)制由于需要記錄每個單詞在不同上下文中的左鄰右舍,因此其變得龐大無比。DeepSeek引入低秩這一概念,對巨大的注意力機(jī)制矩陣進(jìn)行了壓縮,減少參與運算的參數(shù)數(shù)量,從而在保持模型性能的同時顯著降低了計算和存儲成本,把顯存占用降到了其他大模型的5%-13%,極大提升了模型運行效率。

由于Flash MLA進(jìn)一步突破了GPU算力瓶頸,記者注意到,有英偉達(dá)股民跑到DeepSeek的評論區(qū)祈禱,希望DeepSeek在讓GPU更為高效的同時,能夠不影響英偉達(dá)的股價。

以持續(xù)開源加速行業(yè)發(fā)展進(jìn)程

作為開源社區(qū)的“頂流”,DeepSeek以完全透明的方式與全球開發(fā)者社區(qū)分享最新的研究進(jìn)展,加速行業(yè)發(fā)展進(jìn)程。

在開源公告中,DeepSeek還表示,自己只是探索通用人工智能的小公司,作為開源社區(qū)的一部分,每分享一行代碼,都會成為加速AI行業(yè)發(fā)展的集體動力。同時,DeepSeek稱,沒有高不可攀的象牙塔,只有純粹的車庫文化和社區(qū)驅(qū)動的創(chuàng)新。

記者注意到,在DeepSeek開源FlashMLA的帖子下,有不少網(wǎng)友點贊其公開透明的開源精神。有網(wǎng)友表示,“OpenAI應(yīng)該將它的域名捐給你”,還有網(wǎng)友說,“(開源周)第五天,我猜會是通用人工智能”。

由于DeepSeek的圖標(biāo)是一只在大海里探索的鯨魚,還有網(wǎng)友形象生動地描述稱,“這條鯨魚正在掀起波浪”(The whale is making waves)。

據(jù)證券時報記者了解,(Open Source Initiative,開源代碼促進(jìn)會)專門針對AI提出了三種開源概念,分別是:

開源AI系統(tǒng):包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼和模型權(quán)重。代碼和權(quán)重需要按照開源協(xié)議提供,而訓(xùn)練數(shù)據(jù)只需要公開出處(因為一些數(shù)據(jù)集確實無法公開提供)。

開源AI模型:只需要提供模型權(quán)重和推理代碼,并按照開源協(xié)議提供。(所謂推理代碼,就是讓大模型跑起來的代碼。這是一個相當(dāng)復(fù)雜的系統(tǒng)性工程,涉及到了GPU調(diào)用和模型架構(gòu))。

開源AI權(quán)重:只需要提供模型權(quán)重,并按照開源協(xié)議提供。

業(yè)內(nèi)普遍認(rèn)為,DeepSeek的勝利是開源的勝利,開源大模型的創(chuàng)新模式為人工智能的發(fā)展開辟了新的路徑。DeepSeek此前開源的是模型權(quán)重,并沒有開放訓(xùn)練代碼、推理代碼、評估代碼、數(shù)據(jù)集等更為重要的組件,因此屬于第三種類型的開源。

一名資深的業(yè)內(nèi)人士告訴記者,在DeepSeek推出R1并發(fā)布技術(shù)報告后,許多團(tuán)隊都在試圖復(fù)現(xiàn)R1模型,但由于背后還涉及許多重要和關(guān)鍵的技術(shù)細(xì)節(jié),因此要實現(xiàn)真正的復(fù)現(xiàn)其實比較困難,而且也需要較長的時間。不過,業(yè)內(nèi)的開源基本上也都是開源模型權(quán)重,而DeepSeek的開源與其他開源模型相比已經(jīng)是最頂級、最徹底的一種。

正因如此,DeepSeek也被業(yè)界稱為“源神”。同樣在今天,DeepSeek-R1在知名的國際開源社區(qū)Hugging Face上獲得了超過一萬個贊,成為該平臺近150萬個模型之中最受歡迎的大模型。Hugging Face的首席執(zhí)行官Clement Delangue也在社交平臺上第一時間分享了這一喜訊。

民生證券研報認(rèn)為,DeepSeek所有模型均為開源模型,即所有應(yīng)用廠商都擁有了可以比肩頂級AI的大模型,而且還可自行二次開發(fā)、靈活部署,這將加速AI應(yīng)用的發(fā)展進(jìn)程。當(dāng)模型的成本越低,開源模型發(fā)展越好,模型的部署、使用的頻率就會越高,使用量就會越大。

研報進(jìn)一步指出,經(jīng)濟(jì)學(xué)上著名的“杰文斯悖論”提出,當(dāng)技術(shù)進(jìn)步提高了資源使用的效率,不僅沒有減少這種資源的消耗,反而因為使用成本降低,刺激了更大的需求,最終導(dǎo)致資源使用總量上升。因此從更長的周期來看,DeepSeek的發(fā)展恰恰會加速AI的普及和創(chuàng)新,帶來算力需求、特別是推理算力需求更大量級提升。

校對:蘇煥文

圖片

責(zé)任編輯: 高蕊琦
聲明:證券時報力求信息真實、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機(jī)會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換