DeepSeek,又一次在海外掀起巨浪。
自DeepSeek在1月20日發(fā)布新模型DeepSeek-R1并同步開(kāi)源模型權(quán)重后,這家來(lái)自中國(guó)的AI創(chuàng)業(yè)公司引發(fā)了全球AI科技圈的關(guān)注。同時(shí),最近包括紐約時(shí)報(bào)、經(jīng)濟(jì)學(xué)人、華爾街日?qǐng)?bào)等在內(nèi)的多家英美主流媒體都報(bào)道了DeepSeek的研究進(jìn)展,高度贊揚(yáng)其模型的強(qiáng)大性能。其中,CNBC還發(fā)文稱:“DeepSeek-R1因其性能超越美國(guó)頂尖同類模型,且成本更低,算力消耗更少,引發(fā)了硅谷的恐慌”。
值得注意的是,英偉達(dá)的競(jìng)爭(zhēng)對(duì)手、知名半導(dǎo)體公司超微半導(dǎo)體(AMD)昨日發(fā)布消息稱,已將DeepSeek-V3模型集成到AMD的芯片產(chǎn)品Instinct MI300X GPU上,該模型旨在與SGLang一起實(shí)現(xiàn)最佳性能。DeepSeek-V3針對(duì)Al推理進(jìn)行了優(yōu)化。業(yè)內(nèi)人士分析稱,AMD作為全球領(lǐng)先的芯片廠商,通過(guò)與DeepSeek合作將為AI推理帶來(lái)新的想象空間,也有望動(dòng)搖“英偉達(dá)+OpenAI”聯(lián)合主導(dǎo)的行業(yè)格局,改變既有的游戲規(guī)則。
在去年底DeepSeek-V3發(fā)布后,業(yè)內(nèi)就掀起了關(guān)于DeepSeek打破算力需求“怪圈”的討論。在最近兩天DeepSeek-R1引發(fā)海外廣泛討論后,1月24日,英偉達(dá)股價(jià)又大跌3.12%。
值得一提的是,1月26日,有網(wǎng)友反映,DeepSeek崩了,提示服務(wù)器繁忙。14時(shí)56分,證券時(shí)報(bào)記者實(shí)測(cè)發(fā)現(xiàn),已可以正常使用。
記者實(shí)測(cè)頁(yè)面
據(jù)媒體消息,DeepSeek回應(yīng)稱,今天下午(1月26日)DeepSeek確實(shí)出現(xiàn)了局部服務(wù)波動(dòng),但問(wèn)題在數(shù)分鐘內(nèi)得到解決。此次事件可能與新模型發(fā)布后的訪問(wèn)量激增有關(guān),而官方狀態(tài)頁(yè)未將其標(biāo)記為事故。
DeepSeek讓硅谷巨頭不淡定了
據(jù)DeepSeek介紹,其最新發(fā)布的模型DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。
這一模型發(fā)布后,引發(fā)了海外AI圈眾多科技大佬的討論。例如,英偉達(dá)高級(jí)研究科學(xué)家Jim Fan就在個(gè)人社交平臺(tái)上公開(kāi)發(fā)表推文表示:“我們正身處這樣一個(gè)歷史時(shí)刻:一家非美國(guó)公司正在延續(xù)OpenAI最初的使命——通過(guò)真正開(kāi)放的前沿研究賦能全人類??此撇缓铣@?,但最有趣的結(jié)局往往最可能成真?!?/p>
在近日舉辦的2025年達(dá)沃斯論壇上,AI初創(chuàng)公司Scale AI創(chuàng)始人Alexandr Wang公開(kāi)評(píng)論DeepSeek的新模型,表示“DeepSeek 新模型的表現(xiàn)令人印象深刻,尤其是在模型推理效率方面。我們必須認(rèn)真對(duì)待來(lái)自中國(guó)的這些發(fā)展”。他還表示,DeepSeek的AI大模型性能大致與美國(guó)最好的模型相當(dāng)。另外一家知名AI創(chuàng)業(yè)公司、被稱為谷歌殺手的Perplexity首席執(zhí)行官Aravind Srinivas甚至直接評(píng)論稱:“DeepSeek才配叫做OpenAI”。
DeepSeek這個(gè)AI黑馬,在去年底發(fā)布DeepSeek-V3時(shí)就吸引了硅谷的目光,并因其低調(diào)的作風(fēng)被稱為“來(lái)自東方的神秘力量”。新模型發(fā)布后,硅谷巨頭陷入了既興奮又緊張的狀態(tài)。一則來(lái)自Meta員工在匿名社區(qū)Teamblind的爆料稱:“Meta的生成式人工智能團(tuán)隊(duì)正陷入恐慌?!碧舆M(jìn)一步爆料說(shuō),目前Meta工程師們正在瘋狂拆解DeepSeek,試圖復(fù)制其中的一切?!拔也皇窃诳鋸?,事情就是這么緊迫”。
同時(shí),由于DeepSeek擅長(zhǎng)“小成本辦大事”,通過(guò)采用創(chuàng)新架構(gòu)和優(yōu)化算法實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。DeepSeek-V3的總訓(xùn)練成本僅為550萬(wàn)美元左右,是Llama-3405B超6000萬(wàn)美元訓(xùn)練成本的十分之一不到。該爆料帖還稱,Meta管理層正面臨嚴(yán)峻的財(cái)務(wù)壓力,該生成式AI部門數(shù)十位高管,“每個(gè)人的年薪都超過(guò)了DeepSeek-V3的全部訓(xùn)練費(fèi)用。如何向公司高層解釋這種投入產(chǎn)出比,已成為他們的噩夢(mèng)”。
不僅硅谷巨頭深受震動(dòng),英美多家主流媒體也聚焦DeepSeek展開(kāi)了專門的報(bào)道。比如,英媒經(jīng)濟(jì)學(xué)人指出,“目前訓(xùn)練一個(gè)美國(guó)大語(yǔ)言模型要花費(fèi)數(shù)千萬(wàn)美元,而DeepSeek的支出不到600萬(wàn)美元。這種廉價(jià)訓(xùn)練正隨著模型設(shè)計(jì)的發(fā)展改變整個(gè)行業(yè),這可能導(dǎo)致更多針對(duì)特定用途的專業(yè)模型涌現(xiàn),打破贏家通吃的市場(chǎng)格局?!?/p>
金融時(shí)報(bào)也發(fā)布了題為“中國(guó)一家小小的AI創(chuàng)業(yè)公司如何讓硅谷感到震驚”的文章。文章中說(shuō)道,“R1模型的發(fā)布在硅谷引發(fā)一場(chǎng)激烈辯論,主題是包括Meta和Anthropic在內(nèi)資源更雄厚的美國(guó)人工智能企業(yè)能否守住技術(shù)優(yōu)勢(shì)”“DeepSeek沒(méi)有從外部基金籌集資金,也沒(méi)有采取重大舉措將其模型商業(yè)化。DeepSeek的運(yùn)作方式就像早期的DeepMind,專注于研究和工程”。
股民也焦慮:DeepSeek利空英偉達(dá)?
在Mera員工爆料的匿名社區(qū)Teamblind上,證券時(shí)報(bào)記者發(fā)現(xiàn)已有多個(gè)帖子在討論DeepSeek,除了模型成本與性能等方面的技術(shù)討論,還有股民發(fā)起了題為“英偉達(dá)是否應(yīng)該為DeepSeek感到擔(dān)憂”的投票。帖子還給了一些“前情提要”,提示DeepSeek僅用不到600萬(wàn)美元在性能沒(méi)那么強(qiáng)的GPU上訓(xùn)出了V3模型,效果直逼Meta的開(kāi)源模型Llama,而且最新發(fā)布的R1模型足以媲美OpenAI的o1模型。
事實(shí)上,自去年年底DeepSeek發(fā)布V3模型后,業(yè)界就關(guān)注到,DeepSeek的成功,背后的更大意義在于可以通過(guò)軟件優(yōu)化,在有限的硬件資源下實(shí)現(xiàn)頂尖的模型性能,減少對(duì)高端GPU的依賴。有觀點(diǎn)認(rèn)為,DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降,這無(wú)疑將利空全球AI算力的核心供應(yīng)商英偉達(dá)。
據(jù)證券時(shí)報(bào)記者了解,大模型主要分為訓(xùn)練和推理兩個(gè)階段,訓(xùn)練是指用大量數(shù)據(jù)訓(xùn)練大模型,通常需要極高的計(jì)算能力和存儲(chǔ)資源;推理是指將訓(xùn)練好的模型應(yīng)用于實(shí)際任務(wù)(如提問(wèn)并生成文本、識(shí)別圖片與視頻等)。這二者采用的是不同的芯片,過(guò)去兩年各大廠商都在加緊訓(xùn)練大模型,算力主要體現(xiàn)在訓(xùn)練階段,而其中模型訓(xùn)練是英偉達(dá)GPU的優(yōu)勢(shì)所在。但隨著模型基本訓(xùn)練成型及AI應(yīng)用的爆發(fā),算力的增長(zhǎng)或?qū)⒏鼈?cè)重于推理側(cè)。
同時(shí),DeepSeek不僅將模型訓(xùn)練成本大幅降低,而且發(fā)布的新模型R1也同步開(kāi)源模型權(quán)重,公開(kāi)了完整訓(xùn)練細(xì)節(jié),挑戰(zhàn)了閉源系統(tǒng)的優(yōu)勢(shì)。隨著DeepSeek將AI大模型技術(shù)及使用門檻降低,有市場(chǎng)人士擔(dān)憂,DeepSeek R1的崛起可能會(huì)削弱市場(chǎng)對(duì)英偉達(dá)AI芯片需求的預(yù)期,對(duì)英偉達(dá)的市場(chǎng)地位和戰(zhàn)略布局產(chǎn)生影響。
不過(guò)也有觀點(diǎn)認(rèn)為,DeepSeek只計(jì)算了預(yù)訓(xùn)練的算力消耗,但數(shù)據(jù)配比、合成數(shù)據(jù)的生成和清洗等方面也需要消耗大量算力。同時(shí),訓(xùn)練成本的降低未必意味著算力需求下降,只代表模型廠商可以使用性價(jià)比更高的方式去做模型極限能力的探索。中信證券研報(bào)也指出,DeepSeek-V3意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地,同時(shí)訓(xùn)練效率大幅提升亦將助力推理算力需求高增。