“東方神秘力量”,海外刷屏!剛剛,服務(wù)器短暫崩了
來源:證券時(shí)報(bào)網(wǎng)作者:周春媚2025-01-26 16:42

DeepSeek,又一次在海外掀起巨浪。

自DeepSeek在1月20日發(fā)布新模型DeepSeek-R1并同步開源模型權(quán)重后,這家來自中國的AI創(chuàng)業(yè)公司引發(fā)了全球AI科技圈的關(guān)注。同時(shí),最近包括紐約時(shí)報(bào)、經(jīng)濟(jì)學(xué)人、華爾街日報(bào)等在內(nèi)的多家英美主流媒體都報(bào)道了DeepSeek的研究進(jìn)展,高度贊揚(yáng)其模型的強(qiáng)大性能。其中,CNBC發(fā)文稱:“DeepSeek-R1因其性能超越美國頂尖同類模型,且成本更低,算力消耗更少,引發(fā)了硅谷的恐慌?!?/p>

值得注意的是,英偉達(dá)的競爭對手、知名半導(dǎo)體公司超微半導(dǎo)體(AMD)昨日發(fā)布消息稱,已將DeepSeek-V3模型集成到AMD的芯片產(chǎn)品InstinctMI300XGPU上,該模型旨在與SGLang一起實(shí)現(xiàn)最佳性能。DeepSeek-V3針對Al推理進(jìn)行了優(yōu)化。業(yè)內(nèi)人士分析稱,AMD作為全球領(lǐng)先的芯片廠商,通過與DeepSeek合作將為AI推理帶來新的想象空間,也有望動(dòng)搖“英偉達(dá)+OpenAI”聯(lián)合主導(dǎo)的行業(yè)格局,改變既有的游戲規(guī)則。

在去年底DeepSeek-V3發(fā)布后,業(yè)內(nèi)就掀起了關(guān)于 DeepSeek打破算力需求“怪圈”的討論。在最近兩天DeepSeek-R1引發(fā)海外廣泛討論后,1月24日英偉達(dá)股價(jià)又大跌3.12%。

值得一提的是,1月26日,有網(wǎng)友反映,DeepSeek崩了,提示服務(wù)器繁忙。14時(shí)56分,證券時(shí)報(bào)記者實(shí)測發(fā)現(xiàn),已可以正常使用。

記者實(shí)測頁面

據(jù)媒體消息,DeepSeek回應(yīng)稱,今天下午(1月26日)DeepSeek確實(shí)出現(xiàn)了局部服務(wù)波動(dòng),但問題在數(shù)分鐘內(nèi)得到解決。此次事件可能與新模型發(fā)布后的訪問量激增有關(guān),而官方狀態(tài)頁未將其標(biāo)記為事故。

DeepSeek讓硅谷巨頭不淡定了

據(jù)DeepSeek介紹,其最新發(fā)布的模型DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAIo1正式版。

這一模型發(fā)布后,引發(fā)了海外AI圈眾多科技大佬的討論。例如,英偉達(dá)高級研究科學(xué)家JimFan就在個(gè)人社交平臺(tái)上公開發(fā)表推文表示:“我們正身處這樣一個(gè)歷史時(shí)刻:一家非美國公司正在延續(xù)OpenAI最初的使命——通過真正開放的前沿研究賦能全人類。看似不合常理,但最有趣的結(jié)局往往最可能成真?!?/p>

在近日舉辦的2025年達(dá)沃斯論壇上,AI初創(chuàng)公司ScaleAI創(chuàng)始人AlexandrWang公開評論DeepSeek的新模型,表示“DeepSeek新模型的表現(xiàn)令人印象深刻,尤其是在模型推理效率方面。我們必須認(rèn)真對待來自中國的這些發(fā)展”。他還同時(shí)直言,DeepSeek的AI大模型性能大致與美國最好的模型相當(dāng)。另外一家知名AI創(chuàng)業(yè)公司、被稱為谷歌殺手的Perplexity首席執(zhí)行官AravindSrinivas甚至直接評論稱:“DeepSeek才配叫做OpenAI?!?/p>

DeepSeek這個(gè)AI黑馬,在去年底發(fā)布DeepSeek-V3時(shí)就吸引了硅谷的目光,并因其低調(diào)的作風(fēng)被稱為“來自東方的神秘力量”。新模型發(fā)布后,硅谷巨頭陷入了既興奮又緊張的狀態(tài)。一則來自Meta員工在匿名社區(qū)Teamblind的爆料稱:“Meta的生成式人工智能團(tuán)隊(duì)正陷入恐慌。”帖子進(jìn)一步爆料說,目前Meta工程師們正在瘋狂拆解DeepSeek,試圖復(fù)制其中的一切?!拔也皇窃诳鋸垼虑榫褪沁@么緊迫”。

同時(shí),由于DeepSeek擅長“小成本辦大事”,通過采用創(chuàng)新架構(gòu)和優(yōu)化算法實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。DeepSeek-V3的總訓(xùn)練成本僅為550萬美元左右,是Llama-3405B超6000萬美元訓(xùn)練成本的十分之一不到。該爆料帖還說,Meta管理層正面臨嚴(yán)峻的財(cái)務(wù)壓力,該生成式AI部門數(shù)十位高管,“每個(gè)人的年薪都超過了DeepSeek-V3的全部訓(xùn)練費(fèi)用。如何向公司高層解釋這種投入產(chǎn)出比,已成為他們的噩夢”。

不僅硅谷巨頭深受震動(dòng),英美多家主流媒體也聚焦DeepSeek展開了專門的報(bào)道。比如,英媒經(jīng)濟(jì)學(xué)人指出,“目前訓(xùn)練一個(gè)美國大語言模型要花費(fèi)數(shù)千萬美元,而DeepSeek的支出不到600萬美元。這種廉價(jià)訓(xùn)練正隨著模型設(shè)計(jì)的發(fā)展改變整個(gè)行業(yè),這可能導(dǎo)致更多針對特定用途的專業(yè)模型涌現(xiàn),打破贏家通吃的市場格局。”

金融時(shí)報(bào)也發(fā)布了題為“中國一家小小的AI創(chuàng)業(yè)公司如何讓硅谷感到震驚”的文章。文章中說道,“R1模型的發(fā)布在硅谷引發(fā)一場激烈辯論,主題是包括Meta和Anthropic在內(nèi)資源更雄厚的美國人工智能企業(yè)能否守住技術(shù)優(yōu)勢”“DeepSeek沒有從外部基金籌集資金,也沒有采取重大舉措將其模型商業(yè)化。DeepSeek的運(yùn)作方式就像早期的DeepMind,專注于研究和工程”。

股民也焦慮:DeepSeek利空英偉達(dá)?

在Mera員工爆料的匿名社區(qū)Teamblind上,證券時(shí)報(bào)記者發(fā)現(xiàn)已有多個(gè)帖子在討論DeepSeek,除了模型成本與性能等方面的技術(shù)討論,還有股民發(fā)起了題為“英偉達(dá)是否應(yīng)該為DeepSeek感到擔(dān)憂”的投票。帖子還給了一些“前情提要”,提示DeepSeek僅用不到600萬美元在性能沒那么強(qiáng)的GPU上訓(xùn)出了V3模型,效果直逼Meta的開源模型Llama,而且最新發(fā)布的R1模型足以媲美OpenAI的o1模型。

事實(shí)上,自去年底DeepSeek發(fā)布V3模型后,業(yè)界就關(guān)注到,DeepSeek的成功,背后的更大意義在于可以通過軟件優(yōu)化,在有限的硬件資源下實(shí)現(xiàn)頂尖的模型性能,減少對高端GPU的依賴。有觀點(diǎn)認(rèn)為,DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對算力投入的需求將大幅下降,這無疑將利空全球AI算力的核心供應(yīng)商英偉達(dá)。

據(jù)證券時(shí)報(bào)記者了解,大模型主要分為訓(xùn)練和推理兩個(gè)階段,訓(xùn)練是指用大量數(shù)據(jù)訓(xùn)練大模型,通常需要極高的計(jì)算能力和存儲(chǔ)資源;推理是指將訓(xùn)練好的模型應(yīng)用于實(shí)際任務(wù)(如提問并生成文本、識(shí)別圖片與視頻等)。這二者采用的是不同的芯片,過去兩年各大廠商都在加緊訓(xùn)練大模型,算力主要體現(xiàn)在訓(xùn)練階段,而其中模型訓(xùn)練是英偉達(dá)GPU的優(yōu)勢所在。但隨著模型基本訓(xùn)練成型及AI應(yīng)用的爆發(fā),算力的增長或?qū)⒏鼈?cè)重于推理側(cè)。

同時(shí),DeepSeek不僅將模型訓(xùn)練成本大幅降低,而且發(fā)布的新模型R1也同步開源模型權(quán)重,公開了完整訓(xùn)練細(xì)節(jié),挑戰(zhàn)了閉源系統(tǒng)的優(yōu)勢。隨著DeepSeek將AI大模型技術(shù)及使用門檻降低,有市場人士擔(dān)憂,DeepSeekR1的崛起可能會(huì)削弱市場對英偉達(dá)AI芯片需求的預(yù)期,對英偉達(dá)的市場地位和戰(zhàn)略布局產(chǎn)生影響。

不過也有觀點(diǎn)認(rèn)為,DeepSeek只計(jì)算了預(yù)訓(xùn)練的算力消耗,但數(shù)據(jù)配比、合成數(shù)據(jù)的生成和清洗等方面也需要消耗大量算力。同時(shí),訓(xùn)練成本的降低未必意味著算力需求下降,只代表模型廠商可以使用性價(jià)比更高的方式去做模型極限能力的探索。中信證券研報(bào)也指出,DeepSeek-V3意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地,同時(shí)訓(xùn)練效率大幅提升亦將助力推理算力需求高增。

責(zé)任編輯: 陳勇洲
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號,即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換