刷屏!“AI界拼多多”再出手,Deepseek發(fā)布新模型,訓(xùn)練成本降低10倍
來源:證券時報網(wǎng)作者:券商中國 許孝如2024-12-29 18:18

近日,一家來自中國杭州的公司Deepseek在全球AI界刷屏!

12月26日,Deepseek發(fā)布了全新系列模型DeepSeek-v3,一夜之間霸榜開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。

更讓海外AI界震驚的是,該模型的訓(xùn)練成本僅600萬美元,成本降低10倍,資源運用效率極高。有AI投資機構(gòu)負(fù)責(zé)人直言,DeepSeek發(fā)布的53頁的技術(shù)論文是黃金。

據(jù)了解,Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達(dá)A100芯片,去年4月幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時間里進(jìn)展迅速。

Deepseek再進(jìn)化

今年5月,Deepseek發(fā)布的一款名為DeepSeek V2的開源模型,因其史無前例的性價比,在AI界一躍成名。然而,僅僅過了半年多,Deepseek再度進(jìn)化。

12月26日,Deepseek稱,全新系列模型DeepSeek-v3首個版本上線并同步開源,該模型的多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

比如,在百科知識、長文本、代碼、數(shù)學(xué)、中文能力上的表現(xiàn),超越其他模型,尤其是在數(shù)學(xué)上,在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。

同時,通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從20 TPS大幅提高至 60 TPS,相比 V2.5 模型實現(xiàn)了3倍的提升。

值得注意的是,Deepseek將API服務(wù)價格,調(diào)整為每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元。

Deepseek還決定為全新模型設(shè)置長達(dá)45天的優(yōu)惠價格體驗期:即日起至2025年2月8日,DeepSeek-V3的API服務(wù)價格仍然是每百萬輸入tokens 0.1元(緩存命中)/ 1元(緩存未命中),每百萬輸出tokens 2元。

震驚海外AI界

最讓海外AI界震驚的是,在性能突出的同時,該模型的訓(xùn)練成本大幅降低。

天使投資人Balaji稱,DeepSeek新開源模型僅花費了560萬美元進(jìn)行訓(xùn)練,與GPT 4和Claude 3.5 Sonnet相當(dāng)。如果屬實,成本將降低10倍以上。

Open AI創(chuàng)始成員之一,李飛飛的得意門生Andrej Karpathy表示,“今天,DeepSeek通過一個前沿級LLM的開放權(quán)重發(fā)布,讓這一切看起來輕而易舉,而其訓(xùn)練的預(yù)算卻非常低(2048個GPU運行2個月,總成本600萬美元)?!?/p>

Andrej Karpathy分析,按照以往經(jīng)驗,這種能力級別的大模型,通常需要接近1.6萬張GPU,而目前行業(yè)內(nèi)的模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時,而DeepSeek-V3僅用了280萬GPU小時,計算需求減少了11倍。

“這是否意味著前沿LLM不需要大型GPU集群?不是,但你必須確保不浪費你所擁有的資源,這看起來是一個很好的證明,表明在數(shù)據(jù)和算法方面還有很多工作要做?!盇ndrej Karpathy感慨。

Lepton AI創(chuàng)始人賈揚清則表示,2019年,他和deepseek團(tuán)隊進(jìn)行了一次交流,希望向他們推銷AI云解決方案。并試圖說服他們,“不需要復(fù)雜云虛擬化,只需要容器和高效的調(diào)度程序;需要一個像NFS這樣的通用存儲,不需要太花哨但必須速度快”等觀點,這些觀點對市場上的許多參與者來說都是新穎的,需要一些說服力。

“但deepseek團(tuán)隊友善地告訴我,他們已經(jīng)這樣做很多年了。還讓他幫忙,將計算資源免費捐贈給大學(xué)研究實驗室,且無附加條件。”賈揚清稱,從某種程度上來說,他們?nèi)〉玫膫ゴ蟪删驮从诙嗄甑膶I(yè)知識,但這點卻被許多人忽視了。

幻方量化CEO陸政哲在微信朋友圈表示,“看到楊清老師這段話,有點小感動?!?/p>

前英偉達(dá)機器學(xué)習(xí)專家Bojan Tunguz則表示,所有針對高端半導(dǎo)體的出口禁令實際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。這似乎也證實了我自己的假設(shè),即我們距離擁有人工智能機器學(xué)習(xí)部分的最佳算法還有很長的路要走。

“AI界拼多多”

Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。在硅谷,DeepSeek則被稱作“來自東方的神秘力量”。

作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達(dá)A100芯片,而國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家。在中國7家大模型創(chuàng)業(yè)公司中,Deepseek是最不顯山露水的一家。

去年4月,幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時間里進(jìn)展迅速。當(dāng)時幻方就表示,多年以來,該公司堅持把營收的大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模的研究,探索人類未知的奧秘。

“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點滴積累中孕育而來。我們將充分而持續(xù)地投入,不做中庸的事,用最長期的眼光去回答最大的問題?!?/p>

成立一年后,deepseek發(fā)布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價比:推理成本被降到每百萬token僅1塊錢。隨后,字節(jié)、騰訊、百度、阿里巴巴等紛紛跟進(jìn),打響中國大模型價格戰(zhàn)。DeepSeek也被迅速冠以“AI界拼多多”之稱。

據(jù)了解,幻方量化和Deepseek創(chuàng)始人梁文鋒是一個極致的80后技術(shù)理想主義者,從幻方時代,就在幕后潛心研究技術(shù),在DeepSeek時代,依舊延續(xù)著他的低調(diào)作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。

在接受暗涌的采訪中,梁文鋒表示,我們降價一方面是因為我們在探索下一代模型的結(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。

“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展?!绷何匿h表示。

責(zé)編:桂衍民

校對:趙燕

責(zé)任編輯: 朱雨蒙
聲明:證券時報力求信息真實、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換