DeepSeek再次爆火。
近日,國(guó)內(nèi)AI初創(chuàng)公司DeepSeek發(fā)布了新一代大語(yǔ)言模型DeepSeek-V3,同時(shí)宣布開源。在多項(xiàng)基準(zhǔn)測(cè)試中,V3的成績(jī)超越了主流開源模型,并和世界頂尖的閉源模型不分伯仲。
更重要的是,V3的訓(xùn)練成本極低,僅為GPT-4o的二十分之一;售價(jià)也低,輸入+輸出價(jià)格約為GPT-4o的十分之一。不過(guò)其目前不支持多模態(tài)輸入輸出。
DeepSeek是量化資管公司幻方旗下企業(yè),成立于2023年7月。
被冠以“AI界高效低價(jià)典范”的DeepSeek,給當(dāng)前的人工智能技術(shù)與發(fā)展路徑提供了一個(gè)新的方向,貢獻(xiàn)了AI競(jìng)賽中的中國(guó)力量。
V3不僅在人工智能界產(chǎn)生轟動(dòng)效應(yīng),也因它的母公司是知名量化基金公司,而在資本市場(chǎng)引發(fā)熱烈討論。
另?yè)?jù)報(bào)道,近期小米正在搭建GPU萬(wàn)卡集群,雷軍親自以千萬(wàn)年薪挖來(lái)了DeepSeek-V2關(guān)鍵開發(fā)人員之一的95后羅福莉,后者被譽(yù)為“AI天才少女”。
多個(gè)實(shí)測(cè)表明,數(shù)學(xué)基準(zhǔn)(MATH 500)和AIME 2024測(cè)試方面,V3超越了當(dāng)前國(guó)際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代碼能力(Codeforces 基準(zhǔn)),比國(guó)外主流大模型高出約30分;軟件工程(SWE-bench Verified)和知識(shí)問(wèn)答方面,略遜于Claude-3.5-Sonnet。
因此,DeepSeek的技術(shù)論文自豪地宣稱,“綜合評(píng)估表明,DeepSeek-V3-Base已經(jīng)成為目前可用的最強(qiáng)大的開源基礎(chǔ)模型,特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型,并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)測(cè)試中實(shí)現(xiàn)了與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先閉源模型的性能相當(dāng)?!?/p>
更重要的是,這一成就,是在極低的訓(xùn)練成本下取得的。
DeepSeek在其53頁(yè)的技術(shù)論文披露:“我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,成本為2664K GPU小時(shí)。結(jié)合119K GPU小時(shí)的上下文長(zhǎng)度擴(kuò)展和5K GPU小時(shí)的后訓(xùn)練,DeepSeek-V3的完整訓(xùn)練成本僅為2.788M GPU小時(shí)。假設(shè)H800 GPU的租金為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557萬(wàn)美元?!?/p>
Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪此前透露,GPT-4o的模型訓(xùn)練成本約為1億美元。而僅僅是訓(xùn)練一個(gè)7B的Llama 2,就要花費(fèi)76萬(wàn)美元。
也就是說(shuō),DeepSeek-V3的訓(xùn)練成本僅為同性能模型的十幾分之一。這讓整個(gè)AI界都為之震驚。
據(jù)報(bào)道,仍處于研發(fā)過(guò)程中的GPT-5,至少已進(jìn)行過(guò)兩輪訓(xùn)練,每輪訓(xùn)練耗時(shí)數(shù)月,僅一輪計(jì)算成本就接近5億美元。一年半過(guò)去,GPT-5仍未問(wèn)世。這意味著,新一代通用大模型的訓(xùn)練成本已達(dá)到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資,重要開支之一是將數(shù)據(jù)中心Colossus的規(guī)模擴(kuò)大一倍,GPU數(shù)量達(dá)到20萬(wàn)顆。
按照這種訓(xùn)練路徑,未來(lái)三年內(nèi),AI大模型的訓(xùn)練成本將上升至100億美元甚至上不封頂。正是在這種背景之下,一段時(shí)間以來(lái)AI界產(chǎn)生了對(duì)Scaling law的質(zhì)疑。
GPT-5難產(chǎn),OpenAI轉(zhuǎn)向了另一條發(fā)展路徑:推理模型。并且很快產(chǎn)生成果:令人驚艷的o1推理模型,以及剛發(fā)布的o3推理模型。而o3的卓越表現(xiàn),讓部分專家驚呼,在前往AGI的路上已經(jīng)沒(méi)有了障礙。
人工智能初創(chuàng)公司深受啟迪,并緊緊跟隨。前不久剛從硅谷考察回來(lái)的零一萬(wàn)物創(chuàng)始人李開復(fù)說(shuō),過(guò)去大家覺(jué)得預(yù)訓(xùn)練做好就夠了,一年以后(o1出現(xiàn)后)發(fā)現(xiàn)Post train(后訓(xùn)練)也同樣重要。他透露說(shuō),很多AI公司都在向推理模型方面發(fā)展,5個(gè)月以后會(huì)有不少類似o1模型的能力出現(xiàn)在各個(gè)模型公司,包括零一萬(wàn)物,都在往o1方向狂奔。
但DeepSeek-V3的出現(xiàn),提供了新的可能。更短的時(shí)間,更高的效率,更低的成本,達(dá)到同等的水平,通用大語(yǔ)言模型的發(fā)展路徑選擇上,貢獻(xiàn)了“中國(guó)版本”。
事實(shí)上,2024年5月6日,DeepSeek發(fā)布DeepSeek-V2開源MoE模型,就以其高效性能在全球AI界掀起了一波熱度。而其API接口價(jià)格與同類產(chǎn)品相比斷崖式定為每百萬(wàn)tokens輸入1元、輸出2元(32K上下文),僅為GPT-4-Turbo的近百分之一。
“價(jià)格屠夫”的殺入,令智譜AI、字節(jié)跳動(dòng)、阿里云、百度、騰訊云旗下大模型隨后不得不跟進(jìn)降價(jià)。而且騰訊和百度宣布幾款大模型產(chǎn)品免費(fèi)。雖然有人將DeepSeek-V2稱為“AI界的拼多多”,但這個(gè)比喻不太恰當(dāng),因?yàn)槎邘缀鯖](méi)有共性。
DeepSeek-V3的API定價(jià)提高到輸入2元/M tokens,輸出為8元/M tokens(45天的價(jià)格優(yōu)惠期后),雖然比V2大幅上漲,但也只相當(dāng)于Claude-3.5-Sonnet費(fèi)用的1/53,后者每百萬(wàn)tokens輸入3美元、輸出15美元。
根據(jù)記者近兩天對(duì)AI從業(yè)者的采訪,DeepSeek-V3的出現(xiàn),為業(yè)界提供了新的啟發(fā)。
其一,大模型研發(fā),存在多種可能的發(fā)展路徑。
ChatGPT走的是大參數(shù)、大算力、大投入的路子,對(duì)算力和資金的要求極高,這種資源消耗是絕大多數(shù)創(chuàng)業(yè)公司無(wú)法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司,也面臨投資回報(bào)的商業(yè)化難題。
推理模型是另一條路子。o1、o3的成果,證明這條路也是可行的。但同樣,它也是建立于相對(duì)高昂的算力和資金成本基礎(chǔ)上,尤其是算力。
DeepSeek-V3是第三條路徑。與當(dāng)前大模型訓(xùn)練動(dòng)輒要求萬(wàn)卡集成相比,它只用2000張A100 GPU訓(xùn)練,就實(shí)現(xiàn)了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果,不能不令人敬佩。
一位在硅谷從事AI研究的華人工程師告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,不排除還有更多的路徑選擇,比如V3的MLA架構(gòu)、MoESparse結(jié)構(gòu)與o3的推理能力相結(jié)合,可能產(chǎn)生新的大模型范式。如果實(shí)現(xiàn),那將是令人驚異的。
其二,人工智能競(jìng)爭(zhēng),中國(guó)不僅僅是跟隨者,而是正在大幅提升創(chuàng)新能力。
其實(shí)V2發(fā)布時(shí),硅谷就驚訝地稱之為“來(lái)自東方的神秘力量”。DeepSeek創(chuàng)始人梁文鋒2024年7月在接受媒體采訪時(shí)說(shuō),硅谷習(xí)慣于將中國(guó)AI公司視為follow的角色,當(dāng)一個(gè)中國(guó)公司以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去,而且表現(xiàn)優(yōu)異時(shí),他們就很震驚。
梁文鋒認(rèn)為,更多的投入并不一定產(chǎn)生更多的創(chuàng)新,否則大廠可以把所有的創(chuàng)新包攬了。研究和技術(shù)創(chuàng)新將永遠(yuǎn)是DeepSeek第一優(yōu)先級(jí)。值得注意的是,根據(jù)業(yè)內(nèi)專家測(cè)算,DeepSeek在V2、V3上并不虧錢。
V3獲得硅谷一批知名AI大佬的點(diǎn)贊。Lepton AI創(chuàng)始人、阿里巴巴原副總裁賈揚(yáng)清表示,DeepSeek是智慧和實(shí)用主義的體現(xiàn):在有限的計(jì)算資源和人力條件下,通過(guò)聰明的研究產(chǎn)生最好的結(jié)果。這是一句相當(dāng)中肯的評(píng)價(jià)。
無(wú)獨(dú)有偶。宇樹科技近日發(fā)布最新的Unitree B2-W機(jī)器狗產(chǎn)品視頻:托馬斯全旋、側(cè)空翻、360°跳躍轉(zhuǎn)體、2.8米凌空飛躍,甚至能馱著一名成年男子穩(wěn)步行走。這幾天,技術(shù)討論園區(qū)里到處可見對(duì)這家前沿中國(guó)機(jī)器人企業(yè)的歡呼聲,有評(píng)論稱其技能足以“吊打”當(dāng)今最先進(jìn)的機(jī)器人公司波士頓動(dòng)力。上周還在A股市場(chǎng)掀起了一陣“宇樹科技概念”上漲潮。
其三,創(chuàng)新從來(lái)不是單維度、單向度的,AI顛覆式創(chuàng)新正在成為可能。
研發(fā)出ChatGPT的OpenAI確實(shí)了不起,它開啟了人工智能的新一輪浪潮。但OpenAI也不是神,也有發(fā)展方向的障礙,有融資的難題,有路徑選擇的猶豫。
過(guò)去兩三年,AI界一個(gè)流行的看法是,如果說(shuō)硅谷企業(yè)擅長(zhǎng)從0到1,那我們則擅長(zhǎng)從1到10,因?yàn)橹袊?guó)有寬廣的應(yīng)用市場(chǎng)。但梁文鋒認(rèn)為,當(dāng)前階段仍是AI技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期。
從理性的角度,需要承認(rèn)我們與OpenAI、Anthropic、DeepMind這些世界先進(jìn)AI公司仍存在較大的差距。比如,即使是代表閉源大模型最前沿水平的V3,多項(xiàng)性能表現(xiàn)與GPT-4o相近,那也是后者7個(gè)月前的技術(shù)水平;而OpenAI這幾個(gè)月已連續(xù)推出o1、o3這類新的“變異”物種。更何況,其他大多數(shù)的模型產(chǎn)品,放在多語(yǔ)言、多模態(tài)的國(guó)際視野看,差距要更大。
但這一輪人工智能浪潮之所以更加令人期待,就是因?yàn)?,它帶?lái)的革命性想象力甚至要超越互聯(lián)網(wǎng)之于傳統(tǒng)經(jīng)濟(jì)的變革力量。正如梁文鋒所說(shuō),中國(guó)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整升級(jí),會(huì)更依賴硬核科技的創(chuàng)新。在半導(dǎo)體、大模型等領(lǐng)域,遠(yuǎn)未觸達(dá)技術(shù)天花板,前所未有的機(jī)會(huì)在等待著中國(guó)企業(yè),那些帶來(lái)AI顛覆性創(chuàng)新產(chǎn)品或方案模式的公司,就非??赡艹蔀橄乱粋€(gè)偉大的企業(yè)。
前述硅谷華人工程師感慨地說(shuō),再偉大的企業(yè),都不敢止步不前,坐享其成。
5年前,誰(shuí)會(huì)想到,英特爾會(huì)淪落到傳聞要被收購(gòu)的命運(yùn)?而今天別看英偉達(dá)如日中天、GPU供不應(yīng)求,但如果量子芯片大規(guī)模商用的時(shí)間表大大縮短,或者像V3這樣不再依賴于萬(wàn)卡集成做訓(xùn)練研發(fā),而它繼續(xù)固守原有發(fā)展路徑,那么所謂的“英偉達(dá)泡沫”提前破滅也是完全可能發(fā)生的。