國(guó)產(chǎn)AI大模型,提前過(guò)年了。
1月20日晚間,月之暗面(Kimi)和深度求索(DeepSeek)這兩大備受矚目的AI大模型創(chuàng)業(yè)公司,幾乎是同時(shí)發(fā)布了新模型,并均聲稱新模型的性能對(duì)標(biāo)OpenAI的o1模型。值得注意的是,在DeepSeek發(fā)布新模型后的兩小時(shí)后,Kimi緊隨其后也推出了新模型,頗有些“針?shù)h相對(duì)”的意味。
在去年年底DeepSeek爆火之后,這家來(lái)自來(lái)自杭州、低調(diào)又神秘的創(chuàng)業(yè)公司賺足世人眼球的同時(shí),也極大地改變了國(guó)產(chǎn)大模型創(chuàng)業(yè)公司的競(jìng)爭(zhēng)格局,對(duì)國(guó)產(chǎn)大模型“六小虎”構(gòu)成了一定的沖擊。作為行業(yè)的“鯰魚(yú)”,DeepSeek如今的一舉一動(dòng)都攪動(dòng)著行業(yè)的潮流。進(jìn)入2025年,國(guó)產(chǎn)大模型之間的競(jìng)爭(zhēng)將變得越來(lái)越激烈,一場(chǎng)決定存亡的“決戰(zhàn)”已經(jīng)打槍。
同日發(fā)布對(duì)標(biāo)OpenAI o1的新模型
1月20日晚間,深度求索公司正式發(fā)布新模型DeepSeek-R1,并同步開(kāi)源模型權(quán)重。據(jù)官方介紹,DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAI o1正式版。
根據(jù)其發(fā)布的模型性能評(píng)測(cè)結(jié)果,在美國(guó)數(shù)學(xué)競(jìng)賽(AMC)中難度等級(jí)最高的AIME以及全球頂級(jí)編程競(jìng)賽(codeforces)等權(quán)威評(píng)測(cè)中,DeepSeek-R1模型成績(jī)與OpenAIo1不相上下,甚至在某些指標(biāo)小幅超越OpenAIo1模型。與此同時(shí),除了DeepSeek-R1以外,團(tuán)隊(duì)還開(kāi)源了6個(gè)由R1模型蒸餾而來(lái)的小型模型,其中的32B與70B模型性能也能比肩OpenAI-o1-mini模型。
在API定價(jià)方面,DeepSeek延續(xù)了一貫的低價(jià)風(fēng)格,輸入費(fèi)用低至每百萬(wàn)tokens1元(緩存命中)/4元(緩存未命中),輸出費(fèi)用僅為每百萬(wàn)tokens16元,整體支出較o1節(jié)省96%,這無(wú)疑使得Deepseek-R1在成本效益上具備了壓倒性的競(jìng)爭(zhēng)力。
就在DeepSeek-R1發(fā)布后的短短兩個(gè)小時(shí)后,月之暗面也發(fā)布了k1.5多模態(tài)思考模型。據(jù)介紹,從基準(zhǔn)測(cè)試成績(jī)看,k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA(state-of-the-art)級(jí)別的多模態(tài)推理和通用推理能力。(在科學(xué)研究、技術(shù)發(fā)展和各種專業(yè)領(lǐng)域中,“SOTA”,通常用來(lái)指代某個(gè)領(lǐng)域中最先進(jìn)的技術(shù)或方法。)
具體來(lái)看,在short-CoT模式下,Kimik1.5的數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA模型GPT-4o和Claude3.5 Sonnet的水平,領(lǐng)先達(dá)到550%;在long-CoT模式下,Kimik1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長(zhǎng)思考SOTA模型OpenAIo1正式版的水平。
國(guó)產(chǎn)大模型“六小虎”已變?yōu)椤捌咝?qiáng)”
去年12月26日,深度求索宣布全新系列模型DeepSeek-V3上線并同步開(kāi)源。這一模型不僅以卓越的性能超越或媲美全球頂級(jí)的開(kāi)源及閉源模型,更重要的是訓(xùn)練成本極低,被稱為“AI界的拼多多”,以史無(wú)前例的性價(jià)比被國(guó)內(nèi)外一眾圈內(nèi)大佬點(diǎn)贊,引發(fā)廣泛關(guān)注。
隨著DeepSeek-V3的爆火,其背后的大模型創(chuàng)業(yè)公司深度求索也進(jìn)入了大家的視野。過(guò)去的半個(gè)多月里,全網(wǎng)都在扒DeepSeek背后的團(tuán)隊(duì),并發(fā)現(xiàn)DeepSeek團(tuán)隊(duì)最大的特點(diǎn)就是年輕,來(lái)自清華北大的應(yīng)屆生在其中非常活躍,核心技術(shù)崗位基本以應(yīng)屆和畢業(yè)一兩年的人為主。因此,這個(gè)年輕的、由清北應(yīng)屆生撐起來(lái)的公司也被稱為“組織形態(tài)上最像OpenAI的中國(guó)AI公司”。
業(yè)內(nèi)人士分析稱,DeepSeek從創(chuàng)立開(kāi)始就是中國(guó)大模型的技術(shù)創(chuàng)新者,在大廠和創(chuàng)業(yè)公司都在遵循著Llama架構(gòu)的時(shí)候,它選擇對(duì)模型架構(gòu)進(jìn)行了全方位創(chuàng)新,提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),把顯存占用降到了過(guò)去最常用的MHA架構(gòu)的5%—13%,同時(shí)獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu)也把計(jì)算量降到極致,最終促成了成本的下降。而且與早期的OpenAI類似的是,Deepseek兼具高密度的人才團(tuán)隊(duì)和持續(xù)創(chuàng)新的精神,因而能持續(xù)地給中國(guó)大模型帶來(lái)驚喜。
而事實(shí)上,月之暗面也曾被視為“最有可能成為中國(guó)OpenAI的公司”。去年年初,月之暗面憑借以長(zhǎng)文本為核心優(yōu)勢(shì)的Kimi智能助手產(chǎn)品火爆出圈。彼時(shí),頭頂著“90后清華校友技術(shù)天才創(chuàng)業(yè)者”“最強(qiáng)長(zhǎng)文本”等諸多光環(huán),月之暗面迅速完成了巨額的融資,吸引一眾知名投資機(jī)構(gòu)加持,躋身“200億元估值俱樂(lè)部”,成為國(guó)產(chǎn)大模型創(chuàng)業(yè)公司的“頂流”。
然而在爆火之后,Kimi因激進(jìn)的流量投放策略、創(chuàng)始人套現(xiàn)傳聞、投資人仲裁風(fēng)波等事件,屢屢陷入輿論的風(fēng)口浪尖。與此同時(shí),國(guó)產(chǎn)大模型的競(jìng)賽在經(jīng)歷了“百模大戰(zhàn)”后,尚留在牌桌中的玩家之間的競(jìng)爭(zhēng)也更趨于激烈。Kimi不僅在流量投放上面臨著字節(jié)豆包的瘋狂進(jìn)攻,而且競(jìng)爭(zhēng)對(duì)手也紛紛發(fā)力長(zhǎng)文本能力,Kimi的優(yōu)勢(shì)逐漸變得不那么明顯。
頭頂著“清北應(yīng)屆生”光環(huán)的DeepSeek,無(wú)疑給包括Kimi在內(nèi)的國(guó)產(chǎn)大模型創(chuàng)業(yè)公司帶來(lái)了壓力。業(yè)內(nèi)有人認(rèn)為,DeepSeek事實(shí)上已經(jīng)可以和“六小虎”(智譜AI、月之暗面、百川智能、Minimax、階躍星辰、零一萬(wàn)物)并列成為“七小強(qiáng)”。更重要的是,DeepSeek由國(guó)內(nèi)知名量化資管巨頭幻方量化創(chuàng)立,未進(jìn)行過(guò)任何融資,特點(diǎn)是“少花錢(qián)多辦事”,與依靠融資輸血、估值水漲船高的其他創(chuàng)業(yè)公司相比顯得格外另類。
這一低調(diào)的技術(shù)黑馬,無(wú)論是技術(shù)路線還是發(fā)展模式,都走出了一條與眾不同的道路,也改變了國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)格局。隨著競(jìng)爭(zhēng)繼續(xù)向深水區(qū)挺進(jìn),誰(shuí)能留在牌桌上笑到最后,或許能在2025年見(jiàn)分曉。
校對(duì):祝甜婷