95后AI“天才少女”刷屏!雷軍千萬(wàn)年薪挖角!
來(lái)源:證券時(shí)報(bào)網(wǎng)作者:周春媚2024-12-29 19:26

國(guó)產(chǎn)大模型DeepSeek在全球火了,并帶火了一個(gè)95后AI“天才少女”羅福莉。

最近,中國(guó)頭部量化私募公司幻方量化旗下專注于AI大模型研究開發(fā)的Deepseek(深度求索公司),宣布旗下的全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源。DeepSeek-V3是深度求索自研的MoE模型(混合專家大模型),不僅以卓越的性能超越或媲美全球頂級(jí)的開源及閉源模型,更重要的是訓(xùn)練成本極低,被稱為“AI界的拼多多”,以史無(wú)前例的性價(jià)比被國(guó)內(nèi)外一眾圈內(nèi)大佬點(diǎn)贊,引發(fā)廣泛關(guān)注。

與DeepSeek一起進(jìn)入大家視野的,是95后AI“天才少女”羅福莉。她曾在DeepSeek參與了DeepSeek-V2的研發(fā),是這款模型的關(guān)鍵開發(fā)者之一。在DeepSeek-V3發(fā)布前幾天,媒體報(bào)道稱小米創(chuàng)始人雷軍已開出千萬(wàn)年薪,將羅福莉招至麾下,羅福莉?qū)⒕吐氂谛∶譇I實(shí)驗(yàn)室,領(lǐng)導(dǎo)大模型團(tuán)隊(duì)。

“AI界拼多多”刷屏海外

據(jù)最新發(fā)布的技術(shù)報(bào)告,DeepSeek-V3參數(shù)量為671B,激活參數(shù)為37B,使用的預(yù)訓(xùn)練token量為14.8萬(wàn)億。其多項(xiàng)評(píng)測(cè)成績(jī)超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“中國(guó)AI公司Deepseek發(fā)布并開源了一個(gè)前沿的大語(yǔ)言模型,而其訓(xùn)練的預(yù)算卻非常低?!鼻癘penAI聯(lián)創(chuàng)、知名AI科學(xué)家AndrejKarpathy在其個(gè)人社交平臺(tái)上表示,DeepSeek-V3整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)GPU小時(shí),相比之下,Meta旗下頂尖的開源模型Llama-3405B的訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)。如果DeepSeekV3的優(yōu)良表現(xiàn)能夠得到廣泛驗(yàn)證,那么這將是資源有限情況下對(duì)研究和工程的一次出色展示。

若從成本上進(jìn)行更直觀的對(duì)比,假設(shè)H800的租金為每GPU小時(shí)2美元,DeepSeek-V3的總訓(xùn)練成本僅為600萬(wàn)美元不到,是Llama-3405B超6000萬(wàn)美元訓(xùn)練成本的十分之一不到。

極高的性價(jià)比讓DeepSeek-V3一經(jīng)發(fā)布便引發(fā)國(guó)內(nèi)外廣泛關(guān)注。Meta的AI研究科學(xué)家田淵棟稱“在非常有限的預(yù)算下實(shí)現(xiàn)強(qiáng)勁表現(xiàn)”,“這是一項(xiàng)了不起的工作”。知名AI數(shù)據(jù)公司ScaleAI創(chuàng)始人兼CEOAlexandrWang也表示,DeepSeek-V3“訓(xùn)練所需計(jì)算量減少了10倍”,“在美國(guó)休息的時(shí)候,他們努力工作,以更低的成本、更快的速度和更強(qiáng)的實(shí)力迎頭趕上。”

這一圈粉無(wú)數(shù)的大模型,由被稱為“AI界拼多多”的DeepSeek研發(fā)。公開資料顯示,DeepSeek專注于開發(fā)先進(jìn)的大語(yǔ)言模型和相關(guān)技術(shù),由國(guó)內(nèi)知名量化資管巨頭幻方量化于2023年創(chuàng)立,也被美國(guó)硅谷譽(yù)為“來(lái)自東方的神秘力量”。

事實(shí)上,DeepSeek并非第一次“出圈”。早在半年前,其發(fā)布的DeepSeek-V2就因性能達(dá)GPT-4級(jí)別,但開源、可免費(fèi)商用、且API價(jià)格僅為GPT-4-Turbo的百分之一而引發(fā)業(yè)內(nèi)關(guān)注。對(duì)于為何能做到如此高的性價(jià)比,DeepSeek官方解釋稱,DeepSeek-V2采用了創(chuàng)新的架構(gòu),例如注意力機(jī)制方面的MLA(多頭潛在注意力)和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等,以實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。

正因?yàn)樵谟?xùn)練效率和成本方面的優(yōu)勢(shì),DeepSeek也是國(guó)內(nèi)最早開啟大模型降價(jià)的廠商,也是大模型價(jià)格戰(zhàn)的源頭和推動(dòng)者。在其發(fā)布DeepSeek-V2之后,字節(jié)、阿里、百度等廠商紛紛跟進(jìn)降價(jià)。同時(shí),DeepSeek也是中國(guó)互聯(lián)網(wǎng)大廠以外,唯一一家儲(chǔ)備了萬(wàn)張A100芯片的公司,這為其早期的技術(shù)研發(fā)提供了堅(jiān)實(shí)的算力基礎(chǔ)。

“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”在回應(yīng)當(dāng)初為何打響大模型價(jià)格戰(zhàn)第一槍時(shí),DeepSeek創(chuàng)始人梁文鋒表示。這位畢業(yè)于浙江大學(xué)電子工程系的80后,一直潛心研究技術(shù)。據(jù)媒體報(bào)道,梁文鋒在工作中始終保持著低調(diào)的作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。

一名人工智能行業(yè)資深業(yè)內(nèi)人士向證券時(shí)報(bào)記者分析稱,DeepSeek以200人左右的小團(tuán)隊(duì),且不依靠外部融資,做出了一個(gè)有性價(jià)比并被全球主流AI界人士所認(rèn)可的大模型?!耙皇撬麄?cè)谠缙诰唾I了很多算力卡,投入了很多資源做研究;二是他們是做量化的,不像大廠有其他各種各樣的盈利需求,也跟他們不構(gòu)成競(jìng)爭(zhēng)關(guān)系,能更專注于模型開發(fā)?!痹摌I(yè)內(nèi)人士表示。

背后的AI“天才少女”引發(fā)關(guān)注

在DeepSeek-V3爆火之后,背后的AI“天才少女”羅福莉也進(jìn)入了人們的視野。據(jù)媒體報(bào)道,小米創(chuàng)始人雷軍以千萬(wàn)年薪招攬DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉,領(lǐng)導(dǎo)小米AI大模型團(tuán)隊(duì)。

公開資料顯示,羅福莉本科就讀于北京師范大學(xué)計(jì)算機(jī)專業(yè),碩士畢業(yè)于北京大學(xué)計(jì)算語(yǔ)言學(xué)專業(yè)。2019年,還在北大讀碩士的她在人工智能領(lǐng)域頂級(jí)國(guó)際會(huì)議ACL上發(fā)表8篇論文(其中2篇一作),登上了知乎熱搜。羅福莉用本人知乎賬號(hào)回應(yīng)稱,“這次投稿ACL是我近一年的產(chǎn)出,所以我認(rèn)為自己是付出了足夠的努力的,當(dāng)然也可能也有運(yùn)氣成分加持。”

碩士畢業(yè)后,羅福莉先是進(jìn)入阿里達(dá)摩院做人工智能研究,從事預(yù)訓(xùn)練語(yǔ)言模型相關(guān)的工作,負(fù)責(zé)阿里達(dá)摩院AliceMind開源項(xiàng)目,主導(dǎo)開發(fā)了多語(yǔ)言預(yù)訓(xùn)練模型VECO。2022年,羅福莉加入幻方量化從事深度學(xué)習(xí)相關(guān)策略建模和算法研究,后又跳槽到DeepSeek擔(dān)任深度學(xué)習(xí)研究員,參與研發(fā)MoE大模型DeepSeek-V2。

今年5月,在DeepSeek-V2發(fā)布以后,羅福莉在知乎上撰文,發(fā)表了對(duì)于DeepSeek-V2的看法。她表示,“單論DeepSeek-V2模型的中文水平,是真實(shí)處在國(guó)內(nèi)外閉源模型的第一梯隊(duì)”,“外加1元/百萬(wàn)輸入Tokens的價(jià)格,只有GPT4價(jià)格的1/100,性價(jià)比之王”。

事實(shí)上,羅福莉被重金招入小米,是小米全面發(fā)力AI大模型的其中一個(gè)動(dòng)作。2023年4月,小米正式組建了AI實(shí)驗(yàn)室大模型團(tuán)隊(duì),并表示將不斷挖掘AI相關(guān)的用戶場(chǎng)景,發(fā)揮自身技術(shù)優(yōu)勢(shì),并以開放的態(tài)度與合作伙伴開拓更多機(jī)會(huì)。今年11月,小米成立了專門的AI平臺(tái)部,小米的元老級(jí)技術(shù)大牛張鐸為負(fù)責(zé)人。張鐸本碩畢業(yè)于清華計(jì)算機(jī)系,曾被雷軍公開稱贊是“小米的大神”,送以“鐸神”的稱號(hào)。

兵馬未動(dòng),糧草先行。除了招募人才以外,最近,媒體報(bào)道稱小米正著手搭建自己的GPU萬(wàn)卡集群,并在過(guò)去幾個(gè)月里持續(xù)提升算力儲(chǔ)備,為大模型研發(fā)提供更充分的算力供給。雷軍在公開演講時(shí)曾表示,小米做大模型的思路和很多公司不太一樣,選擇主力突破的是輕量化和本地部署。對(duì)于小米這樣無(wú)論在手機(jī)還是造車上都講究“性價(jià)比”的公司而言,如何在燒錢的大模型業(yè)務(wù)中平衡成本,無(wú)疑是雷軍考慮的核心問(wèn)題。而這,或許也是擁有DeepSeek-V2研發(fā)背景的羅福莉被雷軍看中的原因。

責(zé)編:葉舒筠

校對(duì):祝甜婷

責(zé)任編輯: 朱雨蒙
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換