久久午夜无码鲁丝片秋霞,美女爽到尿喷出来,亚洲午夜久久久久久91

95后AI“天才少女”刷屏！雷軍千萬(wàn)年薪挖角！

來(lái)源：證券時(shí)報(bào)網(wǎng)作者：周春媚2024-12-29 19:26

國(guó)產(chǎn)大模型DeepSeek在全球火了，并帶火了一個(gè)95后AI“天才少女”羅福莉。

最近，中國(guó)頭部量化私募公司幻方量化旗下專注于AI大模型研究開發(fā)的Deepseek（深度求索公司），宣布旗下的全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源。DeepSeek-V3是深度求索自研的MoE模型（混合專家大模型），不僅以卓越的性能超越或媲美全球頂級(jí)的開源及閉源模型，更重要的是訓(xùn)練成本極低，被稱為“AI界的拼多多”，以史無(wú)前例的性價(jià)比被國(guó)內(nèi)外一眾圈內(nèi)大佬點(diǎn)贊，引發(fā)廣泛關(guān)注。

與DeepSeek一起進(jìn)入大家視野的，是95后AI“天才少女”羅福莉。她曾在DeepSeek參與了DeepSeek-V2的研發(fā)，是這款模型的關(guān)鍵開發(fā)者之一。在DeepSeek-V3發(fā)布前幾天，媒體報(bào)道稱小米創(chuàng)始人雷軍已開出千萬(wàn)年薪，將羅福莉招至麾下，羅福莉?qū)⒕吐氂谛∶譇I實(shí)驗(yàn)室，領(lǐng)導(dǎo)大模型團(tuán)隊(duì)。

“AI界拼多多”刷屏海外

據(jù)最新發(fā)布的技術(shù)報(bào)告，DeepSeek-V3參數(shù)量為671B，激活參數(shù)為37B，使用的預(yù)訓(xùn)練token量為14.8萬(wàn)億。其多項(xiàng)評(píng)測(cè)成績(jī)超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“中國(guó)AI公司Deepseek發(fā)布并開源了一個(gè)前沿的大語(yǔ)言模型，而其訓(xùn)練的預(yù)算卻非常低?！鼻癘penAI聯(lián)創(chuàng)、知名AI科學(xué)家AndrejKarpathy在其個(gè)人社交平臺(tái)上表示，DeepSeek-V3整個(gè)訓(xùn)練過(guò)程僅用了不到280萬(wàn)GPU小時(shí)，相比之下，Meta旗下頂尖的開源模型Llama-3405B的訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)。如果DeepSeekV3的優(yōu)良表現(xiàn)能夠得到廣泛驗(yàn)證，那么這將是資源有限情況下對(duì)研究和工程的一次出色展示。

若從成本上進(jìn)行更直觀的對(duì)比，假設(shè)H800的租金為每GPU小時(shí)2美元，DeepSeek-V3的總訓(xùn)練成本僅為600萬(wàn)美元不到，是Llama-3405B超6000萬(wàn)美元訓(xùn)練成本的十分之一不到。

極高的性價(jià)比讓DeepSeek-V3一經(jīng)發(fā)布便引發(fā)國(guó)內(nèi)外廣泛關(guān)注。Meta的AI研究科學(xué)家田淵棟稱“在非常有限的預(yù)算下實(shí)現(xiàn)強(qiáng)勁表現(xiàn)”，“這是一項(xiàng)了不起的工作”。知名AI數(shù)據(jù)公司ScaleAI創(chuàng)始人兼CEOAlexandrWang也表示，DeepSeek-V3“訓(xùn)練所需計(jì)算量減少了10倍”，“在美國(guó)休息的時(shí)候，他們努力工作，以更低的成本、更快的速度和更強(qiáng)的實(shí)力迎頭趕上。”

這一圈粉無(wú)數(shù)的大模型，由被稱為“AI界拼多多”的DeepSeek研發(fā)。公開資料顯示，DeepSeek專注于開發(fā)先進(jìn)的大語(yǔ)言模型和相關(guān)技術(shù)，由國(guó)內(nèi)知名量化資管巨頭幻方量化于2023年創(chuàng)立，也被美國(guó)硅谷譽(yù)為“來(lái)自東方的神秘力量”。

事實(shí)上，DeepSeek并非第一次“出圈”。早在半年前，其發(fā)布的DeepSeek-V2就因性能達(dá)GPT-4級(jí)別，但開源、可免費(fèi)商用、且API價(jià)格僅為GPT-4-Turbo的百分之一而引發(fā)業(yè)內(nèi)關(guān)注。對(duì)于為何能做到如此高的性價(jià)比，DeepSeek官方解釋稱，DeepSeek-V2采用了創(chuàng)新的架構(gòu)，例如注意力機(jī)制方面的MLA（多頭潛在注意力）和前饋網(wǎng)絡(luò)方面的DeepSeekMoE架構(gòu)等，以實(shí)現(xiàn)具有更高經(jīng)濟(jì)性的訓(xùn)練效果和更高效的推理。

正因?yàn)樵谟?xùn)練效率和成本方面的優(yōu)勢(shì)，DeepSeek也是國(guó)內(nèi)最早開啟大模型降價(jià)的廠商，也是大模型價(jià)格戰(zhàn)的源頭和推動(dòng)者。在其發(fā)布DeepSeek-V2之后，字節(jié)、阿里、百度等廠商紛紛跟進(jìn)降價(jià)。同時(shí)，DeepSeek也是中國(guó)互聯(lián)網(wǎng)大廠以外，唯一一家儲(chǔ)備了萬(wàn)張A100芯片的公司，這為其早期的技術(shù)研發(fā)提供了堅(jiān)實(shí)的算力基礎(chǔ)。

“我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。”在回應(yīng)當(dāng)初為何打響大模型價(jià)格戰(zhàn)第一槍時(shí)，DeepSeek創(chuàng)始人梁文鋒表示。這位畢業(yè)于浙江大學(xué)電子工程系的80后，一直潛心研究技術(shù)。據(jù)媒體報(bào)道，梁文鋒在工作中始終保持著低調(diào)的作風(fēng)，和所有研究員一樣，每天“看論文，寫代碼，參與小組討論”。

一名人工智能行業(yè)資深業(yè)內(nèi)人士向證券時(shí)報(bào)記者分析稱，DeepSeek以200人左右的小團(tuán)隊(duì)，且不依靠外部融資，做出了一個(gè)有性價(jià)比并被全球主流AI界人士所認(rèn)可的大模型?！耙皇撬麄?cè)谠缙诰唾I了很多算力卡，投入了很多資源做研究；二是他們是做量化的，不像大廠有其他各種各樣的盈利需求，也跟他們不構(gòu)成競(jìng)爭(zhēng)關(guān)系，能更專注于模型開發(fā)?！痹摌I(yè)內(nèi)人士表示。

背后的AI“天才少女”引發(fā)關(guān)注

在DeepSeek-V3爆火之后，背后的AI“天才少女”羅福莉也進(jìn)入了人們的視野。據(jù)媒體報(bào)道，小米創(chuàng)始人雷軍以千萬(wàn)年薪招攬DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉，領(lǐng)導(dǎo)小米AI大模型團(tuán)隊(duì)。

公開資料顯示，羅福莉本科就讀于北京師范大學(xué)計(jì)算機(jī)專業(yè)，碩士畢業(yè)于北京大學(xué)計(jì)算語(yǔ)言學(xué)專業(yè)。2019年，還在北大讀碩士的她在人工智能領(lǐng)域頂級(jí)國(guó)際會(huì)議ACL上發(fā)表8篇論文（其中2篇一作），登上了知乎熱搜。羅福莉用本人知乎賬號(hào)回應(yīng)稱，“這次投稿ACL是我近一年的產(chǎn)出，所以我認(rèn)為自己是付出了足夠的努力的，當(dāng)然也可能也有運(yùn)氣成分加持。”

碩士畢業(yè)后，羅福莉先是進(jìn)入阿里達(dá)摩院做人工智能研究，從事預(yù)訓(xùn)練語(yǔ)言模型相關(guān)的工作，負(fù)責(zé)阿里達(dá)摩院AliceMind開源項(xiàng)目，主導(dǎo)開發(fā)了多語(yǔ)言預(yù)訓(xùn)練模型VECO。2022年，羅福莉加入幻方量化從事深度學(xué)習(xí)相關(guān)策略建模和算法研究，后又跳槽到DeepSeek擔(dān)任深度學(xué)習(xí)研究員，參與研發(fā)MoE大模型DeepSeek-V2。

今年5月，在DeepSeek-V2發(fā)布以后，羅福莉在知乎上撰文，發(fā)表了對(duì)于DeepSeek-V2的看法。她表示，“單論DeepSeek-V2模型的中文水平，是真實(shí)處在國(guó)內(nèi)外閉源模型的第一梯隊(duì)”，“外加1元/百萬(wàn)輸入Tokens的價(jià)格，只有GPT4價(jià)格的1/100，性價(jià)比之王”。

事實(shí)上，羅福莉被重金招入小米，是小米全面發(fā)力AI大模型的其中一個(gè)動(dòng)作。2023年4月，小米正式組建了AI實(shí)驗(yàn)室大模型團(tuán)隊(duì)，并表示將不斷挖掘AI相關(guān)的用戶場(chǎng)景，發(fā)揮自身技術(shù)優(yōu)勢(shì)，并以開放的態(tài)度與合作伙伴開拓更多機(jī)會(huì)。今年11月，小米成立了專門的AI平臺(tái)部，小米的元老級(jí)技術(shù)大牛張鐸為負(fù)責(zé)人。張鐸本碩畢業(yè)于清華計(jì)算機(jī)系，曾被雷軍公開稱贊是“小米的大神”，送以“鐸神”的稱號(hào)。

兵馬未動(dòng)，糧草先行。除了招募人才以外，最近，媒體報(bào)道稱小米正著手搭建自己的GPU萬(wàn)卡集群，并在過(guò)去幾個(gè)月里持續(xù)提升算力儲(chǔ)備，為大模型研發(fā)提供更充分的算力供給。雷軍在公開演講時(shí)曾表示，小米做大模型的思路和很多公司不太一樣，選擇主力突破的是輕量化和本地部署。對(duì)于小米這樣無(wú)論在手機(jī)還是造車上都講究“性價(jià)比”的公司而言，如何在燒錢的大模型業(yè)務(wù)中平衡成本，無(wú)疑是雷軍考慮的核心問(wèn)題。而這，或許也是擁有DeepSeek-V2研發(fā)背景的羅福莉被雷軍看中的原因。

責(zé)編：葉舒筠

校對(duì)：祝甜婷

責(zé)任編輯：朱雨蒙

小米

知乎

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)