国产麻豆精品一区二区,中文字幕有码无码2024,国产精品免费一区二区三区

DeepSeek再次爆火。

近日，國(guó)內(nèi)AI初創(chuàng)公司DeepSeek發(fā)布了新一代大語(yǔ)言模型DeepSeek-V3，同時(shí)宣布開源。在多項(xiàng)基準(zhǔn)測(cè)試中，V3的成績(jī)超越了主流開源模型，并和世界頂尖的閉源模型不分伯仲。

更重要的是，V3的訓(xùn)練成本極低，僅為GPT-4o的二十分之一；售價(jià)也低，輸入+輸出價(jià)格約為GPT-4o的十分之一。不過(guò)其目前不支持多模態(tài)輸入輸出。

DeepSeek是量化資管公司幻方旗下企業(yè)，成立于2023年7月。

被冠以“AI界高效低價(jià)典范”的DeepSeek，給當(dāng)前的人工智能技術(shù)與發(fā)展路徑提供了一個(gè)新的方向，貢獻(xiàn)了AI競(jìng)賽中的中國(guó)力量。

V3不僅在人工智能界產(chǎn)生轟動(dòng)效應(yīng)，也因它的母公司是知名量化基金公司，而在資本市場(chǎng)引發(fā)熱烈討論。

另?yè)?jù)報(bào)道，近期小米正在搭建GPU萬(wàn)卡集群，雷軍親自以千萬(wàn)年薪挖來(lái)了DeepSeek-V2關(guān)鍵開發(fā)人員之一的95后羅福莉，后者被譽(yù)為“AI天才少女”。

DeepSeek的“暴力美學(xué)”

多個(gè)實(shí)測(cè)表明，數(shù)學(xué)基準(zhǔn)（MATH 500）和AIME 2024測(cè)試方面，V3超越了當(dāng)前國(guó)際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代碼能力（Codeforces 基準(zhǔn)），比國(guó)外主流大模型高出約30分；軟件工程（SWE-bench Verified）和知識(shí)問(wèn)答方面，略遜于Claude-3.5-Sonnet。

因此，DeepSeek的技術(shù)論文自豪地宣稱，“綜合評(píng)估表明，DeepSeek-V3-Base已經(jīng)成為目前可用的最強(qiáng)大的開源基礎(chǔ)模型，特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型，并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)測(cè)試中實(shí)現(xiàn)了與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先閉源模型的性能相當(dāng)?！?/p>

更重要的是，這一成就，是在極低的訓(xùn)練成本下取得的。

DeepSeek在其53頁(yè)的技術(shù)論文披露：“我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成，成本為2664K GPU小時(shí)。結(jié)合119K GPU小時(shí)的上下文長(zhǎng)度擴(kuò)展和5K GPU小時(shí)的后訓(xùn)練，DeepSeek-V3的完整訓(xùn)練成本僅為2.788M GPU小時(shí)。假設(shè)H800 GPU的租金為每GPU小時(shí)2美元，我們的總訓(xùn)練成本僅為557萬(wàn)美元?！?/p>

Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪此前透露，GPT-4o的模型訓(xùn)練成本約為1億美元。而僅僅是訓(xùn)練一個(gè)7B的Llama 2，就要花費(fèi)76萬(wàn)美元。

也就是說(shuō)，DeepSeek-V3的訓(xùn)練成本僅為同性能模型的十幾分之一。這讓整個(gè)AI界都為之震驚。

據(jù)報(bào)道，仍處于研發(fā)過(guò)程中的GPT-5，至少已進(jìn)行過(guò)兩輪訓(xùn)練，每輪訓(xùn)練耗時(shí)數(shù)月，僅一輪計(jì)算成本就接近5億美元。一年半過(guò)去，GPT-5仍未問(wèn)世。這意味著，新一代通用大模型的訓(xùn)練成本已達(dá)到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資，重要開支之一是將數(shù)據(jù)中心Colossus的規(guī)模擴(kuò)大一倍，GPU數(shù)量達(dá)到20萬(wàn)顆。

按照這種訓(xùn)練路徑，未來(lái)三年內(nèi)，AI大模型的訓(xùn)練成本將上升至100億美元甚至上不封頂。正是在這種背景之下，一段時(shí)間以來(lái)AI界產(chǎn)生了對(duì)Scaling law的質(zhì)疑。

GPT-5難產(chǎn)，OpenAI轉(zhuǎn)向了另一條發(fā)展路徑：推理模型。并且很快產(chǎn)生成果：令人驚艷的o1推理模型，以及剛發(fā)布的o3推理模型。而o3的卓越表現(xiàn)，讓部分專家驚呼，在前往AGI的路上已經(jīng)沒(méi)有了障礙。

人工智能初創(chuàng)公司深受啟迪，并緊緊跟隨。前不久剛從硅谷考察回來(lái)的零一萬(wàn)物創(chuàng)始人李開復(fù)說(shuō)，過(guò)去大家覺(jué)得預(yù)訓(xùn)練做好就夠了，一年以后（o1出現(xiàn)后）發(fā)現(xiàn)Post train（后訓(xùn)練）也同樣重要。他透露說(shuō)，很多AI公司都在向推理模型方面發(fā)展，5個(gè)月以后會(huì)有不少類似o1模型的能力出現(xiàn)在各個(gè)模型公司，包括零一萬(wàn)物，都在往o1方向狂奔。

但DeepSeek-V3的出現(xiàn)，提供了新的可能。更短的時(shí)間，更高的效率，更低的成本，達(dá)到同等的水平，通用大語(yǔ)言模型的發(fā)展路徑選擇上，貢獻(xiàn)了“中國(guó)版本”。

新的變化已經(jīng)發(fā)生

事實(shí)上，2024年5月6日，DeepSeek發(fā)布DeepSeek-V2開源MoE模型，就以其高效性能在全球AI界掀起了一波熱度。而其API接口價(jià)格與同類產(chǎn)品相比斷崖式定為每百萬(wàn)tokens輸入1元、輸出2元（32K上下文），僅為GPT-4-Turbo的近百分之一。

“價(jià)格屠夫”的殺入，令智譜AI、字節(jié)跳動(dòng)、阿里云、百度、騰訊云旗下大模型隨后不得不跟進(jìn)降價(jià)。而且騰訊和百度宣布幾款大模型產(chǎn)品免費(fèi)。雖然有人將DeepSeek-V2稱為“AI界的拼多多”，但這個(gè)比喻不太恰當(dāng)，因?yàn)槎邘缀鯖](méi)有共性。

DeepSeek-V3的API定價(jià)提高到輸入2元/M tokens，輸出為8元/M tokens（45天的價(jià)格優(yōu)惠期后），雖然比V2大幅上漲，但也只相當(dāng)于Claude-3.5-Sonnet費(fèi)用的1/53，后者每百萬(wàn)tokens輸入3美元、輸出15美元。

根據(jù)記者近兩天對(duì)AI從業(yè)者的采訪，DeepSeek-V3的出現(xiàn)，為業(yè)界提供了新的啟發(fā)。

其一，大模型研發(fā)，存在多種可能的發(fā)展路徑。

ChatGPT走的是大參數(shù)、大算力、大投入的路子，對(duì)算力和資金的要求極高，這種資源消耗是絕大多數(shù)創(chuàng)業(yè)公司無(wú)法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司，也面臨投資回報(bào)的商業(yè)化難題。

推理模型是另一條路子。o1、o3的成果，證明這條路也是可行的。但同樣，它也是建立于相對(duì)高昂的算力和資金成本基礎(chǔ)上，尤其是算力。

DeepSeek-V3是第三條路徑。與當(dāng)前大模型訓(xùn)練動(dòng)輒要求萬(wàn)卡集成相比，它只用2000張A100 GPU訓(xùn)練，就實(shí)現(xiàn)了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果，不能不令人敬佩。

一位在硅谷從事AI研究的華人工程師告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者，不排除還有更多的路徑選擇，比如V3的MLA架構(gòu)、MoESparse結(jié)構(gòu)與o3的推理能力相結(jié)合，可能產(chǎn)生新的大模型范式。如果實(shí)現(xiàn)，那將是令人驚異的。

其二，人工智能競(jìng)爭(zhēng)，中國(guó)不僅僅是跟隨者，而是正在大幅提升創(chuàng)新能力。

其實(shí)V2發(fā)布時(shí)，硅谷就驚訝地稱之為“來(lái)自東方的神秘力量”。DeepSeek創(chuàng)始人梁文鋒2024年7月在接受媒體采訪時(shí)說(shuō)，硅谷習(xí)慣于將中國(guó)AI公司視為follow的角色，當(dāng)一個(gè)中國(guó)公司以創(chuàng)新貢獻(xiàn)者的身份，加入到他們游戲里去，而且表現(xiàn)優(yōu)異時(shí)，他們就很震驚。

梁文鋒認(rèn)為，更多的投入并不一定產(chǎn)生更多的創(chuàng)新，否則大廠可以把所有的創(chuàng)新包攬了。研究和技術(shù)創(chuàng)新將永遠(yuǎn)是DeepSeek第一優(yōu)先級(jí)。值得注意的是，根據(jù)業(yè)內(nèi)專家測(cè)算，DeepSeek在V2、V3上并不虧錢。

V3獲得硅谷一批知名AI大佬的點(diǎn)贊。Lepton AI創(chuàng)始人、阿里巴巴原副總裁賈揚(yáng)清表示，DeepSeek是智慧和實(shí)用主義的體現(xiàn)：在有限的計(jì)算資源和人力條件下，通過(guò)聰明的研究產(chǎn)生最好的結(jié)果。這是一句相當(dāng)中肯的評(píng)價(jià)。

無(wú)獨(dú)有偶。宇樹科技近日發(fā)布最新的Unitree B2-W機(jī)器狗產(chǎn)品視頻：托馬斯全旋、側(cè)空翻、360°跳躍轉(zhuǎn)體、2.8米凌空飛躍，甚至能馱著一名成年男子穩(wěn)步行走。這幾天，技術(shù)討論園區(qū)里到處可見對(duì)這家前沿中國(guó)機(jī)器人企業(yè)的歡呼聲，有評(píng)論稱其技能足以“吊打”當(dāng)今最先進(jìn)的機(jī)器人公司波士頓動(dòng)力。上周還在A股市場(chǎng)掀起了一陣“宇樹科技概念”上漲潮。

其三，創(chuàng)新從來(lái)不是單維度、單向度的，AI顛覆式創(chuàng)新正在成為可能。

研發(fā)出ChatGPT的OpenAI確實(shí)了不起，它開啟了人工智能的新一輪浪潮。但OpenAI也不是神，也有發(fā)展方向的障礙，有融資的難題，有路徑選擇的猶豫。

過(guò)去兩三年，AI界一個(gè)流行的看法是，如果說(shuō)硅谷企業(yè)擅長(zhǎng)從0到1，那我們則擅長(zhǎng)從1到10，因?yàn)橹袊?guó)有寬廣的應(yīng)用市場(chǎng)。但梁文鋒認(rèn)為，當(dāng)前階段仍是AI技術(shù)創(chuàng)新的爆發(fā)期，而不是應(yīng)用的爆發(fā)期。

從理性的角度，需要承認(rèn)我們與OpenAI、Anthropic、DeepMind這些世界先進(jìn)AI公司仍存在較大的差距。比如，即使是代表閉源大模型最前沿水平的V3，多項(xiàng)性能表現(xiàn)與GPT-4o相近，那也是后者7個(gè)月前的技術(shù)水平；而OpenAI這幾個(gè)月已連續(xù)推出o1、o3這類新的“變異”物種。更何況，其他大多數(shù)的模型產(chǎn)品，放在多語(yǔ)言、多模態(tài)的國(guó)際視野看，差距要更大。

但這一輪人工智能浪潮之所以更加令人期待，就是因?yàn)?，它帶?lái)的革命性想象力甚至要超越互聯(lián)網(wǎng)之于傳統(tǒng)經(jīng)濟(jì)的變革力量。正如梁文鋒所說(shuō)，中國(guó)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整升級(jí)，會(huì)更依賴硬核科技的創(chuàng)新。在半導(dǎo)體、大模型等領(lǐng)域，遠(yuǎn)未觸達(dá)技術(shù)天花板，前所未有的機(jī)會(huì)在等待著中國(guó)企業(yè)，那些帶來(lái)AI顛覆性創(chuàng)新產(chǎn)品或方案模式的公司，就非?？赡艹蔀橄乱粋€(gè)偉大的企業(yè)。

前述硅谷華人工程師感慨地說(shuō)，再偉大的企業(yè)，都不敢止步不前，坐享其成。

5年前，誰(shuí)會(huì)想到，英特爾會(huì)淪落到傳聞要被收購(gòu)的命運(yùn)？而今天別看英偉達(dá)如日中天、GPU供不應(yīng)求，但如果量子芯片大規(guī)模商用的時(shí)間表大大縮短，或者像V3這樣不再依賴于萬(wàn)卡集成做訓(xùn)練研發(fā)，而它繼續(xù)固守原有發(fā)展路徑，那么所謂的“英偉達(dá)泡沫”提前破滅也是完全可能發(fā)生的。

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

特朗普與馬斯克“蜜月期”結(jié)束？

國(guó)際金融報(bào) 袁源 2025-01-05 12:00