性欧美乱妇高清come,国产香蕉国产精品偷在线观看,2019男人天堂无码在线观看

刷屏！“AI界拼多多”再出手，Deepseek發(fā)布新模型，訓(xùn)練成本降低10倍

來源：證券時報網(wǎng)作者：券商中國許孝如2024-12-29 18:18

近日，一家來自中國杭州的公司Deepseek在全球AI界刷屏！

12月26日，Deepseek發(fā)布了全新系列模型DeepSeek-v3，一夜之間霸榜開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。

更讓海外AI界震驚的是，該模型的訓(xùn)練成本僅600萬美元，成本降低10倍，資源運用效率極高。有AI投資機構(gòu)負(fù)責(zé)人直言，DeepSeek發(fā)布的53頁的技術(shù)論文是黃金。

據(jù)了解，Deepseek的中文名是“深度求索”，為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭，幻方擁有1萬枚英偉達(dá)A100芯片，去年4月幻方宣布成立新組織，集中資源和力量，探索AGI的本質(zhì)，在一年多時間里進(jìn)展迅速。

Deepseek再進(jìn)化

今年5月，Deepseek發(fā)布的一款名為DeepSeek V2的開源模型，因其史無前例的性價比，在AI界一躍成名。然而，僅僅過了半年多，Deepseek再度進(jìn)化。

12月26日，Deepseek稱，全新系列模型DeepSeek-v3首個版本上線并同步開源，該模型的多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

比如，在百科知識、長文本、代碼、數(shù)學(xué)、中文能力上的表現(xiàn)，超越其他模型，尤其是在數(shù)學(xué)上，在美國數(shù)學(xué)競賽（AIME 2024, MATH）和全國高中數(shù)學(xué)聯(lián)賽（CNMO 2024）上，DeepSeek-V3 大幅超過了所有開源閉源模型。

同時，通過算法和工程上的創(chuàng)新，DeepSeek-V3 的生成吐字速度從20 TPS大幅提高至 60 TPS，相比 V2.5 模型實現(xiàn)了3倍的提升。

值得注意的是，Deepseek將API服務(wù)價格，調(diào)整為每百萬輸入tokens 0.5元（緩存命中）/ 2元（緩存未命中），每百萬輸出tokens 8元。

Deepseek還決定為全新模型設(shè)置長達(dá)45天的優(yōu)惠價格體驗期：即日起至2025年2月8日，DeepSeek-V3的API服務(wù)價格仍然是每百萬輸入tokens 0.1元（緩存命中）/ 1元（緩存未命中），每百萬輸出tokens 2元。

震驚海外AI界

最讓海外AI界震驚的是，在性能突出的同時，該模型的訓(xùn)練成本大幅降低。

天使投資人Balaji稱，DeepSeek新開源模型僅花費了560萬美元進(jìn)行訓(xùn)練，與GPT 4和Claude 3.5 Sonnet相當(dāng)。如果屬實，成本將降低10倍以上。

Open AI創(chuàng)始成員之一，李飛飛的得意門生Andrej Karpathy表示，“今天，DeepSeek通過一個前沿級LLM的開放權(quán)重發(fā)布，讓這一切看起來輕而易舉，而其訓(xùn)練的預(yù)算卻非常低（2048個GPU運行2個月，總成本600萬美元）?！?/p>

Andrej Karpathy分析，按照以往經(jīng)驗，這種能力級別的大模型，通常需要接近1.6萬張GPU，而目前行業(yè)內(nèi)的模型大多使用約10萬張GPU。例如，Llama 3 405B模型消耗了3080萬GPU小時，而DeepSeek-V3僅用了280萬GPU小時，計算需求減少了11倍。

“這是否意味著前沿LLM不需要大型GPU集群？不是，但你必須確保不浪費你所擁有的資源，這看起來是一個很好的證明，表明在數(shù)據(jù)和算法方面還有很多工作要做?！盇ndrej Karpathy感慨。

Lepton AI創(chuàng)始人賈揚清則表示，2019年，他和deepseek團(tuán)隊進(jìn)行了一次交流，希望向他們推銷AI云解決方案。并試圖說服他們，“不需要復(fù)雜云虛擬化，只需要容器和高效的調(diào)度程序；需要一個像NFS這樣的通用存儲，不需要太花哨但必須速度快”等觀點，這些觀點對市場上的許多參與者來說都是新穎的，需要一些說服力。

“但deepseek團(tuán)隊友善地告訴我，他們已經(jīng)這樣做很多年了。還讓他幫忙，將計算資源免費捐贈給大學(xué)研究實驗室，且無附加條件。”賈揚清稱，從某種程度上來說，他們?nèi)〉玫膫ゴ蟪删驮从诙嗄甑膶I(yè)知識，但這點卻被許多人忽視了。

幻方量化CEO陸政哲在微信朋友圈表示，“看到楊清老師這段話，有點小感動?！?/p>

前英偉達(dá)機器學(xué)習(xí)專家Bojan Tunguz則表示，所有針對高端半導(dǎo)體的出口禁令實際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。這似乎也證實了我自己的假設(shè)，即我們距離擁有人工智能機器學(xué)習(xí)部分的最佳算法還有很長的路要走。

“AI界拼多多”

Deepseek的中文名是“深度求索”，為量化巨頭幻方量化的子公司。在硅谷，DeepSeek則被稱作“來自東方的神秘力量”。

作為一家隱形的AI巨頭，幻方擁有1萬枚英偉達(dá)A100芯片，而國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家。在中國7家大模型創(chuàng)業(yè)公司中，Deepseek是最不顯山露水的一家。

去年4月，幻方宣布成立新組織，集中資源和力量，探索AGI的本質(zhì)，在一年多時間里進(jìn)展迅速。當(dāng)時幻方就表示，多年以來，該公司堅持把營收的大部分投入人工智能領(lǐng)域，建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施，進(jìn)行大規(guī)模的研究，探索人類未知的奧秘。

“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點滴積累中孕育而來。我們將充分而持續(xù)地投入，不做中庸的事，用最長期的眼光去回答最大的問題?！?/p>

成立一年后，deepseek發(fā)布的一款名為DeepSeek V2的開源模型，提供了一種史無前例的性價比：推理成本被降到每百萬token僅1塊錢。隨后，字節(jié)、騰訊、百度、阿里巴巴等紛紛跟進(jìn)，打響中國大模型價格戰(zhàn)。DeepSeek也被迅速冠以“AI界拼多多”之稱。

據(jù)了解，幻方量化和Deepseek創(chuàng)始人梁文鋒是一個極致的80后技術(shù)理想主義者，從幻方時代，就在幕后潛心研究技術(shù)，在DeepSeek時代，依舊延續(xù)著他的低調(diào)作風(fēng)，和所有研究員一樣，每天“看論文，寫代碼，參與小組討論”。

在接受暗涌的采訪中，梁文鋒表示，我們降價一方面是因為我們在探索下一代模型的結(jié)構(gòu)中，成本先降下來了，另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。

“過去很多年，中國公司習(xí)慣了別人做技術(shù)創(chuàng)新，我們拿過來做應(yīng)用變現(xiàn)，但這并非是一種理所當(dāng)然。這一波浪潮里，我們的出發(fā)點，就不是趁機賺一筆，而是走到技術(shù)的前沿，去推動整個生態(tài)發(fā)展?！绷何匿h表示。

責(zé)編：桂衍民

校對：趙燕

責(zé)任編輯：朱雨蒙

機構(gòu)

拼多多

聲明：證券時報力求信息真實、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

網(wǎng)友評論

登錄后可以發(fā)言