豆包提出全新稀疏架構(gòu) 推理成本較MoE最高可降83%
來源:證券時(shí)報(bào)網(wǎng)2025-02-12 12:37

證券時(shí)報(bào)e公司訊,隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸。近期,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu)UltraMem,該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問題,推理速度較MoE架構(gòu)提升2—6倍,推理成本最高可降低83%。該研究還揭示了新架構(gòu)的Scaling Law,證明其不僅具備優(yōu)異的Scaling特性,更在性能上超越了MoE。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練規(guī)模達(dá)2000萬value的UltraMem模型,在同等計(jì)算資源下,可同時(shí)實(shí)現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模value或expert開辟了新路徑。

責(zé)任編輯: 任麗珺
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換