通用大語(yǔ)言模型熱度持續(xù)攀升,但如何在細(xì)分行業(yè)領(lǐng)域?qū)崿F(xiàn)突圍,成為眾多大模型企業(yè)的攻堅(jiān)重點(diǎn)。
近期由國(guó)內(nèi)企業(yè)推出的新一代音樂(lè)推理大模型Mureka O1和Mureka V6,讓音樂(lè)大模型賽道的競(jìng)爭(zhēng)進(jìn)入更多人視野。
AI歌手引發(fā)翻唱熱潮
音樂(lè)大模型競(jìng)爭(zhēng)始于2023年。一場(chǎng)由“AI歌手”引領(lǐng)的翻唱熱潮迅速在網(wǎng)絡(luò)上蔓延。孫燕姿、陳奕迅、林俊杰等華語(yǔ)樂(lè)壇巨星,紛紛有了AI替身,各大網(wǎng)絡(luò)平臺(tái)宛如“AI歌手復(fù)出演唱會(huì)”現(xiàn)場(chǎng)。
“AI歌手背后的技術(shù)支撐,是So-vits Svc AI音樂(lè)生成技術(shù)。”一位長(zhǎng)期教網(wǎng)友“訓(xùn)練AI歌手”的業(yè)內(nèi)人士莫西(化名)告訴記者。該技術(shù)僅需解析少量音頻片段,就能精準(zhǔn)模擬歌手音色,盡管在還原歌手個(gè)性化唱腔、演唱技巧及風(fēng)格方面尚有不足,但近乎1:1的音色還原效果,點(diǎn)燃了全民音樂(lè)創(chuàng)作的熱情。
隨著音樂(lè)創(chuàng)作熱度的提升,多家科技大廠和初創(chuàng)企業(yè)紛紛發(fā)布相關(guān)產(chǎn)品投身競(jìng)爭(zhēng)。其中,尤以Suno V3和Udio的發(fā)布最為引人關(guān)注。
2024年3月24日,AI初創(chuàng)公司Suno推出V3音樂(lè)生成模型,這款模型僅需幾秒,就能創(chuàng)作出2分鐘的完整歌曲,被業(yè)界贊譽(yù)為“音樂(lè)ChatGPT時(shí)刻的到來(lái)”。
兩首由Suno創(chuàng)作的中文歌曲——《桃花箋》和《宮保雞丁》,都曾讓國(guó)內(nèi)音樂(lè)人發(fā)出贊嘆。目前,Suno已經(jīng)發(fā)布了V4版本,允許用戶生成音質(zhì)更高、更好聽(tīng)、時(shí)長(zhǎng)更長(zhǎng)(4分鐘)的音樂(lè)。
而獲得多家知名投資機(jī)構(gòu)青睞的Udio,也推出了相關(guān)應(yīng)用產(chǎn)品。借助社交媒體的傳播,Udio生成的音樂(lè)作品在美國(guó)社交媒體上迅速走紅。
除初創(chuàng)企業(yè)外,OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等也相繼亮相。音樂(lè)愛(ài)好者只需輸入幾句歌詞和風(fēng)格要求,就能獲取時(shí)長(zhǎng)約兩分鐘的完整歌曲。這種技術(shù)革新,極大降低了音樂(lè)創(chuàng)作門檻,讓更多人得以參與其中 。
中國(guó)科技企業(yè)競(jìng)逐全球
在國(guó)內(nèi),科技巨頭同樣敏銳地捕捉到這一賽道的潛力。昆侖萬(wàn)維是國(guó)內(nèi)較早推出音樂(lè)生成模型的企業(yè)。2024年4月,昆侖萬(wàn)維發(fā)布第一代音樂(lè)生成模型Mureka V1(SkyMusic),收獲了良好的市場(chǎng)反饋。經(jīng)過(guò)一年多的升級(jí)優(yōu)化,公司近期推出升級(jí)版Mureka O1音樂(lè)推理大模型,以及Mureka V6模型。
Mureka V6不僅支持純音樂(lè)生成,還支持涵蓋英語(yǔ)、中文、日語(yǔ)等10種語(yǔ)言的AI音樂(lè)創(chuàng)作。昆侖萬(wàn)維相關(guān)負(fù)責(zé)人告訴記者,團(tuán)隊(duì)在該模型中引入自研ICL(in-context learning)技術(shù),進(jìn)一步優(yōu)化了聲場(chǎng)效果,提升了人聲質(zhì)感和混音設(shè)計(jì)。
而Mureka O1基于Mureka V6推理優(yōu)化而來(lái),是全球首個(gè)引入CoT(Chain of Thought,思維鏈)的音樂(lè)模型。該模型在推理過(guò)程中融入思考與自我批判機(jī)制,顯著提升了音樂(lè)品質(zhì)、創(chuàng)作效率和靈活性。
和國(guó)外競(jìng)品類似,Mureka V6和O1支持多種音樂(lè)風(fēng)格和情感表達(dá)。曲風(fēng)囊括爵士、電子、流行等,情感維度則包含快樂(lè)、神秘、悲傷等多種情緒。
昆侖萬(wàn)維相關(guān)負(fù)責(zé)人告訴記者,Mureka O1作為全球首款音樂(lè)推理大模型,在性能方面超越了Suno,且模型登頂SOTA。(記者注:SOTA為“State-of-the-Art”的縮寫,意為“當(dāng)前最佳技術(shù)”或“最前沿水平”,特指某一領(lǐng)域內(nèi)目前表現(xiàn)最優(yōu)的方法、模型或技術(shù)成果。)
除了昆侖萬(wàn)維外,還有多家大廠推出基于大模型的音樂(lè)創(chuàng)作應(yīng)用。國(guó)內(nèi)字節(jié)跳動(dòng)旗下的海綿音樂(lè),以及趣丸科技旗下的天譜樂(lè),均在這一賽道嶄露頭角。
海綿音樂(lè)是字節(jié)跳動(dòng)推出的免費(fèi)AI音樂(lè)創(chuàng)作分享平臺(tái),用戶輸入靈感語(yǔ)句或上傳圖片,就能生成個(gè)性化音樂(lè)作品,平臺(tái)還提供豐富的創(chuàng)作工具,助力用戶打造高質(zhì)量音樂(lè)。天譜樂(lè)是趣丸科技在2024年7月發(fā)布的全球首個(gè)多模態(tài)配樂(lè)大模型。產(chǎn)品從一上線就全面接入了其旗下應(yīng)用唱鴨APP,向所有用戶開(kāi)放。
國(guó)內(nèi)音樂(lè)雙巨頭騰訊音樂(lè)和網(wǎng)易云音樂(lè),也分別推出了X·Studio和啟明星這樣的產(chǎn)品,以追趕當(dāng)前生成式人工智能的浪潮。但或許是巨頭本身憑借強(qiáng)大的版權(quán)庫(kù),已經(jīng)能夠收獲足夠的市場(chǎng)份額和商業(yè)回報(bào),所以外界感受到的是,這兩家公司在AI音樂(lè)上的投入和活躍度始終不及上述代表性的玩家。
記者觀察:細(xì)分領(lǐng)域需要什么樣的大模型?從音樂(lè)賽道看AI創(chuàng)新的深層邏輯
在通用大模型陷入“百模大戰(zhàn)”的當(dāng)下,音樂(lè)大模型賽道的激戰(zhàn)正為AI行業(yè)提供新的思考維度。昆侖萬(wàn)維Mureka O1、Suno V4等產(chǎn)品的崛起,揭示了細(xì)分領(lǐng)域大模型突圍的關(guān)鍵路徑:技術(shù)垂直深耕、場(chǎng)景深度融合與用戶價(jià)值重構(gòu)。
從發(fā)展階段看,音樂(lè)大模型的技術(shù)競(jìng)爭(zhēng)已從簡(jiǎn)單的音色模仿,轉(zhuǎn)向系統(tǒng)性的創(chuàng)作能力升級(jí)。Mureka O1引入的CoT機(jī)制,將推理過(guò)程拆解為“構(gòu)思—批判—優(yōu)化” 循環(huán),這種類人思維機(jī)制顯著提升了音樂(lè)的連貫性和情感表達(dá)。對(duì)比早期 So-vits Svc技術(shù)僅能實(shí)現(xiàn)音色復(fù)刻,新一代模型已能處理復(fù)雜的編曲邏輯與多模態(tài)輸入,如海綿音樂(lè)的“文字 + 圖片”靈感生成模式,展現(xiàn)了技術(shù)從單點(diǎn)突破到系統(tǒng)能力構(gòu)建的躍遷。
場(chǎng)景化落地考驗(yàn)“最后一公里”能力。音樂(lè)創(chuàng)作的民主化浪潮背后,是大模型對(duì)行業(yè)痛點(diǎn)的精準(zhǔn)解決。Suno V3 的“秒級(jí)生成 + 免費(fèi)開(kāi)放”策略,將專業(yè)創(chuàng)作工具平民化;天譜樂(lè)與唱鴨APP的深度整合,則打通了從創(chuàng)作到分發(fā)的完整鏈路。這種場(chǎng)景化創(chuàng)新帶來(lái)的不僅是用戶體驗(yàn)提升,更是商業(yè)模式的重構(gòu)——從傳統(tǒng)的版權(quán)交易轉(zhuǎn)向創(chuàng)作生態(tài)共建。
在大模型支持下愈發(fā)普及的音樂(lè)創(chuàng)作,則讓價(jià)值創(chuàng)造需要超越“技術(shù)烏托邦”。事實(shí)上,當(dāng)音樂(lè)大模型開(kāi)始處理中文、日語(yǔ)等多語(yǔ)言歌詞生成,其意義已超越技術(shù)本身。Mureka V6通過(guò)自研ICL技術(shù)優(yōu)化聲場(chǎng)效果,本質(zhì)上是在構(gòu)建跨文化的情感連接能力。這種能力的背后,是對(duì)細(xì)分領(lǐng)域用戶深層需求的洞察:音樂(lè)創(chuàng)作不僅是技術(shù)輸出,更是文化表達(dá)與情感共鳴的載體。
中國(guó)企業(yè)在這個(gè)領(lǐng)域的崛起,則顯示出中國(guó)科技企業(yè)參與全球化競(jìng)爭(zhēng)的差異化路徑和獨(dú)特的創(chuàng)新邏輯。昆侖萬(wàn)維通過(guò)“基礎(chǔ)模型迭代 + 垂直場(chǎng)景優(yōu)化”雙輪驅(qū)動(dòng),實(shí)現(xiàn)技術(shù)突破與商業(yè)化平衡;字節(jié)跳動(dòng)則依托生態(tài)優(yōu)勢(shì),將AI音樂(lè)創(chuàng)作嵌入社交媒體傳播鏈。這種“技術(shù) + 生態(tài)”的組合拳,既避免了與國(guó)外模型的同質(zhì)化競(jìng)爭(zhēng),又開(kāi)辟了本土化的價(jià)值增長(zhǎng)點(diǎn)。
音樂(lè)大模型的發(fā)展軌跡表明,細(xì)分領(lǐng)域的大模型競(jìng)爭(zhēng)已進(jìn)入“精耕時(shí)代”。未來(lái)的勝出者,不僅需要在技術(shù)上保持領(lǐng)先身位,更要在用戶價(jià)值創(chuàng)造、場(chǎng)景深度融合和文化表達(dá)能力上實(shí)現(xiàn)突破。當(dāng)AI開(kāi)始理解音樂(lè)中的細(xì)微情感變化,它所重構(gòu)的不僅是創(chuàng)作流程,更是人類對(duì)藝術(shù)表達(dá)的認(rèn)知邊界。這或許正是細(xì)分領(lǐng)域大模型的終極意義所在。
校對(duì):王蔚
(點(diǎn)擊圖片進(jìn)入報(bào)名頁(yè)面)