劃重點(diǎn):
Stable Audio Open 是一個(gè)開(kāi)源的文本轉(zhuǎn)音頻模型,可生成長(zhǎng)達(dá)47秒的樣本和音效。
用戶可以創(chuàng)建鼓點(diǎn)、樂(lè)器重復(fù)樂(lè)段、環(huán)境聲音、擬音和制作元素。
該模型支持音頻樣本的音頻變化和風(fēng)格轉(zhuǎn)換。
站長(zhǎng)之家(ChinaZ.com)6月6日 消息:Stability AI 今天發(fā)布了 Stable Audio Open1.0,這是其音頻領(lǐng)域的新一款生成 AI 模型。Stability AI 以穩(wěn)定擴(kuò)散文本到圖像生成 AI 技術(shù)而聞名,但這只是該公司產(chǎn)品組合的一部分。該公司在2023年首次推出了 Stable Audio,這是一種文本到音頻的生成 AI 工具。最近發(fā)布的 Stable Audio2.0提高了生成音頻的清晰度和長(zhǎng)度。
Stable Audio Open產(chǎn)品入口:https://top.aibase.com/tool/stable-audio-open-1-0
與完整版 Stable Audio 可用于一般商業(yè)用途并生成長(zhǎng)達(dá)3分鐘的音頻不同,Stable Audio Open 的應(yīng)用場(chǎng)景更為局限。Stable Audio Open 的目標(biāo)是生成短音效片段,而非完整的歌曲。
正如其名稱所示,Stable Audio Open 是一種開(kāi)放模型,盡管它并非開(kāi)源。Stable Audio Open 根據(jù) Stability AI 的非商業(yè)研究社區(qū)協(xié)議許可證向用戶提供,該許可證允許開(kāi)放訪問(wèn)模型,但對(duì)使用該模型執(zhí)行的操作有限制。
Stability AI 音頻研究主管 Zach Evans 表示:“我們推出 Stable Audio Open 的目標(biāo)是讓音頻研究人員和制作人能夠親身體驗(yàn)我們的生成音頻模型之一,以加速這些令人難以置信的新工具的研究、采用和實(shí)際創(chuàng)造性使用?!?/p>
Stable Audio Open是什么?
Stable Audio Open 是一種專門針對(duì)音樂(lè)制作和聲音設(shè)計(jì)的模型,優(yōu)化了鼓點(diǎn)、樂(lè)器樂(lè)段、環(huán)境聲音等音頻樣本的生成。與商業(yè)版 Stable Audio 相比,Stable Audio Open 的生成音頻長(zhǎng)度為47秒,質(zhì)量較高。
Stability AI 對(duì)模型的訓(xùn)練采取了負(fù)責(zé)任的態(tài)度,使用了來(lái)自 FreeSound 和免費(fèi)音樂(lè)檔案的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,以確保未使用受版權(quán)保護(hù)或?qū)S胁牧稀?/p>
用戶可對(duì)Stable Audio Open 微調(diào)
Stable Audio Open 的另一個(gè)主要優(yōu)勢(shì)是用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。例如,鼓手可以根據(jù)自己的鼓聲錄音樣本微調(diào)模型,生成全新、獨(dú)特的節(jié)拍。
Stable Audio Open 的微調(diào)是通過(guò)穩(wěn)定音頻工具庫(kù)實(shí)現(xiàn)的,該庫(kù)是根據(jù)實(shí)際開(kāi)源許可證授權(quán)的。Stable Audio Open 的模型權(quán)重現(xiàn)已在 Hugging Face 上可用。
Evans 表示:“音頻研究團(tuán)隊(duì)一直在努力提高生成音頻模型的質(zhì)量和可控性。我們期待進(jìn)一步發(fā)布商業(yè)和開(kāi)放模型,以反映我們研究的進(jìn)展?!?/p>
官方博客:https://stability.ai/news/introducing-stable-audio-open
(舉報(bào))