站長之家(ChinaZ.com)4月26日 消息:MyShell TTS 開發(fā)的 OpenVoice 是一項(xiàng)創(chuàng)新的聲音克隆技術(shù),它能夠通過僅使用一小段參考發(fā)言者的音頻片段來復(fù)制其聲音,并生成多種語言的語音。
目前,MyShell TTS 已經(jīng)推出了全新的OpenVoice V2版本。這個版本能夠直接支持英語、西班牙語、法語、中文、日語以及韓語,并且顯著提高了音頻輸出的質(zhì)量。OpenVoice V2擁有復(fù)制任意聲音的能力,能以多種語言進(jìn)行語音輸出,并具備情感和口音的控制功能。它不但可以準(zhǔn)確模仿特定的聲音色彩,還允許對聲音的風(fēng)格,包括情感、口音、節(jié)奏、停頓及語調(diào)等進(jìn)行細(xì)致調(diào)整。
主要功能:
準(zhǔn)確的音色克隆: OpenVoice 能夠精確地克隆參考音色,并在多種語言和口音中生成語音。
靈活的聲音風(fēng)格控制: 用戶可以對聲音的情緒、口音、節(jié)奏、停頓和語調(diào)進(jìn)行詳細(xì)調(diào)整,實(shí)現(xiàn)個性化的聲音輸出。
零樣本跨語言聲音克隆: 即使某些語言未在訓(xùn)練集中出現(xiàn),OpenVoice 也能實(shí)現(xiàn)聲音復(fù)制。
高效的計(jì)算性能: 相比于市場上現(xiàn)有的商業(yè)API,OpenVoice 在保持高性能的同時,計(jì)算成本大大降低。
OpenVoice V2新特性:
更好的音頻質(zhì)量: 采用新的訓(xùn)練策略提升音頻質(zhì)量。
原生多語言支持: 原生支持英語、西班牙語、法語、中文、日語和韓語。
集成 MeloTTS: V2版本引入了 MeloTTS 技術(shù),增強(qiáng)了聲音的自然度和表現(xiàn)力。
免費(fèi)商業(yè)使用: 自2024年4月起,V1和V2版本均以 MIT 許可證發(fā)布,支持商業(yè)和研究用途的免費(fèi)使用。
技術(shù)方法:
聲音樣式和語言的解耦設(shè)計(jì): OpenVoice 的設(shè)計(jì)哲學(xué)是將聲音的不同特性進(jìn)行解耦,使得可以獨(dú)立控制各個參數(shù),提高操作的靈活性和推斷速度。
基礎(chǔ)發(fā)音者 TTS 模型與音色轉(zhuǎn)換器: 包括允許對風(fēng)格參數(shù)進(jìn)行控制的基礎(chǔ)發(fā)音者 TTS 模型,以及采用編碼器-解碼器結(jié)構(gòu)的音色轉(zhuǎn)換器。
訓(xùn)練策略和數(shù)據(jù)處理: 在訓(xùn)練過程中,使用了大量的多語種、多風(fēng)格的音頻樣本,并采用特定的損失函數(shù)確保在保留風(fēng)格的同時去除或轉(zhuǎn)換音色。
官網(wǎng):https://research.myshell.ai/open-voice
項(xiàng)目地址:https://top.aibase.com/tool/openvoice
創(chuàng)建自己的語音機(jī)器人:https://myshell.ai/
(舉報(bào))