10 月 31 日, 2023 云棲大會(huì)在杭州云棲小鎮(zhèn)正式開幕,喜馬拉雅攜自研語音技術(shù)成果亮相這一重要科技盛會(huì),與全球科技、數(shù)字精英,共同探討AI、云計(jì)算、大數(shù)據(jù)等新興技術(shù)的未來發(fā)展趨勢。大會(huì)之上,喜馬拉雅帶來了AIGC與文娛音頻產(chǎn)業(yè)深度融合的最 新成果,展示出喜馬拉雅在人工智能領(lǐng)域的長足進(jìn)步。
在云棲大會(huì)現(xiàn)場,喜馬拉雅展示了其自研的珠峰語音生成式大模型。該大模型是由喜馬拉雅珠峰智人團(tuán)隊(duì)與西北工業(yè)大學(xué)aslp lab展開合作,基于自研框架,實(shí)現(xiàn)音頻與文本在統(tǒng)一框架下的稠密訓(xùn)練,用于語音生成任務(wù),能夠?qū)崿F(xiàn)語音風(fēng)格和音色的 zero shot 的學(xué)習(xí)和遷移。借助喜馬拉雅基于阿里云數(shù)據(jù)湖3. 0 構(gòu)建的云原生大數(shù)據(jù)平臺(tái),創(chuàng)作者可利用該模型實(shí)現(xiàn)風(fēng)格和音色的任意組合。
據(jù)喜馬拉雅首席科學(xué)家、珠峰實(shí)驗(yàn)室負(fù)責(zé)人盧恒介紹,“喜馬拉雅語音生成式大模型目前已經(jīng)取得了顯著的突破,在音色定制方面實(shí)現(xiàn)了 5 秒內(nèi)的‘極速克隆’聲音。通過極少量的數(shù)據(jù),該模型能夠克隆出具有90%相似度的基本音色,并在短短的 10 秒內(nèi)快速生成定制音頻。未來,這項(xiàng)技術(shù)在短視頻創(chuàng)作、數(shù)字人配音、人機(jī)交互對話、名人IP復(fù)刻等領(lǐng)域有望發(fā)揮出巨大的潛在價(jià)值,有效解決商業(yè)場景中的溝通需求痛點(diǎn)?!?/p>
與珠峰語音生成式大模型共同驚艷展會(huì)的還有喜馬拉雅AI兒童形象代言人“波波”?!安úā笔墙柚柴R拉雅第二代智能語音交互系統(tǒng)生成的IP形象,“波波”具有連貫的對話能力,可為家庭親子用戶提供陪伴對話功能。
作為深受用戶喜愛的在線音頻平臺(tái),喜馬拉雅一直堅(jiān)持以科技賦能文化。近年來,喜馬拉雅在AI語音技術(shù)領(lǐng)域取得卓越成就,成立的喜馬拉雅珠峰實(shí)驗(yàn)室,專注于語音合成、語音識(shí)別、語音信號(hào)處理、編解碼和智能音效的研究和開發(fā)。喜馬拉雅已在多模態(tài)AIGC、軟硬件結(jié)合等領(lǐng)域取得了豐富的成果。
此前,喜馬拉雅珠峰實(shí)驗(yàn)室運(yùn)用AIGC技術(shù)能還原已故的評書大師單田芳先生的聲音,并使用他的AI合成聲音來全新演繹經(jīng)典之作。單田芳先生之子單瑞林對AIGC聲音的表現(xiàn)給予了高度肯定。目前喜馬拉雅平臺(tái)上,借助AIGC制作的“單田芳聲音重現(xiàn)”系列專輯,播放量已經(jīng)超過 1 億次,為聽友朋友們重現(xiàn)經(jīng)典聲音,帶來故事的全新演繹。
未來,喜馬拉雅將繼續(xù)探索人工智能、大數(shù)據(jù)等新興技術(shù),為用戶提供更好的收聽體驗(yàn),同時(shí)提高創(chuàng)作者的內(nèi)容生產(chǎn)效率,用技術(shù)為聲音賦能,為生活添姿加彩。
(推廣)