劃重點(diǎn):
- ?? Universal-1在多語言環(huán)境中取得了行業(yè)領(lǐng)先的表現(xiàn),提供準(zhǔn)確且魯棒的多語言語音轉(zhuǎn)文字功能。
- ?? Universal-1能夠精確估計(jì)時(shí)間戳,提高了說話者辨識(shí)和音視頻編輯等下游應(yīng)用的準(zhǔn)確性。
- ?? AssemblyAI 利用最先進(jìn)的 ASR 研究,構(gòu)建了 Universal-1模型,并通過 Google Cloud TPUs 等基礎(chǔ)設(shè)施實(shí)現(xiàn)了高效的訓(xùn)練和推理。
站長之家(ChinaZ.com)4月7日 消息:AssemblyAI 最新研究成果展示了他們的 Universal-1模型在多語言環(huán)境中的表現(xiàn),該模型在準(zhǔn)確性和魯棒性方面均取得了行業(yè)領(lǐng)先地位。先說結(jié)果,Universal-1比Whisper Large-v3更準(zhǔn)確,比fast Whisper更快,38秒可以處理60分鐘音頻。
Universal-1訓(xùn)練于1250萬小時(shí)的多語言音頻數(shù)據(jù),采用了 Conformer RNN-T 架構(gòu),在英語、西班牙語和德語的語音轉(zhuǎn)文字準(zhǔn)確性上均取得10% 以上的提升。該模型還展現(xiàn)出多語言轉(zhuǎn)錄能力,能夠在單個(gè)音頻文件中轉(zhuǎn)錄多種語言。
除了語音轉(zhuǎn)文字準(zhǔn)確性外,Universal-1還具有精確的時(shí)間戳估計(jì)能力,對(duì)于音視頻編輯和說話者辨識(shí)等應(yīng)用具有重要意義。該模型通過優(yōu)化的解碼器實(shí)現(xiàn)了13% 的時(shí)間戳準(zhǔn)確度提升,比 Whisper Large-V3提高了26%。此外,Universal-1還實(shí)現(xiàn)了高效的并行推理,比 Whisper Large-V3在相同硬件上實(shí)現(xiàn)了5倍的加速。
為了構(gòu)建 Universal-1,AssemblyAI 利用了 Conformer 編碼器和 RNN-T 模型,通過大規(guī)模的自監(jiān)督學(xué)習(xí)框架和大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。他們利用 Google Cloud TPUs 和 JAX 進(jìn)行訓(xùn)練,構(gòu)建了可靠的基礎(chǔ)設(shè)施和系統(tǒng)設(shè)計(jì)。除了多語音數(shù)據(jù)外,他們還結(jié)合了各種數(shù)據(jù)增強(qiáng)方法,提高了模型的準(zhǔn)確性和魯棒性。
AssemblyAI 的研究展示了他們?cè)谡Z音 AI 領(lǐng)域的領(lǐng)先地位,Universal-1模型在多語言環(huán)境下取得了令人矚目的表現(xiàn),為客戶提供了準(zhǔn)確、忠實(shí)和魯棒的語音轉(zhuǎn)文字能力。值得一提的是,Universal-1非開源,僅提供API調(diào)用。
產(chǎn)品入口:https://top.aibase.com/tool/universal-1
(舉報(bào))