劃重點(diǎn):
- OpenAI在開發(fā)者日發(fā)布了一系列開源模型,其中包括升級(jí)版的自動(dòng)語音識(shí)別模型Whisper3。
- Whisper3具備多語言支持,可將音頻內(nèi)容轉(zhuǎn)錄成文本,還具備獨(dú)特的時(shí)間戳功能,適用于制作字幕。
- OpenAI計(jì)劃未來向用戶開放Whisper3的API,以推動(dòng)語音處理應(yīng)用的發(fā)展。
站長(zhǎng)之家(ChinaZ.com)11月7日 消息:在OpenAI的開發(fā)者日活動(dòng)中,該人工智能初創(chuàng)公司發(fā)布了一系列開源模型,其中包括了升級(jí)版的自動(dòng)語音識(shí)別(ASR)模型——Whisper3。這一模型具備多語言支持,可以將音頻內(nèi)容快速準(zhǔn)確地轉(zhuǎn)錄成文本,并具備獨(dú)特的時(shí)間戳功能,使其適用于制作字幕等應(yīng)用。
最初,Whisper模型主要針對(duì)英語應(yīng)用,但隨著時(shí)間的推移,它經(jīng)過升級(jí),已經(jīng)支持多種語言,盡管具體支持的語言并未明確提及。該模型以寬松的許可協(xié)議在GitHub上開源,因此開發(fā)者可以輕松獲取并使用它,被譽(yù)為目前最出色的轉(zhuǎn)錄工具之一。
Whisper3的工作原理涉及將音頻分段成30秒的片段,然后通過編碼器和解碼器將其轉(zhuǎn)化為文本字幕。此外,該模型還具備語言識(shí)別功能,有助于實(shí)現(xiàn)多語言語音轉(zhuǎn)錄和翻譯成英語。有趣的是,最初計(jì)劃將Whisper模型與ChatGPT集成,使用戶能夠通過語音直接與聊天機(jī)器人交流,但后來OpenAI決定將該模型直接向公眾開放。
OpenAI之所以選擇開源Whisper3,是為了為構(gòu)建有用的語音處理應(yīng)用和進(jìn)一步的魯棒語音處理研究提供基礎(chǔ)。該模型經(jīng)過了大規(guī)模數(shù)據(jù)集的訓(xùn)練,包括來自互聯(lián)網(wǎng)的超過68萬小時(shí)的數(shù)據(jù),其中三分之一來自非英語來源。
OpenAI計(jì)劃未來將Whisper3的API向用戶開放,這將為開發(fā)者和研究人員提供更多機(jī)會(huì),以創(chuàng)造創(chuàng)新的語音處理應(yīng)用,推動(dòng)語音技術(shù)的發(fā)展。
(舉報(bào))