快科技4月9日消息,亞馬遜正式推出新一代生成式AI語(yǔ)音模型Nova Sonic,標(biāo)志著其在人工智能語(yǔ)音領(lǐng)域取得重大突破。
這款創(chuàng)新模型能夠原生處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出,在速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語(yǔ)音模型相媲美的水平。
Nova Sonic通過(guò)亞馬遜Bedrock開(kāi)發(fā)者平臺(tái)提供服務(wù),采用創(chuàng)新的雙向流式API接口,為企業(yè)級(jí)AI應(yīng)用開(kāi)發(fā)提供了強(qiáng)大支持。亞馬遜特別強(qiáng)調(diào),該模型在成本效益方面具有顯著優(yōu)勢(shì),其價(jià)格比OpenAI的GPT-4o便宜約80%??胺Q目前市場(chǎng)上最具性價(jià)比的AI語(yǔ)音解決方案。
與競(jìng)爭(zhēng)對(duì)手的AI語(yǔ)音模型相比,Nova Sonic在將用戶請(qǐng)求路由到不同API方面表現(xiàn)出色。這一能力使得Nova Sonic能夠知曉何時(shí)需要從互聯(lián)網(wǎng)獲取實(shí)時(shí)信息、解析專有數(shù)據(jù)源,或者在外部應(yīng)用程序中采取行動(dòng),并使用合適的工具來(lái)完成任務(wù)。
在雙向?qū)υ捴?,Nova Sonic會(huì)等待合適的時(shí)機(jī)”發(fā)言,會(huì)考慮到說(shuō)話者的停頓和打斷等情況。此外,Nova Sonic還能夠?yàn)橛脩舻恼Z(yǔ)音生成文本記錄,開(kāi)發(fā)者可以將這些文本用于各種應(yīng)用場(chǎng)景。
亞馬遜AGI部門首席科學(xué)家羅希特?普拉薩德透露,Nova Sonic的部分技術(shù)已經(jīng)應(yīng)用于升級(jí)版數(shù)字助手Alexa 。該模型的推出是亞馬遜構(gòu)建人工通用智能(AGI)戰(zhàn)略的重要一步,未來(lái)還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。
(舉報(bào))