豆包實(shí)時(shí)語(yǔ)音大模型震撼上線,全方位提升語(yǔ)音交互體驗(yàn)!
今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)隆重推出豆包實(shí)時(shí)語(yǔ)音大模型,現(xiàn)已在豆包App全量開放。升級(jí)至7.2.0版本即可親身體驗(yàn)這一語(yǔ)音交互領(lǐng)域的重大突破。
豆包實(shí)時(shí)語(yǔ)音大模型集語(yǔ)音理解和生成于一體,打造端到端語(yǔ)音對(duì)話。與傳統(tǒng)的級(jí)聯(lián)模式相比,其在語(yǔ)音表現(xiàn)力、控制力、情緒承接方面展現(xiàn)出卓越性能,且具備低時(shí)延和隨時(shí)打斷對(duì)話等特性。
該模型專為中文語(yǔ)境和場(chǎng)景設(shè)計(jì),采用語(yǔ)音和語(yǔ)義聯(lián)合建模,賦予其豐富的表現(xiàn)力,呈現(xiàn)出接近真人水準(zhǔn)的語(yǔ)音表達(dá)。通過學(xué)習(xí)角色語(yǔ)音和情感特點(diǎn),模型具備強(qiáng)大的講故事能力,可生動(dòng)切換不同角色/狀態(tài),配合不同情緒表達(dá),提升交互趣味性和沉浸感。
聯(lián)合建模后,模型涌現(xiàn)出非凡的指令理解、聲音扮演和聲音控制能力。目前,模型部分方言和口音的識(shí)別源自Pretrain階段數(shù)據(jù)泛化,而非針對(duì)性訓(xùn)練。
豆包實(shí)時(shí)語(yǔ)音大模型輸出的語(yǔ)音高度逼近真人,包括類人的副語(yǔ)言特征(如語(yǔ)氣詞、停頓思考等)。同時(shí),實(shí)時(shí)聯(lián)網(wǎng)功能賦予模型獲取最新信息的強(qiáng)大能力,對(duì)時(shí)效問題可精準(zhǔn)、及時(shí)地回應(yīng)。
技術(shù)展示表明,該模型語(yǔ)音語(yǔ)氣自然度和情緒飽滿度逼近真人,對(duì)話風(fēng)格更加擬人,情感理解更加深刻,對(duì)用戶的情緒做到較好承接。不過,現(xiàn)階段模型僅支持中文,其他語(yǔ)種和方言的支持仍在探索中。
(舉報(bào))