Hugging Face研究人員推語(yǔ)音識(shí)別模型Distil-Whisper 速度提高、參數(shù)減少

2023-11-09 14:35 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
? Hugging Face研究人員利用偽標(biāo)記創(chuàng)建了一個(gè)龐大的開源數(shù)據(jù)集，用于提煉Whisper模型的較小版本，稱為Distil-Whisper。
? Distil-Whisper在挑戰(zhàn)性的聲學(xué)條件下保持了Whisper模型的韌性，同時(shí)減輕了長(zhǎng)篇音頻中的錯(cuò)覺(jué)錯(cuò)誤。
? 自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)已達(dá)到人類水平的準(zhǔn)確度，但由于預(yù)訓(xùn)練模型的不斷增大，在資源受限的環(huán)境中面臨挑戰(zhàn)。

站長(zhǎng)之家（ChinaZ.com）11月9日消息:Hugging Face研究人員最近解決了在資源受限環(huán)境中部署大型預(yù)訓(xùn)練語(yǔ)音識(shí)別模型的問(wèn)題。他們通過(guò)創(chuàng)建一個(gè)龐大的開源數(shù)據(jù)集，使用偽標(biāo)記的方法，提煉出了Whisper模型的較小版本，稱為Distil-Whisper。

聲音音頻

圖源備注：圖片由AI生成，圖片授權(quán)服務(wù)商Midjourney

Whisper語(yǔ)音識(shí)別變壓器模型是在68萬(wàn)小時(shí)的嘈雜互聯(lián)網(wǎng)語(yǔ)音數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它包括基于變壓器的編碼器和解碼器組件，在零調(diào)優(yōu)的情況下取得了競(jìng)爭(zhēng)激烈的結(jié)果。而Distil-Whisper是通過(guò)使用偽標(biāo)記進(jìn)行知識(shí)提煉得到的緊湊版本。

Distil-Whisper在挑戰(zhàn)性的聲學(xué)條件下保持了Whisper模型的韌性，同時(shí)減輕了長(zhǎng)篇音頻中的錯(cuò)覺(jué)錯(cuò)誤。這項(xiàng)研究引入了一種針對(duì)語(yǔ)音數(shù)據(jù)的大規(guī)模偽標(biāo)記方法，這是一個(gè)尚未充分開發(fā)但頗具前景的知識(shí)提煉途徑。

自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)已經(jīng)達(dá)到了人類水平的準(zhǔn)確度，但由于預(yù)訓(xùn)練模型的不斷增大，在資源受限的環(huán)境中面臨挑戰(zhàn)。Whisper作為一個(gè)大型預(yù)訓(xùn)練ASR模型，在各種數(shù)據(jù)集上表現(xiàn)出色，但在低延遲部署方面可能更實(shí)用。而知識(shí)提煉在壓縮自然語(yǔ)言處理變壓器模型方面已經(jīng)得到了有效應(yīng)用，但在語(yǔ)音識(shí)別中的運(yùn)用尚未得到充分探討。

與原始 Whisper 模型相比，源自知識(shí)蒸餾的 Distil-Whisper 顯著提高了速度并減少了參數(shù)，同時(shí)在具有挑戰(zhàn)性的聲學(xué)條件下保持了彈性。它的加速速度提高了5.8倍，參數(shù)減少了51%，在零樣本場(chǎng)景下的分布外測(cè)試數(shù)據(jù)上實(shí)現(xiàn)了不到1% 的 WER。distil-medium.en 模型的 WER 稍高，但直接推理能力提高了6.8倍，模型壓縮率提高了75%。Whisper 模型在長(zhǎng)格式音頻轉(zhuǎn)錄中容易出現(xiàn)幻覺(jué)錯(cuò)誤，而 Distil-Whisper 可以減輕這些錯(cuò)誤，同時(shí)保持有競(jìng)爭(zhēng)力的 WER 性能。

Distil-Whisper 是通過(guò)知識(shí)蒸餾實(shí)現(xiàn)的 Whisper 模型的緊湊變體。這種創(chuàng)新方法在速度和參數(shù)減少方面產(chǎn)生了顯著的好處，與原始 Whisper 模型相比，Distil-Whisper 速度更快，參數(shù)更少。盡管 WER 稍高，但 distil-medium.en 模型提供了更直接的推理和實(shí)質(zhì)性的模型壓縮。

項(xiàng)目網(wǎng)址:https://github.com/huggingface/distil-whisper

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

亞馬遜推出AI語(yǔ)音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語(yǔ)音模型NovaSonic，標(biāo)志著其在人工智能語(yǔ)音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出，在速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語(yǔ)音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來(lái)還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
AI日?qǐng)?bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國(guó)人工智能領(lǐng)域迎來(lái)技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國(guó)內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
薦AI日?qǐng)?bào)：阿里通義千問(wèn)登頂全球開源模型榜首；MiniMax推Speech-02語(yǔ)音模型；?ChatGPT付費(fèi)用戶激增至2000萬(wàn)

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里通義千問(wèn)Qwen2.5-Omni登頂全球開源模型榜單2024年4月2日，HuggingFace發(fā)布了最新的大模型榜單，阿里巴巴的Qwen2.5-Omni憑借其卓越的性能和多模態(tài)能力，成功登頂，成為全球開源模?

?人工智能 ?開源模型 ?技術(shù)趨勢(shì)
易鑫宣布年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型

4 月15日，易鑫（02858.HK）在香港舉行的“2 025 世界互聯(lián)網(wǎng)大會(huì)亞太峰會(huì)”上宣布，將于年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型。該模型通過(guò)自主決策智能體深度結(jié)合汽車金融場(chǎng)景需求，有望從根本上解決行業(yè)中長(zhǎng)期存在的效率瓶頸和痛點(diǎn)。易鑫首席AI科學(xué)家、高級(jí)副總裁張磊現(xiàn)場(chǎng)演講易鑫首席AI科學(xué)家、高級(jí)副總裁張磊在大會(huì)“人工智能大模型論壇”做主題演講時(shí)，發(fā)布了這?

?易鑫 ?汽車金融 ?Agentic大模型
薦AI日?qǐng)?bào)：ChatGPT重磅上線圖像庫(kù)功能；白嫖！Veo2登陸谷歌AI Studio；螞蟻百寶箱推“MCP專區(qū)”

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、報(bào)道稱字節(jié)跳動(dòng)整合 AI 研發(fā)團(tuán)隊(duì)，AI Lab 即將并入 Seed字節(jié)跳動(dòng)正在進(jìn)行AI研發(fā)團(tuán)隊(duì)的整合，將獨(dú)立的字節(jié)AI Lab并入Seed團(tuán)隊(duì)。這一舉措體現(xiàn)了字節(jié)在AI領(lǐng)域戰(zhàn)略布局的調(diào)整，旨在進(jìn)?

?字節(jié)跳動(dòng) ?AI研發(fā) ?AI
外媒：ChatGPT新模型 o4 mini 的“AI幻覺(jué)率”高達(dá)48%

性能是提升了些，但，“胡說(shuō)八道”的能力提升得更快，直接登頂……

?ChatGPT ?openai ?o4mini
Antropic加入“AI語(yǔ)音助手”賽道，能追上OpenAI、谷歌們嗎？

隨著 AI 語(yǔ)音產(chǎn)品的出現(xiàn)，人們對(duì)其模仿他人說(shuō)話風(fēng)格的擔(dān)憂也在加劇……

?Anthropic ?AI語(yǔ)音助手 ?Claude
MCP協(xié)議是什么？Model Context Protocol模型上下文詳解

在當(dāng)今快速發(fā)展的AI時(shí)代，如何高效地將AI助手與各類數(shù)據(jù)系統(tǒng)連接起來(lái)，成為了一個(gè)亟待解決的問(wèn)題。MCP協(xié)議應(yīng)運(yùn)生，它是由Anthropic公司提出并開源的一種開放標(biāo)準(zhǔn)協(xié)議，通過(guò)提供一個(gè)統(tǒng)一的開放標(biāo)準(zhǔn)，極大地簡(jiǎn)化了AI系統(tǒng)與數(shù)據(jù)源之間的連接，使得AI系統(tǒng)能夠更可靠地訪問(wèn)所需數(shù)據(jù)，從產(chǎn)生更相關(guān)、更優(yōu)質(zhì)的響應(yīng)。通過(guò)與AIbase的緊密結(jié)合，MCP協(xié)議能夠更好地發(fā)揮其優(yōu)勢(shì)，為AI技術(shù)的發(fā)展提供更強(qiáng)大的動(dòng)力。

?AI助手 ?MCP協(xié)議 ?數(shù)據(jù)系統(tǒng)連接
薦AI日?qǐng)?bào)：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級(jí)框上線 “拍照問(wèn)夸克”

本期AI日?qǐng)?bào)聚焦多項(xiàng)AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開源音頻模型Kimi-Audio，基于13億小時(shí)訓(xùn)練數(shù)據(jù)，支持語(yǔ)音識(shí)別等任務(wù)；2)階躍星辰開源圖像編輯模型Step1X-Edit，展現(xiàn)強(qiáng)大生成能力；3)夸克AI上線"拍照問(wèn)夸克"功能，實(shí)現(xiàn)視覺(jué)問(wèn)答；4)蘋果iOS18.5將在中國(guó)推送，帶來(lái)智能功能；5)谷歌發(fā)布601個(gè)生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動(dòng)化系統(tǒng)；7)OpenAI升級(jí)ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價(jià)比語(yǔ)言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實(shí)時(shí)音視頻數(shù)字人產(chǎn)品Slice Live。此外，國(guó)內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動(dòng)大模型發(fā)展，寶馬中國(guó)宣布新車將接入DeepSeek技術(shù)。

?AI日?qǐng)?bào) ?音頻技術(shù) ?開源模型
凱迪拉克VISTIQ亞洲首秀，搭載Momenta飛輪大模型定義豪華純電智能出行

4月23日，凱迪拉克在上海舉辦"心馳·電掣"發(fā)布會(huì)，推出亞洲首秀的VISTIQ車型。該車與Momenta深度合作，采用行業(yè)首個(gè)量產(chǎn)飛輪大模型技術(shù)，實(shí)現(xiàn)L2全場(chǎng)景城區(qū)輔助駕駛功能，提供"有路就能開，有位就能停"的智能體驗(yàn)。凱迪拉克強(qiáng)調(diào)不應(yīng)通過(guò)堆砌硬件實(shí)現(xiàn)智能化，而需技術(shù)創(chuàng)新與用戶體驗(yàn)并重。此次合作展現(xiàn)了凱迪拉克擁抱智能化的決心，也彰顯了Momenta在自動(dòng)駕駛領(lǐng)域的技術(shù)領(lǐng)先地位。雙方將共同推動(dòng)豪華純電出行的智能化升級(jí)。

?凱迪拉克 ?智能駕駛 ?新能源車

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

Hugging Face研究人員推語(yǔ)音識(shí)別模型Distil-Whisper 速度提高、參數(shù)減少

亞馬遜推出AI語(yǔ)音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

AI日?qǐng)?bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

薦AI日?qǐng)?bào)：阿里通義千問(wèn)登頂全球開源模型榜首；MiniMax推Speech-02語(yǔ)音模型；?ChatGPT付費(fèi)用戶激增至2000萬(wàn)

易鑫宣布年內(nèi)推出汽車金融行業(yè)首個(gè)Agentic大模型

薦AI日?qǐng)?bào)：ChatGPT重磅上線圖像庫(kù)功能；白嫖！Veo2登陸谷歌AI Studio；螞蟻百寶箱推“MCP專區(qū)”

外媒：ChatGPT新模型 o4 mini 的“AI幻覺(jué)率”高達(dá)48%

Antropic加入“AI語(yǔ)音助手”賽道，能追上OpenAI、谷歌們嗎？

MCP協(xié)議是什么？Model Context Protocol模型上下文詳解

薦AI日?qǐng)?bào)：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級(jí)框上線 “拍照問(wèn)夸克”

凱迪拉克VISTIQ亞洲首秀，搭載Momenta飛輪大模型定義豪華純電智能出行

熱文

印度將中國(guó)電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國(guó)網(wǎng)購(gòu)市場(chǎng)動(dòng)蕩，希音、Temu 率先在美開啟“漲價(jià)潮”！

站長(zhǎng)商機(jī)