聲明:本文來自于微信公眾號 機器之心,授權站長之家轉載發(fā)布。
今天,kimi 又發(fā)布了新的開源項目 —— 一個全新的通用音頻基礎模型 Kimi-Audio,支持語音識別、音頻理解、音頻轉文本、語音對話等多種任務,在十多個音頻基準測試中實現了最先進的 (SOTA) 性能。
結果顯示,Kimi-Audio 總體性能排名第一,幾乎沒有明顯短板。
例如在 LibriSpeech ASR 測試上,Kimi-Audio 的 WER 僅1.28%,顯著優(yōu)于其他模型。VocalSound 測試上,Kimi 達94.85%,接近滿分 。MMAU 任務中,Kimi-Audio 摘得兩項最高分;VoiceBench 設計評測對話助手的語音理解能力,Kimi-Audio 在所有子任務中得分最高,包括一項滿分。
研發(fā)人員開發(fā)了評估工具包,可在多個基準任務上對音頻 LLM 進行公平、全面評估 ,五款音頻模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各類音頻基準測試中的表現對比。紫線(Kimi-Audio)基本覆蓋最外層,表明其綜合表現最佳。
目前,模型代碼、模型檢查點以及評估工具包已經在 Github 上開源。
項目鏈接:https://github.com/MoonshotAI/Kimi-Audio
新穎的架構設計
為實現 SOTA 級別的通用音頻建模, Kimi-Audio 采用了集成式架構設計,包括三個核心組件 —— 音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。
這一架構使 Kimi-Audio 能夠在單一模型框架下,流暢地處理從語音識別、理解到語音對話等多種音頻語言任務。
Kimi-Audio 由三個主要組件組成:音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。
具體而言,音頻分詞器(Audio Tokenizer)負責將輸入音頻轉化為通過矢量量化(vector quantization)得到的離散語義 token,幀率為12.5Hz。同時,音頻分詞器還提取連續(xù)的聲學向量,以增強感知能力。
這種結合方式使模型既具有語義上的壓縮表示,又保留了豐富的聲學細節(jié),從而為多種音頻任務提供了堅實的表示基礎。
音頻大模型(Audio LLM)是系統(tǒng)的核心,負責生成語義 token 以及文本 token,以提升生成能力。其架構基于共享 Transformer 層,能夠處理多模態(tài)輸入,并在后期分支為專門用于文本和音頻生成的兩個并行輸出頭。
音頻去分詞器(Audio Detokenizer)使用流匹配(flow matching)方法,將音頻大模型預測出的離散語義 token 轉化為連貫的音頻波形,生成高質量、具有表現力的語音。
數據建構與訓練方法
除了新穎的模型架構,構建 SOTA 模型的核心工作還包括數據建構和訓練方法。
為實現 SOTA 級別的通用音頻建模,Kimi-Audio 在預訓練階段使用了約1300萬小時覆蓋多語言、音樂、環(huán)境聲等多種場景的音頻數據,并搭建了一條自動處理 “流水線” 生成高質量長音頻 - 文本對。
預訓練后,模型進行了監(jiān)督微調(SFT),數據涵蓋音頻理解、語音對話和音頻轉文本聊天三大類任務,進一步提升了指令跟隨和音頻生成能力。
Kimi-Audio 預訓練數據處理流程的直觀展示。簡單來說,就是把原始音頻一步步凈化、切分、整理,變成干凈、有結構、有標注的訓練數據。
在訓練方法上,為實現強大的音頻理解與生成能力,同時保持模型的知識容量與智能水平,研發(fā)人員以預訓練語言模型為初始化,設計了三個類別的預訓練任務:
僅文本和僅音頻預訓練,用于分別學習兩個模態(tài)的知識;音頻到文本的映射,促進模態(tài)轉換能力;音頻文本交錯訓練,進一步彌合模態(tài)間的鴻溝。
在監(jiān)督微調階段,他們設計了一套訓練配方,以提升訓練效率與任務泛化能力。
考慮到下游任務的多樣性,研究者沒有設置特殊的任務切換操作,而是為每個任務使用自然語言作為指令;對于指令,他們構建了音頻和文本版本(即音頻由 Kimi-TTS 在零樣本方式下基于文本生成),并在訓練期間隨機選擇一種;為了增強遵循指令能力的魯棒性,他們使用大語言模型為 ASR 任務構建了200條指令,為其他任務構建了30條指令,并為每個訓練樣本隨機選擇一條。他們構建了大約30萬小時的數據用于監(jiān)督式微調。
如表1和表2所示,他們基于全面的消融實驗,在每個數據源上對 Kimi-Audio 進行了2-4個訓練周期的微調,使用 AdamW 優(yōu)化器,學習率從1e?? 到1e?? 進行余弦衰減,使用10% 的 token 進行學習率預熱。
此外,他們還分三個階段訓練音頻解碼器。首先,使用預訓練數據中的大約100萬小時的音頻,對流匹配模型和聲碼器進行預訓練,以學習具有多樣化音色、語調和質量的音頻。其次,采用分塊微調策略,在相同的預訓練數據上將動態(tài)塊大小調整為0.5秒到3秒 。最后,在 Kimi-Audio 說話者提供的高質量單聲道錄音數據上進行微調。
評估結果
研究者基于評估工具包,詳細評估了 Kimi-Audio 在一系列音頻處理任務中的表現,包括自動語音識別(ASR)、音頻理解、音頻轉文本聊天和語音對話。他們使用已建立的基準測試和內部測試集,將 Kimi-Audio 與其他音頻基礎模型(Qwen2-Audio 、Baichuan-Audio、Step-Audio、GLM4-Voice 和 Qwen2.5-Omini )進行了比較。
自動語音識別
研究者對 Kimi-Audio 的自動語音識別(ASR)能力進行了評估,涵蓋了多種語言和聲學條件的多樣化數據集。如表4所示,Kimi-Audio 在這些數據集上持續(xù)展現出比以往模型更優(yōu)越的性能。他們報告了這些數據集上的詞錯誤率(WER),其中較低的值表示更好的性能。
值得注意的是,Kimi-Audio 在廣泛使用的 LibriSpeech 基準測試中取得了最佳結果,在 test-clean 上達到了1.28的錯誤率,在 test-other 上達到了2.42,顯著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 這樣的模型。在普通話 ASR 基準測試中,Kimi-Audio 在 AISHELL-1(0.60)和 AISHELL-2ios(2.56)上創(chuàng)下了最先進的結果。此外,它在具有挑戰(zhàn)性的 WenetSpeech 數據集上表現出色,在 test-meeting 和 test-net 上均取得了最低的錯誤率。最后,研究者在內部的 Kimi-ASR 測試集上的評估確認了該模型的魯棒性。這些結果表明,Kimi-Audio 在不同領域和語言中均具有強大的 ASR 能力。
音頻理解
除了語音識別外,研究者還評估了 Kimi-Audio 理解包括音樂、聲音事件和語音在內的各種音頻信號的能力。表5總結了在各種音頻理解基準測試上的性能,通常較高的分數表示更好的性能。
在 MMAU 基準測試中,Kimi-Audio 在聲音類別(73.27)和語音類別(60.66)上展現出卓越的理解能力。同樣,在 MELD 語音情感理解任務上,它也以59.13的得分超越了其他模型。Kimi-Audio 在涉及非語音聲音分類(VocalSound 和 Nonspeech7k )以及聲學場景分類(TUT2017和 CochlScene)的任務中也處于領先地位。這些結果突顯了 Kimi-Audio 在解讀復雜聲學信息方面的高級能力,超越了簡單的語音識別范疇。
音頻到文本聊天
研究者使用 OpenAudioBench 和 VoiceBench 基準測試 評估了 Kimi-Audio 基于音頻輸入進行文本對話的能力。這些基準測試評估了諸如指令遵循、問答和推理等各個方面。性能指標因基準測試而異,較高的分數表示更好的對話能力。結果如表6所示。
在 OpenAudioBench 上,Kimi-Audio 在多個子任務上實現了最先進的性能,包括 AlpacaEval、Llama Questions 和 TriviaQA,并在 Reasoning QA 和 Web Questions 上取得了極具競爭力的性能。VoiceBench 評估進一步證實了 Kimi-Audio 的優(yōu)勢。它在 AlpacaEval(4.46)、CommonEval(3.97)、SD-QA(63.12)、MMSU(62.17)、OpenBookQA(83.52)、Advbench(100.00)和 IFEval(61.10)上均持續(xù)超越所有對比模型。Kimi-Audio 在這些全面的基準測試中的整體表現證明了其在基于音頻的對話和復雜推理任務中的卓越能力。
語音對話
最后,他們基于多維度的主觀評估,評估了 Kimi-Audio 的端到端語音對話能力。如表7所示,Kimi-Audio 與 GPT-4o 和 GLM-4-Voice 等模型在人類評分(1-5分量表,分數越高越好)的基礎上進行了比較。
除去 GPT-4o,Kimi-Audio 在情感控制、同理心和速度控制方面均取得了最高分。盡管 GLM-4-Voice 在口音控制方面表現略佳,但 Kimi-Audio 的整體平均得分仍高達3.90,超過了 Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65),并與 GPT-4o(4.06)僅存在微小差距。總體而言,評估結果表明,Kimi-Audio 在生成富有表現力和可控性的語音方面表現出色。
(舉報)