站長之家(ChinaZ.com)8月22日 消息:SALMONN 是一個由清華大學電子工程系和字節(jié)跳動合作開發(fā)的大型語言模型(LLM),能夠處理語音、音頻事件和音樂輸入。
相比于只能處理語音或音頻事件的模型,SALMONN 能夠感知和理解各種音頻輸入,并因此具備了多語言語音識別和翻譯以及音頻 - 語音推理等新興能力??梢哉f,SALMONN 為 LLM 提供了 "聽覺",使其具備了認知聽覺能力,這是通向聽覺啟發(fā)的人工通用智能的一步。
Github倉庫:https://github.com/bytedance/SALMONN/
Demo鏈接:https://bytedance.github.io/SALMONN/
該模型通過增加通用音頻編碼器和融合器來實現(xiàn)對音頻模態(tài)的直接感知,使得模型可以直接從物理世界獲取知識。
SALMONN 能夠勝任英語語音識別、語音翻譯、情感識別、音頻字幕生成等任務,并展現(xiàn)了多種在模型訓練中沒有學習過的多語言和跨模態(tài)能力。研究團隊將在近期開源 SALMONN v1.0模型及相關代碼,并持續(xù)更新模型,為建設開源的通用人工智能做出貢獻。
核心功能:
1. 處理語音、音頻事件和音樂輸入。
2. 實現(xiàn)多語言語音識別和翻譯。
3. 進行音頻 - 語音推理。
4. 支持根據(jù)文本和語音命令進行操作。
(舉報)