中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<span id="1db4e"></span>

清華電子系聯(lián)合火山語音開源全新的聽覺大語言模型——SALMONN

2023-08-22 15:03 · 稿源：站長之家

站長之家（ChinaZ.com）8月22日消息:SALMONN 是一個由清華大學電子工程系和字節(jié)跳動合作開發(fā)的大型語言模型（LLM），能夠處理語音、音頻事件和音樂輸入。

相比于只能處理語音或音頻事件的模型，SALMONN 能夠感知和理解各種音頻輸入，并因此具備了多語言語音識別和翻譯以及音頻 - 語音推理等新興能力?？梢哉f，SALMONN 為 LLM 提供了 "聽覺"，使其具備了認知聽覺能力，這是通向聽覺啟發(fā)的人工通用智能的一步。

Github倉庫:https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

該模型通過增加通用音頻編碼器和融合器來實現(xiàn)對音頻模態(tài)的直接感知，使得模型可以直接從物理世界獲取知識。

SALMONN 能夠勝任英語語音識別、語音翻譯、情感識別、音頻字幕生成等任務，并展現(xiàn)了多種在模型訓練中沒有學習過的多語言和跨模態(tài)能力。研究團隊將在近期開源 SALMONN v1.0模型及相關代碼，并持續(xù)更新模型，為建設開源的通用人工智能做出貢獻。

核心功能:

1. 處理語音、音頻事件和音樂輸入。

2. 實現(xiàn)多語言語音識別和翻譯。

3. 進行音頻 - 語音推理。

4. 支持根據(jù)文本和語音命令進行操作。

（舉報）

相關推薦

關鍵詞：

大語言模型

時空壺接入大語言模型，跨語言溝通已成翻譯的藝術

在當今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判，到文化交流中的思想碰撞，高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代，時空壺有望持續(xù)引領行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設備
薦秒殺同行！Kimi開源全新音頻基礎模型，橫掃十多項基準測試，總體性能第一

Kimi-Audio是一款開源的通用音頻基礎模型，在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設計，包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件，支持多模態(tài)輸入處理。在十余項音頻基準測試中，Kimi-Audio均取得領先性能，如LibriSpeech ASR測試WER僅1.28%，VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預訓練，并構(gòu)建了自動處理流水線生成高質(zhì)量訓練數(shù)據(jù)。評估結(jié)果顯示，Kimi-Audio在語音識別、音樂理解、語音情感分析等任務上全面超越同類模型，在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。

?音頻模型 ?語音識別 ?開源項目
“奧迪助手”來了！全新AUDI車型接入豆包大模型

2025年4月24日上海車展期間，上汽奧迪發(fā)布全新A5L Sportback和首款量產(chǎn)車型E5 Sportback。同時推出與火山引擎合作開發(fā)的"奧迪助手"智能交互系統(tǒng)，基于豆包大模型實現(xiàn)自然對話體驗。該系統(tǒng)將搭載于兩款新車，并同步部署在車載端和手機APP端，支持跨設備對話記錄同步?；鹕揭鏋橄到y(tǒng)提供大模型技術支持，實現(xiàn)語音指令控制、車輛功能講解等智能服務，并整合抖音、汽水音樂等內(nèi)容生態(tài)。上汽奧迪表示，該合作將助力品牌打造更智能、個性化的產(chǎn)品矩陣。

?上海國際車展 ?上汽奧迪 ?奧迪
自獵智聘招聘求職Agent發(fā)布，全新的智能化、自主化、輕量化交互體驗

4月28日，自獵科技發(fā)布"自獵智聘"AI招聘求職應用。該平臺基于大模型和深度學習算法，打造L4級全流程自動化智能招聘系統(tǒng)，覆蓋企業(yè)和求職者兩端。企業(yè)端可智能執(zhí)行全流程招聘，降本增效；求職端提供公平客觀的求職體驗。系統(tǒng)具備高精度人崗匹配、AI數(shù)字人智能面試、一鍵背景調(diào)查等功能，實現(xiàn)從篩選到入職的全流程自動化。自獵智聘突破傳統(tǒng)招聘工具局限，通過多模態(tài)認知架構(gòu)構(gòu)建動態(tài)企業(yè)畫像，實現(xiàn)從"功能模塊化堆砌"到"目標牽引式自主決策"的范式躍遷。該產(chǎn)品標志著招聘領域正式進入"自主決策"的智能體時代。

?招聘 ?求職 ?AI智能體
火山引擎即將發(fā)布深度思考模型

據(jù)悉，字節(jié)跳動旗下云服務平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱，豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試，而此次發(fā)布后，該模型將正式面向企業(yè)提供服務。目前，豆包大模型家族已覆蓋全模態(tài)、全場景，包括大語言模型、語音大模型，以及圖像、視頻等視覺大模型，企業(yè)可以通過火山引擎使用豆包大模型API服務。IDC最新發(fā)布的《中?

?字節(jié)跳動 ?火山引擎 ?豆包深度思考模型
可靈AI發(fā)布全新2.0模型：上線多模態(tài)視頻編輯功能

快科技4月16日消息，據(jù)報道，可靈AI在北京舉行靈感成真”2.0模型發(fā)布會，正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹，可靈2.0模型在動態(tài)質(zhì)量、語義響應、畫面美學等維度保持領先；可圖2.0模型在指令遵循、電影質(zhì)感及藝術風格表現(xiàn)等方面顯著提升。3月27日，全球AI基準測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單，快手可靈1.6pro（高品質(zhì)模

?可靈AI ?視頻生成模型 ?圖像生成模型
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復
同級唯一全系四驅(qū) 全新哈弗梟龍Max上市：限時僅需11.38萬起

快科技4月16日消息，剛剛，全新一代哈弗梟龍Max上市，共推出五款配置車型，售價區(qū)間13.18-16.98萬元，限時換新價為11.68-15.48萬元！相較于老款，全新梟龍MAX最顯著的提升當屬設計，采用全新語言，官方命名為律動自然美學，靈感來源于天空、大海、星河、流星等等，并供遠山灰、冰晶白、滄浪青、幻夜黑、極光綠五款外觀顏色。新車搭載丁達爾之光”點陣式大燈，其采用72顆LED晶體，遠光燈光通量達4000流明，照射距離達190米，此外，車輛前包圍兩側(cè)還將配備游隼展翼空氣動力學套件，進一步提升運動屬性。尺寸方面，新車長寬高分別為4780/1895

?哈弗梟龍Max ?汽車上市 ?新車設計
能理解海豚聲音！谷歌開發(fā)全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名為DolphinGemma”的大型語言模型，旨在幫助科學家理解海豚的聲音，并生成類似海豚的聲音序列。研究人員預計在未來幾個月內(nèi)測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）發(fā)聲系統(tǒng)，以探索是否能夠翻譯并模仿海豚的聲音，進而實現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動物之一，其社交互動極其復雜?

?谷歌 ?DolphinGemma ?海豚溝通
大模型時代的新燃料|標貝科技推出大規(guī)模擬真多風格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術驅(qū)動下語音交互應用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當前語音大模型訓練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充，能通過參數(shù)化生成機制規(guī)避隱私風險，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應用合成數(shù)據(jù)訓練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標貝科技推出超大規(guī)模擬真多風格語音合成數(shù)據(jù)集，包含上萬小時數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風格遷移等前沿任務，為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術，在自然度、流暢度等方面達到行業(yè)領先水平。

?大模型技術 ?人工智能變革 ?語音交互

熱文

3 天
7天

站長商機

廣告

商務合作侵權(quán)投訴廣告服務版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM