中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > 大語言模型最新資訊  > 正文

    清華電子系聯(lián)合火山語音開源全新的聽覺大語言模型——SALMONN

    2023-08-22 15:03 · 稿源:站長之家

    站長之家(ChinaZ.com)8月22日 消息:SALMONN 是一個由清華大學電子工程系和字節(jié)跳動合作開發(fā)的大型語言模型(LLM),能夠處理語音、音頻事件和音樂輸入。

    相比于只能處理語音或音頻事件的模型,SALMONN 能夠感知和理解各種音頻輸入,并因此具備了多語言語音識別和翻譯以及音頻 - 語音推理等新興能力??梢哉f,SALMONN 為 LLM 提供了 "聽覺",使其具備了認知聽覺能力,這是通向聽覺啟發(fā)的人工通用智能的一步。

    image.png

    Github倉庫:https://github.com/bytedance/SALMONN/

    Demo鏈接:https://bytedance.github.io/SALMONN/

    該模型通過增加通用音頻編碼器和融合器來實現(xiàn)對音頻模態(tài)的直接感知,使得模型可以直接從物理世界獲取知識。

    SALMONN 能夠勝任英語語音識別、語音翻譯、情感識別、音頻字幕生成等任務,并展現(xiàn)了多種在模型訓練中沒有學習過的多語言和跨模態(tài)能力。研究團隊將在近期開源 SALMONN v1.0模型及相關代碼,并持續(xù)更新模型,為建設開源的通用人工智能做出貢獻。

    核心功能:

    1. 處理語音、音頻事件和音樂輸入。

    2. 實現(xiàn)多語言語音識別和翻譯。

    3. 進行音頻 - 語音推理。

    4. 支持根據(jù)文本和語音命令進行操作。

    舉報

    • 相關推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務領域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關鍵橋梁。隨著技術的不斷發(fā)展與迭代,時空壺有望持續(xù)引領行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 秒殺同行!Kimi開源全新音頻基礎模型,橫掃十多項基準測試,總體性能第一

      Kimi-Audio是一款開源的通用音頻基礎模型,在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設計,包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項音頻基準測試中,Kimi-Audio均取得領先性能,如LibriSpeech ASR測試WER僅1.28%,VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預訓練,并構(gòu)建了自動處理流水線生成高質(zhì)量訓練數(shù)據(jù)。評估結(jié)果顯示,Kimi-Audio在語音識別、音樂理解、語音情感分析等任務上全面超越同類模型,在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。

    • “奧迪助手”來了!全新AUDI車型接入豆包大模型

      2025年4月24日上海車展期間,上汽奧迪發(fā)布全新A5L Sportback和首款量產(chǎn)車型E5 Sportback。同時推出與火山引擎合作開發(fā)的"奧迪助手"智能交互系統(tǒng),基于豆包大模型實現(xiàn)自然對話體驗。該系統(tǒng)將搭載于兩款新車,并同步部署在車載端和手機APP端,支持跨設備對話記錄同步?;鹕揭鏋橄到y(tǒng)提供大模型技術支持,實現(xiàn)語音指令控制、車輛功能講解等智能服務,并整合抖音、汽水音樂等內(nèi)容生態(tài)。上汽奧迪表示,該合作將助力品牌打造更智能、個性化的產(chǎn)品矩陣。

    • 自獵智聘招聘求職Agent發(fā)布,全新的智能化、自主化、輕量化交互體驗

      4月28日,自獵科技發(fā)布"自獵智聘"AI招聘求職應用。該平臺基于大模型和深度學習算法,打造L4級全流程自動化智能招聘系統(tǒng),覆蓋企業(yè)和求職者兩端。企業(yè)端可智能執(zhí)行全流程招聘,降本增效;求職端提供公平客觀的求職體驗。系統(tǒng)具備高精度人崗匹配、AI數(shù)字人智能面試、一鍵背景調(diào)查等功能,實現(xiàn)從篩選到入職的全流程自動化。自獵智聘突破傳統(tǒng)招聘工具局限,通過多模態(tài)認知架構(gòu)構(gòu)建動態(tài)企業(yè)畫像,實現(xiàn)從"功能模塊化堆砌"到"目標牽引式自主決策"的范式躍遷。該產(chǎn)品標志著招聘領域正式進入"自主決策"的智能體時代。

    • 火山引擎即將發(fā)布深度思考模型

      據(jù)悉,字節(jié)跳動旗下云服務平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱,豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試,而此次發(fā)布后,該模型將正式面向企業(yè)提供服務。目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過火山引擎使用豆包大模型API服務。IDC最新發(fā)布的《中?

    • 可靈AI發(fā)布全新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會,正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動態(tài)質(zhì)量、語義響應、畫面美學等維度保持領先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術風格表現(xiàn)等方面顯著提升。3月27日,全球AI基準測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

    • 同級唯一全系四驅(qū) 全新哈弗梟龍Max上市:限時僅需11.38萬起

      快科技4月16日消息,剛剛,全新一代哈弗梟龍Max上市,共推出五款配置車型,售價區(qū)間13.18-16.98萬元,限時換新價為11.68-15.48萬元!相較于老款,全新梟龍MAX最顯著的提升當屬設計,采用全新語言,官方命名為律動自然美學,靈感來源于天空、大海、星河、流星等等,并供遠山灰、冰晶白、滄浪青、幻夜黑、極光綠五款外觀顏色。新車搭載丁達爾之光”點陣式大燈,其采用72顆LED晶體,遠光燈光通量達4000流明,照射距離達190米,此外,車輛前包圍兩側(cè)還將配備游隼展翼空氣動力學套件,進一步提升運動屬性。尺寸方面,新車長寬高分別為4780/1895

    • 能理解海豚聲音!谷歌開發(fā)全新AI模型DolphinGemma

      快科技4月15日消息,谷歌公布了一款名為DolphinGemma”的大型語言模型,旨在幫助科學家理解海豚的聲音,并生成類似海豚的聲音序列。研究人員預計在未來幾個月內(nèi)測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)發(fā)聲系統(tǒng),以探索是否能夠翻譯并模仿海豚的聲音,進而實現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動物之一,其社交互動極其復雜?

    • 模型時代的燃料|標貝科技推出大規(guī)模擬真多風格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術驅(qū)動下語音交互應用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當前語音大模型訓練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充,能通過參數(shù)化生成機制規(guī)避隱私風險,突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應用合成數(shù)據(jù)訓練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標貝科技推出超大規(guī)模擬真多風格語音合成數(shù)據(jù)集,包含上萬小時數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風格遷移等前沿任務,為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術,在自然度、流暢度等方面達到行業(yè)領先水平。