AI語音識(shí)別工具Universal-1：38秒可以處理60分鐘音頻比fast Whisper更快

2024-04-07 14:43 · 稿源：站長之家

劃重點(diǎn):
- ?? Universal-1在多語言環(huán)境中取得了行業(yè)領(lǐng)先的表現(xiàn)，提供準(zhǔn)確且魯棒的多語言語音轉(zhuǎn)文字功能。
- ?? Universal-1能夠精確估計(jì)時(shí)間戳，提高了說話者辨識(shí)和音視頻編輯等下游應(yīng)用的準(zhǔn)確性。
- ?? AssemblyAI 利用最先進(jìn)的 ASR 研究，構(gòu)建了 Universal-1模型，并通過 Google Cloud TPUs 等基礎(chǔ)設(shè)施實(shí)現(xiàn)了高效的訓(xùn)練和推理。

站長之家（ChinaZ.com）4月7日消息:AssemblyAI 最新研究成果展示了他們的 Universal-1模型在多語言環(huán)境中的表現(xiàn)，該模型在準(zhǔn)確性和魯棒性方面均取得了行業(yè)領(lǐng)先地位。先說結(jié)果，Universal-1比Whisper Large-v3更準(zhǔn)確，比fast Whisper更快，38秒可以處理60分鐘音頻。

Universal-1訓(xùn)練于1250萬小時(shí)的多語言音頻數(shù)據(jù)，采用了 Conformer RNN-T 架構(gòu)，在英語、西班牙語和德語的語音轉(zhuǎn)文字準(zhǔn)確性上均取得10% 以上的提升。該模型還展現(xiàn)出多語言轉(zhuǎn)錄能力，能夠在單個(gè)音頻文件中轉(zhuǎn)錄多種語言。

除了語音轉(zhuǎn)文字準(zhǔn)確性外，Universal-1還具有精確的時(shí)間戳估計(jì)能力，對(duì)于音視頻編輯和說話者辨識(shí)等應(yīng)用具有重要意義。該模型通過優(yōu)化的解碼器實(shí)現(xiàn)了13% 的時(shí)間戳準(zhǔn)確度提升，比 Whisper Large-V3提高了26%。此外，Universal-1還實(shí)現(xiàn)了高效的并行推理，比 Whisper Large-V3在相同硬件上實(shí)現(xiàn)了5倍的加速。

為了構(gòu)建 Universal-1，AssemblyAI 利用了 Conformer 編碼器和 RNN-T 模型，通過大規(guī)模的自監(jiān)督學(xué)習(xí)框架和大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。他們利用 Google Cloud TPUs 和 JAX 進(jìn)行訓(xùn)練，構(gòu)建了可靠的基礎(chǔ)設(shè)施和系統(tǒng)設(shè)計(jì)。除了多語音數(shù)據(jù)外，他們還結(jié)合了各種數(shù)據(jù)增強(qiáng)方法，提高了模型的準(zhǔn)確性和魯棒性。

AssemblyAI 的研究展示了他們?cè)谡Z音 AI 領(lǐng)域的領(lǐng)先地位，Universal-1模型在多語言環(huán)境下取得了令人矚目的表現(xiàn)，為客戶提供了準(zhǔn)確、忠實(shí)和魯棒的語音轉(zhuǎn)文字能力。值得一提的是，Universal-1非開源，僅提供API調(diào)用。

產(chǎn)品入口：https://top.aibase.com/tool/universal-1

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

開啟內(nèi)測(cè)！360納米AI推出“MCP萬能工具箱”

4月23日，360旗下納米AI正式發(fā)布"MCP萬能工具箱"，該工具基于MCP協(xié)議開發(fā)，已接入超110款工具，覆蓋辦公、學(xué)術(shù)、生活服務(wù)、金融等多場(chǎng)景。產(chǎn)品負(fù)責(zé)人梁志輝介紹，MCP協(xié)議類似USB-C接口，為AI調(diào)用外部工具提供標(biāo)準(zhǔn)化連接方式。目前該工具已開啟內(nèi)測(cè)，首批受邀用戶包括AI博主和媒體人士。實(shí)測(cè)顯示，該工具能快速生成專業(yè)分析報(bào)告，效率遠(yuǎn)超人工。用戶還可創(chuàng)建專屬智能體，如醫(yī)療、金融等領(lǐng)域的專業(yè)助手。360表示，工具對(duì)AI應(yīng)用意義重大，將推動(dòng)AI從聊天機(jī)器人進(jìn)化為真正的"數(shù)字員工"。

?360納米AI ?360 ?MCP萬能工具箱
AI日?qǐng)?bào)： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

【AI日?qǐng)?bào)】欄目聚焦人工智能領(lǐng)域最新動(dòng)態(tài)：1) OpenAI推出ChatGPT圖像生成API，開發(fā)者可輕松集成AI繪圖功能，已生成超7億張圖片；2) 谷歌Gemini月活用戶突破3.5億，但仍落后于ChatGPT的6億用戶；3) OpenAI預(yù)測(cè)2029年收入將達(dá)1250億美元，AI代理業(yè)務(wù)成主要增長點(diǎn)；4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview，優(yōu)化ComfyUI工作流；5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything，支持指定區(qū)域生成詳細(xì)描?

?OpenAI ?ChatGPT ?圖像生成
MCP的基本組成部分有哪些？MCP Servers服務(wù)器起到什么作用？

在AI技術(shù)不斷發(fā)展的今天，如何高效地實(shí)現(xiàn)AI模型與外部資源的交互成為了一個(gè)關(guān)鍵問題。MCP作為一種創(chuàng)新的解決方案，為AI應(yīng)用的開發(fā)和部署提供了全新的思路。隨著MCP技術(shù)的不斷發(fā)展和應(yīng)用，我們有理由相信，它將在未來的AI領(lǐng)域發(fā)揮越來越重要的作用。

?MCP技術(shù) ?AI模型交互 ?大型語言模型
moto Edge 60/Edge 60 Pro發(fā)布：3685元起

摩托羅拉4月25日在海外發(fā)布Edge 60系列手機(jī)，包含標(biāo)準(zhǔn)版和Pro版。標(biāo)準(zhǔn)版配備6.7英寸曲面屏，搭載天璣7300芯片，后置5000萬像素LYT-700C主攝+5000萬超廣角+1000萬3X長焦，5200mAh電池支持68W快充。Pro版采用同款屏幕，升級(jí)為天璣8350處理器，6000mAh電池支持90W有線+15W無線充電。兩款均支持IP68/IP69防護(hù)，提供類尼龍紋理、仿皮革等獨(dú)特材質(zhì)，潘通聯(lián)名配色。售價(jià)分別為380英鎊（約3685元）和600英鎊（約5819元）。新品5月將在國內(nèi)上市，針對(duì)本土用戶做了適配優(yōu)化。
OPENVERSE獲重磅資本加持，元宇宙賽道再添生力軍

我們正處于互聯(lián)網(wǎng)范式轉(zhuǎn)變的關(guān)鍵階段：從中心化的平臺(tái)驅(qū)動(dòng)（Web 2），邁向去中心化的用戶主權(quán)網(wǎng)絡(luò)（Web3）。在Web3 體系下，數(shù)據(jù)與內(nèi)容的所有權(quán)回歸用戶本人，價(jià)值創(chuàng)造與價(jià)值流通基于協(xié)議自動(dòng)執(zhí)行，平臺(tái)不再是控制者，而是服務(wù)型工具。這意味著，下一代互聯(lián)網(wǎng)不再依賴于少數(shù)平臺(tái)巨頭，而是建立在公開透明、用戶可驗(yàn)證、自治協(xié)作的價(jià)值網(wǎng)絡(luò)之上。OPENVERSE作為新一代 We

?Web3 ?去中心化 ?用戶主權(quán)
ChatGPT受限？這 8 款免費(fèi)AI工具，也可以生成“吉卜力風(fēng)格”圖片

自從OpenAI將其先進(jìn)的圖像生成器集成到GPT-4o中后，SNS、網(wǎng)絡(luò)社區(qū)等平臺(tái)上掀起了一股“吉卜力風(fēng)格頭像”風(fēng)潮。但隨著版權(quán)爭議的加劇，OpenAI給這項(xiàng)“吉卜力風(fēng)格化”的圖像轉(zhuǎn)化功能加了一點(diǎn)點(diǎn)的限制。這款在線工具可以讓用戶進(jìn)行編輯、增強(qiáng)、放大圖像、將圖像轉(zhuǎn)換為視頻等多樣的操作，只需注冊(cè)便可使用。

?吉卜力風(fēng)格 ?圖像生成 ?版權(quán)爭議
Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

Arm 近期榮登《Fast Company》2025 年度最具創(chuàng)新力公司榜單，并在人工智能 (AI) 類別中位列第七*?！禙ast Company》自 2008 年發(fā)布“最具創(chuàng)新力公司”榜單以來，該榜單一直作為全球企業(yè)革新行業(yè)和塑造社會(huì)的基準(zhǔn)，其依據(jù)創(chuàng)新性、影響力、時(shí)效性和相關(guān)性四大標(biāo)準(zhǔn)進(jìn)行資格篩選。入選榜單的公司不僅代表其創(chuàng)新成果具備顯著的商業(yè)與行業(yè)影響力，更被視為所在領(lǐng)域的引領(lǐng)者，推動(dòng)世?

?Arm ?創(chuàng)新力公司 ?人工智能
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個(gè)聊天機(jī)器人。

?谷歌 ?谷歌gemini ?veo2
亞馬遜推出AI語音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語音模型NovaSonic，標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出，在速度、語音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
Antropic加入“AI語音助手”賽道，能追上OpenAI、谷歌們嗎？

隨著 AI 語音產(chǎn)品的出現(xiàn)，人們對(duì)其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……

?Anthropic ?AI語音助手 ?Claude

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

AI語音識(shí)別工具Universal-1：38秒可以處理60分鐘音頻比fast Whisper更快

開啟內(nèi)測(cè)！360納米AI推出“MCP萬能工具箱”

AI日?qǐng)?bào)： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

MCP的基本組成部分有哪些？MCP Servers服務(wù)器起到什么作用？

moto Edge 60/Edge 60 Pro發(fā)布：3685元起

OPENVERSE獲重磅資本加持，元宇宙賽道再添生力軍

ChatGPT受限？這 8 款免費(fèi)AI工具，也可以生成“吉卜力風(fēng)格”圖片

Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

亞馬遜推出AI語音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

Antropic加入“AI語音助手”賽道，能追上OpenAI、谷歌們嗎？

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場(chǎng)動(dòng)蕩，希音、Temu 率先在美開啟“漲價(jià)潮”！

站長商機(jī)

AI語音識(shí)別工具Universal-1：38秒可以處理60分鐘音頻 比fast Whisper更快

熱文

站長商機(jī)

AI語音識(shí)別工具Universal-1：38秒可以處理60分鐘音頻比fast Whisper更快