中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > Universal-1最新資訊  > 正文

    AI語音識(shí)別工具Universal-1:38秒可以處理60分鐘音頻 比fast Whisper更快

    2024-04-07 14:43 · 稿源:站長之家

    劃重點(diǎn):

    - ?? Universal-1在多語言環(huán)境中取得了行業(yè)領(lǐng)先的表現(xiàn),提供準(zhǔn)確且魯棒的多語言語音轉(zhuǎn)文字功能。

    - ?? Universal-1能夠精確估計(jì)時(shí)間戳,提高了說話者辨識(shí)和音視頻編輯等下游應(yīng)用的準(zhǔn)確性。

    - ?? AssemblyAI 利用最先進(jìn)的 ASR 研究,構(gòu)建了 Universal-1模型,并通過 Google Cloud TPUs 等基礎(chǔ)設(shè)施實(shí)現(xiàn)了高效的訓(xùn)練和推理。

    站長之家(ChinaZ.com)4月7日 消息:AssemblyAI 最新研究成果展示了他們的 Universal-1模型在多語言環(huán)境中的表現(xiàn),該模型在準(zhǔn)確性和魯棒性方面均取得了行業(yè)領(lǐng)先地位。先說結(jié)果,Universal-1比Whisper Large-v3更準(zhǔn)確,比fast Whisper更快,38秒可以處理60分鐘音頻。

    Universal-1訓(xùn)練于1250萬小時(shí)的多語言音頻數(shù)據(jù),采用了 Conformer RNN-T 架構(gòu),在英語、西班牙語和德語的語音轉(zhuǎn)文字準(zhǔn)確性上均取得10% 以上的提升。該模型還展現(xiàn)出多語言轉(zhuǎn)錄能力,能夠在單個(gè)音頻文件中轉(zhuǎn)錄多種語言。

    image.png

    除了語音轉(zhuǎn)文字準(zhǔn)確性外,Universal-1還具有精確的時(shí)間戳估計(jì)能力,對(duì)于音視頻編輯和說話者辨識(shí)等應(yīng)用具有重要意義。該模型通過優(yōu)化的解碼器實(shí)現(xiàn)了13% 的時(shí)間戳準(zhǔn)確度提升,比 Whisper Large-V3提高了26%。此外,Universal-1還實(shí)現(xiàn)了高效的并行推理,比 Whisper Large-V3在相同硬件上實(shí)現(xiàn)了5倍的加速。

    image.png

    為了構(gòu)建 Universal-1,AssemblyAI 利用了 Conformer 編碼器和 RNN-T 模型,通過大規(guī)模的自監(jiān)督學(xué)習(xí)框架和大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。他們利用 Google Cloud TPUs 和 JAX 進(jìn)行訓(xùn)練,構(gòu)建了可靠的基礎(chǔ)設(shè)施和系統(tǒng)設(shè)計(jì)。除了多語音數(shù)據(jù)外,他們還結(jié)合了各種數(shù)據(jù)增強(qiáng)方法,提高了模型的準(zhǔn)確性和魯棒性。

    AssemblyAI 的研究展示了他們?cè)谡Z音 AI 領(lǐng)域的領(lǐng)先地位,Universal-1模型在多語言環(huán)境下取得了令人矚目的表現(xiàn),為客戶提供了準(zhǔn)確、忠實(shí)和魯棒的語音轉(zhuǎn)文字能力。值得一提的是,Universal-1非開源,僅提供API調(diào)用。

    產(chǎn)品入口:https://top.aibase.com/tool/universal-1

    舉報(bào)

    • 相關(guān)推薦
    • 開啟內(nèi)測(cè)!360納米AI推出“MCP萬能工具箱”

      4月23日,360旗下納米AI正式發(fā)布"MCP萬能工具箱",該工具基于MCP協(xié)議開發(fā),已接入超110款工具,覆蓋辦公、學(xué)術(shù)、生活服務(wù)、金融等多場(chǎng)景。產(chǎn)品負(fù)責(zé)人梁志輝介紹,MCP協(xié)議類似USB-C接口,為AI調(diào)用外部工具提供標(biāo)準(zhǔn)化連接方式。目前該工具已開啟內(nèi)測(cè),首批受邀用戶包括AI博主和媒體人士。實(shí)測(cè)顯示,該工具能快速生成專業(yè)分析報(bào)告,效率遠(yuǎn)超人工。用戶還可創(chuàng)建專屬智能體,如醫(yī)療、金融等領(lǐng)域的專業(yè)助手。360表示,工具對(duì)AI應(yīng)用意義重大,將推動(dòng)AI從聊天機(jī)器人進(jìn)化為真正的"數(shù)字員工"。

    • AI日?qǐng)?bào): OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

      【AI日?qǐng)?bào)】欄目聚焦人工智能領(lǐng)域最新動(dòng)態(tài):1) OpenAI推出ChatGPT圖像生成API,開發(fā)者可輕松集成AI繪圖功能,已生成超7億張圖片;2) 谷歌Gemini月活用戶突破3.5億,但仍落后于ChatGPT的6億用戶;3) OpenAI預(yù)測(cè)2029年收入將達(dá)1250億美元,AI代理業(yè)務(wù)成主要增長點(diǎn);4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview,優(yōu)化ComfyUI工作流;5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything,支持指定區(qū)域生成詳細(xì)描?

    • MCP的基本組成部分有哪些?MCP Servers服務(wù)器起到什么作用?

      在AI技術(shù)不斷發(fā)展的今天,如何高效地實(shí)現(xiàn)AI模型與外部資源的交互成為了一個(gè)關(guān)鍵問題。MCP作為一種創(chuàng)新的解決方案,為AI應(yīng)用的開發(fā)和部署提供了全新的思路。隨著MCP技術(shù)的不斷發(fā)展和應(yīng)用,我們有理由相信,它將在未來的AI領(lǐng)域發(fā)揮越來越重要的作用。

    • moto Edge 60/Edge 60 Pro發(fā)布:3685元起

      摩托羅拉4月25日在海外發(fā)布Edge 60系列手機(jī),包含標(biāo)準(zhǔn)版和Pro版。標(biāo)準(zhǔn)版配備6.7英寸曲面屏,搭載天璣7300芯片,后置5000萬像素LYT-700C主攝+5000萬超廣角+1000萬3X長焦,5200mAh電池支持68W快充。Pro版采用同款屏幕,升級(jí)為天璣8350處理器,6000mAh電池支持90W有線+15W無線充電。兩款均支持IP68/IP69防護(hù),提供類尼龍紋理、仿皮革等獨(dú)特材質(zhì),潘通聯(lián)名配色。售價(jià)分別為380英鎊(約3685元)和600英鎊(約5819元)。新品5月將在國內(nèi)上市,針對(duì)本土用戶做了適配優(yōu)化。

    • OPENVERSE獲重磅資本加持,元宇宙賽道再添生力軍

      我們正處于互聯(lián)網(wǎng)范式轉(zhuǎn)變的關(guān)鍵階段:從中心化的平臺(tái)驅(qū)動(dòng)(Web 2),邁向去中心化的用戶主權(quán)網(wǎng)絡(luò)(Web3)。在Web3 體系下,數(shù)據(jù)與內(nèi)容的所有權(quán)回歸用戶本人,價(jià)值創(chuàng)造與價(jià)值流通基于協(xié)議自動(dòng)執(zhí)行,平臺(tái)不再是控制者,而是服務(wù)型工具。這意味著,下一代互聯(lián)網(wǎng)不再依賴于少數(shù)平臺(tái)巨頭,而是建立在公開透明、用戶可驗(yàn)證、自治協(xié)作的價(jià)值網(wǎng)絡(luò)之上。OPENVERSE作為新一代 We

    • ChatGPT受限?這 8 款免費(fèi)AI工具,也可以生成“吉卜力風(fēng)格”圖片

      自從OpenAI將其先進(jìn)的圖像生成器集成到GPT-4o中后,SNS、網(wǎng)絡(luò)社區(qū)等平臺(tái)上掀起了一股“吉卜力風(fēng)格頭像”風(fēng)潮。但隨著版權(quán)爭議的加劇,OpenAI給這項(xiàng)“吉卜力風(fēng)格化”的圖像轉(zhuǎn)化功能加了一點(diǎn)點(diǎn)的限制。這款在線工具可以讓用戶進(jìn)行編輯、增強(qiáng)、放大圖像、將圖像轉(zhuǎn)換為視頻等多樣的操作,只需注冊(cè)便可使用。

    • Arm 榮登《Fast Company》2025 年度最具創(chuàng)新力 AI 公司榜單

      Arm 近期榮登《Fast Company》2025 年度最具創(chuàng)新力公司榜單,并在人工智能 (AI) 類別中位列第七*?!禙ast Company》自 2008 年發(fā)布“最具創(chuàng)新力公司”榜單以來,該榜單一直作為全球企業(yè)革新行業(yè)和塑造社會(huì)的基準(zhǔn),其依據(jù)創(chuàng)新性、影響力、時(shí)效性和相關(guān)性四大標(biāo)準(zhǔn)進(jìn)行資格篩選。入選榜單的公司不僅代表其創(chuàng)新成果具備顯著的商業(yè)與行業(yè)影響力,更被視為所在領(lǐng)域的引領(lǐng)者,推動(dòng)世?

    • 谷歌Gemini整合Veo 2視頻生成模型,8秒720P視頻輕松搞定

      谷歌宣布又有一款 AI 模型將加入 Gemini,但這次它不僅僅是一個(gè)聊天機(jī)器人。

    • 亞馬遜推出AI語音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語音模型NovaSonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • Antropic加入“AI語音助手”賽道,能追上OpenAI、谷歌們嗎?

      隨著 AI 語音產(chǎn)品的出現(xiàn),人們對(duì)其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……