11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
阿里巴巴通義實驗室最近開源了一款名為FunClip的視頻自動化剪輯工具,專為精準(zhǔn)和便捷的視頻切片設(shè)計。FunClip能夠自動識別視頻中的中文語音,并允許用戶根據(jù)語音內(nèi)容裁剪視頻,大大提高了視頻編輯的效率。阿里巴巴通過這些開源項目,展示了其在AI技術(shù)領(lǐng)域的領(lǐng)導(dǎo)地位和對開放創(chuàng)新的承諾。
AssemblyAI最新研究成果展示了他們的Universal-1模型在多語言環(huán)境中的表現(xiàn),該模型在準(zhǔn)確性和魯棒性方面均取得了行業(yè)領(lǐng)先地位。Universal-1比WhisperLarge-v3更準(zhǔn)確,比fastWhisper更快,38秒可以處理60分鐘音頻。值得一提的是,非開源,僅提供API調(diào)用。
WhisperKit是一個專為自動語音識別模型壓縮與優(yōu)化設(shè)計的強大工具。它不僅支持對模型進行壓縮和優(yōu)化提供詳細(xì)的性能評估數(shù)據(jù)。通過WhisperKit官網(wǎng),您可以詳細(xì)了解該工具的功能和應(yīng)用,并體驗其卓越的自動語音識別模型優(yōu)化能力。
領(lǐng)先的開源對話AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,這是一系列最先進的自動語音識別模型,能夠以出色的準(zhǔn)確性轉(zhuǎn)錄英語口語。ParakeetASR模型與Suno.ai合作開發(fā),是語音識別領(lǐng)域的一大突破,為實現(xiàn)更自然高效的人機交互鋪平了道路。要在本地訪問模型并探索工具包,請訪問NVIDIANeMo的Github頁面。
騰訊云ASR是騰訊云推出的語音識別系統(tǒng)。最新升級后,騰訊云ASR能夠更好地處理方言和噪聲,提高識別準(zhǔn)確率和理解能力。產(chǎn)品的單日調(diào)用量達到了百億次,服務(wù)的內(nèi)外部企業(yè)客戶數(shù)達到了數(shù)千個。
近日,IEEE ASRU2023 自動語音識別與理解研討會在臺北市圓滿閉幕。來自全球?qū)W術(shù)界和工業(yè)界的專家、科研團隊和科技名企匯聚一堂,共同探討并分享當(dāng)前語音行業(yè)發(fā)展趨勢及最 新研究成果。標(biāo)貝科技作為銀牌贊助商應(yīng)邀亮相大會,向與會嘉賓展示了標(biāo)貝科技豐富的多語種數(shù)據(jù)集和全方位數(shù)據(jù)解決方案。據(jù)介紹,ASRU研討會是IEEE語音和語言處理技術(shù)委員會(SLTC)的旗艦技術(shù)活動,也
近期一項前沿的類腦研究登上了Nature子刊,研究人員利用活人腦細(xì)胞構(gòu)建了一個新型AI系統(tǒng),這一突破意味著語音識別準(zhǔn)確率有望大幅提升。這個系統(tǒng)可以進行無監(jiān)督學(xué)習(xí),并具有類似神經(jīng)網(wǎng)絡(luò)的功能。通過使用活人腦細(xì)胞構(gòu)建AI系統(tǒng),語音識別準(zhǔn)確率得到提升,這一突破將為未來AI技術(shù)的發(fā)展帶來重要啟示。
HuggingFace研究人員最近解決了在資源受限環(huán)境中部署大型預(yù)訓(xùn)練語音識別模型的問題。他們通過創(chuàng)建一個龐大的開源數(shù)據(jù)集,使用偽標(biāo)記的方法,提煉出了Whisper模型的較小版本,稱為Distil-Whisper。盡管WER稍高,但distil-medium.en模型提供了更直接的推理和實質(zhì)性的模型壓縮。
去年11月,谷歌宣布推出「1000種語言計劃」,旨在構(gòu)建一個機器學(xué)習(xí)++模型,支持世界上使用最廣泛的1000種語言,從為全球數(shù)十億人帶來更大的包容性。其中一些語言的使用人數(shù)不到兩千萬,因此核心挑戰(zhàn)是如何支持使用人數(shù)相對較少或可用數(shù)據(jù)有限的語言。USM+的基礎(chǔ)模型架構(gòu)和訓(xùn)練+pipeline+奠定了將語音建模擴展到未來1000種語言的根基。
韓國行政安全部將于本月底開始采用自主研發(fā)的人工智能語音識別軟件,以打擊電信詐騙案件。該軟件基于最新深度學(xué)習(xí)技術(shù),擁有+100+萬份不同語言的語音樣本數(shù)據(jù)庫,包括來自+6000+多名犯罪嫌疑人的語音樣本。新軟件分析的電信詐騙犯語音數(shù)據(jù)將在金融監(jiān)督院官網(wǎng)公布,并于下半年通過國際交流活動向海外發(fā)布新軟件。