11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型,在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計,包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項音頻基準測試中,Kimi-Audio均取得領(lǐng)先性能,如LibriSpeech ASR測試WER僅1.28%,VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預(yù)訓(xùn)練,并構(gòu)建了自動處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評估結(jié)果顯示,Kimi-Audio在語音識別、音樂理解、語音情感分析等任務(wù)上全面超越同類模型,在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。
OpenAI的新AI模型o3在第一方和第三方基準測試中存在差異,引發(fā)公眾對其透明度和測試實踐的質(zhì)疑。去年12月,o3首次亮相時聲稱能解答超過25%的FrontierMath問題,但實際正確率僅為2%。內(nèi)部測試發(fā)現(xiàn),o3能達到超過25%的準確率,但其使用的計算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨立基準測試結(jié)果顯示,o3的得分約為10%,遠低于OpenAI宣稱的25%。盡管如此,這并不意味著OpenAI的說法有誤,可能是因為OpenAI使用了更強大的內(nèi)部架構(gòu)進行評估,并采用了更多計算資源。此外,Epoch指出其測試設(shè)置可能與OpenAI不同,并且在評估中使用了更新版本的FrontierMath。
人工智能已經(jīng)迅速從未來的概念蛻變?yōu)檠巯碌年P(guān)鍵商業(yè)工具。面對AI的無限可能,企業(yè)是否已經(jīng)做好充分準備?Arm《人工智能就緒指數(shù)報告》將扮演“戰(zhàn)略燈塔”,為航行在復(fù)雜的AI海域的企業(yè)指明方向。
多模態(tài)大模型在聽覺上,居然也出現(xiàn)了「9.11>9.8」的現(xiàn)象,音量大小這種簡單問題都識別不了!港中文、斯坦福等大學聯(lián)合發(fā)布的AV-Odyssey基準測試,包含26個視聽任務(wù),覆蓋了7種聲音屬性,跨越了10個不同領(lǐng)域,確保測試的深度和廣度。在人工智能領(lǐng)域,我們一直以為頂尖的多模態(tài)大模型已經(jīng)無所不能,GPT-4o在ASR任務(wù)上已經(jīng)達到了97%的正確率,更是凸顯了強大的音頻理解能力?
“最近店家聯(lián)系我說有活動,價格優(yōu)惠,設(shè)計、拆舊、安裝還免費,我就定了一臺帥豐最 新款的時空S7集成灶,沒想到不到半天就能用了,最后師傅還把垃圾都給我清理干凈才走的,幫了我大忙了。”近日,河北涉縣的王女士逢人便夸帥豐集成灶推出的以舊換新專項活動。據(jù)她介紹,自己早就想換掉家里的老舊煙灶,但是一直不知道換什么,而且擔心改造過程會帶來諸多不便?
OpenAI和谷歌接連兩場發(fā)布會,把AI視頻推理卷到新高度。但業(yè)界還缺少可以全面評估大模型視頻推理能力的基準。綜合實驗結(jié)果可以看出,當前的多模態(tài)大模型在視頻理解,尤其是長視頻理解方向仍然有很長進步空間,一方面是要提升模型的多模態(tài)長上下文理解能力,Gemini1.5Pro最高支持百萬長度的上下文窗口,這是其表現(xiàn)優(yōu)異的依仗,另一方面也亟需構(gòu)建相應(yīng)的高質(zhì)量長視頻理解數(shù)據(jù)集,這方面當下仍處于空白。
IBM研究發(fā)布了一項突破性的LLM基準測試方法,承諾將計算成本降低高達99%。傳統(tǒng)的基準測試,如斯坦福的HELM,需要耗費超過一天的時間,并且成本高達1萬美元,這對開發(fā)人員和研究人員來說是一個昂貴的過程?!盜BM的高效基準測試方法代表了人工智能領(lǐng)域的重大進步,為評估先進語言模型所需的不斷增加的成本和資源需求提供了實際解決方案。
【新智元導(dǎo)讀】OpenAI半小時的發(fā)布會讓很多人第一反應(yīng)是直呼「失望」,但隨著官網(wǎng)放出更多demo以及更多網(wǎng)友開始試用,大家才發(fā)現(xiàn)GPT-4o真的不可小覷,不僅在各種基準測試中穩(wěn)拿第一有很多發(fā)布會從未提及的驚艷功能。OpenAI在發(fā)布會上官宣GPT-4o之后,各路大神也開始了對這個新模型的測評,結(jié)果就是,GPT-4o在多項基準測試上都展現(xiàn)了SOTA的實力。隨著大模型之戰(zhàn)愈演愈烈,相信對于開源和閉源的激烈討論依舊會持續(xù)下去。
HuggingFace發(fā)布了一項名為OpenMedical-LLM的新基準測試,旨在評估生成式人工智能模型在健康相關(guān)任務(wù)上的表現(xiàn)。該基準由HuggingFace與非營利組織OpenLifeScienceAI和愛丁堡大學自然語言處理小組的研究人員合作創(chuàng)建。測試生成式人工智能工具在實驗室中的性能如何轉(zhuǎn)化為醫(yī)院和門診診所的實際情況,以及這些結(jié)果可能隨時間變化的趨勢,都是異常困難的。
MetaAI研究人員今天發(fā)布了OpenEQA,這是一個新的開源基準數(shù)據(jù)集,旨在衡量人工智能系統(tǒng)對“體驗式問答”的能力——這種能力使人工智能系統(tǒng)能夠理解現(xiàn)實世界,從回答有關(guān)環(huán)境的自然語言問題。這一數(shù)據(jù)集被Meta定位為“體驗智能”領(lǐng)域的關(guān)鍵基準,其中包含超過1,600個關(guān)于180多個真實環(huán)境的問題。為了衡量人工智能代理的性能,研究人員使用大型語言模型自動評分,衡量人工智能生成的答案與人類答案的相似程度。