11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來(lái)騰訊云選購(gòu)吧!
今天凌晨1點(diǎn),OpenAI開(kāi)源了一個(gè)全新的AIAgent評(píng)測(cè)基準(zhǔn)——PaperBench。這個(gè)基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對(duì)2024年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上頂尖論文的復(fù)現(xiàn),包括對(duì)論文內(nèi)容的理解、代碼編寫(xiě)以及實(shí)驗(yàn)執(zhí)行等方面的能力。目前智能體的能力還無(wú)法超越人類。
通義萬(wàn)相視頻模型,再度迎來(lái)史詩(shī)級(jí)升級(jí)!處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律等方面令人驚嘆,甚至業(yè)界首創(chuàng)了漢字視頻生成。通義萬(wàn)相直接以84.70%總分擊敗了一眾頂尖模型,登頂VBench榜首。通義萬(wàn)相2.1取得重大突破,讓我們有理由相信,AI視頻的GPT-3時(shí)刻正加速到來(lái)。
這難道不是一部電影的切片?來(lái)自@StevieMac03誰(shuí)能不被這頭蘇醒過(guò)來(lái)的小飛象萌化?使用了圖生視頻lastframe功能,來(lái)自@alexgnewmedia講真,要不是在X上晃悠時(shí)突然被這幾個(gè)視頻「砸中」,咱還真不知道MiniMax,中國(guó)估值最高的大模型公司之一,又悶聲整了個(gè)大活兒。咋說(shuō)碎就碎?魔法降臨,石膏天使也會(huì)醒來(lái)。神奇海螺的智慧和魔力是不容被質(zhì)疑的,既然Sora遲遲不來(lái),為什么不問(wèn)問(wèn)神奇
近日,第五代英特爾至強(qiáng)處理器,以優(yōu)秀的表現(xiàn)通過(guò)了中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測(cè)試。英特爾也成為首批通過(guò)AISBench大語(yǔ)言模型推理性能測(cè)試的企業(yè)。同時(shí)還彰顯了英特爾至強(qiáng)可以為企業(yè)提供開(kāi)箱即用”的功能,即可以在通用系統(tǒng)上部署一部分AI工作負(fù)載,從為客戶帶來(lái)更佳的總體擁有成本優(yōu)勢(shì)。
一項(xiàng)新的“大模型Benchmark”在推特上爆火,LeCun也點(diǎn)贊轉(zhuǎn)發(fā)了!且無(wú)論是GPT-4還是Claude3,面對(duì)它都如同被奪了魂,無(wú)法給出正確答案。難倒一眾大模型的,是邏輯學(xué)當(dāng)中經(jīng)典的“動(dòng)物過(guò)河”問(wèn)題,有網(wǎng)友發(fā)現(xiàn),大模型對(duì)此類問(wèn)題表現(xiàn)得很不擅長(zhǎng)。前面網(wǎng)友針對(duì)訓(xùn)練數(shù)據(jù)和輸出關(guān)系的分析,可能不無(wú)道理。
三星GalaxyZFlip6手機(jī)近日在GeekBench跑分庫(kù)中現(xiàn)身,型號(hào)為SM-F741U,共有17條Vulkan跑分記錄,其中最高分為15084分。根據(jù)跑分庫(kù)顯示的信息,該手機(jī)搭載代號(hào)為pineapple的處理器,采用1223組合設(shè)計(jì),并配備Adreno750GPU,可以確認(rèn)為高通驍龍8Gen3處理器。GalaxyZFlip6具有8GB和12GBRAM版本,但并非所有地區(qū)都會(huì)獲得具有12GBRAM版本存儲(chǔ)空間依舊為256GB和512GB。
讓大模型直接操縱格斗游戲《街霸》里的角色,捉對(duì)PK,誰(shuí)更能打?GitHub上一種你沒(méi)有見(jiàn)過(guò)的船新Benchmark火了。與llmsys大模型競(jìng)技場(chǎng)中,兩個(gè)大模型分別輸出答案,再由人類評(píng)分不同——街霸Bench引入了兩個(gè)AI之間的交互,且由游戲引擎中確定的規(guī)則評(píng)判勝負(fù)。正如開(kāi)發(fā)者所說(shuō),想要贏,要在速度和精度之間做好權(quán)衡。
在人工智能領(lǐng)域,多模式大語(yǔ)言模型在推動(dòng)進(jìn)步方面發(fā)揮了巨大作用,但它們面臨處理誤導(dǎo)性信息的挑戰(zhàn),可能導(dǎo)致不正確或產(chǎn)生幻覺(jué)的響應(yīng)。這種脆弱性引發(fā)了對(duì)MLLM在需要準(zhǔn)確解釋文本和視覺(jué)數(shù)據(jù)的應(yīng)用中可靠性的擔(dān)憂。作為一個(gè)不斷發(fā)展的領(lǐng)域,解決這些挑戰(zhàn)對(duì)于在現(xiàn)實(shí)應(yīng)用中部署MLLMs至關(guān)重要。
微軟最近推出了一個(gè)專門(mén)用于評(píng)估大語(yǔ)言模型的整合性工具庫(kù),名為PromptBench。該工具庫(kù)提供了一系列工具,包括創(chuàng)建不同類型的提示、進(jìn)行數(shù)據(jù)集和模型加載、執(zhí)行對(duì)抗性提示攻擊等,以支持研究人員從不同方面對(duì)LLMs進(jìn)行評(píng)估和分析。這一系列特點(diǎn)和功能使得PromptBench成為一個(gè)非常強(qiáng)大且全面的評(píng)估工具庫(kù)。
智譜AI發(fā)布了專為中文大語(yǔ)言模型生的對(duì)齊評(píng)測(cè)基準(zhǔn)AlignBench,這是目前第一個(gè)針對(duì)中文大模型的評(píng)測(cè)基準(zhǔn),能夠在多維度上細(xì)致評(píng)測(cè)模型和人類意圖的對(duì)齊水平。AlignBench的數(shù)據(jù)集來(lái)自于真實(shí)的使用場(chǎng)景,經(jīng)過(guò)初步構(gòu)造、敏感性篩查、參考答案生成和難度篩選等步驟,確保具有真實(shí)性和挑戰(zhàn)性。通過(guò)登錄AlignBench網(wǎng)站,提交結(jié)果可以使用CritiqueLLM作為評(píng)分模型進(jìn)行評(píng)測(cè),大約5分鐘即可得到評(píng)測(cè)結(jié)果。