11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來(lái)騰訊云選購(gòu)吧!
歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、可靈AIAPI對(duì)口型能力全面開(kāi)放、虛擬試穿升級(jí)至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級(jí),主要在虛擬試穿和對(duì)口型功能上取得顯著進(jìn)展。Run:ai的軟件能夠?
浙大、騰訊優(yōu)圖、華中科技大學(xué)的團(tuán)隊(duì),提出輕量化MobileMamba!既良好地平衡了效率與效果,推理速度遠(yuǎn)超現(xiàn)有基于Mamba的模型。輕量化模型研究的主陣地都在CNN和Transformer的設(shè)計(jì)。MobileMamba通過(guò)在不同F(xiàn)LOPs大小的模型上采用訓(xùn)練和測(cè)試策略,顯著提升了性能和效率。
微軟AzureAI團(tuán)隊(duì)宣布開(kāi)源視覺(jué)模型——Florence-2。Florence-2是一個(gè)多功能視覺(jué)模型,可提供圖像描述、目標(biāo)檢測(cè)、視覺(jué)定位、圖像分割等。尤其是在微調(diào)后,F(xiàn)lorence-2在公共基準(zhǔn)測(cè)試中的性能與更大參數(shù)的專業(yè)模型相媲美。
【新智元導(dǎo)讀】當(dāng)前的視覺(jué)模型哪個(gè)更好?Meta團(tuán)隊(duì)最新一波研究來(lái)了。如何根據(jù)特定需求選擇視覺(jué)模型?ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標(biāo)上如何相互比較?來(lái)自MABZUAI和Meta的研究人員發(fā)表的最新研究,在「非標(biāo)準(zhǔn)」指標(biāo)上全面比較了常見(jiàn)的視覺(jué)模型。-CLIP模型具有較高的形狀偏差,與其ImageNet精度相比,分類錯(cuò)誤較少。
蘋(píng)果公司的研究者通過(guò)自回歸圖像模型驗(yàn)證了視覺(jué)模型“參數(shù)越多性能越強(qiáng)”的規(guī)律,進(jìn)一步證明隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型能不斷提升性能。AIM能有效利用大量未經(jīng)整理的圖像數(shù)據(jù),訓(xùn)練方法和穩(wěn)定性與最近的大型語(yǔ)言模型類似。對(duì)未來(lái)圖像模型性能提升和優(yōu)化提供了新的研究方向和思路。
GPT-4V的開(kāi)源替代方案在中國(guó)的頂尖學(xué)府清華、浙大等的推動(dòng)下,出現(xiàn)了一系列性能優(yōu)異的開(kāi)源視覺(jué)模型。LLaVA、CogAgent和BakLLaVA是三種備受關(guān)注的開(kāi)源視覺(jué)語(yǔ)言模型。雖然BakLLaVA在訓(xùn)練過(guò)程中使用了LLaVA的語(yǔ)料庫(kù),不允許商用,但BakLLaVA2則采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當(dāng)前的LLaVA方法,具備商用能力。
最近,在Pytorch發(fā)布會(huì)上,發(fā)布移動(dòng)端Pytorch解決方案ExecuTorch,實(shí)現(xiàn)在移動(dòng)端設(shè)備上大范圍地部署AI工具,并推出最新版本Pytorch2.1,推理速度大幅提升。在剛剛召開(kāi)的PyTorch大會(huì)上,PyTorch發(fā)布了一大波更新,把深度學(xué)習(xí)從業(yè)者們高興壞了!正式推出ExecuTorch。下面是最新穩(wěn)定版本和更新的列表。
Roboflow推理服務(wù)器是一個(gè)易于使用的、面向生產(chǎn)環(huán)境的推理服務(wù)器,支持多種流行的計(jì)算機(jī)視覺(jué)模型架構(gòu)和微調(diào)后的模型部署。它可以在各種設(shè)備和環(huán)境上部署,無(wú)需機(jī)器學(xué)習(xí)的先驗(yàn)知識(shí)。它是一個(gè)部署和管理視覺(jué)AI模型非常方便的工具。
如果你只需要訓(xùn)練一個(gè)線性層,就能拿將純視覺(jué)模型轉(zhuǎn)變?yōu)榫邆湔Z(yǔ)言理解能力的視覺(jué)語(yǔ)言模型,結(jié)果會(huì)怎樣?有研究人員想到了這個(gè)辦法。研究人員通過(guò)使用沒(méi)有文本監(jiān)督訓(xùn)練的現(xiàn)成視覺(jué)編碼器來(lái)將文本映射到概念向量,以便直接比較單詞和圖像的表示。他們的簡(jiǎn)單方法在92%的測(cè)試中都取得了成功。
+++Meta+AI+Research+發(fā)布了+DINOv2+開(kāi)源項(xiàng)目,這是一款用于計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ)模型。DINOv2+在一個(gè)由+1.42+億張圖像構(gòu)成的篩選數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,可用作圖像分類、視頻動(dòng)作識(shí)別、語(yǔ)義分割和深度估計(jì)等多個(gè)任務(wù)的骨干模型。該項(xiàng)目站點(diǎn)托管了使用+DINOv2+的多個(gè)計(jì)算機(jī)視覺(jué)任務(wù)的交互式演示。