11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
【新智元導(dǎo)讀】谷歌團(tuán)隊(duì)推出「通用視覺編碼器」VideoPrism,在3600萬高質(zhì)量視頻字幕對(duì)和5.82億個(gè)視頻剪輯的數(shù)據(jù)集上完成了訓(xùn)練,性能刷新30項(xiàng)SOTA。AI視頻模型Sora爆火之后,Meta、谷歌等大廠紛紛下場(chǎng)做研究,追趕OpenAI的步伐。盡管對(duì)比基線已經(jīng)在K400上取得了有競(jìng)爭力的結(jié)果,但所提出的全局蒸餾和token洗牌進(jìn)一步提高了準(zhǔn)確性。
VCoder是一個(gè)視覺編碼器,旨在提高多模態(tài)語言模型在識(shí)別圖像中的對(duì)象和理解圖像場(chǎng)景方面的能力。它能夠幫助模型更好地理解和分析圖像內(nèi)容。在與其他模型的比較中,VCoder在對(duì)象計(jì)數(shù)和識(shí)別方面表現(xiàn)出色,特別是在復(fù)雜場(chǎng)景中。