站長(zhǎng)之家(ChinaZ.com)5月17日 消息:谷歌推出了一款名為PaliGemma的開(kāi)源視覺(jué)語(yǔ)言模型,該模型結(jié)合了圖像處理和語(yǔ)言理解的能力,旨在支持多種視覺(jué)語(yǔ)言任務(wù),如圖像和短視頻字幕生成、視覺(jué)問(wèn)答、圖像文本理解、物體檢測(cè)、文件圖表解讀以及圖像分割等。
PaliGemma的關(guān)鍵特點(diǎn):
多任務(wù)支持:PaliGemma能夠處理多種視覺(jué)語(yǔ)言相關(guān)的任務(wù),提供廣泛的應(yīng)用場(chǎng)景。
參數(shù)規(guī)模:該模型包含30億(3B)個(gè)參數(shù),是一個(gè)大型的多模態(tài)模型。
模型架構(gòu):PaliGemma結(jié)合了SigLiP視覺(jué)編碼器和Gemma語(yǔ)言模型,分別負(fù)責(zé)處理圖像和文本輸入。
SigLiP視覺(jué)編碼器:
負(fù)責(zé)處理圖像輸入,將視覺(jué)信息編碼為模型能夠理解的格式。
Gemma語(yǔ)言模型:
負(fù)責(zé)處理文本輸入,并生成輸出,將圖像內(nèi)容與語(yǔ)言任務(wù)結(jié)合起來(lái)。
PaliGemma的發(fā)布是谷歌在AI領(lǐng)域的又一項(xiàng)重要貢獻(xiàn),它不僅推動(dòng)了視覺(jué)語(yǔ)言理解技術(shù)的發(fā)展,也為研究人員和開(kāi)發(fā)者提供了強(qiáng)大的工具,以探索和創(chuàng)造新的應(yīng)用。開(kāi)源的特性意味著PaliGemma可以被社區(qū)廣泛地使用、改進(jìn)和集成到各種產(chǎn)品和服務(wù)中。
模型地址:https://huggingface.co/blog/paligemma
(舉報(bào))