劃重點:
?? 視覺語言模型 (VLM) 在空間推理方面存在困難,谷歌提出的 SpatialVLM 能夠彌補這一不足。
?? 通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集,研究者訓練了 SpatialVLM,展現(xiàn)了顯著的定性和定量空間推理能力。
?? SpatialVLM 不僅在視覺領(lǐng)域有潛在應(yīng)用,還能作為密集獎勵注釋器和執(zhí)行鏈式思維推理的強大工具。
站長之家(ChinaZ.com)2月18日 消息:谷歌最新論文揭示的 SpatialVLM,是一種具備空間推理能力的視覺語言模型,旨在解決當前視覺語言模型在空間推理方面的困難。視覺語言模型在圖像描述、視覺問答等任務(wù)上取得顯著進展,但在理解目標在三維空間中的位置或空間關(guān)系方面仍存在難題。
研究者通過生成大規(guī)模的空間視覺問答(VQA)數(shù)據(jù)集,利用計算機視覺模型提取目標為中心的背景信息,并采用基于模板的方法生成合理的 VQA 數(shù)據(jù)。經(jīng)過訓練,SpatialVLM表現(xiàn)出令人滿意的能力,包括在回答定性和定量空間問題方面的顯著提升。
定性空間 VQA 方面,SpatialVLM在人工注釋的答案和模型輸出自由形式的自然語言中展現(xiàn)了高成功率。在定量空間 VQA 方面,模型在兩個指標上表現(xiàn)優(yōu)越,比基線模型更為出色。
研究者強調(diào)了數(shù)據(jù)的重要性,指出常見數(shù)據(jù)集的限制是當前視覺語言模型在空間推理上的瓶頸。他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息,通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集,成功地提高了VLM的一般空間推理能力。
SpatialVLM不僅在視覺領(lǐng)域有應(yīng)用潛力,還可以作為密集獎勵注釋器,用于機器人任務(wù)的獎勵注釋。此外,結(jié)合大型語言模型,SpatialVLM能夠執(zhí)行鏈式思維推理,解鎖復(fù)雜問題的解決能力。
這一研究為視覺語言模型的空間推理能力提供了新的思路,為未來在機器人、圖像識別等領(lǐng)域的發(fā)展帶來了新的可能性。
論文地址:https://arxiv.org/pdf/2401.12168.pdf
項目入口:https://top.aibase.com/tool/spatialvlm
(舉報)