中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > SpatialVLM最新資訊  > 正文

    谷歌提出模型SpatialVLM :賦予視覺語言模型空間推理能力

    2024-02-18 14:22 · 稿源:站長之家

    劃重點:

    ?? 視覺語言模型 (VLM) 在空間推理方面存在困難,谷歌提出的 SpatialVLM 能夠彌補這一不足。

    ?? 通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集,研究者訓練了 SpatialVLM,展現(xiàn)了顯著的定性和定量空間推理能力。

    ?? SpatialVLM 不僅在視覺領(lǐng)域有潛在應(yīng)用,還能作為密集獎勵注釋器和執(zhí)行鏈式思維推理的強大工具。

    站長之家(ChinaZ.com)2月18日 消息:谷歌最新論文揭示的 SpatialVLM,是一種具備空間推理能力的視覺語言模型,旨在解決當前視覺語言模型在空間推理方面的困難。視覺語言模型在圖像描述、視覺問答等任務(wù)上取得顯著進展,但在理解目標在三維空間中的位置或空間關(guān)系方面仍存在難題。

    研究者通過生成大規(guī)模的空間視覺問答(VQA)數(shù)據(jù)集,利用計算機視覺模型提取目標為中心的背景信息,并采用基于模板的方法生成合理的 VQA 數(shù)據(jù)。經(jīng)過訓練,SpatialVLM表現(xiàn)出令人滿意的能力,包括在回答定性和定量空間問題方面的顯著提升。

    image.png

    定性空間 VQA 方面,SpatialVLM在人工注釋的答案和模型輸出自由形式的自然語言中展現(xiàn)了高成功率。在定量空間 VQA 方面,模型在兩個指標上表現(xiàn)優(yōu)越,比基線模型更為出色。

    研究者強調(diào)了數(shù)據(jù)的重要性,指出常見數(shù)據(jù)集的限制是當前視覺語言模型在空間推理上的瓶頸。他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息,通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集,成功地提高了VLM的一般空間推理能力。

    SpatialVLM不僅在視覺領(lǐng)域有應(yīng)用潛力,還可以作為密集獎勵注釋器,用于機器人任務(wù)的獎勵注釋。此外,結(jié)合大型語言模型,SpatialVLM能夠執(zhí)行鏈式思維推理,解鎖復(fù)雜問題的解決能力。

    這一研究為視覺語言模型的空間推理能力提供了新的思路,為未來在機器人、圖像識別等領(lǐng)域的發(fā)展帶來了新的可能性。

    • 論文地址:https://arxiv.org/pdf/2401.12168.pdf

    • 項目入口:https://top.aibase.com/tool/spatialvlm

    舉報

    • 相關(guān)推薦
    • 不要思考過程,推理模型能力能夠更強

      UC伯克利和艾倫實驗室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計算擴展后,NoThinking能進一步提升性能,在保持準確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下,國產(chǎn)全棧技術(shù)路徑的重要性,認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 開源即支持!基于昇騰MindSpeed MM玩轉(zhuǎn)InternVL3多模態(tài)理解最新模型

      多模態(tài)理解領(lǐng)域當前已成了各家AI大模型公司“軍備競賽”的關(guān)鍵點之一,國內(nèi)外知名AI大模型公司都爭相通過發(fā)布最先進的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領(lǐng)域的前沿能力。近期,上海AI實驗室推出了其最新的多模態(tài)大語言模型InternVL3 系列,相比上一代InternVL2. 5 模型,該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力,同時進一步擴展了其工具使用、GUI代理、工業(yè)圖像分析等

    • 生成很強,推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”,需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復(fù)雜任務(wù)處理。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

    • 新增自主決策推理模型!理想汽車OTA 7.2開啟推送

      快科技4月3日消息,我們從理想汽車官方獲悉,OTA7.2版本車機系統(tǒng)正式開啟推送,預(yù)計一周內(nèi)完成,升級耗時約50分鐘。本次更新新增自主決策推理模型,該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造,可根據(jù)問題內(nèi)容自主決策是否深度思考,面對車控指令等簡單問題時,能夠保障響應(yīng)速度。智能座艙方面,新增全能兒童鎖功能,支持一鍵鎖定副駕老板鍵、后排座椅物理按?

    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進的深度學習算法,能夠精準理解輸入畫面的內(nèi)容、風格及主題特征。當用戶提供首尾兩幀圖像后,模型會智能分析畫面中的視覺元素,包括物體形?

    • 外媒:ChatGPT新模型 o4 mini 的“AI幻覺率”高達48%

      性能是提升了些,但,“胡說八道”的能力提升得更快,直接登頂……

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……