中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<td id="9q4tf"><tr id="9q4tf"></tr></td>

谷歌提出模型SpatialVLM ：賦予視覺語言模型空間推理能力

2024-02-18 14:22 · 稿源：站長之家

劃重點:
?? 視覺語言模型（VLM）在空間推理方面存在困難，谷歌提出的 SpatialVLM 能夠彌補這一不足。
?? 通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集，研究者訓練了 SpatialVLM，展現(xiàn)了顯著的定性和定量空間推理能力。
?? SpatialVLM 不僅在視覺領(lǐng)域有潛在應(yīng)用，還能作為密集獎勵注釋器和執(zhí)行鏈式思維推理的強大工具。

站長之家（ChinaZ.com）2月18日消息:谷歌最新論文揭示的 SpatialVLM，是一種具備空間推理能力的視覺語言模型，旨在解決當前視覺語言模型在空間推理方面的困難。視覺語言模型在圖像描述、視覺問答等任務(wù)上取得顯著進展，但在理解目標在三維空間中的位置或空間關(guān)系方面仍存在難題。

研究者通過生成大規(guī)模的空間視覺問答（VQA）數(shù)據(jù)集，利用計算機視覺模型提取目標為中心的背景信息，并采用基于模板的方法生成合理的 VQA 數(shù)據(jù)。經(jīng)過訓練，SpatialVLM表現(xiàn)出令人滿意的能力，包括在回答定性和定量空間問題方面的顯著提升。

定性空間 VQA 方面，SpatialVLM在人工注釋的答案和模型輸出自由形式的自然語言中展現(xiàn)了高成功率。在定量空間 VQA 方面，模型在兩個指標上表現(xiàn)優(yōu)越，比基線模型更為出色。

研究者強調(diào)了數(shù)據(jù)的重要性，指出常見數(shù)據(jù)集的限制是當前視覺語言模型在空間推理上的瓶頸。他們專注于從現(xiàn)實世界數(shù)據(jù)中提取空間信息，通過生成大規(guī)模的空間 VQA 數(shù)據(jù)集，成功地提高了VLM的一般空間推理能力。

SpatialVLM不僅在視覺領(lǐng)域有應(yīng)用潛力，還可以作為密集獎勵注釋器，用于機器人任務(wù)的獎勵注釋。此外，結(jié)合大型語言模型，SpatialVLM能夠執(zhí)行鏈式思維推理，解鎖復(fù)雜問題的解決能力。

這一研究為視覺語言模型的空間推理能力提供了新的思路，為未來在機器人、圖像識別等領(lǐng)域的發(fā)展帶來了新的可能性。

論文地址:https://arxiv.org/pdf/2401.12168.pdf
項目入口：https://top.aibase.com/tool/spatialvlm

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦不要思考過程，推理模型能力能夠更強

UC伯克利和艾倫實驗室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計算擴展后，NoThinking能進一步提升性能，在保持準確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

?推理模型 ?無思考方法 ?解決方案
時空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判，到文化交流中的思想碰撞，高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下，國產(chǎn)全棧技術(shù)路徑的重要性，認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
開源即支持！基于昇騰MindSpeed MM玩轉(zhuǎn)InternVL3多模態(tài)理解最新模型

多模態(tài)理解領(lǐng)域當前已成了各家AI大模型公司“軍備競賽”的關(guān)鍵點之一，國內(nèi)外知名AI大模型公司都爭相通過發(fā)布最先進的多模態(tài)大語言模型展現(xiàn)其在多模態(tài)理解領(lǐng)域的前沿能力。近期，上海AI實驗室推出了其最新的多模態(tài)大語言模型InternVL3 系列，相比上一代InternVL2. 5 模型，該模型展現(xiàn)出卓越的多模態(tài)感知和推理能力，同時進一步擴展了其工具使用、GUI代理、工業(yè)圖像分析等

?多模態(tài)理解 ?AI大模型 ?InternVL3
薦生成很強，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時，它先畫了狗然后改為貓，但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”，需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
新增自主決策推理模型！理想汽車OTA 7.2開啟推送

快科技4月3日消息，我們從理想汽車官方獲悉，OTA7.2版本車機系統(tǒng)正式開啟推送，預(yù)計一周內(nèi)完成，升級耗時約50分鐘。本次更新新增自主決策推理模型，該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造，可根據(jù)問題內(nèi)容自主決策是否深度思考，面對車控指令等簡單問題時，能夠保障響應(yīng)速度。智能座艙方面，新增全能兒童鎖功能，支持一鍵鎖定副駕老板鍵、后排座椅物理按?

?理想汽車 ?OTA更新 ?智能座艙
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進的深度學習算法，能夠精準理解輸入畫面的內(nèi)容、風格及主題特征。當用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
外媒：ChatGPT新模型 o4 mini 的“AI幻覺率”高達48%

性能是提升了些，但，“胡說八道”的能力提升得更快，直接登頂……

?ChatGPT ?openai ?o4mini
為編程而生？OpenAI 發(fā)布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是為開發(fā)者量身定制的……

?openai ?gpt-4.1 ?gpt-4.1mini

熱文

3 天
7天

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM