中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > LLaVA最新資訊  > 正文

    浙大校友聯(lián)手微軟開源LLaVA-1.5,硬剛GPT-4V

    2023-10-08 13:44 · 稿源:站長之家

    要點:

    LLaVA-1.5在11項基準(zhǔn)測試實現(xiàn)了SOTA,使用8塊A100GPU,LLaVA-1.5的訓(xùn)練僅需1天時間即可完成。

    LLaVA-1.5在多模態(tài)理解上超越GPT-4V,可對其形成有力競爭。

    LLaVA-1.5采用最簡單的架構(gòu)和公開數(shù)據(jù)集,性能顯著提升。

    站長之家(ChinaZ.com)10月8日 消息:LLaVA-1.5是來自威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究人員近期開源的一款全新的端到端多模態(tài)大模型,可與OpenAI的GPT-4V形成正面競爭。LLaVA-1.5在11項基準(zhǔn)測試中都實現(xiàn)了新的狀態(tài)最優(yōu)(SOTA)成績,包括視覺問答、圖像 caption等任務(wù),展現(xiàn)出了強(qiáng)大的多模態(tài)理解能力。

    image.png

    論文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

    相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的圖像輸入、更大規(guī)模的語言模型(13B參數(shù)),以及面向?qū)W術(shù)任務(wù)的視覺問答數(shù)據(jù)集,從而獲得了顯著的性能提升。研究人員發(fā)現(xiàn),與額外的大規(guī)模預(yù)訓(xùn)練相比,視覺指令微調(diào)對提高多模態(tài)能力更為關(guān)鍵。

    值得一提的是,LLaVA-1.5采用了最簡單的架構(gòu)設(shè)計,只需要在公開可取得的6百萬圖像文本配對上訓(xùn)練一個全連接層,就能在多項基準(zhǔn)測試中打敗復(fù)雜的SOTA系統(tǒng),刷新記錄。使用8塊A100GPU,LLaVA-1.5的訓(xùn)練僅需1天時間即可完成。LLaVA-1.5展示了開源大模型可以通過簡單的設(shè)計和公共數(shù)據(jù)取得競爭力,為未來的研究提供了有價值的經(jīng)驗。LLaVA-1.5以其出色的多模態(tài)理解能力,向業(yè)內(nèi)掀起了一股“硬剛GPT-4”的新風(fēng)潮。

    舉報

    • 相關(guān)推薦
    • 剛剛,AI破解50年未解數(shù)學(xué)難題!南大校友用OpenAI模型完成首個非平凡數(shù)學(xué)證明

      【新智元導(dǎo)讀】AI輔助人類,完成了首個非平凡研究數(shù)學(xué)證明,破解了50年未解的數(shù)學(xué)難題!在南大校友的研究中,這個難題中q=3的情況,由o3-mini-high給出了精確解。就在剛剛,AI完成了首個非平凡研究數(shù)學(xué)證明!完成這項研究的,是美國紐約布魯克海文國家實驗室凝聚態(tài)物理與材料科學(xué)分部的一位華人學(xué)者Weiguo Yin。論文地址:https://arxiv.org/abs/2503.23758在這項研究中,作者在一維J_1-J

    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個原生多模態(tài)Llama4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù),17B活躍參數(shù),16個專家,1000萬上下Llama4Maverick:共有4000億參數(shù),17B活躍參數(shù),128個專家,100萬上下文另外,2萬億參數(shù)Llama4Behemoth將在未來幾個月面世,288B活躍參數(shù),16個專家。Llama4的橫空出世,成為迄今為止開源最強(qiáng),多模態(tài)能力最好的模型之一。L

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 重磅!OpenAI確定GPT-4退役日期:4月30日

      快科技4月14日消息,據(jù)報道,OpenAI宣布,自2025年4月30日起,GPT-4將從ChatGPT中退役,由GPT-4o完全替代 ,不過GPT-4仍將在API中提供。OpenAI表示,在面對面的評估中,GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問題解決和對話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3.5有了顯著提升。而GPT-4o是OpenAI為聊天

    • 高通正面蘋果!驍龍8 Elite 2九月登場:安卓最強(qiáng)Soc

      數(shù)碼博主爆料高通驍龍8+ Elite 2旗艦芯片將于9月底發(fā)布,10月正式上市。該芯片采用臺積電3nm工藝,CPU主頻提升至4.4GHz,GPU緩存增至16MB,性能提升30%,功耗降低9%。首批搭載機(jī)型包括小米16系列、Redmi K90 Pro、真我GT8 Pro等。該芯片還支持SME指令集,可更高效處理多媒體和圖形任務(wù)。與此同時,安卓廠商將正面迎戰(zhàn)9月亮相的iPhone 17系列新品。

    • 微軟上線GPT-image-1模型 通過API向開發(fā)者開放使用

      OpenAI于4月24日發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持生成高質(zhì)量圖像,具備多級定制功能,包括控制敏感度、生成效率、背景、輸出格式等參數(shù),并推出"吉卜力模式"生成獨特風(fēng)格圖像。Adobe、Figma等多家企業(yè)已將其集成到產(chǎn)品中。API定價按token計算,低質(zhì)量圖像生成成本約0.02美元/張。OpenAI CEO Sam Altman高度評價該模型,認(rèn)為其為開發(fā)者帶來更大創(chuàng)意空間。