中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > Florence-2最新資訊  > 正文

    微軟研究推新型視覺基礎(chǔ)模型Florence-2:基于統(tǒng)一提示,適用各種計算機視覺和視覺語言任務

    2023-11-23 10:37 · 稿源:站長之家

    **劃重點:**

    1. ?? 人工智能系統(tǒng)向使用預訓練、可調(diào)整表示的方向發(fā)展,Florence-2是一款靈活的視覺基礎(chǔ)模型,通過統(tǒng)一提示式表示,成功解決了空間層次和語義細粒度的挑戰(zhàn)。

    2. ?? 通過多任務學習和大規(guī)模數(shù)據(jù)集,F(xiàn)lorence-2實現(xiàn)了靈活的通用表示,取得了在多個視覺任務上的零樣本表現(xiàn)和超越專業(yè)模型的成果。

    3. ??? 采用序列到序列結(jié)構(gòu),F(xiàn)lorence-2不需要特定任務的架構(gòu)調(diào)整,支持目標識別、字幕生成等多種視覺任務,是一種具有統(tǒng)一基礎(chǔ)的靈活模型。

    站長之家(ChinaZ.com)11月23日 消息:近來,人工智能領(lǐng)域的趨勢是采用預訓練、可調(diào)整表示的方法,為各種應用提供任務不可知的優(yōu)勢。與此趨勢相呼應,微軟研究推出了Florence-2,這是一款靈活的視覺基礎(chǔ)模型,通過統(tǒng)一提示式表示成功應對了計算機視覺中的挑戰(zhàn)。

    在自然語言處理(NLP)中,我們看到了這種趨勢的明顯體現(xiàn),先進的模型展示了在多個領(lǐng)域和任務上靈活性的同時,能夠通過簡單的指令進行深入的知識覆蓋。NLP的流行鼓勵在計算機視覺中采用類似的策略,但計算機視覺面臨更多挑戰(zhàn),因為它需要處理復雜的視覺數(shù)據(jù),如特征、遮擋輪廓和物體位置。為了實現(xiàn)通用表示,模型必須熟練處理二維排列的各種具有挑戰(zhàn)性的任務。

    Florence-2通過統(tǒng)一的預訓練和網(wǎng)絡設(shè)計,引領(lǐng)了在計算機視覺中整合空間、時間和多模態(tài)特征的潮流。該模型通過任務特定的微調(diào)和使用嘈雜的文本-圖像對進行預訓練,在轉(zhuǎn)移學習方面取得了顯著的進展。然而,由于對大型任務特定數(shù)據(jù)集和適配器的依賴,存在解決空間層次和語義細粒度兩個主要問題的差距。研究人員通過使用富有視覺標注的多任務學習,提供了一個通用的骨干,實現(xiàn)了基于提示的統(tǒng)一表示,成功解決了數(shù)據(jù)不完整和缺乏統(tǒng)一架構(gòu)的問題。

    在實現(xiàn)多任務學習時,大規(guī)模、高質(zhì)量的標注數(shù)據(jù)是必不可少的。為了克服人工標注的瓶頸,研究團隊創(chuàng)建了一個名為\fld 的廣泛的視覺數(shù)據(jù)集,其中包含對126M張照片的5.4B注釋。通過使用專門的模型共同和自主地注釋照片,該數(shù)據(jù)引擎的第一個模塊跳出了傳統(tǒng)的單一手動注釋策略。與眾多模型合作,共同創(chuàng)建共識,形成更公正和可信的圖片解釋。第二個模塊使用學習到的基本模型,反復改進和過濾這些自動注釋。

    image.png

    Florence-2采用序列到序列(seq2seq)結(jié)構(gòu),通過整合圖像編碼器和多模態(tài)編碼器-解碼器,利用這個大型數(shù)據(jù)集。這種架構(gòu)支持多種視覺任務,無需任務特定的架構(gòu)調(diào)整,符合NLP社區(qū)創(chuàng)建具有統(tǒng)一基礎(chǔ)的靈活模型的目標。數(shù)據(jù)集中的每個注釋都被一致地標準化為文本輸出,從而實現(xiàn)了使用相同損失函數(shù)的單一多任務學習策略的一致優(yōu)化。結(jié)果是一個靈活的視覺基礎(chǔ)模型,可以處理一系列功能,包括目標識別、字幕生成和定位,都在單一模型的統(tǒng)一參數(shù)控制下。文本提示被用來激活任務,與大型語言模型(LLMs)采用的方法一致。

    該方法實現(xiàn)了通用表示,并在許多視覺任務中具有廣泛的應用。關(guān)鍵發(fā)現(xiàn)包括:

    - 該模型是一種靈活的視覺基礎(chǔ)模型,在諸如RefCOCO的任務中實現(xiàn)了新的零樣本性能,包括引用表達理解、Flick30k上的視覺定位和COCO上的字幕生成。

    - 盡管體積較小,但在使用公開可用的人工標注數(shù)據(jù)進行微調(diào)后,與更專業(yè)的模型競爭。值得注意的是,改進后的模型在RefCOCO上創(chuàng)下了新的基準最先進得分。

    - 預訓練的骨干在下游任務中超越了監(jiān)督和自監(jiān)督模型,在COCO對象檢測和實例分割以及ADE20K語義分割上取得了顯著的增長。使用Mask-RCNN、DINO和UperNet框架的模型在COCO和ADE20K數(shù)據(jù)集上分別取得了6.9、5.5和5.9個點的顯著增加,同時將在ImageNet上預訓練模型的訓練效率提高了四倍。

    這項研究的全部功勞歸功于該項目的研究人員。如果您喜歡他們的工作,請查看論文,并加入他們的社交媒體群體,獲取最新的人工智能研究新聞和有趣的項目。

    論文網(wǎng)址:https://arxiv.org/abs/2311.06242

    舉報

    • 相關(guān)推薦
    • 森賽??萍剂料?VisionCon 2025:視覺 AI 生態(tài)鏈賦能工業(yè)視覺檢測快速落地,引領(lǐng)智造升級新范式

      雅時國際商訊主辦的“VisionCon視界系統(tǒng)設(shè)計技術(shù)大會”在武漢光谷盛大召開,聚焦工業(yè)視覺人工智能領(lǐng)域,展示其在視覺AI生態(tài)構(gòu)建上的戰(zhàn)略部署與創(chuàng)新成果,推動“AI+制造”深度融合,為全球工業(yè)視覺行業(yè)提供可復刻的智能解決方案,突破傳統(tǒng)視覺系統(tǒng)的科技壁壘,打造“云-邊-端”協(xié)同架構(gòu)。

    • 生成很強,推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當前AI更像“精確指令機器”,需進一步優(yōu)化以實現(xiàn)更精細的圖像理解和復雜任務處理。

    • 中科搖櫓船突破智能視覺裝備研發(fā),揭秘“首臺套”技術(shù)絕招!

      中科搖櫓船公司以"光+AI"為核心技術(shù),在智能制造領(lǐng)域取得多項突破:1)開發(fā)出國內(nèi)首套3D涂膠檢測系統(tǒng),檢測精度達99.9%,已應用于賽力斯汽車超級工廠;2)自主研發(fā)Micro-LED晶圓檢測設(shè)備,檢測精度控制在1微米內(nèi),被納入工信部創(chuàng)新產(chǎn)品目錄;3)為新能源汽車打造全鏈條AI視覺質(zhì)檢系統(tǒng),1分鐘可完成整車萬個零部件檢測。公司已完成A輪2億元融資,正在華東、西南等地布局智能視覺裝備基地,未來將聚焦AI+智能制造等三大主戰(zhàn)場,致力于成為全球領(lǐng)先的智能化產(chǎn)品綜合供應商。

    • 秒殺同行!Kimi開源全新音頻基礎(chǔ)模型,橫掃十多項基準測試,總體性能第一

      Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型,在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計,包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項音頻基準測試中,Kimi-Audio均取得領(lǐng)先性能,如LibriSpeech ASR測試WER僅1.28%,VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預訓練,并構(gòu)建了自動處理流水線生成高質(zhì)量訓練數(shù)據(jù)。評估結(jié)果顯示,Kimi-Audio在語音識別、音樂理解、語音情感分析等任務上全面超越同類模型,在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。

    • 國內(nèi)首臺視覺 AI 教學閉環(huán)教具落地,云天勵飛助力芯片后備力量崛起

      在人工智能與芯片技術(shù)重塑全球競爭格局的當下,我國正通過教育創(chuàng)新,筑牢科技自立自強的戰(zhàn)略根基。為提升青少年的綜合素養(yǎng),鼓勵其在不同領(lǐng)域積極探索與嘗試,教育部在2022年的教監(jiān)管廳函〔2022〕13號文件中認證了新一批為期三年的全國性中小學生競賽活動。云天勵飛將繼續(xù)深耕AI教育領(lǐng)域,以技術(shù)創(chuàng)新為驅(qū)動,以教育公平為目標,為更多青少年提供接觸和學習AI的機會,為中國從教育大國邁向科技強國注入持續(xù)動能。

    • 視覺不靠譜!華為車BU CEO靳玉志:走向L3/L4自動駕駛 汽車一定要有激光雷達

      華為智能汽車BU CEO靳玉志近日表示,實現(xiàn)L3/L4自動駕駛必須配備激光雷達,主要原因有二:一是激光雷達無需識別障礙物即可檢測,而純視覺方案需大量數(shù)據(jù)訓練,仍存在極端場景下的識別風險;二是視覺方案在暗光、暴雨等環(huán)境下清晰度受限。激光雷達結(jié)合毫米波雷達等傳感器能提升極端場景下的可靠性。目前特斯拉FSD、百度Apollo Lite和Mobileye SuperVision是主流純視覺方案代表。

    • 視覺中國發(fā)布2024年報及2025年一季報:AI賦能推動業(yè)務增長

      視覺中國(000681)發(fā)布2024年報及2025年一季報。公司深化"AI智能+內(nèi)容數(shù)據(jù)+應用場景"戰(zhàn)略,2024年營收8.11億元(同比+3.89%),凈利潤1.19億元(同比-18.17%);2025年Q1營收1.89億元(同比+8.43%),凈利潤0.18億元(同比+12.26%)。AI業(yè)務取得突破:自研視覺理解大模型與Deepseek等合作,推出智能搜索、智能審核等功能;AI創(chuàng)作生態(tài)簽約超4900名創(chuàng)作者,銷售超1800萬元;戰(zhàn)略投資企業(yè)AiPPT月訪問量?

    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • AI日報:Kimi全新音頻基礎(chǔ)模型Kimi-Audio;階躍星辰開源圖像編輯模型Step1X-Edit;?夸克AI超級框上線 “拍照問夸克”

      本期AI日報聚焦多項AI技術(shù)突破與應用:1)Moonshot AI推出開源音頻模型Kimi-Audio,基于13億小時訓練數(shù)據(jù),支持語音識別等任務;2)階躍星辰開源圖像編輯模型Step1X-Edit,展現(xiàn)強大生成能力;3)夸克AI上線"拍照問夸克"功能,實現(xiàn)視覺問答;4)蘋果iOS18.5將在中國推送,帶來智能功能;5)谷歌發(fā)布601個生成式AI應用案例,覆蓋多行業(yè);6)微軟推出深度整合Windows的UFO2自動化系統(tǒng);7)OpenAI升級ChatGPT至GPT-4o版本,提升STEM領(lǐng)域能力;8)Ema公司推出高性價比語言模型EmaFusion;9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型;10)LemonAI推出實時音視頻數(shù)字人產(chǎn)品Slice Live。此外,國內(nèi)方面,智譜與生數(shù)科技達成戰(zhàn)略合作推動大模型發(fā)展,寶馬中國宣布新車將接入DeepSeek技術(shù)。

    • 從大模型到AI基礎(chǔ)設(shè)施,商湯的反向求解

      大模型落地如火如荼,從上一代AI浪潮中殺出來的商湯,嗅到了這里面新的機會。在最火的具身智能賽道,這兩年誕生了許多明星創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司的創(chuàng)始人往往擁有技術(shù)明星的光環(huán),不少都是在學術(shù)界中某個技術(shù)領(lǐng)域中響當當?shù)念I(lǐng)頭人。這些初創(chuàng)公司雖然在某一個單點技術(shù)上遙遙領(lǐng)先(大腦、小腦或者本體),但在機器人落地過程中,要突破從單一技術(shù)到整體復雜產(chǎn)品