中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 谷歌最新資訊  > 正文

    谷歌發(fā)布開(kāi)源視覺(jué)語(yǔ)言模型PaliGemma 支持多視覺(jué)語(yǔ)言任務(wù)

    2024-05-17 11:04 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com)5月17日 消息:谷歌推出了一款名為PaliGemma的開(kāi)源視覺(jué)語(yǔ)言模型,該模型結(jié)合了圖像處理和語(yǔ)言理解的能力,旨在支持多種視覺(jué)語(yǔ)言任務(wù),如圖像和短視頻字幕生成、視覺(jué)問(wèn)答、圖像文本理解、物體檢測(cè)、文件圖表解讀以及圖像分割等。

    QQ截圖20240517110425.png

    PaliGemma的關(guān)鍵特點(diǎn):

    • 多任務(wù)支持:PaliGemma能夠處理多種視覺(jué)語(yǔ)言相關(guān)的任務(wù),提供廣泛的應(yīng)用場(chǎng)景。

    • 參數(shù)規(guī)模:該模型包含30億(3B)個(gè)參數(shù),是一個(gè)大型的多模態(tài)模型。

    • 模型架構(gòu):PaliGemma結(jié)合了SigLiP視覺(jué)編碼器和Gemma語(yǔ)言模型,分別負(fù)責(zé)處理圖像和文本輸入。

    QQ截圖20240517110414.png

    SigLiP視覺(jué)編碼器:

    負(fù)責(zé)處理圖像輸入,將視覺(jué)信息編碼為模型能夠理解的格式。

    Gemma語(yǔ)言模型:

    負(fù)責(zé)處理文本輸入,并生成輸出,將圖像內(nèi)容與語(yǔ)言任務(wù)結(jié)合起來(lái)。

    PaliGemma的發(fā)布是谷歌在AI領(lǐng)域的又一項(xiàng)重要貢獻(xiàn),它不僅推動(dòng)了視覺(jué)語(yǔ)言理解技術(shù)的發(fā)展,也為研究人員和開(kāi)發(fā)者提供了強(qiáng)大的工具,以探索和創(chuàng)造新的應(yīng)用。開(kāi)源的特性意味著PaliGemma可以被社區(qū)廣泛地使用、改進(jìn)和集成到各種產(chǎn)品和服務(wù)中。

    模型地址:https://huggingface.co/blog/paligemma

    舉報(bào)

    • 相關(guān)推薦
    • 能理解海豚聲音!谷歌開(kāi)發(fā)全新AI模型DolphinGemma

      快科技4月15日消息,谷歌公布了一款名為DolphinGemma”的大型語(yǔ)言模型,旨在幫助科學(xué)家理解海豚的聲音,并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來(lái)幾個(gè)月內(nèi)測(cè)試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)發(fā)聲系統(tǒng),以探索是否能夠翻譯并模仿海豚的聲音,進(jìn)而實(shí)現(xiàn)與海豚的某種對(duì)話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一,其社交互動(dòng)極其復(fù)雜?

    • 超過(guò)ChatGPT、Deepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時(shí)間,節(jié)約了運(yùn)算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

    • 時(shí)空壺接入大語(yǔ)言模型,跨語(yǔ)言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語(yǔ)言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語(yǔ)言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動(dòng)全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語(yǔ)言障礙,讓世界溝通無(wú)阻。

    • 提升大模型自動(dòng)修Bug能力 豆包正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布,正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言,是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語(yǔ)言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開(kāi)發(fā)場(chǎng)景,也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

    • 對(duì)標(biāo)OpenAI,谷歌開(kāi)源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會(huì)上,開(kāi)源了首個(gè)Agent開(kāi)發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開(kāi)源ADK幾天在Github已經(jīng)超過(guò)5000顆星,非常受開(kāi)發(fā)者的歡迎。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強(qiáng)吉卜力版本來(lái)啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過(guò)API向全球開(kāi)發(fā)者開(kāi)放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級(jí)功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開(kāi)發(fā)者可通過(guò)API實(shí)現(xiàn)更多創(chuàng)意場(chǎng)景。新模型在?

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺(jué)短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時(shí),它先畫了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 谷歌版MCP”來(lái)了,開(kāi)源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來(lái)了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無(wú)需考慮框架或供應(yīng)商。不同平臺(tái)構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開(kāi)展協(xié)作,企業(yè)可通過(guò)專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動(dòng)作來(lái)看,蕪湖,不愧是Agent元年。

    • 谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

      在GoogleCloudNext25大會(huì)上,谷歌宣布開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開(kāi)放標(biāo)準(zhǔn),旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應(yīng)商之間無(wú)縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型,這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網(wǎng)絡(luò)表單等,從根據(jù)用戶的需求和設(shè)備的能力,提供最佳的用戶體驗(yàn)。

    • 谷歌Gemini整合Veo 2視頻生成模型,8秒720P視頻輕松搞定

      谷歌宣布又有一款 AI 模型將加入 Gemini,但這次它不僅僅是一個(gè)聊天機(jī)器人。