中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<button id="e9vf7"><kbd id="e9vf7"></kbd></button>

谷歌發(fā)布開(kāi)源視覺(jué)語(yǔ)言模型PaliGemma 支持多視覺(jué)語(yǔ)言任務(wù)

2024-05-17 11:04 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家（ChinaZ.com）5月17日消息:谷歌推出了一款名為PaliGemma的開(kāi)源視覺(jué)語(yǔ)言模型，該模型結(jié)合了圖像處理和語(yǔ)言理解的能力，旨在支持多種視覺(jué)語(yǔ)言任務(wù)，如圖像和短視頻字幕生成、視覺(jué)問(wèn)答、圖像文本理解、物體檢測(cè)、文件圖表解讀以及圖像分割等。

QQ截圖20240517110425.png

PaliGemma的關(guān)鍵特點(diǎn):

多任務(wù)支持:PaliGemma能夠處理多種視覺(jué)語(yǔ)言相關(guān)的任務(wù)，提供廣泛的應(yīng)用場(chǎng)景。
參數(shù)規(guī)模:該模型包含30億（3B）個(gè)參數(shù)，是一個(gè)大型的多模態(tài)模型。
模型架構(gòu):PaliGemma結(jié)合了SigLiP視覺(jué)編碼器和Gemma語(yǔ)言模型，分別負(fù)責(zé)處理圖像和文本輸入。

SigLiP視覺(jué)編碼器:

負(fù)責(zé)處理圖像輸入，將視覺(jué)信息編碼為模型能夠理解的格式。

Gemma語(yǔ)言模型:

負(fù)責(zé)處理文本輸入，并生成輸出，將圖像內(nèi)容與語(yǔ)言任務(wù)結(jié)合起來(lái)。

PaliGemma的發(fā)布是谷歌在AI領(lǐng)域的又一項(xiàng)重要貢獻(xiàn)，它不僅推動(dòng)了視覺(jué)語(yǔ)言理解技術(shù)的發(fā)展，也為研究人員和開(kāi)發(fā)者提供了強(qiáng)大的工具，以探索和創(chuàng)造新的應(yīng)用。開(kāi)源的特性意味著PaliGemma可以被社區(qū)廣泛地使用、改進(jìn)和集成到各種產(chǎn)品和服務(wù)中。

模型地址：https://huggingface.co/blog/paligemma

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

能理解海豚聲音！谷歌開(kāi)發(fā)全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名為DolphinGemma”的大型語(yǔ)言模型，旨在幫助科學(xué)家理解海豚的聲音，并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來(lái)幾個(gè)月內(nèi)測(cè)試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）發(fā)聲系統(tǒng)，以探索是否能夠翻譯并模仿海豚的聲音，進(jìn)而實(shí)現(xiàn)與海豚的某種對(duì)話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一，其社交互動(dòng)極其復(fù)雜?

?谷歌 ?DolphinGemma ?海豚溝通
超過(guò)ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時(shí)間，節(jié)約了運(yùn)算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
時(shí)空壺接入大語(yǔ)言模型，跨語(yǔ)言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語(yǔ)言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語(yǔ)言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動(dòng)全球交流合作邁向新的高度，真正實(shí)現(xiàn)跨越語(yǔ)言障礙，讓世界溝通無(wú)阻。

?跨語(yǔ)言溝通 ?AI ?翻譯設(shè)備
提升大模型自動(dòng)修Bug能力豆包正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集

今日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布，正式開(kāi)源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言，是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語(yǔ)言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開(kāi)發(fā)場(chǎng)景，也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動(dòng) ?多語(yǔ)言數(shù)據(jù)集 ?大模型自動(dòng)修復(fù)
薦對(duì)標(biāo)OpenAI，谷歌開(kāi)源Agent SDK，支持MCP、A2A、5000星

谷歌在GoogleCloudNext25大會(huì)上，開(kāi)源了首個(gè)Agent開(kāi)發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標(biāo)準(zhǔn)化智能體SDK。谷歌剛開(kāi)源ADK幾天在Github已經(jīng)超過(guò)5000顆星，非常受開(kāi)發(fā)者的歡迎。

?Google ?Cloud ?Next
薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦

OpenAI發(fā)布全新圖像生成模型GPT-image-1，通過(guò)API向全球開(kāi)發(fā)者開(kāi)放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù)，并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級(jí)功能，圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著，開(kāi)發(fā)者可通過(guò)API實(shí)現(xiàn)更多創(chuàng)意場(chǎng)景。新模型在?

?OpenAI ?GPT-image-1 ?圖像生成
薦生成很強(qiáng)，推理很弱：GPT-4o的視覺(jué)短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時(shí)，它先畫了狗然后改為貓，但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解
薦“谷歌版MCP”來(lái)了，開(kāi)源A2A，不同廠商Agent也能協(xié)作

“谷歌版MCP”來(lái)了!谷歌推出A2A協(xié)議，即Agent2Agent，能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無(wú)需考慮框架或供應(yīng)商。不同平臺(tái)構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開(kāi)展協(xié)作，企業(yè)可通過(guò)專業(yè)Agent團(tuán)隊(duì)處理復(fù)雜工作流。從各大廠最近動(dòng)作來(lái)看，蕪湖，不愧是Agent元年。

?谷歌 ?A2A協(xié)議 ?AI
谷歌開(kāi)源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

在GoogleCloudNext25大會(huì)上，谷歌宣布開(kāi)源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開(kāi)放標(biāo)準(zhǔn)，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無(wú)縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型，這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗(yàn)。

?Agent2Agent ?Protocol ?智能體交互
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個(gè)聊天機(jī)器人。

?谷歌 ?谷歌gemini ?veo2

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<input id="tlti8"><strong id="tlti8"><abbr id="tlti8"></abbr></strong></input>