中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > AI應(yīng)用場(chǎng)景最新資訊  > 正文

    多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

    2025-04-28 09:26 · 稿源: 窄播公眾號(hào)

    聲明:本文來自于微信公眾號(hào)窄播,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

    這是《窄播Weekly》的第52期,本期我們關(guān)注的商業(yè)動(dòng)態(tài)是:當(dāng)大廠的AI競(jìng)爭(zhēng)策略開始傾斜向應(yīng)用場(chǎng)景,多模態(tài)能力代理執(zhí)行成為兩個(gè)焦點(diǎn)。

    大模型落地C端場(chǎng)景的核心,就是讓大模型的能力越來越接近人。沿著這個(gè)主旋律,可以劃分出兩個(gè)進(jìn)化方向:一個(gè)是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個(gè)則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實(shí)現(xiàn),需要給到大模型多模態(tài)能力;后者則需要依托于Agent產(chǎn)品生態(tài)的不斷成熟。

    多模態(tài)方面,字節(jié)、百度、谷歌、OpenAI都在近期推出了多模態(tài)能力更強(qiáng)的基礎(chǔ)大模型產(chǎn)品,為相應(yīng)的應(yīng)用創(chuàng)新帶來了可能。阿里旗下的AI to C產(chǎn)品夸克,就在本周上線了基于「通義推理及多模態(tài)大模型+后訓(xùn)練」實(shí)現(xiàn)的「拍照問夸克」功能。

    代理執(zhí)行層面,在Manus指出方向之后,類似的通用Agent產(chǎn)品也在近期紛紛上線。其中就包括了字節(jié)旗下的扣子空間、百度的心響App、360的納米AI、前百度高管的Genspark等。這些產(chǎn)品都主打一站式完成用戶通過自然語言布置的復(fù)雜任務(wù),并且都具有編寫代碼和連接第三方數(shù)據(jù)、工具的能力。

    相比國內(nèi),海外巨頭會(huì)更傾向于打造服務(wù)于單一場(chǎng)景的Agent。Notion推出了AI驅(qū)動(dòng)的電子郵件服務(wù)Notion Mail,幫助用戶組織電子郵件、起草回復(fù)、搜索消息等。OpenAI此前推出的Operator和Deep Research也分別聚焦在操作瀏覽器和研究領(lǐng)域。X AI則增加了Grok Studio,用來協(xié)助用戶生成文檔、代碼、報(bào)告和小游戲。

    從目前能夠體驗(yàn)到的產(chǎn)品來看,多模態(tài)能力和代理執(zhí)行能力的提升,確實(shí)為用戶帶來了更低門檻、更高效率的AI使用體驗(yàn)。套用微軟CEO納德拉夸贊自家Cop ilot體驗(yàn)的話,具備執(zhí)行能力的通用Agent就是在為用戶搭建一個(gè)腳手架,并在上面放好趁手的工具,助力用戶完成日常工作、學(xué)習(xí)、生活相關(guān)的任務(wù)。

    當(dāng)這個(gè)產(chǎn)品成熟時(shí),人們會(huì)發(fā)覺自己的工作、學(xué)習(xí)、生活的體驗(yàn)可能已經(jīng)被其改變。但改變不是一個(gè)短期過程。這些還處于早期探索階段的產(chǎn)品,在細(xì)節(jié)上差強(qiáng)人意,需要一段時(shí)間去打磨,從用戶意圖理解、第三方工具調(diào)用和相應(yīng)內(nèi)容的生成等方面,全方位提升產(chǎn)品體驗(yàn)。

    從現(xiàn)階段看,模型能力的強(qiáng)弱依然非常重要。大模型能力的提升和成本的降低,確實(shí)刺激了AI應(yīng)用的爆發(fā),也再次讓人們看到了百度創(chuàng)始人李彥宏口中「應(yīng)用統(tǒng)治未來世界」的可能。

    但是,大模型技術(shù)還在持續(xù)突破,目前我們看到的Agent的不足之處,很多需要依靠模型能力的提升來完善。甚至未來有可能會(huì)實(shí)現(xiàn)「模型即應(yīng)用」,畫圖有畫圖的模型,分析圖表有分析圖表的模型?,F(xiàn)在看,OpenAI有向這個(gè)方向前進(jìn)的傾向。

    Agent的終局到底是什么,現(xiàn)在看來尚無定論。

    多模態(tài)正在滲透進(jìn)現(xiàn)實(shí)場(chǎng)景

    從近期的大模型發(fā)布來看,多模態(tài)是重要的能力培養(yǎng)方向。字節(jié)旗下火山引擎發(fā)布的豆包1.5深度思考模型,能夠結(jié)合視覺理解能力完成看圖分析地貌、生成項(xiàng)目流程圖等工作。李彥宏在介紹文心4.5Turbo時(shí),通過識(shí)別馬拉多納「上帝之手」的照片和水槽實(shí)驗(yàn)視頻中的不同顏色物體,展示了圖像和視頻的理解能力。

    此外,OpenAI最新發(fā)布的o3和o4-mini也都具備看圖表和自己畫圖的多模態(tài)理解能力。OpenAI稱其首次實(shí)現(xiàn)了「用圖像思考」。谷歌發(fā)布的首個(gè)混合推理模型Gemini2.5Flash能夠比較精準(zhǔn)地分析股票走勢(shì)圖,并能根據(jù)給到的素材圖生成游戲場(chǎng)景設(shè)計(jì)圖。

    不斷提升多模態(tài)推理能力的同時(shí),各個(gè)廠商都在為這種能力尋找第一塊試驗(yàn)田??淇嗽谕瞥鯝I超級(jí)框概念之后,最新上線了拍照問夸克功能,就是在將大模型的多模態(tài)能力注入到AI超級(jí)框中,讓用戶不但能夠通過文字完成與AI超級(jí)框的交互,還能實(shí)現(xiàn)圖文并茂的溝通。

    在實(shí)際的使用過程中,我們發(fā)現(xiàn)拍照問夸克功能基本可以滿足「拍照搜索」的體驗(yàn),比如拍攝一個(gè)梅瓶的陳列,夸克可以回答出梅瓶的由來,以及它在宋朝會(huì)被用來盛酒。用戶還可以拍攝照片,讓夸克根據(jù)照片生成文案,或者識(shí)別食物的卡路里、辨別景點(diǎn)并給到游玩攻略。

    通過加入圖像,夸克可以讓用戶給AI下達(dá)更加精準(zhǔn)的任務(wù),然后調(diào)用夸克積累的Agent和原子功能,更好地完成任務(wù)。

    圖片

    這其實(shí)是在讓攝像頭成為用戶賦予AI的眼睛,未來可能不止依靠拍照,還會(huì)有直接通過攝像頭進(jìn)行的實(shí)時(shí)交互。這也是谷歌試圖實(shí)現(xiàn)的多模態(tài)交互體驗(yàn)。

    在谷歌多模態(tài)搜索產(chǎn)品負(fù)責(zé)人Rajan Patel的暢想中,多模態(tài)能力的融入,會(huì)讓搜索變得毫不費(fèi)力。用戶在谷歌可以打字、可以說話、可以拍照,可以對(duì)著攝像頭說自己需要什么,而谷歌將利用大模型、產(chǎn)品能力,幫助用戶快速連接到相關(guān)且正確的信息。

    也因此,多模態(tài)能力的提升,會(huì)影響到AI眼鏡的進(jìn)展。一位AI硬件創(chuàng)業(yè)者告訴《窄播》,現(xiàn)在之所以沒有選擇AI眼鏡的方向,是因?yàn)槎嗄B(tài)大模型還不成熟,他無法根據(jù)使用場(chǎng)景去進(jìn)行產(chǎn)品定義。但是面向未來,類似用戶與拍照問夸克的交互可能會(huì)從手機(jī)遷移到眼鏡。

    代理執(zhí)行需要三個(gè)能力

    多模態(tài)提升的是交流效率,Agent的重心則在于執(zhí)行。

    在2024年下半年,具備任務(wù)執(zhí)行能力和系統(tǒng)操控能力的Agent就已經(jīng)成為一門顯學(xué)。但當(dāng)時(shí)有兩個(gè)問題尚待解決:一個(gè)是Agent產(chǎn)品的形態(tài)應(yīng)該是什么樣?另一個(gè)則是Agent與第三方數(shù)據(jù)、工具之間應(yīng)該如何實(shí)現(xiàn)連接?

    Manus的出現(xiàn)為大家指出了前進(jìn)方向——通過對(duì)話框+工作區(qū)的方式,呈現(xiàn)Agent的工作場(chǎng)景,然后基于大模型能力理解、拆分用戶任務(wù)意圖,調(diào)用不同工具模塊,協(xié)同完成任務(wù)。雖然會(huì)被人稱作「縫合怪」,但是Manus確實(shí)讓面向C端用戶的通用Agent產(chǎn)品的雛形顯現(xiàn)出來了。

    近期發(fā)布的扣子空間、心響App、納米AI的Agent能力以及Genspark基本都遵循了這個(gè)雛形模版??圩涌臻g分為三個(gè)部分,左邊部分是任務(wù)目錄,中間部分是任務(wù)交互區(qū),右邊可以展開一個(gè)Agent的工作空間。同時(shí),扣子空間還會(huì)支持添加擴(kuò)展,以及選擇探索和規(guī)劃兩種思考深度不同的模式。

    圖片

    從使用上看,扣子空間更擅長(zhǎng)完成文字梳理工作。但在將梳理出的文字轉(zhuǎn)化為網(wǎng)頁時(shí),扣子空間的效果會(huì)打折扣。我們嘗試讓扣子空間生成了一份騰沖旅游攻略、一個(gè)展示秦滅六國過程的網(wǎng)頁和一次AI新聞匯總。文字版的騰沖旅游攻略要更詳細(xì),轉(zhuǎn)化為網(wǎng)頁后,信息量會(huì)被稀釋,美食的配圖也會(huì)出現(xiàn)問題。后兩個(gè)任務(wù)也不太令人滿意。

    百度的心響App的特殊之處是選擇了在移動(dòng)端上線,相對(duì)可以完成的任務(wù)就會(huì)更輕量化和生活化,其推薦任務(wù)中不僅有旅游攻略、數(shù)據(jù)分析等通用Agent產(chǎn)品常見的任務(wù),還會(huì)有數(shù)學(xué)解題、AI相親、例行任務(wù)等類似聊天機(jī)器人的功能。整體感覺,心響App是文小言的Agent進(jìn)化版。

    我們認(rèn)為,目前想要優(yōu)化具體的任務(wù)體驗(yàn),通用Agent們需要持續(xù)培養(yǎng)三個(gè)關(guān)鍵能力。

    第一個(gè)是,能否連接足夠數(shù)量的第三方數(shù)據(jù)和工具。MCP(Model Context Protocol,支持大模型與外部數(shù)據(jù)、工具集成的開源協(xié)議)和A2A(Agent2Agent,智能體協(xié)作協(xié)議)的推出,不但讓第三方數(shù)據(jù)、工具有了順暢接入通用Agent的統(tǒng)一接口,還賦予了Agent與Agent之間的交互、協(xié)作能力。

    目前,國內(nèi)廠商基本都接受了這種連接解決方案,接下來需要解決的是,如何擴(kuò)充有效的工具箱。

    納米AI主打的賣點(diǎn)是「MCP萬能工具箱」,號(hào)稱接入了近百個(gè)優(yōu)質(zhì)第三方工具??圩涌臻g的擴(kuò)展相對(duì)要少很多,而且有些只具備簡(jiǎn)單功能。以騰沖攻略為例,我可以用扣子空間里的墨跡天氣擴(kuò)展將天氣預(yù)報(bào)添加進(jìn)攻略中,但沒有成功利用高德地圖擴(kuò)展生成每天的景點(diǎn)路線圖,大部分嘗試中,都只顯示了騰沖在地圖上的位置。

    圖片

    編碼則是通用Agent需要培養(yǎng)的第二項(xiàng)能力。AI編程為Agent解決復(fù)雜任務(wù)提供了一個(gè)通用的有效工具,無論是ppt、網(wǎng)頁、圖表的生成,還是小游戲的創(chuàng)作,都需要依賴編碼能力來執(zhí)行。有消息顯示,OpenAI正在討論用30億美元收購AI編程初創(chuàng)公司W(wǎng)indsurf,借此來提升AI的編碼能力。

    第三個(gè)也是最底層的,是大模型的任務(wù)理解能力。只有具備更強(qiáng)的任務(wù)理解能力,通用Agent才能讓更多人依賴其去完成任務(wù),并保證任務(wù)的完成水準(zhǔn)。這也是大廠在多模態(tài)能力之外,著力在提升的另外一項(xiàng)大模型能力。OpenAI在推出o3和o4-mini時(shí),就強(qiáng)調(diào)這是一個(gè)知道去上網(wǎng)查資料、執(zhí)行Python代碼的「大腦」。

    從目前的布局來看,OpenAI期待這個(gè)「大腦」在未來能夠精準(zhǔn)調(diào)度Operator和Deep Research等職業(yè)身份不同的Agent,前者是操控瀏覽器的司機(jī),后者則是負(fù)責(zé)做研究的學(xué)者。未來可能還會(huì)有擅長(zhǎng)編程的程序員,擅長(zhǎng)講故事的作家等Agent。

    字節(jié)的扣子空間、百度的邏輯是像開發(fā)API一樣開發(fā)Agent,需要有扣子、秒搭等Agent或工作流的搭建平臺(tái)提供支持。而OpenAI的路徑是按照職業(yè)去培養(yǎng)Agent。這是API邏輯之外的另一種更加擬人化的Agent生態(tài)培養(yǎng)模式。兩個(gè)模式都是為了調(diào)用Agent生態(tài),去完成不同的任務(wù)。

    在OpenAI給到投資者的預(yù)期中,AI Agent及其他新產(chǎn)品合計(jì)銷售額將在2025年末超越ChatGPT,達(dá)到30億美元,到2029年Agent業(yè)務(wù)將為其貢獻(xiàn)290億美元的收入。這是一個(gè)非常樂觀的預(yù)期。國內(nèi)的通用Agent們也有可能從Agent體驗(yàn)升級(jí)中,奠定面向C端用戶的收費(fèi)模式。

    實(shí)現(xiàn)這一預(yù)期的前提是,通用Agent們能夠?qū)⒍嗄B(tài)能力與Agent的執(zhí)行能力結(jié)合起來,成為未來的底層入口。

    舉報(bào)

    • 相關(guān)推薦
    • 可靈AI發(fā)布全2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報(bào)道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會(huì),正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日,全球AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 醒醒,只靠MCP和A2A還帶不來AI Agent的大繁榮

      文章探討了AI Agents發(fā)展需要類似HTTPS的安全協(xié)議保障。回顧互聯(lián)網(wǎng)發(fā)展歷程,TCP/IP協(xié)議統(tǒng)一了網(wǎng)絡(luò)通信標(biāo)準(zhǔn),HTTP協(xié)議實(shí)現(xiàn)了全球互聯(lián),而HTTPS通過SSL加密解決了安全問題。類比互聯(lián)網(wǎng)發(fā)展,當(dāng)前AI Agents產(chǎn)業(yè)面臨類似挑戰(zhàn):Anthropic推出的MCP協(xié)議解決智能體與工具連接問題,Google的A2A協(xié)議實(shí)現(xiàn)智能體間協(xié)作,但缺乏安全標(biāo)準(zhǔn)。IIFAA聯(lián)盟正致力于構(gòu)建AI Agents安全生態(tài),推出ASL中間件保障數(shù)據(jù)隱私和身份認(rèn)證。文章指出,正如HTTPS推動(dòng)電商繁榮,AI Agents的安全標(biāo)準(zhǔn)化將加速商業(yè)化進(jìn)程,螞蟻集團(tuán)等企業(yè)已開始實(shí)踐MCP應(yīng)用。未來AI Agents可能通過統(tǒng)一入口調(diào)用工具池,改變現(xiàn)有交互模式。

    • 谷歌A2A協(xié)議是什么? MCP 和 Agent2Agent 有什么區(qū)別?

      4月10日,在GoogleCloudNext大會(huì)上,谷歌宣布開源Agent2Agent協(xié)議,這一協(xié)議被業(yè)界視為智能體交互領(lǐng)域的“通用語言”,旨在突破跨平臺(tái)、多模態(tài)協(xié)作及安全保障等核心技術(shù)瓶頸,并聯(lián)合全球50余家科技企業(yè)共同構(gòu)建新一代智能生態(tài)。本文從技術(shù)實(shí)現(xiàn)與行業(yè)變革兩個(gè)維度,深度解析A2A協(xié)議的核心價(jià)值。這一協(xié)議的推出,標(biāo)志著智能體協(xié)作模式從封閉系統(tǒng)向開放生態(tài)的范式轉(zhuǎn)變,為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動(dòng)能。

    • UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定圖文理解與圖像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對(duì)齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個(gè)基準(zhǔn)測(cè)試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • 谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

      在GoogleCloudNext25大會(huì)上,谷歌宣布開源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對(duì)智能體的能力、跨平臺(tái)協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標(biāo)準(zhǔn),旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應(yīng)商之間無縫協(xié)作。每個(gè)部分都有指定的內(nèi)容類型,這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網(wǎng)絡(luò)表單等,從根據(jù)用戶的需求和設(shè)備的能力,提供最佳的用戶體驗(yàn)。

    • 接替Manus,字節(jié)的Agent王牌能打多久?

      字節(jié)跳動(dòng)旗下智能體平臺(tái)"扣子空間"推出首款由大廠發(fā)布的Agent爆款產(chǎn)品,自4月18日上線后引發(fā)用戶瘋搶邀請(qǐng)碼。該產(chǎn)品具備規(guī)劃、工具調(diào)用和記憶等關(guān)鍵能力,支持游戲攻略撰寫、市場(chǎng)調(diào)研等復(fù)雜需求,并首創(chuàng)"探索模式"和"規(guī)劃模式"雙交互設(shè)計(jì)。雖然底層模型能力較DeepResearch和Manus仍有差距,但憑借產(chǎn)品設(shè)計(jì)優(yōu)化和量大價(jià)優(yōu)的優(yōu)勢(shì),成功填補(bǔ)了Manus留下的市場(chǎng)空白。字節(jié)同步推出企業(yè)版HiAgent解決私有化部署問題,半年內(nèi)智能體業(yè)務(wù)訂單量增長(zhǎng)超330%。當(dāng)前行業(yè)正迎來Agent爆發(fā)期,但企業(yè)落地仍面臨系統(tǒng)接入、數(shù)據(jù)安全等挑戰(zhàn)。

    • 「扣子空間」內(nèi)測(cè)上線,和 Agent 一起開始你的工作

      “摘星空間”平臺(tái)正式推出,集生產(chǎn)、專業(yè)領(lǐng)域支持及雙模系統(tǒng)協(xié)作能力,通過多類型AI智能體實(shí)現(xiàn)高效辦公,具備生產(chǎn)提升、專家深度支持、雙模協(xié)同等四大核心功能,未來將持續(xù)擴(kuò)展Agent能力邊界。

    • AI Agent大變天!谷歌開源A2A,一夜改變智能體交互

      谷歌在GoogleCloudNext25大會(huì)上,開源了首個(gè)標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島,對(duì)智能體的能力、跨平臺(tái)、執(zhí)行效率產(chǎn)生質(zhì)的改變,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應(yīng)用平臺(tái)。通過A2A協(xié)議,MongoDB可以使其數(shù)據(jù)庫服務(wù)與智能Agent相結(jié)合,實(shí)現(xiàn)更高效的數(shù)據(jù)管理和自動(dòng)化數(shù)據(jù)處理。

    • 國產(chǎn)AI起號(hào)兩周就開始自己賺錢了,全球首個(gè)“邊想邊干”的Agent | 免費(fèi)無限次

      什么?!用AIAgent搞的小紅書賬號(hào),竟然14天狂吸5000粉開始賺錢了???你沒看錯(cuò),這是真事。你只需要跟這個(gè)Agent說一個(gè)想討論的話題,例如“怎么選咖啡”、“化妝品成分對(duì)比”等等,它就可以自己去小紅書、知乎等平臺(tái)上搜索上百個(gè)信源做總結(jié)。不僅是AutoGLM沉思具備夠智能的能力,更是在成本上做到了夠低,使得Agent能夠被大規(guī)模應(yīng)用成為了一種可能,人人觸手可及的AIAgent時(shí)代或許已經(jīng)到來。

    • 剛剛,OpenAI開源PaperBench,重塑頂級(jí)AI Agent評(píng)測(cè)

      今天凌晨1點(diǎn),OpenAI開源了一個(gè)全新的AIAgent評(píng)測(cè)基準(zhǔn)——PaperBench。這個(gè)基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對(duì)2024年國際機(jī)器學(xué)習(xí)大會(huì)上頂尖論文的復(fù)現(xiàn),包括對(duì)論文內(nèi)容的理解、代碼編寫以及實(shí)驗(yàn)執(zhí)行等方面的能力。目前智能體的能力還無法超越人類。