中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

多模態(tài)和Agent成為大廠AI的新賽點

2025-04-30 08:49 · 稿源：窄播公眾號

聲明：本文來自微信公眾號“窄播”，作者:李威，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

這是《窄播Weekly》的第52期，本期我們關(guān)注的商業(yè)動態(tài)是:當大廠的AI競爭策略開始傾斜向應用場景，多模態(tài)能力和代理執(zhí)行成為兩個焦點。

大模型落地C端場景的核心，就是讓大模型的能力越來越接近人。沿著這個主旋律，可以劃分出兩個進化方向:一個是持續(xù)降低用戶與大模型進行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復雜任務的能力。前者的實現(xiàn)，需要給到大模型多模態(tài)能力;后者則需要依托于Agent產(chǎn)品生態(tài)的不斷成熟。

多模態(tài)方面，字節(jié)、百度、谷歌、OpenAI都在近期推出了多模態(tài)能力更強的基礎(chǔ)大模型產(chǎn)品，為相應的應用創(chuàng)新帶來了可能。阿里旗下的AI to C產(chǎn)品夸克，就在本周上線了基于「通義推理及多模態(tài)大模型+后訓練」實現(xiàn)的「拍照問夸克」功能。

代理執(zhí)行層面，在Manus指出方向之后，類似的通用Agent產(chǎn)品也在近期紛紛上線。其中就包括了字節(jié)旗下的扣子空間、百度的心響App、360的納米AI、前百度高管的Genspark等。這些產(chǎn)品都主打一站式完成用戶通過自然語言布置的復雜任務，并且都具有編寫代碼和連接第三方數(shù)據(jù)、工具的能力。

相比國內(nèi)，海外巨頭會更傾向于打造服務于單一場景的Agent。Notion推出了AI驅(qū)動的電子郵件服務Notion Mail，幫助用戶組織電子郵件、起草回復、搜索消息等。OpenAI此前推出的Operator和Deep Research也分別聚焦在操作瀏覽器和研究領(lǐng)域。X AI則增加了Grok Studio，用來協(xié)助用戶生成文檔、代碼、報告和小游戲。

從目前能夠體驗到的產(chǎn)品來看，多模態(tài)能力和代理執(zhí)行能力的提升，確實為用戶帶來了更低門檻、更高效率的AI使用體驗。套用微軟CEO納德拉夸贊自家Copil ot體驗的話，具備執(zhí)行能力的通用Agent就是在為用戶搭建一個腳手架，并在上面放好趁手的工具，助力用戶完成日常工作、學習、生活相關(guān)的任務。

當這個產(chǎn)品成熟時，人們會發(fā)覺自己的工作、學習、生活的體驗可能已經(jīng)被其改變。但改變不是一個短期過程。這些還處于早期探索階段的產(chǎn)品，在細節(jié)上差強人意，需要一段時間去打磨，從用戶意圖理解、第三方工具調(diào)用和相應內(nèi)容的生成等方面，全方位提升產(chǎn)品體驗。

從現(xiàn)階段看，模型能力的強弱依然非常重要。大模型能力的提升和成本的降低，確實刺激了AI應用的爆發(fā)，也再次讓人們看到了百度創(chuàng)始人李彥宏口中「應用統(tǒng)治未來世界」的可能。

但是，大模型技術(shù)還在持續(xù)突破，目前我們看到的Agent的不足之處，很多需要依靠模型能力的提升來完善。甚至未來有可能會實現(xiàn)「模型即應用」，畫圖有畫圖的模型，分析圖表有分析圖表的模型?，F(xiàn)在看，OpenAI有向這個方向前進的傾向。

Agent的終局到底是什么，現(xiàn)在看來尚無定論。

多模態(tài)正在滲透進現(xiàn)實場景

從近期的大模型發(fā)布來看，多模態(tài)是重要的能力培養(yǎng)方向。字節(jié)旗下火山引擎發(fā)布的豆包1.5深度思考模型，能夠結(jié)合視覺理解能力完成看圖分析地貌、生成項目流程圖等工作。李彥宏在介紹文心4.5Turbo時，通過識別馬拉多納「上帝之手」的照片和水槽實驗視頻中的不同顏色物體，展示了圖像和視頻的理解能力。

此外，OpenAI最新發(fā)布的o3和o4-mini也都具備看圖表和自己畫圖的多模態(tài)理解能力。OpenAI稱其首次實現(xiàn)了「用圖像思考」。谷歌發(fā)布的首個混合推理模型Gemini2.5Flash能夠比較精準地分析股票走勢圖，并能根據(jù)給到的素材圖生成游戲場景設(shè)計圖。

不斷提升多模態(tài)推理能力的同時，各個廠商都在為這種能力尋找第一塊試驗田?？淇嗽谕瞥鯝I超級框概念之后，最新上線了拍照問夸克功能，就是在將大模型的多模態(tài)能力注入到AI超級框中，讓用戶不但能夠通過文字完成與AI超級框的交互，還能實現(xiàn)圖文并茂的溝通。

在實際的使用過程中，我們發(fā)現(xiàn)拍照問夸克功能基本可以滿足「拍照搜索」的體驗，比如拍攝一個梅瓶的陳列，夸克可以回答出梅瓶的由來，以及它在宋朝會被用來盛酒。用戶還可以拍攝照片，讓夸克根據(jù)照片生成文案，或者識別食物的卡路里、辨別景點并給到游玩攻略。

通過加入圖像，夸克可以讓用戶給AI下達更加精準的任務，然后調(diào)用夸克積累的Agent和原子功能，更好地完成任務。

這其實是在讓攝像頭成為用戶賦予AI的眼睛，未來可能不止依靠拍照，還會有直接通過攝像頭進行的實時交互。這也是谷歌試圖實現(xiàn)的多模態(tài)交互體驗。

在谷歌多模態(tài)搜索產(chǎn)品負責人Rajan Patel的暢想中，多模態(tài)能力的融入，會讓搜索變得毫不費力。用戶在谷歌可以打字、可以說話、可以拍照，可以對著攝像頭說自己需要什么，而谷歌將利用大模型、產(chǎn)品能力，幫助用戶快速連接到相關(guān)且正確的信息。

也因此，多模態(tài)能力的提升，會影響到AI眼鏡的進展。一位AI硬件創(chuàng)業(yè)者告訴《窄播》，現(xiàn)在之所以沒有選擇AI眼鏡的方向，是因為多模態(tài)大模型還不成熟，他無法根據(jù)使用場景去進行產(chǎn)品定義。但是面向未來，類似用戶與拍照問夸克的交互可能會從手機遷移到眼鏡。

代理執(zhí)行需要三個能力

多模態(tài)提升的是交流效率，Agent的重心則在于執(zhí)行。

在2024年下半年，具備任務執(zhí)行能力和系統(tǒng)操控能力的Agent就已經(jīng)成為一門顯學。但當時有兩個問題尚待解決:一個是Agent產(chǎn)品的形態(tài)應該是什么樣?另一個則是Agent與第三方數(shù)據(jù)、工具之間應該如何實現(xiàn)連接?

Manus的出現(xiàn)為大家指出了前進方向——通過對話框+工作區(qū)的方式，呈現(xiàn)Agent的工作場景，然后基于大模型能力理解、拆分用戶任務意圖，調(diào)用不同工具模塊，協(xié)同完成任務。雖然會被人稱作「縫合怪」，但是Manus確實讓面向C端用戶的通用Agent產(chǎn)品的雛形顯現(xiàn)出來了。

近期發(fā)布的扣子空間、心響App、納米AI的Agent能力以及Genspark基本都遵循了這個雛形模版?？圩涌臻g分為三個部分，左邊部分是任務目錄，中間部分是任務交互區(qū)，右邊可以展開一個Agent的工作空間。同時，扣子空間還會支持添加擴展，以及選擇探索和規(guī)劃兩種思考深度不同的模式。

從使用上看，扣子空間更擅長完成文字梳理工作。但在將梳理出的文字轉(zhuǎn)化為網(wǎng)頁時，扣子空間的效果會打折扣。我們嘗試讓扣子空間生成了一份騰沖旅游攻略、一個展示秦滅六國過程的網(wǎng)頁和一次AI新聞匯總。文字版的騰沖旅游攻略要更詳細，轉(zhuǎn)化為網(wǎng)頁后，信息量會被稀釋，美食的配圖也會出現(xiàn)問題。后兩個任務也不太令人滿意。

百度的心響App的特殊之處是選擇了在移動端上線，相對可以完成的任務就會更輕量化和生活化，其推薦任務中不僅有旅游攻略、數(shù)據(jù)分析等通用Agent產(chǎn)品常見的任務，還會有數(shù)學解題、AI相親、例行任務等類似聊天機器人的功能。整體感覺，心響App是文小言的Agent進化版。

我們認為，目前想要優(yōu)化具體的任務體驗，通用Agent們需要持續(xù)培養(yǎng)三個關(guān)鍵能力。

第一個是，能否連接足夠數(shù)量的第三方數(shù)據(jù)和工具。MCP（Model Context Protocol，支持大模型與外部數(shù)據(jù)、工具集成的開源協(xié)議）和A2A(Agent2Agent，智能體協(xié)作協(xié)議)的推出，不但讓第三方數(shù)據(jù)、工具有了順暢接入通用Agent的統(tǒng)一接口，還賦予了Agent與Agent之間的交互、協(xié)作能力。

目前，國內(nèi)廠商基本都接受了這種連接解決方案，接下來需要解決的是，如何擴充有效的工具箱。

納米AI主打的賣點是「MCP萬能工具箱」，號稱接入了近百個優(yōu)質(zhì)第三方工具?？圩涌臻g的擴展相對要少很多，而且有些只具備簡單功能。以騰沖攻略為例，我可以用扣子空間里的墨跡天氣擴展將天氣預報添加進攻略中，但沒有成功利用高德地圖擴展生成每天的景點路線圖，大部分嘗試中，都只顯示了騰沖在地圖上的位置。

編碼則是通用Agent需要培養(yǎng)的第二項能力。AI編程為Agent解決復雜任務提供了一個通用的有效工具，無論是ppt、網(wǎng)頁、圖表的生成，還是小游戲的創(chuàng)作，都需要依賴編碼能力來執(zhí)行。有消息顯示，OpenAI正在討論用30億美元收購AI編程初創(chuàng)公司W(wǎng)indsurf，借此來提升AI的編碼能力。

第三個也是最底層的，是大模型的任務理解能力。只有具備更強的任務理解能力，通用Agent才能讓更多人依賴其去完成任務，并保證任務的完成水準。這也是大廠在多模態(tài)能力之外，著力在提升的另外一項大模型能力。OpenAI在推出o3和o4-mini時，就強調(diào)這是一個知道去上網(wǎng)查資料、執(zhí)行Python代碼的「大腦」。

從目前的布局來看，OpenAI期待這個「大腦」在未來能夠精準調(diào)度Operator和Deep Research等職業(yè)身份不同的Agent，前者是操控瀏覽器的司機，后者則是負責做研究的學者。未來可能還會有擅長編程的程序員，擅長講故事的作家等Agent。

字節(jié)的扣子空間、百度的邏輯是像開發(fā)API一樣開發(fā)Agent，需要有扣子、秒搭等Agent或工作流的搭建平臺提供支持。而OpenAI的路徑是按照職業(yè)去培養(yǎng)Agent。這是API邏輯之外的另一種更加擬人化的Agent生態(tài)培養(yǎng)模式。兩個模式都是為了調(diào)用Agent生態(tài)，去完成不同的任務。

在OpenAI給到投資者的預期中，AI Agent及其他新產(chǎn)品合計銷售額將在2025年末超越ChatGPT，達到30億美元，到2029年Agent業(yè)務將為其貢獻290億美元的收入。這是一個非常樂觀的預期。國內(nèi)的通用Agent們也有可能從Agent體驗升級中，奠定面向C端用戶的收費模式。

實現(xiàn)這一預期的前提是，通用Agent們能夠?qū)⒍嗄B(tài)能力與Agent的執(zhí)行能力結(jié)合起來，成為未來的底層入口。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下，國產(chǎn)全棧技術(shù)路徑的重要性，認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務器
新增自主決策推理模型！理想汽車OTA 7.2開啟推送

快科技4月3日消息，我們從理想汽車官方獲悉，OTA7.2版本車機系統(tǒng)正式開啟推送，預計一周內(nèi)完成，升級耗時約50分鐘。本次更新新增自主決策推理模型，該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造，可根據(jù)問題內(nèi)容自主決策是否深度思考，面對車控指令等簡單問題時，能夠保障響應速度。智能座艙方面，新增全能兒童鎖功能，支持一鍵鎖定副駕老板鍵、后排座椅物理按?

?理想汽車 ?OTA更新 ?智能座艙
薦OpenAI要Open了，奧特曼開源首個推理模型，ChatGPT一小時暴增百萬用戶

OpenAI終于要OpenAI了!一大早，奧特曼鄭重官宣，「未來幾個月，將開源一款強大的推理模型」。這是自GPT-2以來，OpenAI首個開源的模型。無疑為OpenAI下一步增添了更多的戲劇性。

?OpenAI ?開源模型 ?推理模型
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標準的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
火山引擎即將發(fā)布深度思考模型

據(jù)悉，字節(jié)跳動旗下云服務平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱，豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試，而此次發(fā)布后，該模型將正式面向企業(yè)提供服務。目前，豆包大模型家族已覆蓋全模態(tài)、全場景，包括大語言模型、語音大模型，以及圖像、視頻等視覺大模型，企業(yè)可以通過火山引擎使用豆包大模型API服務。IDC最新發(fā)布的《中?

?字節(jié)跳動 ?火山引擎 ?豆包深度思考模型
字節(jié)發(fā)布豆包1.5深度思考模型：“實拍級”圖像生成

快科技4月17日消息，據(jù)報道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學、編程、科學推理這類專業(yè)領(lǐng)域中，它能夠精準高效地處理復雜問題；在創(chuàng)意寫作等通用任務方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動技術(shù)發(fā)布
薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦

OpenAI發(fā)布全新圖像生成模型GPT-image-1，通過API向全球開發(fā)者開放。該模型支持精細控制圖像敏感度、生成效率、背景、輸出格式等參數(shù)，并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能，圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著，開發(fā)者可通過API實現(xiàn)更多創(chuàng)意場景。新模型在?

?OpenAI ?GPT-image-1 ?圖像生成
薦剛剛，商湯發(fā)布第六代大模型：6000億參數(shù)多模態(tài)MoE，中長視頻直接可推理

現(xiàn)在的國產(chǎn)AI應用，一口氣看好幾分鐘的視頻，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內(nèi)容先做一個總結(jié)，再按照秒級，對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認為:銀河通用合伙人、大模型負責人張直政表示:除此之外，上海交通大學副教授閆維新對這個問題的看法是:總言之，商湯作為國?

?國產(chǎn)AI ?視頻解析 ?智能剪輯
大規(guī)模專家并行推理集群實現(xiàn)性能3倍躍遷，聯(lián)通元景開啟推理新紀元

中國聯(lián)通持續(xù)技術(shù)攻堅，依托元景大模型MaaS平臺成功搭建“大規(guī)模專家并行”推理集群，實現(xiàn)DeepSeekMoE大模型在多節(jié)點間的超高效集群推理，單卡吞吐提升3倍，解碼時延降低50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強大助力，也讓各行業(yè)以更高效率應用AI技術(shù)，加速推動千行百業(yè)的數(shù)字化轉(zhuǎn)型。這一推理創(chuàng)新舉措必將助力各行業(yè)在復雜多變、競爭激烈的市場環(huán)境中搶占先機，以智能化驅(qū)動數(shù)字化轉(zhuǎn)型，進推動實體經(jīng)濟高質(zhì)量發(fā)展。

?中國聯(lián)通 ?大模型 ?人工智能
首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini：史上最強、最智能模型

快科技4月17日消息，今日，OpenAI新款AI模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強化學習，OpenAI訓練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

廣告

商務合作侵權(quán)投訴廣告服務版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<form id="fco94"><optgroup id="fco94"></optgroup></form>