11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
OpenAI的新AI模型o3在第一方和第三方基準測試中存在差異,引發(fā)公眾對其透明度和測試實踐的質(zhì)疑。去年12月,o3首次亮相時聲稱能解答超過25%的FrontierMath問題,但實際正確率僅為2%。內(nèi)部測試發(fā)現(xiàn),o3能達到超過25%的準確率,但其使用的計算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨立基準測試結(jié)果顯示,o3的得分約為10%,遠低于OpenAI宣稱的25%。盡管如此,這并不意味著OpenAI的說法有誤,可能是因為OpenAI使用了更強大的內(nèi)部架構(gòu)進行評估,并采用了更多計算資源。此外,Epoch指出其測試設(shè)置可能與OpenAI不同,并且在評估中使用了更新版本的FrontierMath。
昨夜o3的發(fā)布,讓人不盡感慨:打了這么久嘴炮的OpenAI,這回終于實實在在拿出了點真東西。史上首次,模型能夠用圖像思考,視覺推理達到巔峰。許多網(wǎng)友實測后,大感驚艷。o3能不斷縮放圖像,完成解題、識圖,編程任務(wù)實測驚人。還有一大特點,就是速度快!只用2分55秒,它就解決了一道Project Euler問題,速度秒殺任何人類。甚至可以認為,o3是一個快速版的Deep Search,但不需
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3,這兩款模型具備同時處理文本、圖像和音頻的能力,并能調(diào)用外部工?
晚上1點,OpenAI的直播如約而至。其實在預(yù)告的時候,幾乎已經(jīng)等于明示了。沒有廢話,今天發(fā)布的就是o3和o4-mini。但是奧特曼這個老騙子,之前明明說o3不打算單獨發(fā)布要融到GPT-5里面一起發(fā),結(jié)果今天又發(fā)了。。。ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已經(jīng)變了,但是我最想要的o3pro,還要幾周才能提供
從 GPT-5 開始,推理模型和非推理模型很有可能會整合在一起……
快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?
今天凌晨4點,著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。
谷歌發(fā)布了其最新的開源模型系列Gemma3,并宣稱這是世界上最好的單加速器模型”。即便在參數(shù)量最大的27B版本中,僅需一張H100顯卡即可實現(xiàn)高效推理。ShieldGemma2為圖像安全提供了現(xiàn)成的解決方案,能夠輸出三類安全標簽:危險內(nèi)容、色情內(nèi)容和暴力內(nèi)容,幫助開發(fā)者快速構(gòu)建安全的AI應(yīng)用。
聯(lián)想推出了拯救者Pro34顯示器,首發(fā)4999元。拯救者Pro34配備了一塊34英寸的曲面OLED屏幕,曲率為800R,分辨率為WQHD,屏幕比例為21:9,PPI為110,最高支持240Hz刷新率,響應(yīng)時間為0.03msGTG,峰值亮度可達1300cd/㎡,支持HDRTB400,獲得了VESACleaMR13000認證。接口配備了1個HDMI2.1、1個HDMI2.1eARC、1個DP1.4、2個Type-C5Gbps、1個Type-C、1個RJ452.5G、3個USB3.2-A。
今天凌晨2點,著名大模型平臺Anthropic發(fā)布了首個雙思維模型——Claude3.7Sonnet。Claude3.7提供了標準和擴展兩種思考模式:標準思考是無需進行復(fù)雜的推理過程,就能立刻提供答案,例如,當用戶詢問“巴黎的埃菲爾鐵塔有多高?”,會迅速給出324米。在標準和擴展思考模式下,Claude3.7Sonnet的定價與之前的版本保持一致,輸入每百萬token收費3美元,輸出每百萬token收費15美元。