中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<abbr id="cqyce"></abbr>

<li id="cqyce"></li><abbr id="cqyce"><optgroup id="cqyce"></optgroup></abbr><code id="cqyce"><tbody id="cqyce"></tbody></code>

邏輯推理大翻車(chē)！GPT-4、Gemini被曝重大缺陷，LLM嚴(yán)重降智

2024-02-26 14:21 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. 大模型邏輯推理表現(xiàn)受前提順序影響，打亂順序可導(dǎo)致性能下降30%。
2. 改變前提敘述順序?qū)Υ竽Ｐ屯评肀憩F(xiàn)有重大影響，Gemini Pro、GPT-3.5-Turbo表現(xiàn)下降。
3. 邏輯推理中改變前提順序讓LLM性能大幅下降，需要進(jìn)一步研究解決。

站長(zhǎng)之家（ChinaZ.com）2月26日消息:近期，谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn)大型語(yǔ)言模型在處理邏輯推理任務(wù)時(shí)，前提信息的呈現(xiàn)順序?qū)ζ浔憩F(xiàn)具有決定性影響。

在邏輯推理和數(shù)學(xué)問(wèn)題中，前提按照邏輯自然順序排列時(shí)，模型表現(xiàn)更佳。對(duì)于大型語(yǔ)言模型，改變前提敘述順序會(huì)導(dǎo)致性能大幅下降，尤其是在添加分散注意力規(guī)則的情況下。

論文地址:https://arxiv.org/pdf/2402.08939.pdf

研究人員發(fā)現(xiàn)，通過(guò)打亂GSM8K測(cè)試集中問(wèn)題陳述的順序構(gòu)建R-GSM測(cè)試集，幾乎所有主流LLM在新測(cè)試集上表現(xiàn)下降。盡管人類(lèi)在邏輯推理時(shí)對(duì)前提順序也有偏好，但LLM更容易受到順序效應(yīng)影響，這可能與自回歸模型訓(xùn)練目標(biāo)和數(shù)據(jù)偏差有關(guān)。

改變前提順序可以使模型準(zhǔn)確率下降超過(guò)30%，不同順序?qū)Σ煌Ｐ陀绊懸膊煌?，如GPT模型在反向排序下表現(xiàn)較好。研究人員還發(fā)現(xiàn)加入更多干擾規(guī)則和多種前提順序會(huì)使問(wèn)題更加復(fù)雜，需要進(jìn)一步研究解決。在邏輯推理中，前提順序?qū)Υ笮驼Z(yǔ)言模型推理表現(xiàn)有重大影響，如何應(yīng)對(duì)這一問(wèn)題仍是一個(gè)挑戰(zhàn)。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Gemini

谷歌首推Gemini 2.5 Flash：成本爆降600%

快科技4月18日消息，據(jù)報(bào)道，谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash，該模型創(chuàng)新性地引入可調(diào)節(jié)思考預(yù)算功能，在保持高性能的同時(shí)顯著降低使用成本。在閉源思考模式下，其成本僅為0.6美元/百萬(wàn)tokens，相比全功能思考模式（3.5美元/百萬(wàn)tokens）大幅降低600%。值得注意的是，即便在基礎(chǔ)模式下運(yùn)行，其性能依然超越前代Gemini 2.0 Flash。性能表現(xiàn)方面，Gemini 2.5 Flash在大模?

?谷歌 ?Gemini ?2.5
谷歌ai壟斷？谷歌每月向三星支付“巨額費(fèi)用”，讓其預(yù)裝Gemini

繼 Android 系統(tǒng)、Chrome 瀏覽器等應(yīng)用之后，谷歌又為他們的 Gemini 預(yù)裝花費(fèi)了“巨額費(fèi)用”……

?谷歌ai壟斷 ?谷歌壟斷 ?三星
迄今最貴！谷歌Gemini 2.5 Pro API定價(jià)公布：每百萬(wàn)輸入tokens超9元

據(jù)報(bào)道，谷歌近日公布了Gemini2.5Pro的API定價(jià)，基礎(chǔ)定價(jià)為每百萬(wàn)輸入tokens1.25美元，每百萬(wàn)輸出tokens10美元。對(duì)于超過(guò)20萬(wàn)tokens的長(zhǎng)文本輸入，價(jià)格調(diào)整為每百萬(wàn)輸入tokens2.50美元，輸出tokens15美元。谷歌CEO桑達(dá)爾皮查伊表示，Gemini2.5Pro是目前最受開(kāi)發(fā)者歡迎的AI模型，僅本月在GoogleAIStudio和GeminiAPI上的使用量就增長(zhǎng)了80%。

?谷歌Gemini ?2.5 ?Pro
超過(guò)ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時(shí)間，節(jié)約了運(yùn)算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱(chēng)，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個(gè)聊天機(jī)器人。

?谷歌 ?谷歌gemini ?veo2
薦“血虧，我花3000+元用Claude做游戲，結(jié)果還不如去「白嫖」Gemini 2.5……”

作者分享使用AI助手開(kāi)發(fā)拼字游戲的兩段經(jīng)歷：首次用Claude花費(fèi)417美元(約3042元)，開(kāi)發(fā)過(guò)程充滿(mǎn)痛苦，常出現(xiàn)上下文失效、代碼錯(cuò)誤等問(wèn)題；第二次用Gemini 2.5 Pro+Cursor完全免費(fèi)，體驗(yàn)明顯改善，能更好理解項(xiàng)目上下文，開(kāi)發(fā)更流暢。對(duì)比指出：Claude像健忘的實(shí)習(xí)生，常搞砸項(xiàng)目；Gemini則像可靠的中級(jí)工程師，開(kāi)發(fā)速度快且穩(wěn)定。但強(qiáng)調(diào)AI仍需人類(lèi)監(jiān)督測(cè)試，無(wú)法獨(dú)立產(chǎn)出完美代?

?拼字游戲 ?AI編程 ?Claude
反壟斷案中，谷歌披露 Gemini 月活達(dá)3.5億，日流量為3500萬(wàn)

Gemini 的月活躍用戶(hù)數(shù)為 3.5 億，日流量為 3500 萬(wàn)。這些數(shù)字對(duì)于 Gemini 來(lái)說(shuō)代表著巨大的增長(zhǎng)……

?谷歌 ?Gemini ?openai
薦生成很強(qiáng)，推理很弱：GPT-4o的視覺(jué)短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫(huà)一只貓時(shí)，它先畫(huà)了狗然后改為貓，但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫(huà)圖 ?GPT-4o ?圖像理解
GPT-4退役，但，OpenAI接下來(lái)準(zhǔn)備了“很多好消息”！

OpenAI 的重大調(diào)整仍在繼續(xù)。

?OpenAI ?GPT-4 ?自然語(yǔ)言處理
重磅！OpenAI確定GPT-4退役日期：4月30日

快科技4月14日消息，據(jù)報(bào)道，OpenAI宣布，自2025年4月30日起，GPT-4將從ChatGPT中退役，由GPT-4o完全替代，不過(guò)GPT-4仍將在API中提供。OpenAI表示，在面對(duì)面的評(píng)估中，GPT-4o在寫(xiě)作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級(jí)進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問(wèn)題解決和對(duì)話(huà)流程，使其成為GPT-4的自然繼承者。據(jù)悉，GPT-4于2023年3月發(fā)布，較上一代GPT-3.5有了顯著提升。而GPT-4o是OpenAI為聊天

?OpenAI ?GPT-4 ?GPT-4o

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<abbr id="mcq6a"></abbr>

<table id="mcq6a"><xmp id="mcq6a"></xmp></table>