中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > 推理模型最新資訊  > 正文

    不要思考過程,推理模型能力能夠更強

    2025-04-30 08:59 · 稿源: 量子位公眾號

    聲明:本文來自微信公眾號“量子位”,作者:關注前沿科技,授權站長之家轉載發(fā)布。

    其實……不用大段大段思考,推理模型也能有效推理!

    是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準確的有效答案,靠的就是長篇累牘的推理過程。

    這個過程往往用時很長,等同于需要消耗大量算力。已經有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。

    來自UC伯克利和艾倫實驗室團隊的最新研究結果打破了這一刻板印象——

    通過簡單的prompt繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。

    這種方法被稱為“無思考(NoThinking)”方法。

    實驗數據顯示,在低資源情況(即少token數量、少模型參數)或低延遲情況下,Nothinking方法得出的結果均優(yōu)于Thinking方法的結果,實現比傳統思考方式更好的精度- 延遲權衡。

    其他情況下,NoThinking方法在部分數據集上的表現也能超越Thinking。

    「思考」和「無思考」

    研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎,提出了NoThinking方法。

    咱們先來分辨一下Thinking和NoThinking的區(qū)別在哪里。

    圖片

    Thinking方法是傳統推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)。

    好比你隨意丟給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。

    而研究人員最新提出的NoThinking方法,則通過簡單的prompt直接讓模型跳過顯式的思考過程。

    也就是在prompt中預先填充一個空的思考塊,如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個空思考塊開始生成最終解決方案。

    例如,在問題提示后直接添加一個表示思考結束的標記,然后讓模型生成答案。

    截至目前,Thinking是大多數推理模型默認的推理方式。

    但NoThinking團隊十分質疑這個過程的必要性??

    所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎——選擇這個模型,是因為它是當前最先進的推理模型之一——設計了無思考(NoThinking)方法。

    在NoThinking中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。

    這意味著模型不需要花費時間來構建和輸出思考過程,從而減少了生成的token數量,提高了推理速度。

    低資源情況下,NoThinking表現優(yōu)于Thinking

    研究人員將NoThinking與Thinking方法在相同的模型和數據集上進行對比實驗。

    試圖通過控制token數量、模型參數等變量,比較兩種方法在不同任務上的準確性和效率差異。

    他們選用了多個推理數據集來評估模型性能,這些數據集涵蓋了不同的推理任務類型和難度級別,能夠全面評估模型的推理能力:

    包括數學問題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

    評估指標方面,則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。

    此外,實驗過程還關注了token使用量和延遲等指標,以評估模型在資源消耗和響應速度方面的表現。

    最后的實驗結果怎么樣?

    綜合表現如圖所示,這是無token預算下的最終結果:

    圖片

    這是有token預算下的最終結果:

    圖片

    數學問題解決

    相同token預算下,在AIME和AMC等數學問題數據集上,NoThinking通常比Thinking表現更好。

    例如,在ACM23數據集上,當token數量限制為700時,NoThinking的準確率是51.3%,顯著高于Thinking的28.9%。

    這表明在數學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)。

    形式定理證明

    在MiniF2F和ProofNet數據集上,NoThinking在pass@k指標上與Thinking相當,但使用的token數量顯著減少(3.3–3.7倍)。

    這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking也能保持高準確性,同時顯著降低計算成本。

    編程任務

    在LiveCodeBench數據集上:

    • 在低token預算下,NoThinking表現優(yōu)于Thinking

    • 在高token預算下,Thinking有時表現更好

    這表明在編程任務中,思考過程可能在資源充足時提供一定優(yōu)勢;但資源受限時,NoThinking的效率更高。

    NoThinking的pass@k性能

    隨著k值(生成的樣本數量)增加,NoThinking的pass@k性能通常會超過Thinking。

    這表明NoThinking生成的解決方案多樣性更高,能夠通過多次采樣提高準確性。

    圖片

    一個典型的例子體現在AIME24數據集上——

    當k=64時,NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。

    這表明NoThinking在多次嘗試中更有可能找到正確答案。

    圖片

    并行擴展實驗

    實驗過程中,團隊進一步探索了NoThinking與并行計算擴展結合的潛力。

    通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。

    實驗結果表明,在結合并行擴展時,NoThinking表現出了顯著的性能提升。

    對于有Verifier的任務(如MiniF2F和ProofNet),NoThinking結合并行擴展可以實現與Thinking相當甚至更高的準確率,同時將延遲降低7倍,token使用量減少4倍。

    在沒有Verifier的任務中(如數學問題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實現與Thinking相當或更好的準確率。

    例如,在AMC2023數據集上,NoThinking在并行擴展下比Thinking快9倍,同時準確率更高。

    總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優(yōu)于Thinking。

    推理模型依賴于思考過程是“非必要的”

    綜上所述不難發(fā)現,雖然不同任務類型對“NoThinking”和“Thinking”的要求不同,但在低token預算和低延遲情況下,NoThinking表現優(yōu)于Thinking,并且在并行擴展中展現出更高的效率。

    NoThinking方法在多個推理任務中表現出了令人驚訝的有效性表示:

    即使跳過了顯式的思考過程,模型依然能夠生成準確的解決方案。

    NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說,可能存在更高效的方式來實現強大的推理性能,而不依賴于冗長的思考過程。

    這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。

    面對這個結果,不少吃瓜群眾表達了自己的看法。

    有贊成者,比如ExtensityAI的聯合創(chuàng)始人兼CTO就表示,這一點也不令人意外。

    考慮到蒸餾過程,這個結果并不奇怪——學生可以在微調過程中內化老師的推理,并在推理時提供一條“捷徑”。

    圖片

    但也有人表示NoThinking看似可以省略推理過程,但其實要耗費大量人工時間來實現:

    結果雖如此,但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊??

    圖片

    不管怎么說,Nothinking還是帶給大家一個新視角,往后推理模型的優(yōu)化,可以朝更簡單有效的方向嘗試看看。

    或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那么久了~

    參考鏈接:

    [1]https://arxiv.org/pdf/2504.09858

    [2]https://x.com/rohanpaul_ai/status/1916693352923496477

    舉報

    • 相關推薦
    • 國產六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標志著中國AI進入推理模型新時代。文章梳理了國產大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術特點與市場表現,指出國產模型在性能上已接近GPT-4水平。特別強調科大訊飛星火X1憑借全國產化技術路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現高性能的突破。文章還探討了英偉達芯片斷供危機下,國產全棧技術路徑的重要性,認為自主可控將成為對抗國際不確定性的關鍵。最后指出,隨著推理模型成為競爭焦點,國產大模型正從技術追隨轉向自主創(chuàng)新階段。

    • 新增自主決策推理模型!理想汽車OTA 7.2開啟推送

      快科技4月3日消息,我們從理想汽車官方獲悉,OTA7.2版本車機系統正式開啟推送,預計一周內完成,升級耗時約50分鐘。本次更新新增自主決策推理模型,該模型基于車載場景數據及通用推理模型數據打造,可根據問題內容自主決策是否深度思考,面對車控指令等簡單問題時,能夠保障響應速度。智能座艙方面,新增全能兒童鎖功能,支持一鍵鎖定副駕老板鍵、后排座椅物理按?

    • OpenAI要Open了,奧特曼開源首個推理模型,ChatGPT一小時暴增百萬用戶

      OpenAI終于要OpenAI了!一大早,奧特曼鄭重官宣,「未來幾個月,將開源一款強大的推理模型」。這是自GPT-2以來,OpenAI首個開源的模型。無疑為OpenAI下一步增添了更多的戲劇性。

    • 火山引擎即將發(fā)布深度思考模型

      據悉,字節(jié)跳動旗下云服務平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱,豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試,而此次發(fā)布后,該模型將正式面向企業(yè)提供服務。目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過火山引擎使用豆包大模型API服務。IDC最新發(fā)布的《中?

    • AI日報:阿里騰訊全面支持MCP協議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸FAI領域的熱點內容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產品應用。新鮮AI產品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協議騰訊緊隨其后近日,中國人工智能領域迎來技術標準的變革,ModelContextProtocol成為國內AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B,性能?

    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實拍級”圖像生成

      快科技4月17日消息,據報道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關鍵領域展現出卓越性能。在數學、編程、科學推理這類專業(yè)領域中,它能夠精準高效地處理復雜問題;在創(chuàng)意寫作等通用任務方面,同樣表現出色。該模型采用MoE架構,總參數為200B,激?

    • 剛剛,OpenAI發(fā)布GPT-image-1模型更強吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細控制圖像敏感度、生成效率、背景、輸出格式等參數,并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應用于產品中。API支持批量生成、蒙版編輯、透明度調整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實現更多創(chuàng)意場景。新模型在?

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數多模態(tài)MoE,中長視頻直接可推理

      現在的國產AI應用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內容先做一個總結,再按照秒級,對視頻片段做內容上的推演。商湯科技聯合創(chuàng)始人楊帆認為:銀河通用合伙人、大模型負責人張直政表示:除此之外,上海交通大學副教授閆維新對這個問題的看法是:總言之,商湯作為國?

    • 大規(guī)模專家并行推理集群實現性能3倍躍遷,聯通元景開啟推理新紀元

      中國聯通持續(xù)技術攻堅,依托元景大模型MaaS平臺成功搭建“大規(guī)模專家并行”推理集群,實現DeepSeekMoE大模型在多節(jié)點間的超高效集群推理,單卡吞吐提升3倍,解碼時延降低50%。這一成果不僅為人工智能技術的創(chuàng)新發(fā)展提供了強大助力,也讓各行業(yè)以更高效率應用AI技術,加速推動千行百業(yè)的數字化轉型。這一推理創(chuàng)新舉措必將助力各行業(yè)在復雜多變、競爭激烈的市場環(huán)境中搶占先機,以智能化驅動數字化轉型,進推動實體經濟高質量發(fā)展。

    • 首次實現圖像思考 OpenAI重磅發(fā)布o3/o4-mini:史上最強、最智能模型

      快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強、最智能的模型。據了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經是小菜一碟了,現在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調用網絡搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強化學習,OpenAI訓練了o3/o4-mini如何?