中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > ChatGPT最新資訊  > 正文

    利用合成數(shù)據(jù)微調(diào)ChatGPT超越GPT-4摘要性能 降低63%成本和提升11倍速度

    2023-10-11 14:21 · 稿源:站長之家

    文章概要:

    - 利用鏈式密度提示微調(diào)ChatGPT在新聞?wù)蝿?wù)上超過GPT-4零樣本表現(xiàn),接近GPT-4鏈式提示。

    - 通過ScoreStringEvalChain和改進的PairwiseStringEvalChain等自動評估鏈實現(xiàn)人類水平的量化評估。

    - 微調(diào)ChatGPT比GPT-4零樣本快11倍且便宜63%,比GPT-4鏈式提示快33倍且便宜84%。

    站長之家(ChinaZ.com) 10月11日 消息:近日,Elicit公司機器學(xué)習(xí)工程師Charlie George在LangChain博客上發(fā)表文章介紹了他們使用合成數(shù)據(jù)微調(diào)ChatGPT在新聞?wù)蝿?wù)上超越GPT-4的研究成果。

    文章提到,盡管GPT-4被公認為世界上最強大的語言模型,但其調(diào)用限制、高成本和高延遲也限制了其實際應(yīng)用。為解決這一問題,一些開發(fā)者轉(zhuǎn)而使用ChatGPT等小模型,但小模型的表現(xiàn)通常不如GPT-4。文章介紹了微調(diào)的思路,即調(diào)整模型參數(shù)以更好地適應(yīng)具體任務(wù),但收集人類標注數(shù)據(jù)昂貴且耗時,而傳統(tǒng)評估指標如困惑度也無法準確反映用戶體驗。

    為解決數(shù)據(jù)問題,采用了一種合成數(shù)據(jù)生成方法,即使用GPT-4通過鏈式密度(CoD)提示逐步改進其生成的摘要。然后,使用LangSmith平臺收集這些改進后的摘要作為訓(xùn)練數(shù)據(jù),微調(diào)ChatGPT。

    在評估方面,文章認為傳統(tǒng)的BLEU和ROUGE指標往往不能準確捕捉現(xiàn)代語言模型的細微差異。相比之下,人工評估雖可靠但耗時耗力。最佳方案是開發(fā)自動化評估系統(tǒng),但也需要人工驗證其有效性。研究者已經(jīng)開發(fā)了與真人高度一致的自動化評估鏈ScoreStringEvalChain和PairwiseStringEvalChain。

    image.png

    說明:經(jīng)過微調(diào)的 ChatGPT 超越了 GPT-4零樣本,并接近帶有 CoD 的 GPT-4

    image.png

    說明:經(jīng)過微調(diào)的 ChatGPT 比 GPT-4零樣本快11倍以上,比帶 CoD 的 GPT-4快33倍

    image.png

    經(jīng)過微調(diào)的 ChatGPT 比 GPT-4零樣本便宜63%,比帶 CoD 的 GPT-4便宜84%

    結(jié)果顯示,相比GPT-4零樣本,微調(diào)后的ChatGPT在新聞?wù)蝿?wù)上的表現(xiàn)優(yōu)于前者,幾乎達到GPT-4鏈式提示的水平,但其速度提高11倍,成本降低63%。與零樣本GPT-4相比,微調(diào)ChatGPT在雙樣本評估中獲勝率達96%。

    分析稱,合成數(shù)據(jù)微調(diào)展現(xiàn)了增強語言模型能力的巨大潛力。LangChain提供了創(chuàng)建復(fù)雜鏈條和遷移到小模型的完美工具。自動化評估為快速可靠地評估實際表現(xiàn)提供了有效手段。這為新一代AI應(yīng)用大規(guī)模部署提供了路徑。

    舉報

    • 相關(guān)推薦

    熱文

    • 3 天
    • 7天