中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 傳媒 > 關(guān)鍵詞  > 正文

    一口氣讀完一本三體,Moonshot AI首個大模型產(chǎn)品支持20萬字上下文

    2023-10-10 14:11 · 稿源: 站長之家用戶

    ? ? ? ? 2023 年 10 月 9 日,成立僅半年的大模型初創(chuàng)公司 —— Moonshot AI宣布在“長文本”領(lǐng)域?qū)崿F(xiàn)了突破,推出了首 個支持輸入20萬漢字的智能助手產(chǎn)品Kimi Chat。這是目前全球市場上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長上下文輸入長度,標(biāo)志著Moonshot AI在這一重要技術(shù)上取得了領(lǐng)先水平。

    ? ? ? ?從技術(shù)上看,參數(shù)量決定了大模型支持多復(fù)雜的“計算”,而能夠接收多少文本輸入(即長文本技術(shù))則決定了大模型有多大的“內(nèi)存”,兩者共同決定模型的應(yīng)用效果。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,從而使得大模型的應(yīng)用更加深入和廣泛:比如通過多篇財報進行市場分析、處理超長的法務(wù)合同、快速梳理多篇文章或多個網(wǎng)頁的關(guān)鍵信息、基于長篇小說設(shè)定進行角色扮演等等,都可以在超長文本技術(shù)的加持下,成為我們工作和生活的一部分。

    ? ? ? ?相比當(dāng)前市面上以英文為基礎(chǔ)訓(xùn)練的大模型服務(wù),Kimi Chat具備較強的多語言能力。例如,Kimi Chat在中文上具備顯著優(yōu)勢,實際使用效果能夠支持約 20 萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實測約8萬字),8倍于OpenAI公司的GPT-4-32k(實測約2.5萬字)。同時,Kimi Chat通過創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實現(xiàn)了無損的長程注意力機制,不依賴于滑動窗口、降采樣、小模型等對性能損害較大的“捷徑”方案。

    ? ? ? ?目前,Moonshot AI 的智能助手產(chǎn)品Kimi Chat已開放了內(nèi)測。

    ? ? ? ?大模型輸入長度受限帶來的應(yīng)用困境

    ? ? ? ?當(dāng)前大模型輸入長度普遍較低的現(xiàn)狀對其技術(shù)落地產(chǎn)生了極大制約,例如:

    ? ? ? ?目前大火的虛擬角色場景中,由于長文本能力不足,虛擬角色會輕易忘記重要信息,例如在Character AI的社區(qū)中用戶經(jīng)常抱怨“因為角色在多輪對話后忘記了自己的身份,所以不得不重新開啟新的對話”。

    ? ? ? ?對于大模型開發(fā)者來說,輸入prompt長度的限制約束了大模型應(yīng)用的場景和能力的發(fā)揮,比如基于大模型開發(fā)劇本殺類游戲時,往往需要將數(shù)萬字甚至超過十萬字的劇情設(shè)定以及游戲規(guī)則作為prompt加入應(yīng)用,如果模型輸入長度不夠,則只能削減規(guī)則和設(shè)定,從而無法達到預(yù)期游戲效果。

    ? ? ? ?在另一個大模型應(yīng)用的主要方向——Agent中,由于Agent運行需要自動進行多輪規(guī)劃和決策,且每次行動都需要參考歷史記憶信息才能完成,這會帶來了模型輸入的快速增加,同時也意味著不能處理更長上下文的模型將因為無法全面準(zhǔn)確的基于歷史信息進行新的規(guī)劃和決策從而降低Agent運行成功的概率。

    ? ? ? ?在使用大模型作為工作助理完成任務(wù)的過程中,幾乎每個深度用戶都遇到過輸入長度超出限制的情況。尤其是律師、分析師、咨詢師等職業(yè)的用戶,由于常常需要分析處理較長的文本內(nèi)容,使用大模型時受挫的情況發(fā)生頻率極 高。

    ? ? ? ?而上述所有的問題在大模型擁有足夠長的上下文輸入后都將會迎刃而解。

    ? ? ? ?長文本打開大模型應(yīng)用的新世界

    ? ? ? ?那么擁有超長上下文輸入后的大模型會有怎樣的表現(xiàn)?下面是一些Kimi Chat實際使用的例子:

    ? ? ? ?公眾號的長文直接交給Kimi Chat ,讓它幫你快速總結(jié)分析

    ? ? ? ?新鮮出爐的英偉達財報,交給Kimi Chat,快速完成關(guān)鍵信息分析:

    ? ? ? ?出差發(fā)票太多?全部拖進Kimi Chat,快速整理成需要的信息:

    ? ? ? ?發(fā)現(xiàn)了新的算法論文時,Kimi Chat能夠直接幫你根據(jù)論文復(fù)現(xiàn)代碼:

    ? ? ? ?只需要一個網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天:

    ? ? ? ?輸入整本《月亮與六便士》,讓Kimi Chat和你一起閱讀,幫助你更好的理解和運用書本中的知識:

    ? ? ? ?通過上述例子,我們可以看到,當(dāng)模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景,真正在人們的工作、生活、學(xué)習(xí)中發(fā)揮作用,而且由于可以直接基于全文理解進行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度的解決。

    ? ? ? ?不走捷徑,解決算法和工程的雙重挑戰(zhàn)

    ? ? ? ?長文本技術(shù)的開發(fā),存在一些對效果損害很大的“捷徑”,主要包含以下幾個方面:

    ? ? ? ?“金魚”模型,特點是容易“健忘”。通過滑動窗口等方式主動拋棄上文,只保留對最 新輸入的注意力機制。模型無法對全文進行完整理解,無法處理跨文檔的比較和長文本的綜合理解(例如,無法從一篇 10 萬字的用戶訪談錄音轉(zhuǎn)寫中提取最有價值的 10 個觀點)。

    ? ? ? ?“蜜蜂”模型,特點是只關(guān)注局部,忽略整體。通過對上下文的降采樣或者RAG(檢索增強的生成),只保留對部分輸入的注意力機制。模型同樣無法對全文進行完整理解(例如,無法從 50 個簡歷中對候選人的畫像進行歸納和總結(jié))。

    ? ? ? ?“蝌蚪”模型,特點是模型能力尚未發(fā)育完整。通過減少參數(shù)量(例如減少到百億參數(shù))來提升上下文長度,這種方法會降低模型本身的能力,雖然能支持更長上下文,但是大量任務(wù)無法勝任。

    ? ? ? ?簡單的捷徑無法達到理想的產(chǎn)品化效果。為了真正做出可用、好用的產(chǎn)品,就不能走虛假的捷徑,而應(yīng)直面挑戰(zhàn)。

    ? ? ? ?訓(xùn)練層面,想訓(xùn)練得到一個支持足夠長上下文能力的模型,不可避免地要面對如下困難:

    ? ? ? ?如何讓模型能在幾十萬的上下文窗口中,準(zhǔn)確的 Attend 到所需要的內(nèi)容,不降低其原有的基礎(chǔ)能力?已有的類似滑動窗口和長度外推等技術(shù)對模型性能的損害比較大,在很多場景下無法實現(xiàn)真正的上下文。

    ? ? ? ?在千億參數(shù)級別訓(xùn)練長上下文模型,帶來了更高的算力需求和極嚴(yán)重的顯存壓力,傳統(tǒng)的 3D 并行方案已經(jīng)難以無法滿足訓(xùn)練需求。

    ? ? ? ?缺乏充足的高質(zhì)量長序列數(shù)據(jù),如何提供更多的有效數(shù)據(jù)給模型訓(xùn)練?

    ? ? ? ?推理層面,在獲得了支持超長上下文的模型后,如何讓模型能服務(wù)眾多用戶,同樣要面臨艱巨挑戰(zhàn):

    ? ? ? ?Transformer模型中自注意力機制(Self Attention)的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加 32 倍時,計算量實際會增長 1000 倍,這意味著如果只是用樸素的方式實現(xiàn),用戶需要等待極其長的時間才能獲得反饋。

    ? ? ? ?超長上下文導(dǎo)致顯存需求進一步增長:以 1750 億參數(shù)的 GPT- 3 為例,目前最 高單機配置( 80 GiB * 8 )最多只能支持 64k 上下文長度的推理,超長文本對顯存的要求可見一斑。

    ? ? ? ?極大的顯存帶寬壓力:英偉達A800 或 H800 的顯存帶寬高達 2-3 TiB/s,但面對如此長的上下文,樸素方法的生成速度只能達到 2~5 tokens/s,使用的體驗極其卡頓。

    ? ? ? ?Moonshot AI的技術(shù)團隊進行了極 致的算法和工程優(yōu)化,克服上述困難完成了大內(nèi)存模型的產(chǎn)品化,發(fā)布了支持 20 萬字輸入的千億參數(shù)LLM產(chǎn)品。

    ? ? ? ?“登月計劃”第 一步:歡迎來到?Long LLM?時代

    ? ? ? ?Moonshot AI創(chuàng)始人楊植麟此前在接受采訪時曾表示,無論是文字、語音還是視頻,對海量數(shù)據(jù)的無損壓縮可以實現(xiàn)高程度的智能。

    ? ? ? ?無損壓縮的進展曾極度依賴「參數(shù)為王」模式,該模式下壓縮比直接與參數(shù)量相關(guān),這極大增加了模型的訓(xùn)練成本和應(yīng)用門檻,而Moonshot AI認為:大模型的能力上限(即無損壓縮比)是由單步能力和執(zhí)行的步驟數(shù)共同決定的。單步能力與參數(shù)量正相關(guān),而執(zhí)行步驟數(shù)即上下文長度。

    ? ? ? ?Moonshot AI相信,更長的上下文長度可以為大模型應(yīng)用帶來全新的篇章,促使大模型從 LLM時代進入Long LLM (LLLM)時代:

    ? ? ? ?每個人都可以擁有一個具備終身記憶的虛擬伴侶,它可以在生命的長河中記住與你交互的所有細節(jié),建立長期的情感連接。

    ? ? ? ?每個人都可以擁有一個在工作環(huán)境與你共生(co-inhabit)的助手,它知曉公域( 互聯(lián)網(wǎng))和私域(企業(yè)內(nèi)部文檔)的所有知識,并基于此幫助你完成OKR。

    ? ? ? ?每個人都可以擁有一個無所不知的學(xué)習(xí)向?qū)?,不僅能夠準(zhǔn)確的給你提供知識,更能夠引導(dǎo)你跨越學(xué)科間的壁壘,更加自由的探索與創(chuàng)新。

    ? ? ? ?當(dāng)然,更長的上下文長度只是Moonshot AI在下一代大模型技術(shù)上邁出的第 一步。Moonshot AI計劃憑借該領(lǐng)域的領(lǐng)先技術(shù),加速大模型技術(shù)的創(chuàng)新和應(yīng)用落地。

    ? ? ? ?登月計劃的伙伴說:

    ? ? ? ?Monolith礪思資本專注于新一代數(shù)字產(chǎn)業(yè)和科技智造領(lǐng)域的投資,是Moonshot AI第 一輪融資的 3 家投資機構(gòu)之一,并一直以實際行動支持著公司發(fā)展。礪思資本創(chuàng)始合伙人曹曦表示,楊植麟是全球大模型領(lǐng)域里最被認可的華人技術(shù)專家,其團隊在人工智能技術(shù),特別是大語言模型LLM領(lǐng)域擁有深厚的技術(shù)積累,并已在國際上獲得了廣泛認可。眼下,美國硅谷的OpenAI和Anthropic等公司獲得了多方關(guān)注,實際上在國內(nèi),擁有足夠多技術(shù)儲備的Moonshot AI也正成長為全球領(lǐng)先的AGI初創(chuàng)公司。多模態(tài)大模型是各家AI廠商競爭的關(guān)鍵領(lǐng)域,其中長文本輸入技術(shù)更是其核心技術(shù)之一,Moonshot AI團隊最 新發(fā)布的大模型和Kimi Chat在這方面實現(xiàn)了重要突破,并已成功應(yīng)用于多個實際場景。礪思將繼續(xù)加碼并支持Moonshot AI團隊在AGI領(lǐng)域大膽創(chuàng)新和技術(shù)突破,引領(lǐng)中國人工智能技術(shù)的未來發(fā)展。

    ? ? ? ?真格基金合伙人戴雨森對公司的發(fā)展表達了肯定和期許:“我們認為近期AI應(yīng)用的爆火只是一場革命的序幕,AI技術(shù)要想真正改變世界創(chuàng)造巨大價值,在智能程度上還需要大的突破,這需要具備頂 級技術(shù)能力的團隊,以堅持追尋Moonshot的勇氣,持續(xù)挑戰(zhàn)智能提升的邊界。楊植麟作為XLNet等多項知名科研工作的第 一作者,具備非常豐富的科研和實踐經(jīng)驗,多年來他一直堅信通過大模型實現(xiàn)對高維數(shù)據(jù)的壓縮是人工智能發(fā)展的必經(jīng)之路,也團結(jié)了一支人才密度超高,配合默契,又充滿挑戰(zhàn)巨頭搖滾精神的創(chuàng)業(yè)團隊。真格基金非常榮幸能夠再次從天使輪開始支持楊植麟的新征程?!?/p>

    ? ? ? ?關(guān)于?Moonshot AI

    ? ? ? ?Moonshot AI 創(chuàng)立于 2023 年 3 月,致力于尋求將能源轉(zhuǎn)化為智能的優(yōu)解,通過產(chǎn)品與用戶共創(chuàng)智能。創(chuàng)始團隊核心成員參與了 Google Gemini、Google Bard、盤古NLP、悟道等多個大模型的研發(fā),多項核心技術(shù)被Google PaLM、Meta LLaMa、Stable Diffusion等主流產(chǎn)品采用。Moonshot AI 融資超 2 億美元。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。任何單位或個人認為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明(點擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • 1000上下文!新開源多模態(tài)大模型,單個GPU就能運行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領(lǐng)域。僅過了2個月,Meta最新開源的Llama4Scout就將上下文擴展至1000萬,整整提升了5倍開啟千萬級時代。根據(jù)實驗數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 為什么要使用MCP?MCP模型上下文協(xié)議能解決什么問題?

      在當(dāng)今數(shù)字化時代,AI應(yīng)用的開發(fā)和部署正面臨著一個關(guān)鍵挑戰(zhàn):如何將AI技術(shù)與現(xiàn)有的服務(wù)和系統(tǒng)高效集成。為了解決這一難題,MCP應(yīng)運生。AIbase的MCP資源網(wǎng)站還提供了詳細的開發(fā)文檔和教程,幫助開發(fā)者快速上手并深入學(xué)習(xí)MCP技術(shù)。

    • 阿丘科技李嘉悅:大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能的協(xié)同進化

      3月28日,由機器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機器視覺及工業(yè)應(yīng)用研討會現(xiàn)場,圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進化”的主題,發(fā)表了精彩演講?!苯衲辏谶@個快速變化的時代,我要補充一句:“AI工業(yè)視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰。

    • 剛剛,OpenAI發(fā)布GPT-4.1,性能暴漲、100上下文

      今天凌晨1點,OpenAI進行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。除了GPT-4.1之外,還有GPT4.1-Mini和GPT4.1-Nano兩款模型,在多模態(tài)處理、代碼能力、指令遵循、成本方面實現(xiàn)大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領(lǐng)域幫助巨大。由于GPT-4.1的發(fā)布,OpenAI宣布將會淘汰剛發(fā)布不久的GPT-4.5,其能力可見一斑。目前,如果想體驗GPT-4.1而無法通過API身?

    • 中國科幻頂級IP 曝胡歌、段奕宏將出演《三體2》:有望明年開拍

      快科技4月16日消息,今日,有博主爆料,稱胡歌、段奕宏將出演《三體2》,網(wǎng)友猜測對應(yīng)的角色應(yīng)該是羅輯和章北海,目前,官方暫未公開演員陣容。據(jù)媒體報道,今年3月,劇版《三體》系列制作方、靈河文化創(chuàng)始人白一驄透露,《三體2》已經(jīng)籌備兩年,有望明年春天在成都拍攝。根據(jù)廣電總局辦公廳發(fā)布的關(guān)于2025年1月全國拍攝制作電視劇備案公示的通知,騰訊企鵝影視《三體黑暗森林-上》拍攝制作備案公示,該劇改編自劉慈欣的科幻小說《三體:黑暗森林》,預(yù)計26集,制作周期20個月,將于今年7月開拍。在中國科幻領(lǐng)域,劉慈欣的小說《三體》可?

    • 九為健康聯(lián)合華為云發(fā)布神農(nóng)中醫(yī)大模型智能,解碼如何用大模型重構(gòu)“望聞問切”

      2025 年 4 月 11 日,在華為云生態(tài)大會上,浙江九為健康科技股份有限公司(以下簡稱"九為健康")正式發(fā)布基于華為云盤古大模型的"九為神農(nóng)中醫(yī)大模型智能體"。該解決方案依托AI技術(shù),系統(tǒng)性攻克中醫(yī)藥研發(fā)周期長、作用機制解析困難、個性化方案制定復(fù)雜等產(chǎn)業(yè)難題,通過智能化手段推動中醫(yī)藥現(xiàn)代化進程,為醫(yī)藥全產(chǎn)業(yè)鏈提供覆蓋研發(fā)、診療及健康管理的全流程智能服?

    • 大模型不停進步,“殺死”了舊時代的產(chǎn)品經(jīng)理

      互聯(lián)網(wǎng)時代屬于產(chǎn)品經(jīng)理的高光沒有在AI時代復(fù)現(xiàn)。2024年,生成式大模型的迭代步伐暫時放緩,產(chǎn)品經(jīng)理與創(chuàng)業(yè)者們看到了機會窗口,紛紛投入應(yīng)用層開發(fā),市場也期待從中涌現(xiàn)殺手級應(yīng)用;但邁進2025年,應(yīng)用層的失落,以及DeepSeek的出現(xiàn),再次將行業(yè)視線扭回基礎(chǔ)模型能力的迭代,“模型即產(chǎn)品”的呼聲,引發(fā)了新一輪的產(chǎn)品經(jīng)理“存在危機”。誰先走出從對過往光環(huán)的虛?

    • 大模型AI基礎(chǔ)設(shè)施,商湯的反向求解

      大模型落地如火如荼,從上一代AI浪潮中殺出來的商湯,嗅到了這里面新的機會。在最火的具身智能賽道,這兩年誕生了許多明星創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司的創(chuàng)始人往往擁有技術(shù)明星的光環(huán),不少都是在學(xué)術(shù)界中某個技術(shù)領(lǐng)域中響當(dāng)當(dāng)?shù)念I(lǐng)頭人。這些初創(chuàng)公司雖然在某一個單點技術(shù)上遙遙領(lǐng)先(大腦、小腦或者本體),但在機器人落地過程中,要突破從單一技術(shù)到整體復(fù)雜產(chǎn)品

    • AI孫悟空”會說中日英語?訊飛星火AI大模型展項亮相大阪世博會

      4 月 13 日,主題為“構(gòu)想煥發(fā)生機的未來社會”的日本大阪·關(guān)西世博會(以下簡稱“大阪世博會”)開幕。大阪世博會中國館以“共同構(gòu)建人與自然生命共同體——綠色發(fā)展的未來社會”為主題,攜“嫦娥五號”月壤樣本、“蛟龍”號體驗艙等頂尖科技成果亮相,并通過大量互動裝置和數(shù)字化科技、AI技術(shù)等讓展品“活起來”、展項“動起來”,向全球展示生動靚麗的“中國?