中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 傳媒 > 關(guān)鍵詞  > 正文

    深度學(xué)習(xí)模型部署與優(yōu)化:策略與實(shí)踐;L40S與A100、H100的對比分析

    2023-09-22 14:30 · 稿源: 站長之家用戶

    ★深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、生成式AI、深度神經(jīng)網(wǎng)絡(luò)、抽象學(xué)習(xí)、Seq2Seq、VAE、GAN、GPT、BERT、預(yù)訓(xùn)練語言模型、Transformer、ChatGPT、GenAI、多模態(tài)大模型、視覺大模型、TensorFlow、PyTorch、Batchnorm、Scale、Crop算子、L40S、A100、H100、A800、H800

    隨著生成式AI應(yīng)用的迅猛發(fā)展,我們正處在比較罕見的大爆發(fā)時(shí)代。在這個(gè)時(shí)代,深度學(xué)習(xí)模型的部署成為一個(gè)亟待解決的問題。盡管GPU在訓(xùn)練和推理中扮演著關(guān)鍵角色,但關(guān)于它在生成式AI領(lǐng)域的誤解仍然存在。近期英偉達(dá)L40S GPU架構(gòu)成為了熱門話題,那么與A100 和H100 相比,L40S有哪些優(yōu)勢呢?

    生成式AI應(yīng)用進(jìn)入大爆發(fā)時(shí)代

    一、驅(qū)動(dòng)因素:大模型、算力與生態(tài)的共振

    生成式AI起源于 20 世紀(jì) 50 年代Rule-based的專家系統(tǒng),雖具備處理字符匹配、詞頻統(tǒng)計(jì)等簡單任務(wù)的能力,但詞匯量有限,上下文理解欠佳,生成創(chuàng)造性內(nèi)容的能力非常薄弱。

    80 年代機(jī)器學(xué)習(xí)的興起為AI注入新動(dòng)力, 90 年代神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使其開始模仿人腦,從數(shù)據(jù)中學(xué)習(xí)生成更真實(shí)內(nèi)容的能力。當(dāng)代生成式AI的核心技術(shù)起源于 2012 年后深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的不斷深化,模型通過層層抽象學(xué)習(xí)任務(wù)的復(fù)雜特征表示,進(jìn)而提高準(zhǔn)確性和真實(shí)性。

    隨后幾年,Seq2Seq、VAE、GAN等一系列算法的成熟,以及計(jì)算能力和數(shù)據(jù)規(guī)模的增長,使大模型訓(xùn)練成為可能,讓生成式AI發(fā)展產(chǎn)生質(zhì)的飛躍。特別是GPT、BERT等預(yù)訓(xùn)練語言模型的誕生,標(biāo)志著文本生成領(lǐng)域邁入新的階段。

    人工智能產(chǎn)業(yè)發(fā)展浪潮

    1、模型、算力、生態(tài)推動(dòng) AI 應(yīng)用進(jìn)入大爆發(fā)時(shí)代

    1)算法及模型的快速進(jìn)步

    GenAI在文本領(lǐng)域取得重大進(jìn)展,隨著 2017 年Transformer模型的發(fā)布和 2022 年ChatGPT的推出,其多項(xiàng)能力已經(jīng)超越人類基準(zhǔn)。未來,更強(qiáng)大的語言大模型如GPT- 5 以及多模態(tài)大模型和視覺大模型的技術(shù)突破,將繼續(xù)推動(dòng)AI應(yīng)用的持續(xù)進(jìn)化。

    2)算力基礎(chǔ)設(shè)施將更快、更便宜

    雖然短期內(nèi)大模型訓(xùn)練需求的激增導(dǎo)致算力成本的持續(xù)上漲,但是隨著英偉達(dá)算力芯片的不斷更新迭代,微軟、亞馬遜、谷歌等在 AI 云服務(wù)資本開支的不斷加大,AI 應(yīng)用的發(fā)展將得到更加強(qiáng)有力的支撐。

    3)AI 生態(tài)的逐漸成熟

    AI 組件層(AI Stack)的完善和產(chǎn)業(yè)分工細(xì)化,為 AI 應(yīng)用在模型訓(xùn)練、數(shù)據(jù)整合、應(yīng)用開發(fā)、應(yīng)用部署等環(huán)節(jié)提供全生命周期的支撐。

    模型、算力、生態(tài)推動(dòng)為 AI 應(yīng)用進(jìn)入大爆發(fā)時(shí)代

    目前,GPT- 4 在推理、生成、對話等多個(gè)維度上已經(jīng)超過人類水平。其強(qiáng)大不僅在于文本,更在于大模型框架本身就可適用于各種任務(wù),成為包括圖像、代碼、音頻等在內(nèi)的多模態(tài)生成的統(tǒng)一技術(shù)基礎(chǔ)。

    GPT-4 是目前最 強(qiáng)大的大模型

    二、產(chǎn)業(yè)現(xiàn)狀:一二級視角看 AI 應(yīng)用的演進(jìn)

    生成式AI應(yīng)用的發(fā)展經(jīng)歷三個(gè)階段:

    1、GPT- 3 催生期

    GPT- 3 強(qiáng)大的語言生成能力,使第 一批像Jasper AI的生成式AI應(yīng)用得以在 2021 年誕生,并迅速增長用戶和收入。

    2、 2022 年爆發(fā)期

    這一年AI作畫應(yīng)用層出不窮,代表作有MidJourney和Stable Diffusion等。同時(shí)ChatGPT的發(fā)布標(biāo)志著文本生成進(jìn)入新的高度。視頻、3D等其他模態(tài)的生成能力也在提升。

    3、 2023 年商業(yè)化期

    GPT- 4 進(jìn)一步提升語言模型能力,而開源模型Llama提供低成本選擇。各行業(yè)的AI應(yīng)用如雨后春筍般涌現(xiàn),Microsoft和Salesforce等巨頭公布了AI產(chǎn)品的商業(yè)定價(jià),預(yù)示著AI應(yīng)用正式步入商業(yè)化。

    生成式 AI 應(yīng)用的發(fā)展階段

    三、應(yīng)用框架:應(yīng)用的四大賽道與產(chǎn)業(yè)邏輯

    生成式AI應(yīng)用可分為工具類、通用軟件類、行業(yè)軟件類和智能硬件類。工具類應(yīng)用如聊天機(jī)器人主要服務(wù)C端,同質(zhì)化嚴(yán)重,對底層模型高度依賴。通用軟件類應(yīng)用如辦公軟件,標(biāo)桿產(chǎn)品已經(jīng)出現(xiàn),將進(jìn)入商業(yè)化階段。行業(yè)軟件類面向特定垂直領(lǐng)域,如金融和醫(yī)療,行業(yè)差異大,數(shù)據(jù)挖掘是核心競爭力。智能硬件類應(yīng)用如自動(dòng)駕駛,感知和決策是瓶頸,需要底層技術(shù)突破。從工具類到智能硬件類,應(yīng)用呈現(xiàn)從通用到專業(yè)、從C端到B端的演進(jìn)趨勢,競爭核心也從對模型依賴向數(shù)據(jù)應(yīng)用和底層技術(shù)創(chuàng)新轉(zhuǎn)變。這標(biāo)志著生成式AI應(yīng)用正在朝著成熟和落地方向發(fā)展。

    生成式 AI 應(yīng)用產(chǎn)業(yè)地圖

    生成式AI的三大底層元能力是感知、分析和生成。當(dāng)前以文本理解為主,未來會(huì)延伸到圖像視覺感知。分析能力將從信息整合走向復(fù)雜推理。生成能力也會(huì)從文本拓展到圖片、視頻等多模態(tài)內(nèi)容。通過這三大能力的協(xié)同提升,生成式AI將實(shí)現(xiàn)跨模態(tài)的統(tǒng)一感知、理解和創(chuàng)造,向著對真實(shí)世界的全面理解與創(chuàng)造性反應(yīng)的方向演進(jìn),以達(dá)到更強(qiáng)大的智能水平。

    生成式AI未來發(fā)展有四大方向:內(nèi)容生成、知識洞察、智能助手和數(shù)字代理。內(nèi)容生成是核心價(jià)值,通過提升大模型和多模態(tài)技術(shù)實(shí)現(xiàn)更廣泛內(nèi)容的自動(dòng)化生成。知識洞察利用大模型分析數(shù)據(jù)提供洞見,服務(wù)決策。智能助手將AI能力嵌入場景中主動(dòng)協(xié)作。數(shù)字代理基于環(huán)境自主決策和行動(dòng)達(dá)成目標(biāo)。從被動(dòng)服務(wù)到主動(dòng)作為,生成式AI正朝著具備內(nèi)容創(chuàng)造、洞悉世界、智能協(xié)作及自主行動(dòng)的更高智能方向演進(jìn)。

    AI 細(xì)分應(yīng)用的標(biāo)桿產(chǎn)品與發(fā)展路徑

    深度學(xué)習(xí)模型如何部署

    訓(xùn)練出的模型需要經(jīng)過優(yōu)化和調(diào)整,以轉(zhuǎn)化為標(biāo)準(zhǔn)格式的推理模型,以便在部署中使用。優(yōu)化包括算子融合、常量折疊等操作,以提高推理性能。由于部署目標(biāo)場景各異,需要根據(jù)硬件限制來選擇合適的模型格式。為了適應(yīng)硬件限制,可能需要使用模型壓縮或降低精度等方法。模型部署后,推理時(shí)延和占用資源是關(guān)鍵指標(biāo),可以通過定制化芯片和軟硬協(xié)同優(yōu)化等方式進(jìn)行改進(jìn)。在軟件優(yōu)化中,需要考慮到數(shù)據(jù)布局、計(jì)算并行等因素,并針對CPU架構(gòu)進(jìn)行設(shè)計(jì)。模型是企業(yè)的重要資產(chǎn),因此部署后必須確保其安全性??傊?,模型從訓(xùn)練到部署需要經(jīng)歷多個(gè)過程,包括轉(zhuǎn)化優(yōu)化、規(guī)模調(diào)整和軟硬協(xié)同等,以確保適應(yīng)不同場景的資源限制、性能指標(biāo)和安全要求,并充分發(fā)揮模型的價(jià)值。

    針對上述模型部署時(shí)的挑戰(zhàn),業(yè)界有一些常見的方法:

    • 算子融合

    通過表達(dá)式簡化、屬性融合等方式將多個(gè)算子合并為一個(gè)算子的技術(shù),融合可以降低模型的計(jì)算復(fù)雜度及模型的體積。

    • 常量折疊

    將符合條件的算子在離線階段提前完成前向計(jì)算,從而降低模型的計(jì)算復(fù)雜度和模型的體積。

    • 模型壓縮

    通過量化、剪枝等手段減小模型體積以及計(jì)算復(fù)雜度的技術(shù),可以分為需要重訓(xùn)的壓縮技術(shù)和不需要重訓(xùn)的壓縮技術(shù)兩類。

    • 數(shù)據(jù)排布

    根據(jù)后端算子庫支持程度和硬件限制,搜索網(wǎng)絡(luò)中每層的最 優(yōu)數(shù)據(jù)排布格式,并進(jìn)行數(shù)據(jù)重排或者插入數(shù)據(jù)重排算子,從而降低部署時(shí)的推理時(shí)延。

    • 模型混淆

    對訓(xùn)練好的模型進(jìn)行混淆操作,主要包括新增網(wǎng)絡(luò)節(jié)點(diǎn)和分支、替換算子名的操作,攻擊者即使竊取到混淆后的模型也不能理解原模型的結(jié)構(gòu)。此外,混淆后的模型可以直接在部署環(huán)境中以混淆態(tài)執(zhí)行,保證模型在運(yùn)行過程中的安全性。

    一、訓(xùn)練模型到推理模型的轉(zhuǎn)換及優(yōu)化?

    1、模型轉(zhuǎn)換

    不同的模型訓(xùn)練框架如TensorFlow和PyTorch都有各自的數(shù)據(jù)結(jié)構(gòu)定義,這給模型部署帶來了一定的不便。為解決這個(gè)問題,業(yè)界開發(fā)開放的神經(jīng)網(wǎng)絡(luò)交換格式ONNX。它具有強(qiáng)大的表達(dá)能力,支持各種運(yùn)算符,并提供不同框架到ONNX的轉(zhuǎn)換器。

    模型轉(zhuǎn)換的本質(zhì)是在不同的數(shù)據(jù)結(jié)構(gòu)之間傳遞結(jié)構(gòu)化信息。因此,需要分析兩種結(jié)構(gòu)的異同點(diǎn),對相似的結(jié)構(gòu)部分進(jìn)行直接映射,而對差異較大的部分則要根據(jù)語義找出合理的轉(zhuǎn)換方式。如果存在不兼容的情況,則無法進(jìn)行轉(zhuǎn)換。

    ONNX的優(yōu)勢在于其強(qiáng)大的表達(dá)能力,大多數(shù)框架的模型都可以轉(zhuǎn)換到ONNX上,從而避免了不兼容的問題。作為中間表示格式,ONNX成為不同框架和部署環(huán)境之間的橋梁,實(shí)現(xiàn)模型的無縫遷移。

    模型可以抽象為一種圖,從而模型的數(shù)據(jù)結(jié)構(gòu)可以解構(gòu)為以下兩個(gè)要點(diǎn):

    1)模型拓?fù)溥B接

    從圖論角度看是圖的邊,對應(yīng)模型中的數(shù)據(jù)流和控制流。決定子圖表達(dá)、輸入輸出以及控制流結(jié)構(gòu)。不同框架對此有不同表示,需要進(jìn)行等價(jià)轉(zhuǎn)換。如TensorFlow的循環(huán)控制流轉(zhuǎn)為ONNX的While、If算子,避免引入環(huán)。

    2)算子原型定義

    從圖論角度看是圖的頂點(diǎn),對應(yīng)模型的運(yùn)算單元。包括算子類型、輸入輸出、屬性等。不同框架的算子雖然名稱相同,但語義不一致。因此需要解析語義等價(jià)性,進(jìn)行適當(dāng)映射。例如Caffe的Slice算子需要轉(zhuǎn)為ONNX的Split。沒有完全等價(jià)算子也需要組合表達(dá)。

    模型轉(zhuǎn)換完成后,會(huì)進(jìn)行各種優(yōu)化來提前完成一些常量計(jì)算,合并相關(guān)的算子,用更強(qiáng)大的算子替換多個(gè)簡單算子,根據(jù)依賴關(guān)系重排算子等。這些算子融合、折疊、替換、重排的優(yōu)化手段和編譯器進(jìn)行的優(yōu)化非常類似,目的都是提前計(jì)算,減少運(yùn)算量,增強(qiáng)并行度。之所以只能在部署階段進(jìn)行徹底優(yōu)化是因?yàn)橹挥羞@個(gè)時(shí)段才能確定硬件后端和運(yùn)行環(huán)境。模型部署階段的優(yōu)化能夠有效壓縮模型大小,減少計(jì)算量,提升執(zhí)行效率。與編譯優(yōu)化思路一脈相承都遵循提前計(jì)算、融合運(yùn)算、調(diào)整布局的策略,以更好地發(fā)揮硬件性能。

    2、算子融合?

    算子融合是一種模型壓縮技術(shù),其核心思想是合并多個(gè)相關(guān)的算子成一個(gè)算子。在深度學(xué)習(xí)模型中,大量重復(fù)的計(jì)算和頻繁的內(nèi)存訪問會(huì)導(dǎo)致推理延遲和能耗問題。算子融合通過解析模型拓?fù)浣Y(jié)構(gòu),找出可以合并的算子節(jié)點(diǎn),按照一定規(guī)則將其“融合”為新的算子。這相當(dāng)于在圖論中的“合同圖”,可以有效減少節(jié)點(diǎn)數(shù)量和邊數(shù)量。減少節(jié)點(diǎn)數(shù)量意味著運(yùn)算步驟更少,減少邊數(shù)量意味著內(nèi)存訪問更少。因此,算子融合技術(shù)可以減小模型的計(jì)算復(fù)雜度和存儲(chǔ)占用,從而降低模型推理時(shí)的時(shí)延和功耗。

    計(jì)算機(jī)分層存儲(chǔ)架構(gòu)

    算子融合的性能提升主要源自兩點(diǎn):

    1)充分利用緩存,減少內(nèi)存訪問

    CPU寄存器和多級緩存速度遠(yuǎn)快于內(nèi)存,融合后一次計(jì)算結(jié)果可暫存至高速緩存,供下一計(jì)算直接讀取,省去內(nèi)存讀寫的開銷。

    2)提前計(jì)算,消除冗余

    多次相同計(jì)算可以預(yù)先完成,避免在前向推理時(shí)重復(fù)運(yùn)算,特別是循環(huán)中的重復(fù)計(jì)算。CPU與內(nèi)存之間存在巨大的速度鴻溝??拷麮PU的緩存越小且越快,內(nèi)存越大越慢。算子融合通過合并操作,充分利用緩存加速重復(fù)計(jì)算,并消除冗余,減少內(nèi)存訪問次數(shù)。這是其能明顯減小時(shí)延和功耗的根本原因。

    3、算子替換

    算子替換旨在將模型中的算子替換為計(jì)算邏輯相同但更適合在線部署的算子。該技術(shù)通過數(shù)學(xué)方法如合并同類項(xiàng)和提取公因式,簡化算子的計(jì)算公式,并將簡化后的公式映射到一類更有效的算子上。通過算子替換,可以實(shí)現(xiàn)降低計(jì)算量和模型大小的效果。

    Batchnorm算子替換

    通過將Batchnorm算子替換為Scale算子,可以在模型部署階段優(yōu)化功耗和性能。然而需要注意的是,這種優(yōu)化策略只適用于部署階段,因?yàn)樵谟?xùn)練階段,Batchnorm算子中的參數(shù)被視為變量而不是常量。此外,這種優(yōu)化策略會(huì)改變模型的結(jié)構(gòu),降低模型的表達(dá)能力,并且可能影響模型在訓(xùn)練過程中的收斂性和準(zhǔn)確率。

    4、算子重排

    算子重排通過重新排布模型中算子的拓?fù)湫騺頊p少模型推理的計(jì)算量,同時(shí)保持推理精度不變。常見的算子重排技術(shù)包括將裁切類算子(如Slice、StrideSlice、Crop等)向前移動(dòng),對Reshape和Transpose算子進(jìn)行重排,以及對BinaryOp算子進(jìn)行重排。這些技術(shù)的目標(biāo)是通過重新組織算子的計(jì)算順序,減少不必要的計(jì)算和數(shù)據(jù)傳輸,從而提高模型的推理效率。

    Crop算子重排

    通過將Crop算子的裁切過程前移,即在模型中提前對特征圖進(jìn)行裁切,可以降低后續(xù)算子的計(jì)算量,從而提高模型在部署階段的推理性能。這種優(yōu)化策略的性能提升取決于Crop算子的參數(shù)設(shè)置。然而需要注意的是,只有element-wise類算子才能進(jìn)行前移操作。根據(jù)之前的實(shí)驗(yàn)數(shù)據(jù),可以看出,在模型部署前進(jìn)行優(yōu)化可以顯著提升推理的時(shí)延、功耗和內(nèi)存占用效果。

    二、模型壓縮

    針對不同硬件環(huán)境的需求差異,比如在手機(jī)等資源受限的設(shè)備上部署模型時(shí),對模型大小通常有嚴(yán)格的要求,一般要求在幾兆字節(jié)的范圍內(nèi)。因此,對于較大的模型,通常需要采用一些模型壓縮技術(shù),以滿足不同計(jì)算硬件的需求。這些技術(shù)可以通過減少模型參數(shù)、降低模型復(fù)雜度或使用量化等方法來實(shí)現(xiàn)。通過模型壓縮,可以在保持模型性能的同時(shí),減小模型的存儲(chǔ)空間和計(jì)算開銷,從而更好地適應(yīng)不同的硬件平臺(tái)。

    1、量化

    模型量化通過以較低的推理精度損失來表示連續(xù)取值的浮點(diǎn)型權(quán)重。通過使用更少的位數(shù)來表示浮點(diǎn)數(shù)據(jù),模型量化可以減小模型的尺寸,從而減少在推理過程中的內(nèi)存消耗。此外,在一些支持低精度運(yùn)算的處理器上,模型量化還可以提高推理速度。

    量化原理

    在計(jì)算機(jī)中,不同數(shù)據(jù)類型的占用比特?cái)?shù)和表示范圍不同。通過將模型的參數(shù)量化為不同位數(shù)的數(shù)據(jù)類型,可以根據(jù)實(shí)際需求來降低模型的存儲(chǔ)大小。一般來說,深度神經(jīng)網(wǎng)絡(luò)中的參數(shù)使用單精度浮點(diǎn)數(shù)表示,但如果可以近似使用有符號整數(shù)來表示參數(shù),那么量化后的權(quán)重參數(shù)存儲(chǔ)大小可以減少到原來的四分之一。量化位數(shù)越少,模型壓縮率越高。

    此外,根據(jù)量化方法是否使用線性或非線性量化,可以進(jìn)一步將量化方法分為線性量化和非線性量化。實(shí)際深度神經(jīng)網(wǎng)絡(luò)中,權(quán)重和激活值通常是不均勻的,因此理論上,非線性量化可以更準(zhǔn)確地表示這些值,從而減小精度損失。然而,在實(shí)際推理中,非線性量化的計(jì)算復(fù)雜度較高,因此通常使用線性量化來進(jìn)行模型量化。

    1)量化感知訓(xùn)練

    量化感知訓(xùn)練是一種在訓(xùn)練過程中模擬量化的方法,通過在模型中插入偽量化算子來模擬量化操作。在每次訓(xùn)練迭代中,量化感知訓(xùn)練會(huì)計(jì)算量化網(wǎng)絡(luò)層的權(quán)重和激活值的范圍,并將量化損失引入前向推理和反向傳播的過程中。通過這種方式,優(yōu)化器可以在訓(xùn)練過程中盡量減少量化誤差,從而獲得更高的模型精度。

    具體而言,量化感知訓(xùn)練的流程如下:

    • 初始化:設(shè)置權(quán)重和激活值的范圍,并初始化網(wǎng)絡(luò)的權(quán)重和激活值。

    • 構(gòu)建模擬量化網(wǎng)絡(luò):在需要量化的權(quán)重和激活值后插入偽量化算子,以模擬實(shí)際量化操作。

    • 量化訓(xùn)練:重復(fù)以下步驟直到網(wǎng)絡(luò)收斂。a. 計(jì)算量化網(wǎng)絡(luò)層的權(quán)重和激活值的范圍。 b. 根據(jù)范圍將量化損失帶入前向推理和反向傳播的過程中,以更新網(wǎng)絡(luò)的參數(shù)。

    • 導(dǎo)出量化網(wǎng)絡(luò):獲取量化網(wǎng)絡(luò)層的權(quán)重和激活值的范圍,并計(jì)算量化參數(shù)。將量化參數(shù)代入量化公式中,將網(wǎng)絡(luò)中的權(quán)重轉(zhuǎn)換為量化整數(shù)值。最后,刪除偽量化算子,并在量化網(wǎng)絡(luò)層前后分別插入量化和反量化算子,以得到最終的量化網(wǎng)絡(luò)。

    通過量化感知訓(xùn)練,可以在減小模型尺寸的同時(shí),盡量保持模型的精度,并在低精度運(yùn)算較快的處理器上獲得更快的推理速度。

    2)訓(xùn)練后量化

    在訓(xùn)練后的量化中,有兩種常見的方法:權(quán)重量化和全量化。

    權(quán)重量化僅對模型的重進(jìn)行量化,以減小模型的大小。在推理時(shí),將量化后權(quán)重反量化為原始的float32 數(shù)據(jù),并使用普通的float32 算子進(jìn)行推理。權(quán)重量化的好處是不需要校準(zhǔn)數(shù)據(jù)集,不需要實(shí)現(xiàn)量化算子,并且模型的精度誤差較小。然而,由于實(shí)際推理仍使用float32 算子,推理性能不會(huì)提高。

    全量化不僅量化模型權(quán)重,還量化模型激活值,通過執(zhí)行量化算子來加速推理過程。為量化激活值,需要提供一定數(shù)量校準(zhǔn)數(shù)據(jù)集,用于統(tǒng)計(jì)每一層激活值的分布,并對量化算子進(jìn)行校準(zhǔn)。校準(zhǔn)數(shù)據(jù)集可以來自訓(xùn)練數(shù)據(jù)集或真實(shí)場景的輸入數(shù)據(jù),通常數(shù)量很小。

    在量化激活值時(shí),首先使用直方圖統(tǒng)計(jì)原始float32 數(shù)據(jù)的分布。然后,在給定的搜索空間中選擇適當(dāng)?shù)牧炕瘏?shù),將激活值量化為量化后的數(shù)據(jù)。接下來,使用直方圖統(tǒng)計(jì)量化后的數(shù)據(jù)分布,并計(jì)算量化參數(shù),以度量量化前后的分布差異。

    此外,由于量化存在固有誤差,需要校正量化誤差。例如,在矩陣乘法中,需要校正量化后的均值和方差,以使其與float32 算子一致。通過對量化后的數(shù)據(jù)進(jìn)行校正,可以保持量化后的分布與量化前一致。

    量化方法作為一種通用的模型壓縮方法,可以顯著提高神經(jīng)網(wǎng)絡(luò)存儲(chǔ)和壓縮的效率,并已經(jīng)被廣泛應(yīng)用。

    2、模型稀疏

    稀疏模型是一種通過減少神經(jīng)網(wǎng)絡(luò)中的組件來降低存儲(chǔ)和計(jì)算成本的方法。它是一種為了降低模型計(jì)算復(fù)雜度而引入的強(qiáng)歸納偏差,類似于模型權(quán)重量化、權(quán)重共享和池化等方法。

    1)模型稀疏的動(dòng)機(jī)

    稀疏模型的合理性可以從兩個(gè)方面解釋。

    • 現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型通常存在過多的參數(shù),這導(dǎo)致模型過于復(fù)雜和冗余。

    • 對于許多視覺任務(wù)來說,激活值特征圖中有用的信息只占整個(gè)圖像的一小部分。

    基于這些觀察,稀疏模型可以通過去除權(quán)重或激活值中弱連接來減少冗余。具體而言,稀疏模型會(huì)根據(jù)連接的強(qiáng)度(通常是權(quán)重或激活的絕 對值大小)對一些較弱的連接進(jìn)行剪枝,將它們置為零。這樣可以提高模型的稀疏度,并降低計(jì)算和存儲(chǔ)的需求。

    然而,需要注意的是,稀疏模型的稀疏度越高,模型的準(zhǔn)確率下降可能會(huì)越大。因此,稀疏模型的目標(biāo)是在提高稀疏度的同時(shí)盡量減小準(zhǔn)確率的損失。

    2)結(jié)構(gòu)與非結(jié)構(gòu)化稀疏

    權(quán)重稀疏可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化稀疏。結(jié)構(gòu)化稀疏通過在通道或卷積核層面對模型進(jìn)行剪枝,得到規(guī)則且規(guī)模更小的權(quán)重矩陣。這種稀疏方式適合在CPU和GPU上進(jìn)行加速計(jì)算,但準(zhǔn)確率下降較大。非結(jié)構(gòu)化稀疏可以對權(quán)重矩陣中任意位置的權(quán)重進(jìn)行裁剪,準(zhǔn)確率下降較小。然而,非結(jié)構(gòu)化稀疏的不規(guī)則性導(dǎo)致難以利用硬件加速,并帶來指令層面和線程層面的并行度下降,以及訪存效率降低的問題。為了克服這些問題,最近的研究提出了結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化稀疏的方法,以兼具兩者的優(yōu)點(diǎn)并解決其缺點(diǎn)。

    3)稀疏策略

    稀疏模型的具體策略包括預(yù)訓(xùn)練、剪枝和微調(diào)。預(yù)訓(xùn)練是指首先訓(xùn)練一個(gè)稠密模型,然后在此基礎(chǔ)上進(jìn)行稀疏和微調(diào)。剪枝是指根據(jù)一定的規(guī)則或標(biāo)準(zhǔn),去除模型中的冗余權(quán)重,使模型更加稀疏。剪枝可以一次性進(jìn)行,也可以與訓(xùn)練交替進(jìn)行,逐步發(fā)現(xiàn)冗余的部分。微調(diào)是指在剪枝后對模型進(jìn)行進(jìn)一步的訓(xùn)練,以恢復(fù)稀疏模型的準(zhǔn)確性。

    以Deep Compression為例,剪枝后的稀疏模型可以進(jìn)一步進(jìn)行量化,即使用更低比特的數(shù)據(jù)來表示權(quán)重。此外,結(jié)合霍夫曼編碼可以進(jìn)一步減小模型的存儲(chǔ)空間。這些策略的綜合應(yīng)用可以顯著降低模型的存儲(chǔ)需求,同時(shí)保持較高的準(zhǔn)確性。

    Deep Compression

    除了直接去除冗余的神經(jīng)元之外,還可以使用基于字典學(xué)習(xí)的方法來去除深度卷積神經(jīng)網(wǎng)絡(luò)中無用的權(quán)值。這種方法通過學(xué)習(xí)一系列卷積核的基,將原始卷積核變換到系數(shù)域上,并且使其變得稀疏。例如,Bagherinezhad等人提出了一種方法,將原始卷積核分解成卷積核的基和稀疏系數(shù)的加權(quán)線性組合。通過這種方式,可以有效地去除網(wǎng)絡(luò)中不必要的權(quán)值,從而減少模型的存儲(chǔ)需求和計(jì)算復(fù)雜度。

    3、知識蒸餾

    教師-學(xué)生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,也稱為知識蒸餾。在實(shí)踐中,大型深度網(wǎng)絡(luò)通常能夠獲得出色的性能,因?yàn)檫^度參數(shù)化有助于提高模型的泛化能力。在知識蒸餾中,通常使用一個(gè)較大的神經(jīng)網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),已經(jīng)經(jīng)過預(yù)訓(xùn)練并具有較高的準(zhǔn)確性。然后,將一個(gè)全新的、更深、更窄的神經(jīng)網(wǎng)絡(luò)作為學(xué)生網(wǎng)絡(luò),通過監(jiān)督學(xué)習(xí)的方式將教師網(wǎng)絡(luò)的知識傳授給學(xué)生網(wǎng)絡(luò)。知識蒸餾的關(guān)鍵在于如何有效地將教師網(wǎng)絡(luò)的知識轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中,從而提高學(xué)生網(wǎng)絡(luò)的性能和泛化能力。

    一種基于感知(attention)的教師神經(jīng)網(wǎng)絡(luò)-學(xué)生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

    知識蒸餾是一種有效的方法,可以幫助小網(wǎng)絡(luò)進(jìn)行優(yōu)化,并且可以與剪枝、量化等其他壓縮方法結(jié)合使用。通過知識蒸餾可以訓(xùn)練出具有高精度和較小計(jì)算量的有效模型。這種綜合應(yīng)用可以顯著減小模型的復(fù)雜性,同時(shí)保持較高的性能。

    四、模型推理

    將訓(xùn)練好的模型部署到計(jì)算硬件上進(jìn)行推理時(shí),需要經(jīng)歷幾個(gè)關(guān)鍵步驟:

    • 前處理:將原始數(shù)據(jù)進(jìn)行預(yù)處理,使其適合輸入到網(wǎng)絡(luò)中進(jìn)行推理。

    • 推理執(zhí)行:將經(jīng)過訓(xùn)練和轉(zhuǎn)換的模型部署到設(shè)備上,通過輸入數(shù)據(jù)進(jìn)行計(jì)算,得到輸出數(shù)據(jù)。

    • 后處理:對模型的輸出結(jié)果進(jìn)行進(jìn)一步的處理,例如應(yīng)用篩選閾值或其他后處理操作,以獲得最終的結(jié)果。

    這些步驟是將訓(xùn)練好的模型應(yīng)用到實(shí)際場景中的關(guān)鍵環(huán)節(jié),確保模型能夠正確地處理輸入數(shù)據(jù)并生成準(zhǔn)確的輸出。

    1、前處理與后處理

    1)前處理

    在機(jī)器學(xué)習(xí)中,數(shù)據(jù)預(yù)處理是一個(gè)關(guān)鍵的步驟,它的目的是將原始數(shù)據(jù)轉(zhuǎn)換為適合模型輸入的形式,并消除其中的噪聲和無關(guān)信息,以提高模型的性能和可靠性。

    數(shù)據(jù)預(yù)處理通常包括以下幾個(gè)方面:

    • 特征編碼:將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型可以處理的數(shù)字形式。這涉及到將不同類型的數(shù)據(jù)(如文本、圖像、音頻等)轉(zhuǎn)換為數(shù)值表示,例如使用獨(dú)熱編碼、序號編碼等方法。

    • 數(shù)據(jù)歸一化:將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使其具有相同的尺度和范圍,消除不同特征之間的量綱差異。常見的歸一化方法包括最小-最 大縮放和Z-score標(biāo)準(zhǔn)化。

    • 處理離群值:離群值是與其他數(shù)據(jù)點(diǎn)相比具有顯著不同的異常值,可能會(huì)對模型的性能產(chǎn)生負(fù)面影響。因此,可以通過檢測和處理離群值來提高模型的準(zhǔn)確性和魯棒性。

    通過數(shù)據(jù)預(yù)處理,我們可以提取和凸顯有價(jià)值的特征,同時(shí)去除無關(guān)信息和噪聲,為模型提供更好的輸入,從而改善模型的性能和泛化能力。

    2)后處理

    在模型推理完成后,通常需要對輸出數(shù)據(jù)進(jìn)行后處理,以獲得更可靠和有用的結(jié)果。常見的數(shù)據(jù)后處理手段包括:

    • 離散化連續(xù)數(shù)據(jù):如果模型的輸出是連續(xù)值,但實(shí)際應(yīng)用需要離散值,可以使用四舍五入、取閾值等方法將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),以得到實(shí)際可用的結(jié)果。

    • 數(shù)據(jù)可視化:通過將數(shù)據(jù)以圖形或表格的形式呈現(xiàn),可以更直觀地理解數(shù)據(jù)之間的關(guān)系和趨勢,從而決定下一步的分析策略。

    • 手動(dòng)調(diào)整預(yù)測范圍:某些情況下,回歸模型可能無法準(zhǔn)確預(yù)測極端值,而結(jié)果集中在中間范圍。在這種情況下,可以手動(dòng)調(diào)整預(yù)測范圍,通過乘以一個(gè)系數(shù)來放大或縮小預(yù)測結(jié)果,以獲得更準(zhǔn)確的預(yù)測結(jié)果。

    這些后處理手段可以進(jìn)一步優(yōu)化模型的輸出結(jié)果,使其更符合實(shí)際應(yīng)用需求,并提供更有用的信息供用戶決策和分析。

    2、并行計(jì)算

    為了提高推理性能,推理框架通常會(huì)使用多線程機(jī)制來利用多核處理器的能力。這種機(jī)制的主要思想是將輸入數(shù)據(jù)切分成多個(gè)小塊,并使用多個(gè)線程并行地執(zhí)行算子計(jì)算。每個(gè)線程負(fù)責(zé)處理不同的數(shù)據(jù)塊,從而實(shí)現(xiàn)算子的并行計(jì)算,大大提高了計(jì)算性能。通過這種方式,可以充分利用多核處理器的計(jì)算能力,加速推理過程,提高系統(tǒng)的響應(yīng)速度。

    矩陣乘數(shù)據(jù)切分

    為了實(shí)現(xiàn)矩陣乘的多線程并行計(jì)算,可以按照左矩陣的行進(jìn)行切分,并使用線程池機(jī)制來方便地進(jìn)行算子并行計(jì)算。在業(yè)界,有兩種常用的做法:

    1)使用OpenMP編程接口,它提供了一套跨平臺(tái)的共享內(nèi)存多線程并發(fā)編程API。通過使用OpenMP的"parallel for"接口,可以實(shí)現(xiàn)對for循環(huán)體的代碼進(jìn)行多線程并行執(zhí)行。

    2)推理框架自己實(shí)現(xiàn)針對算子并行計(jì)算的線程池機(jī)制。相對于使用OpenMP接口,推理框架的線程池可以更加針對性地實(shí)現(xiàn)算子的并行計(jì)算,從而提供更高的性能和更輕量的實(shí)現(xiàn)。

    3、算子優(yōu)化

    對于深度學(xué)習(xí)網(wǎng)絡(luò)而言,框架調(diào)度所占用的時(shí)間往往很少,性能的瓶頸通常出現(xiàn)在算子的執(zhí)行過程中。為提高性能,可以從硬件指令和算法兩個(gè)角度對算子進(jìn)行優(yōu)化。

    從硬件指令角度來看,可以利用特定的硬件指令集,例如SIMD(單指令多數(shù)據(jù))指令集,來并行處理多個(gè)數(shù)據(jù)。這樣可以減少指令的執(zhí)行次數(shù),提高計(jì)算效率。另外,還可以使用硬件加速器,如GPU(圖形處理器)或TPU(張量處理器),來加速算子的執(zhí)行。

    從算法角度來看,可以通過優(yōu)化算法的實(shí)現(xiàn)方式來提高性能。例如,可以使用更有效的矩陣乘法算法,減少乘法和加法的次數(shù)。還可以使用近似計(jì)算方法,如量化(將浮點(diǎn)數(shù)轉(zhuǎn)換為整數(shù))或剪枝(刪除不重要的權(quán)重),來減少計(jì)算量和存儲(chǔ)需求。

    1)硬件指令優(yōu)化

    絕大多數(shù)的設(shè)備上都有CPU,因此算子在CPU上的時(shí)間尤為重要。

    • 匯編語言

    高 級編程語言通過編譯器將代碼轉(zhuǎn)換為機(jī)器指令碼序列,但其功能受限于編譯器能力。相比之下,匯編語言更接近機(jī)器語言,可以直接編寫特定的指令碼序列。匯編語言編寫的程序占用的存儲(chǔ)空間較少,執(zhí)行速度更快,效率也更高。

    在實(shí)際應(yīng)用中,通常使用高 級編程語言編寫大部分代碼,而對于性能要求較高的部分,可以使用匯編語言編寫,從而實(shí)現(xiàn)優(yōu)勢互補(bǔ)。在深度學(xué)習(xí)中,卷積和矩陣乘等算子涉及大量計(jì)算,使用匯編語言編寫這些算子可以顯著提高模型訓(xùn)練和推理的性能,通常能夠?qū)崿F(xiàn)數(shù)十到數(shù)百倍的性能提升。

    • 寄存器與NEON指令

    在ARMv8 系列的CPU上,有 32 個(gè)NEON寄存器,每個(gè)寄存器可以存放 128 位的數(shù)據(jù)。這意味著每個(gè)寄存器可以存儲(chǔ) 4 個(gè)float32 數(shù)據(jù)、 8 個(gè)float16 數(shù)據(jù)或 16 個(gè)int8 數(shù)據(jù)。這些寄存器可以用于并行處理多個(gè)數(shù)據(jù),從而提高計(jì)算效率。

    ARMv8 處理器NEON寄存器v0 的結(jié)構(gòu)

    NEON指令集是針對ARMv8 系列處理器的一種特殊指令集,允許同時(shí)對多個(gè)數(shù)據(jù)進(jìn)行操作,從而提高數(shù)據(jù)存取和計(jì)算的速度。與傳統(tǒng)的單數(shù)據(jù)操作指令相比,NEON指令可以一次性處理多個(gè)數(shù)據(jù)。

    例如,NEON的fmla指令可以同時(shí)對多個(gè)寄存器中的浮點(diǎn)數(shù)進(jìn)行乘法和累加操作。指令的用法類似于"fmla v0.4s, v1.4s, v2.4s",其中v0、v1 和v2 分別表示NEON寄存器,".4s"表示每個(gè)寄存器中有 4 個(gè)float值。這條指令的作用是將v1 和v2 兩個(gè)寄存器中相應(yīng)位置的float值相乘,并將結(jié)果累加到v0 寄存器中的對應(yīng)位置。

    通過使用NEON指令集,開發(fā)者可以充分利用處理器的并行計(jì)算能力,以更有效的方式處理大量數(shù)據(jù)。這種并行計(jì)算的優(yōu)勢可以在許多應(yīng)用中得到體現(xiàn),特別是在涉及大規(guī)模矩陣運(yùn)算、圖像處理和信號處理等領(lǐng)域。

    fmla指令計(jì)算功能

    • 匯編語言優(yōu)化

    在編寫匯編語言程序時(shí),可以采取一些優(yōu)化策略來提高程序的性能,特別是通過提高緩存命中率來加速數(shù)據(jù)訪問。

    一種常見的優(yōu)化策略是循環(huán)展開,通過使用更多的寄存器來減少內(nèi)存訪問,從而提高性能。另外,指令重排也是一種有效的優(yōu)化方法,通過重新安排指令的執(zhí)行順序,使得流水線能夠更充分地利用,減少延遲。

    在使用NEON寄存器時(shí),合理地分塊寄存器可以減少寄存器空閑時(shí)間,增加寄存器的復(fù)用率。此外,通過重排計(jì)算數(shù)據(jù)的存儲(chǔ)順序,可以提高緩存命中率,盡量保證讀寫指令訪問的內(nèi)存是連續(xù)的。

    最后,使用預(yù)取指令可以將即將使用的數(shù)據(jù)提前從主存加載到緩存中,以減少訪問延遲。這些優(yōu)化策略的綜合應(yīng)用可以顯著提高程序的性能,使其達(dá)到數(shù)十到數(shù)百倍的提升。

    五、模型的安全保護(hù)

    模型的安全保護(hù)可以分為靜態(tài)保護(hù)和動(dòng)態(tài)保護(hù)兩個(gè)方面。靜態(tài)保護(hù)主要關(guān)注模型在傳輸和存儲(chǔ)時(shí)的安全性,目前常用的方法是對模型文件進(jìn)行加密,以密文形式傳輸和存儲(chǔ),并在內(nèi)存中解密后進(jìn)行推理。然而,這種方法存在內(nèi)存中明文模型被竊取的風(fēng)險(xiǎn)。

    動(dòng)態(tài)保護(hù)則是在模型運(yùn)行時(shí)進(jìn)行保護(hù),目前有三種常見的技術(shù)路線。一種是基于TEE(Trusted Execution Environment)的保護(hù)方案,通過可信硬件隔離出安全區(qū)域,在其中解密和運(yùn)行模型。這種方案對推理時(shí)延影響較小,但需要特定的硬件支持,并且對大規(guī)模深度模型的保護(hù)有一定限制。另一種是基于密態(tài)計(jì)算的保護(hù)方案,利用密碼學(xué)方法保持模型在傳輸、存儲(chǔ)和運(yùn)行過程中的密文狀態(tài)。

    這種方案不依賴特定硬件,但會(huì)帶來較大的計(jì)算和通信開銷,并且無法保護(hù)模型的結(jié)構(gòu)信息。第三種是基于混淆的保護(hù)方案,通過對模型的計(jì)算邏輯進(jìn)行加擾,使得即使敵對方獲取到模型也無法理解其內(nèi)部結(jié)構(gòu)。相比前兩種方案,混淆方案的性能開銷較小,且精度損失較低,同時(shí)不依賴特定硬件,可以支持對大模型的保護(hù)。

    模型混淆技術(shù)是一種能夠自動(dòng)混淆明文AI模型計(jì)算邏輯的方法,使得攻擊者在傳輸和存儲(chǔ)過程中即使獲得了模型也無法理解其內(nèi)部邏輯。同時(shí),該技術(shù)還可以保證模型在運(yùn)行時(shí)的機(jī)密性,并且不會(huì)影響模型原本的推理結(jié)果,只帶來較小的推理性能開銷。

    模型混淆實(shí)現(xiàn)步驟圖

    結(jié)合上圖,詳細(xì)闡述模型混淆的執(zhí)行步驟:

    對于一個(gè)已經(jīng)訓(xùn)練好的模型,首先需要對其模型文件進(jìn)行解析,并據(jù)此獲取模型計(jì)算邏輯的圖形表達(dá)形式(計(jì)算圖),以便進(jìn)行后續(xù)操作。這個(gè)計(jì)算圖包括了節(jié)點(diǎn)標(biāo)識符、節(jié)點(diǎn)運(yùn)算符類型、節(jié)點(diǎn)參數(shù)權(quán)重以及網(wǎng)絡(luò)結(jié)構(gòu)等信息。

    在完成獲取計(jì)算圖之后,可以通過圖壓縮和圖擴(kuò)展等技術(shù),對計(jì)算圖中節(jié)點(diǎn)與節(jié)點(diǎn)之間的依賴關(guān)系進(jìn)行混淆處理,以此隱藏模型真實(shí)的計(jì)算邏輯。圖壓縮主要是通過檢查整圖來匹配原始網(wǎng)絡(luò)中的關(guān)鍵子圖結(jié)構(gòu),并將這些子圖壓縮并替換為單個(gè)新的計(jì)算節(jié)點(diǎn)。在壓縮后的計(jì)算圖上,圖擴(kuò)展通過在網(wǎng)絡(luò)結(jié)構(gòu)中添加新的輸入/輸出邊,進(jìn)一步隱藏節(jié)點(diǎn)間的真實(shí)依賴關(guān)系。這些新添加的輸入/輸出邊可以來源于/指向現(xiàn)有的節(jié)點(diǎn),也可以來源于/指向本步驟新增的混淆節(jié)點(diǎn)。

    接著,為了進(jìn)一步達(dá)到模型混淆的效果,還可以對計(jì)算圖進(jìn)行加擾處理。常用的加擾手段包括添加冗余的節(jié)點(diǎn)和邊、融合部分子圖等。這些操作都是為了達(dá)到模型混淆的目的。

    然后,在完成上述步驟后,需要遍歷處理后的計(jì)算圖,篩選出需要保護(hù)的節(jié)點(diǎn)。對于這些節(jié)點(diǎn),將節(jié)點(diǎn)標(biāo)識符、節(jié)點(diǎn)運(yùn)算符類型以及其他能夠描述節(jié)點(diǎn)計(jì)算邏輯的屬性替換為無語義信息的符號。對于節(jié)點(diǎn)標(biāo)識符的匿名化處理,需要保證匿名化后的節(jié)點(diǎn)標(biāo)識符仍然是唯 一的,以便區(qū)分不同的節(jié)點(diǎn)。對于運(yùn)算符類型的匿名化處理,為了避免大規(guī)模計(jì)算圖匿名化導(dǎo)致運(yùn)算符類型的爆炸問題,可以將計(jì)算圖中同種運(yùn)算符類型的節(jié)點(diǎn)劃分為若干不相交的集合,同一個(gè)集合中的節(jié)點(diǎn)的運(yùn)算符類型替換為相同的匿名符號。這樣就能保證在節(jié)點(diǎn)匿名化后,模型仍然能夠被識別和執(zhí)行。

    之后,對于每個(gè)需要保護(hù)的權(quán)重,通過一個(gè)隨機(jī)噪聲和映射函數(shù)來對它們進(jìn)行加擾處理。每個(gè)權(quán)重在加擾時(shí)都可以使用不同的隨機(jī)噪聲和映射函數(shù),同時(shí)這些加擾操作需要保證不會(huì)影響到模型執(zhí)行結(jié)果的正確性。

    完成以上步驟后,將經(jīng)過處理后的計(jì)算圖保存為模型文件以供后續(xù)使用。同時(shí),對于每個(gè)需要保護(hù)的算子類型,需要對其進(jìn)行形態(tài)變換并生成若干候選混淆算子。原本的算子與混淆算子之間是一對多的對應(yīng)關(guān)系,而候選混淆算子的數(shù)量等于之前步驟中劃分的節(jié)點(diǎn)集合的數(shù)量。在此基礎(chǔ)上,根據(jù)之前步驟(2)(3)(4)得到的匿名化算子類型、算子輸入/輸出關(guān)系等信息,可以對相應(yīng)的算子的接口進(jìn)行變換。算子接口的變換方式包括但不限于輸入輸出變換、接口名稱變換。其中,輸入輸出變換主要通過修改原算子的輸入輸出數(shù)據(jù)實(shí)現(xiàn),而接口名稱變換則是將原算子名稱替換為之前步驟中生成的匿名化算子名稱。這樣能保證在節(jié)點(diǎn)匿名化后,模型仍然能夠被識別和執(zhí)行,同時(shí)算子的名稱也不會(huì)泄露其計(jì)算邏輯。

    此外,還需要對算子的代碼實(shí)現(xiàn)進(jìn)行變換。這種代碼實(shí)現(xiàn)的變換方式包括但不限于字符串加密、冗余代碼等軟件代碼混淆技術(shù)。這些混淆技術(shù)可以保證混淆算子與原算子實(shí)現(xiàn)語義相同的計(jì)算邏輯,但同時(shí)也會(huì)使得混淆后的算子難以閱讀和理解。需要注意的是,不同的算子可以采用不同組合的代碼混淆技術(shù)進(jìn)行代碼變換。另外,在步驟(4)中提到的參數(shù)被加擾的算子,其混淆算子也需實(shí)現(xiàn)權(quán)重加擾的逆映射函數(shù),以便在算子執(zhí)行過程中動(dòng)態(tài)消除噪聲擾動(dòng),并保證混淆后模型的計(jì)算結(jié)果與原模型一致。

    之后,將生成的混淆算子保存為庫文件供后續(xù)使用。這些庫文件包含了所有需要的混淆算子和它們的代碼實(shí)現(xiàn)。

    完成上述所有步驟后,將混淆態(tài)模型文件以及相應(yīng)的混淆算子庫文件部署到目標(biāo)設(shè)備上。這樣就可以準(zhǔn)備執(zhí)行模型推理任務(wù)了。

    在執(zhí)行推理任務(wù)前,首先需要根據(jù)模型結(jié)構(gòu)解析混淆態(tài)模型文件以獲取模型計(jì)算邏輯的圖形表達(dá)(即混淆計(jì)算圖)。

    然后需要對這個(gè)混淆計(jì)算圖進(jìn)行初始化處理,生成執(zhí)行任務(wù)序列。根據(jù)安全配置選項(xiàng)的要求,如果需要保護(hù)模型在運(yùn)行時(shí)的安全,那么可以直接對這個(gè)混淆計(jì)算圖進(jìn)行初始化處理;如果只需要保護(hù)模型在傳輸和存儲(chǔ)時(shí)的安全,那么可以先將內(nèi)存中的混淆計(jì)算圖恢復(fù)為原計(jì)算圖,然后對原計(jì)算圖進(jìn)行初始化處理生成執(zhí)行任務(wù)序列。這個(gè)任務(wù)序列中的每個(gè)計(jì)算單元對應(yīng)一個(gè)混淆算子或原算子的執(zhí)行。這樣做可以進(jìn)一步降低推理時(shí)的性能開銷。

    最后,根據(jù)AI應(yīng)用程序輸入的推理數(shù)據(jù),遍歷執(zhí)行任務(wù)序列中的每個(gè)計(jì)算單元并得到推理結(jié)果。如果當(dāng)前計(jì)算單元對應(yīng)的算子是混淆算子,那么就調(diào)用混淆算子庫;否則就調(diào)用原算子庫。這樣就可以完成整個(gè)推理任務(wù)。

    GPU在生成式AI領(lǐng)域的誤解

    生成式AI激發(fā)了我們的想象力,在各領(lǐng)域從預(yù)測性維護(hù)、患者診斷到客戶支持等展現(xiàn)出了比較罕見的潛力。這種潛力依賴于GPU提供的加速計(jì)算能力,使其能夠有效訓(xùn)練復(fù)雜語言模型。然而,對GPU的過度簡化或盲目信仰可能導(dǎo)致預(yù)期之外的問題,延誤甚至失敗數(shù)據(jù)科學(xué)項(xiàng)目。下面是在構(gòu)建AI項(xiàng)目時(shí)需要避免的五個(gè)關(guān)于GPU的誤解。

    一、GPU正在提供最快的結(jié)果

    在GPU之前,每個(gè)時(shí)間步驟大約有70%的時(shí)間被用于數(shù)據(jù)復(fù)制,以完成數(shù)據(jù)流程的各個(gè)階段。GPU可以通過實(shí)現(xiàn)大規(guī)模并行計(jì)算,顯著降低基礎(chǔ)設(shè)施成本,并為端到端數(shù)據(jù)科學(xué)工作流提供卓越性能。 12 個(gè)NVIDIA GPU可以提供相當(dāng)于 2000 個(gè)現(xiàn)代CPU的深度學(xué)習(xí)性能。若向同一服務(wù)器添加 8 個(gè)額外的GPU,則可提供多達(dá) 55000 個(gè)額外的核心。盡管GPU加速了計(jì)算過程,但研究指出它們可能會(huì)花費(fèi)一半的時(shí)間等待數(shù)據(jù),這意味著最終需要等待結(jié)果。為充分運(yùn)用GPU的計(jì)算能力,需要更強(qiáng)大的網(wǎng)絡(luò)與存儲(chǔ)支持。

    二、帶寬為王,向帶寬致敬

    雖然帶寬是優(yōu)化GPU使用的關(guān)鍵指標(biāo),但并不能準(zhǔn)確反映AI工作負(fù)載的所有特性。優(yōu)化數(shù)據(jù)流程需要考慮更多,而不僅僅是傳輸大量數(shù)據(jù)到GPU,IOPs和元數(shù)據(jù)同樣重要。不同的數(shù)據(jù)流程步驟有不同的IO需求,可能導(dǎo)致傳統(tǒng)存儲(chǔ)無法滿足。

    除了帶寬,還需要考慮IOPS、延遲和元數(shù)據(jù)操作等性能特性。某些步驟需要低延遲和隨機(jī)小IO,有些則需要大規(guī)模的流媒體帶寬,還有一些需要同時(shí)進(jìn)行兩者的并發(fā)混合。多個(gè)數(shù)據(jù)流程同時(shí)運(yùn)行,增加了同時(shí)處理不同IO配置文件的需求。

    三、GPU驅(qū)動(dòng)的AI工作負(fù)載在處理小文件時(shí)始終面臨挑戰(zhàn)

    訓(xùn)練大語言模型用于大多數(shù)生成式AI應(yīng)用涉及大量小文件,如數(shù)百萬小圖片和每個(gè)IoT設(shè)備的日志等數(shù)據(jù)。ETL工作流程會(huì)規(guī)范數(shù)據(jù)并使用隨機(jī)梯度下降訓(xùn)練模型,這導(dǎo)致大規(guī)模的元數(shù)據(jù)和隨機(jī)讀取問題,特別是在AI深度學(xué)習(xí)流程的第 一部分中有許多小IO請求,許多存儲(chǔ)平臺(tái)無法有效處理。

    四、存儲(chǔ)?GPU的重點(diǎn)在于計(jì)算能力

    AI工作負(fù)載對性能、可用性和靈活性有特殊需求,傳統(tǒng)存儲(chǔ)平臺(tái)難以滿足。選擇適合AI工作負(fù)載的存儲(chǔ)解決方案對滿足業(yè)務(wù)需求有顯著影響。成功的AI項(xiàng)目在計(jì)算和存儲(chǔ)需求方面往往迅速增長,因此需要仔細(xì)考慮存儲(chǔ)選擇的影響。然而,大多數(shù)AI基礎(chǔ)設(shè)施的關(guān)注和投入集中在GPU和網(wǎng)絡(luò)上,存儲(chǔ)設(shè)備的預(yù)算所剩無幾。對于AI存儲(chǔ)來說,性能在大規(guī)模上同樣重要,不僅僅是滿足傳統(tǒng)的要求。

    五、本地存儲(chǔ)才是GPU最快的存儲(chǔ)方式

    隨著AI數(shù)據(jù)集不斷增大,數(shù)據(jù)加載時(shí)間成為工作負(fù)載性能瓶頸。從本地NVMe存儲(chǔ)中檢索數(shù)據(jù)可避免傳輸瓶頸和延遲,但服務(wù)器主機(jī)已無法滿足GPU速度增長需求。GPU受到慢速IO制約。

    英偉達(dá)L40S GPU架構(gòu)及A100、H100 對比

    在SIGGRAPH2023 上,NVIDIA推出全新的NVIDIA L40S GPU和搭載L40S的NVIDIA OVX服務(wù)器。這些產(chǎn)品主要針對生成式人工智能模型的訓(xùn)練和推理,有望進(jìn)一步提升生成式人工智能模型的訓(xùn)練和推理場景的計(jì)算效率。

    L40S基于Ada Lovelace架構(gòu),配備48GB的GDDR6 顯存和846GB/s的帶寬。在第四代Tensor核心和FP8 Transformer引擎的支持下,可以提供超過1.45 PFLOPS的張量處理能力。根據(jù)NVIDIA給出的數(shù)據(jù),在微調(diào)和推理場景的測試用例下,L40S的計(jì)算效率比A100 有所提高。

    相較于A100 GPU,L40S在以下幾個(gè)方面存在差異:

    一、顯存類型

    L40S采用更為成熟的GDDR6 顯存技術(shù),與A100 和H100 使用的HBM顯存相比,雖然在顯存帶寬上有所降低,但技術(shù)成熟度高且市場供應(yīng)充足。

    二、算力表現(xiàn)

    L40S在FP16 算力(智能算力)方面較A100 有所提高,而在FP32 算力(通用算力)方面較A100 有更為明顯的提升,使其更適應(yīng)科學(xué)計(jì)算等場景的需求。

    三、能耗表現(xiàn)

    相較于A100,L40S在功率上有所降低,這有利于降低數(shù)據(jù)中心的相關(guān)能耗,提高能源效率。

    四、性價(jià)比較

    根據(jù)Super Micro的數(shù)據(jù),L40S在性價(jià)比上相較于A100 具有優(yōu)勢,為希望部署有效且具有競爭力的生成式人工智能解決方案的用戶提供更多選擇。

    L40S與A100、H100 存在差異化設(shè)計(jì)

    類似于A100,L40S通過 16 通道的PCIe Gen4 接口與CPU進(jìn)行通信,最 大雙向傳輸速率為64 GB/s。然而,與L40S不同的是,NVIDIA Grace Hopper采用NVLink-C2C技術(shù)將Hopper架構(gòu)的GPU與Grace架構(gòu)的CPU相連,實(shí)現(xiàn)CPU到GPU、GPU到GPU間總帶寬高達(dá)900 GB/s,比PCIe Gen5 快 7 倍。

    PCIe協(xié)議對L40S的通信寬帶有所限制

    基于Ada Lovelace架構(gòu)的L40S GPU,配備GDDR6 顯存和846GB/s帶寬,并通過第四代Tensor核心和FP8 Transformer引擎提供超過1.45 PetaFLOPS的張量處理能力。針對計(jì)算密集型任務(wù),L40S的18, 176 個(gè)CUDA核心可提供比A100 高近 5 倍的單精度浮點(diǎn)性能,從而加速復(fù)雜計(jì)算和數(shù)據(jù)密集型分析。

    此外,為支持專業(yè)視覺處理工作,如實(shí)時(shí)渲染、產(chǎn)品設(shè)計(jì)和3D內(nèi)容創(chuàng)建,L40S還配備 142 個(gè)第三代RT核心,可提供212TFLOP的光線追蹤性能。功耗達(dá)到 350 瓦。對于生成式AI工作負(fù)載,L40S相較于A100 可實(shí)現(xiàn)高達(dá)1. 2 倍的推理性能提升和高達(dá)1. 7 倍的訓(xùn)練性能提升。在L40S GPU的加持下,英偉達(dá)還推出最多可搭載 8 張L40S的OVX服務(wù)器。英偉達(dá)方面宣布,對于擁有8. 6 億token的GPT3-40B模型,OVX服務(wù)器只需 7 個(gè)小時(shí)就能完成微調(diào);對于Stable Diffusion XL模型,則可實(shí)現(xiàn)每分鐘 80 張的圖像生成。

    藍(lán)海大腦大模型訓(xùn)練平臺(tái)

    藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最 低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

    一、為什么需要大模型?

    1、模型效果更優(yōu)

    大模型在各場景上的效果均優(yōu)于普通模型

    2、創(chuàng)造能力更強(qiáng)

    大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

    3、靈活定制場景

    通過舉例子的方式,定制大模型海量的應(yīng)用場景

    4、標(biāo)注數(shù)據(jù)更少

    通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

    二、平臺(tái)特點(diǎn)

    1、異構(gòu)計(jì)算資源調(diào)度

    一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并有效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。

    2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

    支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

    3、高性能分布式網(wǎng)絡(luò)

    提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

    4、全方位安全保障

    在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過程中,提供全面的賬號認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

    三、常用配置

    1、處理器CPU:

    Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

    Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

    Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

    Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

    AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

    AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

    2、顯卡GPU:

    NVIDIA L40S GPU 48GB×8

    NVIDIA NVLink-A100-SXM640GB

    NVIDIA HGX A800 80GB×8

    NVIDIA Tesla H800 80GB HBM2

    NVIDIA A800-80GB-400Wx8-NvlinkSW×8

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺(tái)用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù),對本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),可及時(shí)向站長之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會(huì)依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • LIama 4發(fā)布重奪開源第一!DeepSeek同等代碼能力但參數(shù)減一半,一張H100就能跑,還有兩萬億參數(shù)超大杯

      AI不過周末,硅谷也是如此。Llama家族上新,一群LIama4就這么突然發(fā)布了。太平洋這頭,已經(jīng)開始落地應(yīng)用和智能體了。

    • 1000萬上下文!新開源多模態(tài)大模型,單個(gè)GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個(gè)大模型領(lǐng)域。僅過了2個(gè)月,Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬,整整提升了5倍開啟千萬級時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 俞敏洪成為仰望汽車第10000位車主!

      文章主要內(nèi)容為:在技術(shù)4月21日的革新中,全球數(shù)字資產(chǎn)的交易規(guī)模首次達(dá)到10000億美元,標(biāo)志著其已超越實(shí)物黃金的地位。文章解釋,這一時(shí)刻,全球10000億美元的數(shù)字資產(chǎn)相當(dāng)于實(shí)物黃金,這是數(shù)字資產(chǎn)首次超越實(shí)物黃金的標(biāo)志性時(shí)刻。在技術(shù)4000億階段,“全球數(shù)字資產(chǎn)實(shí)現(xiàn)了其業(yè)務(wù)模式的轉(zhuǎn)型,不僅能夠自我發(fā)展并創(chuàng)新,還能實(shí)現(xiàn)自身價(jià)值,成為全球貿(mào)易的關(guān)鍵部分。對于最終消費(fèi)者而言,這表明中國正在與全球其他地區(qū)進(jìn)行貿(mào)易,與所有人在全球范圍內(nèi)進(jìn)行貿(mào)易的方式相似。文章中提到,盡管技術(shù)3000億可能被低估,但它在不斷發(fā)展中,中國需要與技術(shù)進(jìn)行合作,同時(shí)也需要與所有人在全球范圍內(nèi)進(jìn)行合作,這就是全球貿(mào)易的真正意義。文章最后提到,對于技術(shù)的了解和應(yīng)用,不僅限于技術(shù)本身,也涉及與技術(shù)的相互作用,即人類與技術(shù)的交互方式。

    • 不止 14 個(gè)?大西洋月刊作者曝馬斯克可能已有 100 多個(gè)孩子

      作為全球最富有的人之一,埃隆·馬斯克不止只單純的“金錢富翁”,還可能是擁有超過 100 個(gè)孩子的“子女富翁”……

    • 去年,Meta在韓賺了近 10000 億,卻只繳了 54 億的稅

      Meta在韓狂賺近10000億卻僅繳稅54億通過Instagram和Facebook賺取近10000億韓元韓國法人稅僅繳納54億Facebook韓國以“廣告采購費(fèi)”形式轉(zhuǎn)至總部整體收入縮水……避稅指責(zé)持續(xù)發(fā)酵“Meta去年通過韓國國內(nèi)廣告業(yè)務(wù)獲得了近10000億韓元的收入,但實(shí)際繳納的企業(yè)所得稅僅為54億韓元”韓國IT業(yè)內(nèi)人士如是說道。根據(jù)3日FacebookKorea公布的2024年度審計(jì)報(bào)告,該公司去年通過韓國本土廣告創(chuàng)收9545億韓元。值得一提的是,韓國嘉泉大學(xué)經(jīng)營學(xué)教授全圣民曾在去年指出,F(xiàn)acebook在最近三年本應(yīng)繳納最高12000億韓元的企業(yè)所得稅。

    • 京東外賣突破1000萬單!收貨人曝光 :只花了半價(jià)

      京東外賣4月22日訂單量突破1000萬單,創(chuàng)下新紀(jì)錄。北京謝女士成為第1000萬單用戶,她為兒子訂購的辣炒肉套餐僅支付24.9元,享受平臺(tái)補(bǔ)貼優(yōu)惠。該訂單由退伍軍人張海洋配送,僅用23分鐘送達(dá)。入駐不到1個(gè)月的"天下烤鴨店"表示,京東外賣補(bǔ)貼不從商家收入扣除,相比其他平臺(tái)收入更高。目前京東外賣已覆蓋全國166個(gè)城市,日均訂單60-70單,發(fā)展勢頭迅猛。平臺(tái)嚴(yán)格篩選實(shí)體餐飲門店入駐,保障食品安全,獲得用戶信任。

    • 蔚來李斌:上海第100000臺(tái)已達(dá)成交付!

      快科技4月14日消息,近日,蔚來創(chuàng)始人、董事長兼CEO李斌在微博上宣布了一個(gè)令人振奮的消息:上海第100000臺(tái)蔚來汽車正式交付。這一成就也讓蔚來成為上海首個(gè)成交均價(jià)超30萬元且擁有10萬用戶的中國品牌。目前,蔚來在江蘇、浙江、上海三地的累計(jì)交付量已突破30萬臺(tái)。4月1日,蔚來公布了最新的交付數(shù)據(jù):2025年3月,蔚來交付新車15039臺(tái),同比增長26.7%,其中蔚來品牌交付102

    • 手機(jī)電池不喜歡100%滿電:不要一直保持滿電狀態(tài)

      快科技4月18日消息,微博話題手機(jī)電池不喜歡100%滿電”沖上熱搜榜。眾所周知,目前大部分手機(jī)使用的都是鋰電池,鋰電池在過度充放電和短路時(shí)會(huì)自動(dòng)切斷電池電路,既然不會(huì)爆炸,手機(jī)是不是就可以充電一整夜了呢?有專家指出,電池一直保持滿電狀態(tài),雖然不會(huì)爆炸,但是會(huì)加快電池容量的損失速度,而且任何裝置都不是100%保險(xiǎn)的,一旦充電器的保護(hù)電路失效,或者電

    • 董明珠談國內(nèi)空調(diào)卷低價(jià):有空調(diào)賣到1000元 是紙糊的嗎

      格力電器董事長董明珠在股東大會(huì)上表示,企業(yè)應(yīng)堅(jiān)守品質(zhì)底線,反對低價(jià)競爭。她指出當(dāng)前空調(diào)行業(yè)存在千元低價(jià)機(jī)現(xiàn)象,強(qiáng)調(diào)要先有技術(shù)和質(zhì)量,再談價(jià)格。作為國際壓縮機(jī)標(biāo)委會(huì)主席,格力參與制定了行業(yè)標(biāo)準(zhǔn)。目前格力最便宜掛機(jī)售價(jià)2899元,柜機(jī)5399元。董明珠認(rèn)為制造業(yè)不能弄虛作假,低價(jià)是無能表現(xiàn),企業(yè)應(yīng)通過技術(shù)創(chuàng)新而非偷工減料來贏得市場。她表示格力堅(jiān)持用真材實(shí)料和技術(shù)創(chuàng)新來提升產(chǎn)品品質(zhì),滿足消費(fèi)者需求。

    • 剛剛,OpenAI發(fā)布GPT-4.1,性能暴漲、100萬上下文

      今天凌晨1點(diǎn),OpenAI進(jìn)行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。除了GPT-4.1之外,還有GPT4.1-Mini和GPT4.1-Nano兩款模型,在多模態(tài)處理、代碼能力、指令遵循、成本方面實(shí)現(xiàn)大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領(lǐng)域幫助巨大。由于GPT-4.1的發(fā)布,OpenAI宣布將會(huì)淘汰剛發(fā)布不久的GPT-4.5,其能力可見一斑。目前,如果想體驗(yàn)GPT-4.1而無法通過API身?