阿里魔搭社區(qū)開源推理引擎 DashInfer

2024-05-24 08:45 · 稿源：站長之家

站長之家（ChinaZ.com）5月24日消息:ModelScope 推出了預(yù)訓(xùn)練大語言模型（LLM）推理引擎 DashInfer，支持 C++ 和 Python 語言接口，可在多種 CPU 架構(gòu)上高效推理大模型。

DashInfer 采用 C++ Runtime 編寫，支持連續(xù)批處理和多 NUMA 推理，能充分利用服務(wù)器級 CPU 的算力，為推理14B 及以下的 LLM 模型提供更多硬件選擇。該引擎已開源，提供輕量級架構(gòu)，高精度實現(xiàn)，優(yōu)化的計算 Kernel，以及行業(yè)標(biāo)準(zhǔn) LLM 推理技術(shù)。DashInfer 支持主流 LLM 開源模型和 PTQ 量化技術(shù)。

微信截圖_20240524084834.png

此外，引擎還提供多語言 API 接口，支持多種硬件和數(shù)據(jù)類型，包括 x86CPU 和 ARMv9CPU，以及 FP32、BF16、InstantQuant 等數(shù)據(jù)類型。關(guān)于模型支持，DashInfer 可以加載和序列化模型，執(zhí)行推理過程，并采用 DLPack 格式的 tensor 與外部框架交互。在單 NUMA 架構(gòu)下，推理引擎使用多線程和線程池進(jìn)行調(diào)度;而在多 NUMA 架構(gòu)下，引擎采用多進(jìn)程 client-server 架構(gòu)，實現(xiàn) tensor parallel 的模型推理。

性能測試結(jié)果表明，DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能，能夠有效提升大模型推理效率。

代碼開源地址:

https://github.com/modelscope/dash-infer

推理體驗地址:

https://www.modelscope.cn/studios/modelscope/DashInfer-Demo

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦獨家對話adidas：打破成交紀(jì)錄，找到中國市場的增長“心法”

中國運動戶外市場正經(jīng)歷前所未有的高速增長，據(jù)行業(yè)預(yù)測，2025年中國運動服飾市場規(guī)模將突破6000億元，年增速超10%，運動戶外領(lǐng)域的服飾、鞋類以及垂類用品等非標(biāo)產(chǎn)品不斷推陳出新，兩個變化正在悄然影響整個行業(yè):一是行業(yè)再也無法憑借“一個爆款、多年不愁”的打法通吃市場，品牌既要做優(yōu)產(chǎn)品、又要做精營銷，才能持續(xù)滿足和觸達(dá)消費者;二是運動戶外產(chǎn)品的高頻次?

?運動市場 ?戶外服飾 ?品牌營銷
薦AI日報：智譜開源32B/9B系列GLM模型并啟用Z.ai域名；OpenAI發(fā)布GPT-4.1系列模型；阿里魔搭上線MCP廣場

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術(shù)團(tuán)隊近期宣布開源32B和9B系列的GLM模型，并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議，支持商業(yè)用途，提升了

?人工智能 ?開源模型 ?GLM模型
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法，能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
Linux中國開源社區(qū)官網(wǎng)正式宣布關(guān)閉！域名未知原因被凍結(jié)

快科技4月16日消息，近日，國內(nèi)知名第三方開源社區(qū)Linux中國開源社區(qū)官網(wǎng)正式宣布關(guān)閉，其實在2024年社區(qū)就已經(jīng)停止更新，但官網(wǎng)仍可以訪問。不過從2025年3月20日開始，Linux.cn域名被注冊商設(shè)置為clientHold（永久凍結(jié)）狀態(tài)，這意味著該域名在DNS系統(tǒng)中被禁止解析、訪問、使用、變更和交易，導(dǎo)致網(wǎng)站完全無法使用。雖然這個域名仍然在Linux中國站長賬號下，但由于clientHold狀態(tài)，這個域名當(dāng)前已經(jīng)完全無法使用。至于clientHold狀態(tài)的原因，Linux中國站長解釋稱域名注冊商按上級要求設(shè)置為凍結(jié)狀態(tài)，域名注冊商無權(quán)進(jìn)行解封，其實到現(xiàn)在

?Linux中國 ?開源社區(qū) ?域名凍結(jié)
大規(guī)模專家并行推理集群實現(xiàn)性能3倍躍遷，聯(lián)通元景開啟推理新紀(jì)元

中國聯(lián)通持續(xù)技術(shù)攻堅，依托元景大模型MaaS平臺成功搭建“大規(guī)模專家并行”推理集群，實現(xiàn)DeepSeekMoE大模型在多節(jié)點間的超高效集群推理，單卡吞吐提升3倍，解碼時延降低50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強大助力，也讓各行業(yè)以更高效率應(yīng)用AI技術(shù)，加速推動千行百業(yè)的數(shù)字化轉(zhuǎn)型。這一推理創(chuàng)新舉措必將助力各行業(yè)在復(fù)雜多變、競爭激烈的市場環(huán)境中搶占先機(jī)，以智能化驅(qū)動數(shù)字化轉(zhuǎn)型，進(jìn)推動實體經(jīng)濟(jì)高質(zhì)量發(fā)展。

?中國聯(lián)通 ?大模型 ?人工智能
薦AI日報：小米首個推理大模型開源Xiaomi MiMo；快手上線AI筆記工具“喵記多”；騰訊拆分AI團(tuán)隊

本文匯總了AI領(lǐng)域最新動態(tài)：1)小米開源70億參數(shù)大模型Xiaomi MiMo，在數(shù)學(xué)推理和代碼競賽中超越OpenAI和阿里模型；2)快手推出AI筆記工具"喵記多"，簡化筆記管理；3)Luma AI發(fā)布電影級鏡頭控制API，降低視頻生成門檻；4)騰訊重組AI團(tuán)隊，加大語言模型研發(fā)投入；5)Anthropic為Claude引入新語音"Glassy"；6)谷歌NotebookLM新增50+語言音頻概述功能；7)xAI將發(fā)布Grok3.5模型；8)Meta推出獨立AI助手應(yīng)用挑戰(zhàn)ChatGPT；9)OpenAI緊急修復(fù)GPT-4o"諂媚"問題；10)Mac本地AI助手Simular升級隱私保護(hù)；11)CameraBench項目幫助AI理解鏡頭運動；12)谷歌推出個性化語言學(xué)習(xí)AI工具。

?人工智能 ?Xiaomi ?MiMo
薦不要思考過程，推理模型能力能夠更強

UC伯克利和艾倫實驗室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計算擴(kuò)展后，NoThinking能進(jìn)一步提升性能，在保持準(zhǔn)確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

?推理模型 ?無思考方法 ?解決方案
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標(biāo)志著中國AI進(jìn)入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下，國產(chǎn)全棧技術(shù)路徑的重要性，認(rèn)為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
阿里千問3登頂全球最強開源模型已在通義App上線

阿里集團(tuán)推出新一代開源AI模型"通義千問3"(Qwen3)，包含8款不同規(guī)格的混合推理模型。旗艦型號Qwen3-235B采用混合專家架構(gòu)，創(chuàng)下國產(chǎn)模型性能新紀(jì)錄；Qwen3-32B則以部署成本低、運行穩(wěn)定見長。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越，用戶可通過通義App和網(wǎng)頁版體驗。升級后的通義App整合問答對話、圖像理解與生成等多項功能，持續(xù)強化代碼生成、數(shù)學(xué)解題等專業(yè)場景應(yīng)用能力，致力于打造實用性強的個人AI助手。
薦生成很強，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時，它先畫了狗然后改為貓，但仍存在錯誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘