站長之家(ChinaZ.com)5月24日 消息:ModelScope 推出了預(yù)訓(xùn)練大語言模型(LLM)推理引擎 DashInfer,支持 C++ 和 Python 語言接口,可在多種 CPU 架構(gòu)上高效推理大模型。
DashInfer 采用 C++ Runtime 編寫,支持連續(xù)批處理和多 NUMA 推理,能充分利用服務(wù)器級 CPU 的算力,為推理14B 及以下的 LLM 模型提供更多硬件選擇。該引擎已開源,提供輕量級架構(gòu),高精度實現(xiàn),優(yōu)化的計算 Kernel,以及行業(yè)標(biāo)準(zhǔn) LLM 推理技術(shù)。DashInfer 支持主流 LLM 開源模型和 PTQ 量化技術(shù)。
此外,引擎還提供多語言 API 接口,支持多種硬件和數(shù)據(jù)類型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等數(shù)據(jù)類型。關(guān)于模型支持,DashInfer 可以加載和序列化模型,執(zhí)行推理過程,并采用 DLPack 格式的 tensor 與外部框架交互。在單 NUMA 架構(gòu)下,推理引擎使用多線程和線程池進(jìn)行調(diào)度;而在多 NUMA 架構(gòu)下,引擎采用多進(jìn)程 client-server 架構(gòu),實現(xiàn) tensor parallel 的模型推理。
性能測試結(jié)果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能夠有效提升大模型推理效率。
代碼開源地址:
https://github.com/modelscope/dash-infer
推理體驗地址:
https://www.modelscope.cn/studios/modelscope/DashInfer-Demo
(舉報)