站長之家(ChinaZ.com)7月26日 消息:GLM技術團隊宣布,「代碼生成模型 CodeGeeX2-6B」正式開源。
CodeGeeX2是多語言代碼生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2架構注入代碼實現(xiàn)。得益于 ChatGLM2的更優(yōu)性能,CodeGeeX2-6B 在多項指標上取得了較大的性能提升。與150億參數(shù)的 StarCoder-15B 相比,CodeGeeX2-6B 憑借60億參數(shù)便具備了近10% 的優(yōu)勢。
具體特性如下:
更強大的代碼能力:基于 ChatGLM2-6B 基座語言模型,CodeGeeX2-6B 進一步經(jīng)過了600B 代碼數(shù)據(jù)預訓練,相比一代模型,在代碼能力上全面提升,HumanEval-X 評測集的六種編程語言均大幅提升 (Python +57%, C++ +71%, Java +54%, JavaScript +83%, Go +56%, Rust +321%),在Python上達到35.9% 的 Pass@1一次通過率,超越規(guī)模更大的 StarCoder-15B。
更優(yōu)秀的模型特性:繼承 ChatGLM2-6B 模型特性,CodeGeeX2-6B 更好支持中英文輸入,支持最大8192序列長度,推理速度較一代 CodeGeeX-13B 大幅提升,量化后僅需6GB顯存即可運行,支持輕量級本地化部署。
更全面的AI編程助手:CodeGeeX插件(VS Code, Jetbrains)后端升級,支持超過100種編程語言,新增上下文補全、跨文件補全等實用功能。結合 Ask CodeGeeX 交互式AI編程助手,支持中英文對話解決各種編程問題,包括且不限于代碼解釋、代碼翻譯、代碼糾錯、文檔生成等,幫助程序員更高效開發(fā)。
更開放的協(xié)議:CodeGeeX2-6B 權重對學術研究完全開放。
代碼地址:https://github.com/THUDM/CodeGeeX2
(舉報)