快科技4月10日消息,今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評(píng)估和提升大模型自動(dòng)修 Bug”能力。
在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言(Java、Go、Rust、C、C、TypeScript、JavaScript),是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。
Multi-SWE-bench包含1632個(gè)實(shí)例,均來自GitHub issue,并經(jīng)過統(tǒng)一的測(cè)試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選,確保每個(gè)樣本具備清晰的問題描述、正確的修復(fù)補(bǔ)丁以及可復(fù)現(xiàn)的運(yùn)行測(cè)試環(huán)境。
豆包大模型團(tuán)隊(duì)希望,Multi-SWE-bench能作為大模型在多種主流編程語言與真實(shí)代碼環(huán)境中的系統(tǒng)性評(píng)測(cè)基準(zhǔn),推動(dòng)自動(dòng)編程能力向更實(shí)用、更工程化的方向發(fā)展。
團(tuán)隊(duì)表示,相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。
(舉報(bào))