核心要點(diǎn):
香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)布了全面的中文大語言模型評測方法,已被EMNLP2023System Demonstrations錄取。
該評測方法包含31個任務(wù)和多種評測指標(biāo),覆蓋了84個數(shù)據(jù)集,著重關(guān)注準(zhǔn)確性、魯棒性、公平性等多個維度。
評測方法還提供多樣的提示模版,降低數(shù)據(jù)污染風(fēng)險(xiǎn),以及提供清晰的操作界面,可供研究團(tuán)隊(duì)使用和交互評測。
站長之家(ChinaZ.com)10月17日 消息:香港中文大學(xué)的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)全面的中文大語言模型評測方法,這一方法已經(jīng)被EMNLP2023System Demonstrations錄取。這一評測方法名為CLEVA,是由香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系的王歷偉助理教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)開發(fā)的,與上海人工智能實(shí)驗(yàn)室合作研究。
CLEVA的目標(biāo)是為中文大語言模型提供全面的評測,覆蓋多個任務(wù)和多個評測指標(biāo),以更好地理解和評價(jià)這些模型的能力。
論文地址:https://arxiv.org/pdf/2308.04813.pdf
這一評測方法包含了31個任務(wù),其中包括11個應(yīng)用評估和20個能力評測任務(wù),共涵蓋了來自84個數(shù)據(jù)集的370,000多個中文測試樣本。這是過去同類工作中樣本數(shù)量最多的,為全面評測提供了更多的數(shù)據(jù)支持。
CLEVA不僅關(guān)注傳統(tǒng)的準(zhǔn)確性指標(biāo),還引入了魯棒性、公平性、效率、校準(zhǔn)與不確定性、偏見與刻板印象以及毒性等多維度的評測指標(biāo),以更全面地評價(jià)大語言模型的性能。
為了確保評測的可比性,CLEVA為每個評測任務(wù)準(zhǔn)備了一組多個提示模板,使所有模型都使用相同的提示模板進(jìn)行評測。這有助于公平比較模型能力,同時還可以分析模型對不同提示模板的敏感程度,為模型的下游應(yīng)用提供指導(dǎo)。
此外,CLEVA還采取了多種方法來降低數(shù)據(jù)污染的風(fēng)險(xiǎn),包括采用新數(shù)據(jù)和不斷更新的測試集。
這一全面的中文大語言模型評測方法旨在提供更可信的評測結(jié)果,為學(xué)術(shù)界和工業(yè)界提供更準(zhǔn)確的模型能力認(rèn)知。研究團(tuán)隊(duì)已經(jīng)使用CLEVA評測了23個中文大模型,并計(jì)劃持續(xù)評測更多的模型。其他研究團(tuán)隊(duì)也可以通過CLEVA網(wǎng)站提交和對接評測結(jié)果,從而促進(jìn)大模型能力的認(rèn)知和評測。
(舉報(bào))