中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > CLEVA最新資訊  > 正文

    香港中文大學(xué)發(fā)布全面中文大語言模型評測CLEVA

    2023-10-17 09:29 · 稿源:站長之家

    核心要點(diǎn):

    1. 香港中文大學(xué)的研究團(tuán)隊(duì)發(fā)布了全面的中文大語言模型評測方法,已被EMNLP2023System Demonstrations錄取。

    2. 該評測方法包含31個任務(wù)和多種評測指標(biāo),覆蓋了84個數(shù)據(jù)集,著重關(guān)注準(zhǔn)確性、魯棒性、公平性等多個維度。

    3. 評測方法還提供多樣的提示模版,降低數(shù)據(jù)污染風(fēng)險(xiǎn),以及提供清晰的操作界面,可供研究團(tuán)隊(duì)使用和交互評測。

    站長之家(ChinaZ.com)10月17日 消息:香港中文大學(xué)的研究團(tuán)隊(duì)最近發(fā)布了一項(xiàng)全面的中文大語言模型評測方法,這一方法已經(jīng)被EMNLP2023System Demonstrations錄取。這一評測方法名為CLEVA,是由香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系的王歷偉助理教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)開發(fā)的,與上海人工智能實(shí)驗(yàn)室合作研究。

    CLEVA的目標(biāo)是為中文大語言模型提供全面的評測,覆蓋多個任務(wù)和多個評測指標(biāo),以更好地理解和評價(jià)這些模型的能力。

    image.png

    論文地址:https://arxiv.org/pdf/2308.04813.pdf

    這一評測方法包含了31個任務(wù),其中包括11個應(yīng)用評估和20個能力評測任務(wù),共涵蓋了來自84個數(shù)據(jù)集的370,000多個中文測試樣本。這是過去同類工作中樣本數(shù)量最多的,為全面評測提供了更多的數(shù)據(jù)支持。

    CLEVA不僅關(guān)注傳統(tǒng)的準(zhǔn)確性指標(biāo),還引入了魯棒性、公平性、效率、校準(zhǔn)與不確定性、偏見與刻板印象以及毒性等多維度的評測指標(biāo),以更全面地評價(jià)大語言模型的性能。

    為了確保評測的可比性,CLEVA為每個評測任務(wù)準(zhǔn)備了一組多個提示模板,使所有模型都使用相同的提示模板進(jìn)行評測。這有助于公平比較模型能力,同時還可以分析模型對不同提示模板的敏感程度,為模型的下游應(yīng)用提供指導(dǎo)。

    此外,CLEVA還采取了多種方法來降低數(shù)據(jù)污染的風(fēng)險(xiǎn),包括采用新數(shù)據(jù)和不斷更新的測試集。

    這一全面的中文大語言模型評測方法旨在提供更可信的評測結(jié)果,為學(xué)術(shù)界和工業(yè)界提供更準(zhǔn)確的模型能力認(rèn)知。研究團(tuán)隊(duì)已經(jīng)使用CLEVA評測了23個中文大模型,并計(jì)劃持續(xù)評測更多的模型。其他研究團(tuán)隊(duì)也可以通過CLEVA網(wǎng)站提交和對接評測結(jié)果,從而促進(jìn)大模型能力的認(rèn)知和評測。

    舉報(bào)

    • 相關(guān)推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 中文海報(bào)設(shè)計(jì),賽道一夜顛覆

      豆包升級上新,網(wǎng)友們再次玩瘋!更新的是豆包文生圖功能,官方直接用一張豆包AI生成的海報(bào)給劃了重點(diǎn):沒錯,豆包可以在圖片中生成更準(zhǔn)確的文字了,尤其是中文。效果可以是醬嬸的:給自己的旅游VLOG整點(diǎn)某音某書封面,風(fēng)格也是直接拿捏。豆包:即夢AI:目前,豆包免費(fèi),即夢AI每天會贈送免費(fèi)積分,感興趣的大家都可以自己上手玩一玩。

    • 格創(chuàng)東智與香港大學(xué)共建工業(yè)AI聯(lián)合實(shí)驗(yàn)室,推動香港成為球工業(yè)AI創(chuàng)新樞紐

      4 月 16 日,格創(chuàng)東智與香港大學(xué)(以下簡稱為港大)簽訂合作協(xié)議,共同成立“香港大學(xué)-格創(chuàng)東智工業(yè)AI聯(lián)合實(shí)驗(yàn)室”,并聘任香港大學(xué)副校長(研究)申作軍教授為榮譽(yù)首席科學(xué)家。實(shí)驗(yàn)室將深度融合香港大學(xué)的人工智能科研優(yōu)勢與格創(chuàng)東智服務(wù)先進(jìn)制造的工業(yè)AI落地用例,開展“工業(yè)AI技術(shù)的創(chuàng)新與實(shí)際應(yīng)用”方向的研究工作。此舉是格創(chuàng)東智在年初迭代章魚Agentic AI平臺后

    • 為了反爬蟲 GitHub部署新規(guī)則:使用中文可能被限制訪問

      據(jù)報(bào)道,GitHub部署了新的風(fēng)控規(guī)則,會檢查用戶瀏覽器請求頭的語言部分,如果檢測到用戶使用的是中文(僅限zh_CN),則可能會觸發(fā)訪問限制。不過GitHub并非全面封禁中文用戶,而是將多個條件整合觸發(fā)限制,首先會檢查常規(guī)規(guī)則(如黑名單IP和UA),再檢測IP地址質(zhì)量。只有當(dāng)這兩個條件全部通過后,才會檢查語言部分是否包含zh_CN,如果用戶IP質(zhì)量沒問題,通常不會觸發(fā)語?

    • 微信上線日本87萬+餐廳:全中文界面 支持微信支付

      快科技4月23日消息,近日,微信與日本最大的餐廳搜索及預(yù)訂平臺Tabelog強(qiáng)強(qiáng)聯(lián)合,正式推出Tabelog”微信小程序,為廣大用戶在日本的餐飲體驗(yàn)帶來了極大的便利。以往,在日本尋找并預(yù)訂心儀餐廳,語言障礙常常是一大困擾。但現(xiàn)在,有了Tabelog”微信小程序,這一問題迎刃而解!它為用戶提供了全中文的預(yù)訂通道,即使你不懂日語,也能輕松約上自己心儀的餐廳,如同在國內(nèi)使用各類生活服務(wù)小程序一樣便捷。這款小程序的使用方式極為簡單。無需繁瑣地下載各種應(yīng)用程序,只需在微信中進(jìn)行搜索,即可隨時隨地使用。它支持微信支付,并且能夠?qū)崟r

    • 百度Create AI開發(fā)者大會:李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者擁抱MCP

      4月25日,百度在武漢舉辦Create 2025開發(fā)者大會。李彥宏發(fā)布文心大模型4.5 Turbo和深度思考模型X1 Turbo,性能提升同時價(jià)格大幅下降。大會推出全球首個電商交易MCP平臺,并發(fā)布數(shù)字人、智能體心響APP等多款A(yù)I應(yīng)用。百度宣布未來5年培養(yǎng)1000萬AI人才,并點(diǎn)亮國內(nèi)首個三萬卡集群。同時啟動第三屆"文心杯"創(chuàng)業(yè)大賽,最高獎金達(dá)7000萬元。大會還包含6大分會場、40節(jié)AI公開課及5000平互動展區(qū),全面展示百度AI生態(tài)布局。

    • 破局貿(mào)易戰(zhàn)!中國完自主中文數(shù)據(jù)庫鑄就數(shù)字基建新基石,重塑農(nóng)業(yè)球競爭力

      在中美關(guān)稅爭端升級的背景下,中國科技企業(yè)通過核心技術(shù)突破重塑全球產(chǎn)業(yè)鏈格局。廣東辰宜信息科技公司歷時10余年自主研發(fā)"博流中文分布式多模數(shù)據(jù)庫",融合鏈型、圖型、關(guān)系型三重?cái)?shù)據(jù)結(jié)構(gòu),攻克數(shù)據(jù)孤島難題。該數(shù)據(jù)庫具備全棧自研技術(shù)體系、數(shù)據(jù)安全與隱私保護(hù)、普惠化技術(shù)門檻三大核心價(jià)值,實(shí)現(xiàn)從底層架構(gòu)到核心算法的完全自主可控。在農(nóng)業(yè)領(lǐng)域,該技術(shù)通過數(shù)據(jù)融合與智能決策,優(yōu)化云南野生菌產(chǎn)業(yè)鏈,實(shí)現(xiàn)"五流合一"的數(shù)字化管理,降低損耗率20%,推動中國農(nóng)產(chǎn)品國際競爭力提升。這一突破不僅打破海外技術(shù)依賴,更構(gòu)建了自主可控的技術(shù)體系,為中國參與全球數(shù)據(jù)標(biāo)準(zhǔn)制定奠定基礎(chǔ),展現(xiàn)了數(shù)字時代中國科技自立自強(qiáng)的實(shí)踐擔(dān)當(dāng)。

    • 甲亢哥直播用華為三折疊拍視頻 因?yàn)椴徽J(rèn)識中文鬧了個笑話

      美國網(wǎng)紅“沙雕兄弟”在最新直播中回應(yīng)中國網(wǎng)友提問,展示了其使用的華為Mate X3手機(jī)。起初他對發(fā)布的某個作品不滿意,因不熟悉中文操作界面,表示不會使用該折疊手機(jī)刪除已發(fā)布的作品。隨后直播中,他提到手中的華為Mate X3并非新到從中國深圳購買的,當(dāng)時他在華為線下體驗(yàn)店一口氣買了三個,且是全款購買。資料顯示,華為Mate X3是華為公司于2023年3月23日發(fā)布的折疊屏手機(jī)產(chǎn)品,采用6.4英寸動態(tài) OLED 外屏,7.85英寸可折疊 OLED 內(nèi)屏,搭載驍龍8+ 4G八核處理器,后置攝像頭為5000萬像素超感知攝像頭+1300萬像素超廣角攝像頭+1200萬像素潛望式長焦攝像頭,支持5倍光學(xué)變焦、50倍數(shù)字變焦。2023年4月7日開售后,華為Mate X3 全網(wǎng)通 12GB+256GB 開賣價(jià)格為12999元;華為Mate X3 全網(wǎng)通 12GB+512GB 開賣價(jià)格為13999元;華為Mate X3 典藏版 全網(wǎng)通 12GB+1024GB 開賣價(jià)格為15999元。

    • 小凡星丨香港專家賦能兒童語障康復(fù),小凡星光峰塔社交語言研修班圓滿收官

      4月20日,香港知名兒童康復(fù)專家李月裳教授主講的"小凡星社交語言教師研修班"圓滿落幕。本次研修吸引了全國40余家小凡星兒童康復(fù)中心的骨干教師參與,圍繞社交語言康復(fù)領(lǐng)域的前沿理論與實(shí)踐技巧展開深度研討。李教授通過理論課程、案例剖析、實(shí)操演練等多元形式,系統(tǒng)提升教師的專業(yè)素養(yǎng)與教學(xué)能力。作為小凡星"光峰塔"教師培養(yǎng)體系的重要實(shí)踐成果,該項(xiàng)目通過"走出去、請進(jìn)來"的創(chuàng)新理念,構(gòu)建高端學(xué)術(shù)交流平臺,持續(xù)為特殊教育領(lǐng)域輸送優(yōu)質(zhì)人才。未來,小凡星將持續(xù)深化教師培養(yǎng)體系建設(shè),為特殊兒童提供更優(yōu)質(zhì)的康復(fù)服務(wù)。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊(duì)宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實(shí)際能力邊界。

    熱文

    • 3 天
    • 7天