7月6日,由世界人工智能大會(huì)組委會(huì)主辦的“2024世界人工智能大會(huì)語料主題論壇”在上海成功舉辦。上海市政府副秘書長(zhǎng)莊木弟出席論壇并致辭,中國(guó)科學(xué)院院士鄂維南作主旨演講。上海市各相關(guān)部門代表、上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、上海算法創(chuàng)新研究院、中國(guó)信通院、復(fù)旦大學(xué)等1000余家大模型語料生態(tài)企業(yè)共同參會(huì)。標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO李秀林受邀出席論壇,參與“共話未來-我們需要怎樣的語料供給”圓桌對(duì)話。
本次論壇以“語料筑基,智生時(shí)代”為主題,圍繞高質(zhì)量語料數(shù)據(jù)如何有效供給賦能大模型產(chǎn)業(yè)發(fā)展,向市場(chǎng)傳遞專業(yè)化、鏈接型、前瞻性的語料生態(tài)設(shè)計(jì)理念。會(huì)上,大模型語料生態(tài)企業(yè)通過主題演講、案例分享、圓桌共話的形式暢談了各自對(duì)大模型產(chǎn)業(yè)發(fā)展的創(chuàng)新想法和實(shí)踐。
在圓桌環(huán)節(jié),標(biāo)貝科技聯(lián)合創(chuàng)始人&CTO李秀林博士與其他企業(yè)代表圍繞“大模型語料供給帶來的機(jī)會(huì)和挑戰(zhàn),數(shù)據(jù)的自動(dòng)化標(biāo)注與人工標(biāo)注現(xiàn)況趨勢(shì)以及合成數(shù)據(jù)的未來”3個(gè)問題進(jìn)行了深入探討。
李秀林博士表示,大模型背后是人工智能算法、算力和數(shù)據(jù)的融合升級(jí)。要讓大模型更為聰明,就離不開高質(zhì)量數(shù)據(jù)資源。預(yù)訓(xùn)練語料的選擇對(duì)于模型的最終質(zhì)量有著重要的影響。
一方面,隨著大模型的廣泛應(yīng)用,高質(zhì)量、多樣化數(shù)據(jù)需求也將不斷增長(zhǎng),這為AI數(shù)據(jù)服務(wù)企業(yè)提供了廣闊的市場(chǎng)空間。另一方面,從技術(shù)角度來看,大模型技術(shù)的快速發(fā)展也推動(dòng)了AI數(shù)據(jù)服務(wù)的升級(jí)。企業(yè)利用大模型技術(shù)開發(fā)出更加智能數(shù)據(jù)處理工具,來提升數(shù)據(jù)生產(chǎn)的質(zhì)量和效率。
標(biāo)貝科技深耕AI數(shù)據(jù)領(lǐng)域多年,結(jié)合過去豐富的實(shí)戰(zhàn)經(jīng)驗(yàn),打磨了大批量多模態(tài)數(shù)據(jù)集,可以滿足當(dāng)前市場(chǎng)上大模型訓(xùn)練或調(diào)優(yōu)需求。另外,標(biāo)貝科技還用大模型技術(shù)支撐數(shù)據(jù)的生產(chǎn),構(gòu)建大模型數(shù)據(jù)處理技術(shù)解決方案能力,可以支持?jǐn)?shù)據(jù)采標(biāo)、管理、模型訓(xùn)練與優(yōu)化、部署與應(yīng)用,以及定制化方案,為企業(yè)提供更加有效卓越的數(shù)據(jù)處理服務(wù)。
對(duì)于數(shù)據(jù)自動(dòng)化標(biāo)注和人工標(biāo)注的占比問題。李秀林博士認(rèn)為,數(shù)據(jù)標(biāo)注行業(yè)不是簡(jiǎn)單的勞動(dòng)密集型產(chǎn)業(yè),自動(dòng)化標(biāo)注和人工標(biāo)注也不是對(duì)立關(guān)系,而是技術(shù)和人力協(xié)同。隨著技術(shù)的發(fā)展,市場(chǎng)需求越來越復(fù)雜,需要大量專業(yè)知識(shí)的積累,兩者將長(zhǎng)期共存。
目前,標(biāo)貝科技已經(jīng)有了很成熟的人機(jī)協(xié)同標(biāo)注工具平臺(tái)。通過系統(tǒng)集成將大模型預(yù)標(biāo)注能力與人工標(biāo)注美好結(jié)合,集標(biāo)注工具、預(yù)標(biāo)注模型、項(xiàng)目管理為一體,智能化提升數(shù)據(jù)標(biāo)注效率70%以上。
例如,在語義標(biāo)注上的應(yīng)用場(chǎng)景下,標(biāo)貝科技2D圖像標(biāo)注平臺(tái)可以支持對(duì)百兆級(jí)別的超大像素圖片進(jìn)行高精度標(biāo)注,自動(dòng)識(shí)別、標(biāo)定和描述超大像素圖像中的所有細(xì)節(jié),并在幾秒鐘內(nèi)生成完整的圖像標(biāo)注結(jié)果。
高質(zhì)量、大規(guī)模、安全可信的語料資源是邁向AI時(shí)代的重要基石,這已成為行業(yè)的共識(shí)。為了推動(dòng)大模型產(chǎn)業(yè)健康可持續(xù)發(fā)展,會(huì)上標(biāo)貝科技攜手50余家單位共同發(fā)起“語料生態(tài)服務(wù)大模型可持續(xù)發(fā)展倡議”。 旨在建立模型訓(xùn)練、語料供給、學(xué)術(shù)研究、第三方服務(wù)等多方機(jī)構(gòu)合作機(jī)制,打造一個(gè)資源共享、互利共贏、國(guó)際融通的“語料生態(tài)圈”,進(jìn)一步強(qiáng)化語料生態(tài)全產(chǎn)業(yè)鏈的交流合作,有力支撐大模型科研攻關(guān)。
論壇期間,標(biāo)貝科技還與庫(kù)帕思公司簽署《共建語料生態(tài)產(chǎn)業(yè)鏈合作協(xié)議》,雙方將依托各自在語料資源、技術(shù)研發(fā)、市場(chǎng)推廣等方面的優(yōu)勢(shì),在語料生態(tài)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)上開展務(wù)實(shí)合作,實(shí)現(xiàn)資源共享、規(guī)則共建,推動(dòng)全行業(yè)語料提質(zhì)、增效、降本。
隨著AI技術(shù)的不斷進(jìn)步和生態(tài)合作的深化,未來數(shù)據(jù)庫(kù)將更加智能、靈活和強(qiáng)大,為人工賦能千行百業(yè)的實(shí)體經(jīng)濟(jì)發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。標(biāo)貝科技將將依托豐富的數(shù)據(jù)資源和技術(shù)積累,持續(xù)布局前沿?cái)?shù)據(jù)語料,致力于推進(jìn)大模型語料數(shù)據(jù)的高質(zhì)量供給,為AI大模型產(chǎn)業(yè)發(fā)展提供安全、可靠的數(shù)據(jù)支持。
(推廣)