人工智能大模型帶來了強大的創(chuàng)造力,并被應(yīng)用于內(nèi)容生產(chǎn)領(lǐng)域。但是你是否想過我們普通人日常生活中有哪些場景可以借助大模型的能力呢?翻譯就是一個最接近普通用戶的場景。在競爭全球化的今天,我們可能需要閱讀專業(yè)的外文文獻提升自身專業(yè)技能、和來自全球的客戶打交道做生意,高質(zhì)量的機器翻譯能夠大大提升工作效率,降低溝通成本,擴展知識的輸入面,并幫助企業(yè)和個人更好地融入全球市場。
近日一份整合市面8大主流大模型,通過10大維度深度測試的大模型翻譯測評報告發(fā)布。報告顯示,基本上大模型都具備了很成熟的翻譯能力,國產(chǎn)大模型追平甚至超過了ChatGPT-4o 。其中騰訊元寶的表現(xiàn)優(yōu)秀,翻譯專家打分排名首先,用戶打分排名第二。無論是經(jīng)典詩歌、專業(yè)資格考試題目、日常生活場景的翻譯,都讓人眼前一亮。其穩(wěn)定性和準(zhǔn)確性在實際應(yīng)用中表現(xiàn)尤為突出。
測試場景具有極強的應(yīng)用實踐性。例如,在英文專業(yè)資料翻譯這一典型場景,該測評選擇AI領(lǐng)域《Attention Is All You Need》(Transformer模型論文),考察模型對科技術(shù)語、復(fù)雜句式、邏輯關(guān)系的理解和翻譯的準(zhǔn)確性。本篇科技論文約3.9萬個單詞,給到統(tǒng)一的提示詞后,騰訊元寶能夠和 GPT-4o 可直接全文翻譯,并保持原文的格式。
文書撰寫領(lǐng)域,該測評以英文簽證信為例。日常生活中,出國旅游、學(xué)習(xí)或工作都可能需要寫簽證信,這是一種常見的應(yīng)用場景。簽證信的寫作需要清晰表達申請人的意圖、行程安排等信息。該測評模擬了旅游場景,選擇生活中首先次出國時所需的簽證信寫作,考察模型在此類正式場合的英文表達能力,估其在正式信函翻譯方面的表現(xiàn),評估模型在語法、用詞和格式上的表現(xiàn)。而各個模型在這一領(lǐng)域都表現(xiàn)良好,其中騰訊元寶不僅翻譯準(zhǔn)確,翻譯速度也比較快。而且格式很清晰,結(jié)構(gòu)合理,涵蓋了簽證申請信所需的所有要點。使用的語言正式且尊重申請國文化和習(xí)慣。
同聲傳譯場景幫助用戶進行信息的及時抓取與反饋。該測評選取最經(jīng)典的演講之一《喬布斯斯坦福大學(xué)演講》,實時傳給大模型,重點考察各工具在長篇演講翻譯方面的準(zhǔn)確性、流暢性、對演講風(fēng)格的把握。結(jié)果顯示,騰訊元寶在同聲傳譯方面還不錯,適合實時性要求高的場景,Kimi、ChatGPT-4o 和訊飛星火在準(zhǔn)確性、流暢度和即時性上更優(yōu)秀一些,適合需要高精度和高實時性的用戶。豆包和智譜清言表現(xiàn)也相對優(yōu)異。
值得注意的是,在多模態(tài)翻譯領(lǐng)域,大模型還有很大的進步空間。在外出旅行時,我們可能會遇到地圖難以看懂、菜單需要翻譯的情況,想問當(dāng)?shù)厝擞中哂陂_口,這時候如果能拍照問AI將帶來很大的便利。因此該測評選擇日常生活中常見的餐牌,包括國外只有文字的和國內(nèi)還有圖片的菜單,測試模型能否準(zhǔn)確翻譯并捕捉所有菜名和描述,評估模型在多模態(tài)識圖和翻譯方面的綜合能力。最終結(jié)果不盡人意。ChatGPT-4o:基本能夠譯出菜品名稱,少量遺漏,中英對照能夠更清晰地展示菜單中的菜品。騰訊元寶:菜品名稱、描述和價格基本能夠識別和翻譯,基本不存在引起誤解的歧義和直譯。而有幾個模型無法做到完全識別圖片內(nèi)容并翻譯,且部分翻譯的機翻痕跡很重,就是字面意思。
AI大模型在翻譯場景的應(yīng)用雖然不算美好,但依然極大的提升了傳統(tǒng)翻譯的效率和質(zhì)量。未來隨著模型性能的持續(xù)提升,應(yīng)用場景將更加廣泛,也有望滲透到更多行業(yè)和領(lǐng)域,成為在競爭全球化背景下人們?nèi)粘9ぷ骱蜕畹挠欣ぞ摺?/p>
(推廣)