2024年8月30日至9月4日,國(guó)際文檔分析與識(shí)別會(huì)議International Conference on Document Analysis and Recognition(以下簡(jiǎn)稱ICDAR)在希臘雅典舉行。今年ICDAR設(shè)立了十余項(xiàng)競(jìng)賽,吸引了全球諸多知名科技公司和研究機(jī)構(gòu)的參與。理光中國(guó)研究院NLP團(tuán)隊(duì)在ICDAR官方比賽“通過(guò) Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道上,斬獲“低分辨率下的單詞識(shí)別”及“頁(yè)面級(jí)別的識(shí)別與閱讀”兩項(xiàng)任務(wù)的較高排名。
*“頁(yè)面級(jí)別的識(shí)別與閱讀”任務(wù)較高排名獎(jiǎng)狀
ICDAR賽事介紹
ICDAR由國(guó)際模式識(shí)別協(xié)會(huì)IAPR(International Association of Pattern Recognition)舉辦,是模式識(shí)別、計(jì)算機(jī)視覺領(lǐng)域、圖像處理領(lǐng)域最為重要的國(guó)際學(xué)術(shù)會(huì)議之一,涵蓋了文檔分析與識(shí)別領(lǐng)域的最 新學(xué)術(shù)成果和前沿應(yīng)用發(fā)展趨勢(shì)。
“通過(guò) Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道,涉及到理解和處理使用Aria 設(shè)備*采集到的文本內(nèi)容。任務(wù)目標(biāo)是開發(fā)一系列穩(wěn)健的圖像處理算法來(lái)識(shí)別整個(gè)頁(yè)面中的文字內(nèi)容,同時(shí)保持正確的閱讀順序。具體來(lái)說(shuō),包括以下兩個(gè)子過(guò)程:1)低分辨率下的單詞識(shí)別:檢測(cè)并識(shí)別來(lái)自Aria眼鏡采集圖像中的單詞文本;2)閱讀順序預(yù)測(cè):預(yù)測(cè)從頁(yè)面中提取的單詞級(jí)文本的閱讀順序(即頁(yè)面上單詞的序列)。
*ICDAR會(huì)場(chǎng)上,主辦方介紹任務(wù)數(shù)據(jù)示例
*ICDAR會(huì)場(chǎng)上,主辦方介紹任務(wù)目標(biāo)與挑戰(zhàn)
理光的突破創(chuàng)新與應(yīng)用實(shí)踐
理解文檔是可穿戴人工智能系統(tǒng)的基本任務(wù),需要開發(fā)解決方案,賦予系統(tǒng)閱讀和理解文檔中知識(shí)的能力。除了傳統(tǒng)的文檔分析挑戰(zhàn)外,可穿戴設(shè)備圖像還受到人體姿勢(shì)的多樣性、不同的光照條件、潛在的障礙物以及其他場(chǎng)景中主體的影響,這些因素在獲取準(zhǔn)確的光學(xué)字符識(shí)別(OCR)時(shí)增加了額外的障礙。
理光中國(guó)研究院將自身各種技術(shù)積累有機(jī)結(jié)合,在單詞識(shí)別部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)為基礎(chǔ)的模型,采用了創(chuàng)新的模型迭代訓(xùn)練方法和成熟的數(shù)據(jù)合成技術(shù),進(jìn)一步提高了識(shí)別性能。在閱讀順序預(yù)測(cè)部分,理光沒有將其定義為傳統(tǒng)的排序任務(wù)或翻譯任務(wù),而是建模為具備語(yǔ)義分割能力的布局解析任務(wù)。基于在表格識(shí)別和圖紙識(shí)別項(xiàng)目上的豐富經(jīng)驗(yàn),理光自研的語(yǔ)義分割框架,在任務(wù)數(shù)據(jù)上微調(diào)后,展現(xiàn)了優(yōu)秀的解析效果。
理光中國(guó)研究院在OCR技術(shù)研究和各種場(chǎng)景下的項(xiàng)目實(shí)踐經(jīng)驗(yàn)方面有著深刻的理解。在基礎(chǔ)技術(shù)研究方面,理光中國(guó)研究院一直致力于圖像處理、文本檢測(cè)、文本識(shí)別、布局分析、表格識(shí)別以及與文檔理解相關(guān)的其他技術(shù)的研究,并取得了領(lǐng)先成果。在應(yīng)用方面,理光中國(guó)研究院已成功將OCR技術(shù)適配到設(shè)計(jì)圖紙、財(cái)務(wù)報(bào)告、合同、票據(jù)以及傳統(tǒng)文檔以外的其他領(lǐng)域。這些解決方案已經(jīng)成功服務(wù)于多領(lǐng)域客戶,并在特定需要的定制化適配方面積累了豐富的經(jīng)驗(yàn)。
圖紙檔案數(shù)字化解決方案,可以實(shí)現(xiàn)掃描件表格文字識(shí)別,信息提取和比對(duì),以及歸檔流程處理的自動(dòng)化,有效解決海量圖紙數(shù)字化過(guò)程中大量的信息查找,手動(dòng)錄入,人工審核,繁瑣歸檔的難題,實(shí)現(xiàn)了有效智能的圖紙數(shù)字化管理,90%以上峰程實(shí)現(xiàn)自動(dòng)化。
財(cái)務(wù)文檔數(shù)字化解決方案,可以實(shí)現(xiàn)各類財(cái)報(bào)文檔自動(dòng)識(shí)別,關(guān)鍵數(shù)據(jù)提取錄入與結(jié)構(gòu)化,同時(shí)配合金融領(lǐng)域風(fēng)險(xiǎn)評(píng)估模型,極大程度地提高了金融風(fēng)險(xiǎn)識(shí)別的效率和準(zhǔn)確率。
合同比對(duì)解決方案,可以進(jìn)行合同文檔比對(duì),將電子文檔,掃描件等不同版本的合同文檔進(jìn)行智能分析比對(duì),檢測(cè)包含范本使用,文本修改,字符標(biāo)點(diǎn)等各類差異,極大提高比對(duì)效率并控制風(fēng)險(xiǎn)。
合同審閱解決方案,可以對(duì)印章和關(guān)鍵內(nèi)容進(jìn)行識(shí)別和審閱:自動(dòng)識(shí)別印章錯(cuò)蓋漏蓋,智能提取合同關(guān)鍵信息(例如合同主體,金額,時(shí)間,特殊條款等內(nèi)容),提高復(fù)核,審批,以及自動(dòng)化歸檔管理效率。
理光將繼續(xù)秉承創(chuàng)新精神,不斷深化技術(shù)研究,拓展OCR技術(shù)的應(yīng)用領(lǐng)域,以滿足不斷變化的市場(chǎng)需求。我們期待與更多的合作伙伴攜手,將我們的技術(shù)應(yīng)用于更廣泛的行業(yè)和場(chǎng)景中,共同推動(dòng)人工智能技術(shù)的進(jìn)步。同時(shí),我們也將持續(xù)關(guān)注客戶的需求,通過(guò)不斷的優(yōu)化和創(chuàng)新,提供更加準(zhǔn)確、有效的解決方案,以幫助客戶解決實(shí)際問(wèn)題,提升工作效率。
(推廣)