曹慧靜
(傳音控股技術(shù)有限公司,上海 202106)
針對(duì)人工智能,訓(xùn)練數(shù)據(jù)量的大小和豐富性決定了其準(zhǔn)確性,因此數(shù)據(jù)集的構(gòu)建對(duì)識(shí)別的準(zhǔn)確性非常重要。針對(duì)印度市場(chǎng)用戶語(yǔ)言翻譯的問(wèn)題,引入了選區(qū)翻譯功能(用戶在當(dāng)下使用的界面上可以選擇需要翻譯區(qū)域進(jìn)行翻譯)。根據(jù)用戶選中的內(nèi)容圖像識(shí)別成文字,再把文字翻譯成需要的目標(biāo)語(yǔ)言,用戶選中的區(qū)域內(nèi)容根據(jù)用戶的使用場(chǎng)景和用戶的偏好而不一樣。選區(qū)翻譯相比競(jìng)品有其優(yōu)勢(shì),能夠不中斷用戶當(dāng)前使用頁(yè)面的閱讀體驗(yàn),而把需要翻譯的內(nèi)容直接覆蓋在選中區(qū)域原文上,而不影響其他未選擇區(qū)域的閱讀,使得翻譯體驗(yàn)更加便捷。
OCR(Optical Character Recognition)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。
OCR 識(shí)別應(yīng)用很多場(chǎng)景,例如OCR 視頻文字識(shí)別、人臉識(shí)別、身份證件識(shí)別、票據(jù)識(shí)別、車(chē)牌碼識(shí)別、銀行卡識(shí)別等等,在業(yè)界也屬于比較成熟的應(yīng)用;但是對(duì)于小語(yǔ)種OCR 識(shí)別能力應(yīng)用于翻譯場(chǎng)景有待繼續(xù)提升和挖掘。OCR整體識(shí)別的流程如圖1所示。
圖1 OCR 整體識(shí)別的流程
圖像預(yù)處理。通常是針對(duì)圖像的成像問(wèn)題進(jìn)行修正。由于深度學(xué)習(xí)的發(fā)展,現(xiàn)在普遍使用基于CNN 神經(jīng)網(wǎng)絡(luò)的特征提取手段,得益于CNN 強(qiáng)大的學(xué)習(xí)能力,配合大量的數(shù)據(jù)可以增強(qiáng)特征提取的魯棒性。常見(jiàn)的預(yù)處理過(guò)程包括:幾何變換(透視、扭曲、旋轉(zhuǎn)等)、畸變校正、去除模糊、圖像增強(qiáng)和光線校正等。
文字檢測(cè)。即檢測(cè)文本的所在位置和范圍及其布局,框選出圖像中的文本區(qū)域,通常也包括版面分析和文字行檢測(cè)等。文字檢測(cè)主要解決的問(wèn)題是哪里有文字,文字的范圍有多大。
文本識(shí)別。是在文本檢測(cè)的基礎(chǔ)上,對(duì)文本內(nèi)容進(jìn)行識(shí)別,將圖像中的文本信息轉(zhuǎn)化為文本信息。文字識(shí)別主要解決的問(wèn)題是每個(gè)文字是什么,識(shí)別出的文本通常需要再次核對(duì)以保證其正確性,文本校正也被認(rèn)為屬于這一環(huán)節(jié)。
文字識(shí)別包括以下幾個(gè)步驟:特征提取和降維—分類(lèi)器設(shè)計(jì)—訓(xùn)練—后處理;
根據(jù)用戶在手機(jī)終端真實(shí)的使用場(chǎng)景,不同用戶在不同界面用戶翻譯的需求是不一樣的,翻譯的頁(yè)面元素類(lèi)別不一樣,翻譯的選區(qū)大小也會(huì)有差距,需要貼合用戶的真實(shí)使用場(chǎng)景構(gòu)造測(cè)試數(shù)據(jù)集。同時(shí)針對(duì)印度市場(chǎng)應(yīng)用和用戶的使用習(xí)慣;印度市場(chǎng)語(yǔ)言人口使用排行榜如下:印度語(yǔ)—孟加拉語(yǔ)—古吉拉特語(yǔ)—奧里亞—阿薩姆語(yǔ)—克什米爾語(yǔ)。印度手機(jī)銷(xiāo)售市場(chǎng),受教育程度低,每四個(gè)人中就有一個(gè)文盲,無(wú)法順利完成閱讀和書(shū)寫(xiě),因?yàn)榛谑謾C(jī)目標(biāo)銷(xiāo)售市場(chǎng)的小語(yǔ)種和用戶真實(shí)使用的場(chǎng)景來(lái)準(zhǔn)備測(cè)試集至關(guān)重要,用戶場(chǎng)景基于以下幾個(gè)維度來(lái)分析:
圖像大?。焊鶕?jù)選區(qū)翻譯的用戶使用場(chǎng)景,選區(qū)翻譯的大小需要覆蓋幾種典型的不同比例的大小,例如:選區(qū)翻譯界面是手機(jī)界面全屏、是手機(jī)界面1/4、是手機(jī)界面1/2、是手機(jī)界面3/4、是手機(jī)界面1/3、是手機(jī)界面2/3、是手機(jī)界面1/5 等。
圖像元素分析:在手機(jī)終端上,不同的用戶使用場(chǎng)景,界面包含的元素是不一樣的,和APP 設(shè)計(jì)和內(nèi)容強(qiáng)相關(guān)。經(jīng)過(guò)在不同用戶場(chǎng)景下分析手機(jī)終端上界面元素,大體上分類(lèi)以下幾類(lèi):純文本型、圖片型、視頻型、圖片型文字、純文本和圖片組合、純文本型和視頻型組合、純文本和圖片型文字組合等幾種場(chǎng)景。
圖像上文本內(nèi)容特征分析:經(jīng)過(guò)分析手機(jī)不同用戶場(chǎng)景,不同場(chǎng)景的文本,其文本內(nèi)容特征也有比較大差異。圖像上文本的內(nèi)容特征也影響文本提取的準(zhǔn)確性,因此測(cè)試集包含的文本內(nèi)容特征越豐富,其準(zhǔn)確性就越高。根據(jù)手機(jī)終端本文特征分析,測(cè)試集的文本特征應(yīng)包含以下集中特征:不同的標(biāo)點(diǎn)符號(hào)(: , .? ; / “”- & # ~ ...)、不同字體大小、字體加粗、項(xiàng)目符合、數(shù)字和文本的結(jié)合、金錢(qián)符號(hào)($)、不同語(yǔ)種混合(中英混合等)等等。
用戶場(chǎng)景APP 需求分析:根據(jù)用戶的選區(qū)翻譯需求,需要覆蓋不同的類(lèi)型的應(yīng)用場(chǎng)景,滿足不同的翻譯訴求。手機(jī)終端上的APP 大致可以分為幾大類(lèi):新聞閱讀類(lèi)APP,社交類(lèi)APP,電子讀書(shū)類(lèi)APP、視頻類(lèi)APP、游戲類(lèi)APP、購(gòu)物類(lèi)APP、銀行類(lèi)APP,其中購(gòu)物類(lèi)APP、游戲類(lèi)APP、銀行類(lèi)APP 偏工具類(lèi)使用,對(duì)翻譯的訴求理論上不是特別大,因此需要重點(diǎn)覆蓋新聞閱讀類(lèi)APP、社交類(lèi)APP、電子讀書(shū)類(lèi)APP 都是偏沉浸式閱讀體驗(yàn)類(lèi)APP,需要重點(diǎn)去覆蓋。
印度市場(chǎng)各類(lèi)APP 基本與國(guó)內(nèi)市場(chǎng)相同,除了金融投資領(lǐng)域,各行各業(yè)基本都有相應(yīng)的互聯(lián)網(wǎng)服務(wù),印度市場(chǎng)APP 有自己獨(dú)立的本土化的APP。
閱讀類(lèi)APP:Daily hunt、谷歌News、FK、Inshorts、Prime Video、Netfix、Linkin 等。 交流場(chǎng)景:Whatsapp、Facebook、Outlook、Uber、Mail 等。觀影場(chǎng)景:YouTUbe、Prime Video、Zee5、Hotstar、OOT 等。
根據(jù)上述分析后,手機(jī)終端OCR 文本識(shí)別再翻譯的算法模型測(cè)試集構(gòu)建方法如圖2所示。
圖2 印度手機(jī)終端OCR 測(cè)試集構(gòu)建方法
準(zhǔn)對(duì)不同的OCR 使用場(chǎng)景,評(píng)估維度會(huì)有差別,大體上分為以下兩種:字符準(zhǔn)確率、召回率和整行準(zhǔn)確率、召回率。
字符準(zhǔn)確率:即識(shí)別對(duì)的字符數(shù)占總識(shí)別出來(lái)字符數(shù)的比例,可以反映識(shí)別錯(cuò)和多識(shí)別的情況,缺點(diǎn)是無(wú)法反應(yīng)漏識(shí)別的情況。
字符識(shí)別召回率:即識(shí)別對(duì)的字符數(shù)占實(shí)際字符數(shù)的比例,可以反映識(shí)別錯(cuò)和漏識(shí)別的情況,但是沒(méi)辦法反應(yīng)多識(shí)別的情況,可以配套字符識(shí)別準(zhǔn)確率一起使用。
文本行定位為的準(zhǔn)確率和召回率:同字符識(shí)別的準(zhǔn)確率和召回率。主要反應(yīng)文本行定位的指標(biāo),是OCR 算法的重要指標(biāo);一個(gè)字段算一個(gè)整體,假如100 個(gè)字分為20 個(gè)字段,里面錯(cuò)了5 個(gè)字,分布在4 個(gè)字段里,那么識(shí)別率是16/20=80%。
針對(duì)用戶場(chǎng)景的測(cè)試集構(gòu)建之后,在手機(jī)終端閱讀類(lèi)APP 上,為了更好體現(xiàn)OCR 文本識(shí)別后體可讀性,提出OCR 識(shí)別的句準(zhǔn)率統(tǒng)計(jì)方法,同時(shí)除了計(jì)算句準(zhǔn)率之外,為了更直觀看到OCR 句準(zhǔn)確率、OCR 識(shí)別性能以及錯(cuò)誤的情況。提出手機(jī)終端頁(yè)面OCR 識(shí)別評(píng)估模型如圖3所示。
圖3 OCR 算法屏幕模型
其中圖像識(shí)別性能影響手機(jī)終端頁(yè)面翻譯體驗(yàn)的時(shí)間,OCR 識(shí)別性能越好,基于OCR 應(yīng)用的印度等小語(yǔ)種翻譯速度越快,體驗(yàn)越好,因此圖像識(shí)別性能也是基于面向用戶手機(jī)終端OCR 模型質(zhì)量的關(guān)鍵指標(biāo)之一。
根據(jù)上一章節(jié)提出的OCR 評(píng)估模型,無(wú)法高效的通過(guò)人手動(dòng)統(tǒng)計(jì)方式來(lái)實(shí)現(xiàn),為了提高統(tǒng)計(jì)的效率和準(zhǔn)確性,需要開(kāi)發(fā)一套OCR 評(píng)估模型的自動(dòng)化實(shí)現(xiàn)方案,如圖4所示。
圖4 OCR 評(píng)估模型自動(dòng)化實(shí)現(xiàn)方法
OCR 識(shí)別的關(guān)鍵指標(biāo)中圖像識(shí)別性能的計(jì)算方法,調(diào)用小語(yǔ)種OCR 模型后,根據(jù)開(kāi)始讀取每一張圖片的時(shí)候,記錄每一張圖片開(kāi)始讀取的時(shí)間,以及圖像文本識(shí)別完之后的時(shí)間,通過(guò)計(jì)算兩者的時(shí)間差即為每張圖片的文本識(shí)別性能。在同一手機(jī)上,圖像識(shí)別的時(shí)間的大小和圖像大小以及和含有的文本內(nèi)容數(shù)量強(qiáng)相關(guān)(圖像大小覆蓋在第3 章節(jié)介紹中有覆蓋到),圖像中包含的文本信息內(nèi)容越多,OCR 識(shí)別的時(shí)間就越長(zhǎng),反之。不同的手機(jī)上,OCR 識(shí)別性能還和手機(jī)芯片平臺(tái)強(qiáng)相關(guān),手機(jī)芯片性能越好,OCR 識(shí)別性能越好。
OCR 性能的關(guān)鍵性能指標(biāo)中句準(zhǔn)率/召回率體現(xiàn)文章中句子的準(zhǔn)確性,句子是文本中相對(duì)較小的單位,句準(zhǔn)率越高越能體現(xiàn)OCR 的模型和算法的優(yōu)劣,為了自動(dòng)化計(jì)算文本的句準(zhǔn)率需要準(zhǔn)備每一張圖像測(cè)試集對(duì)應(yīng)的文本集,OCR識(shí)別到的文本后通過(guò)標(biāo)點(diǎn)符號(hào)進(jìn)行切分統(tǒng)計(jì),通過(guò)逐一對(duì)比OCR 識(shí)別的文本和測(cè)試集對(duì)應(yīng)的文本集對(duì)比是否匹配,通過(guò)句準(zhǔn)率計(jì)算模型的平均準(zhǔn)確率是在60%左右。
同時(shí)為了測(cè)試和研發(fā)方便查看,把以上相關(guān)的測(cè)試結(jié)果通過(guò)自動(dòng)化寫(xiě)到同一張Excel 表中統(tǒng)計(jì)顯示如圖5所示。
圖5 測(cè)試結(jié)果
對(duì)測(cè)試集中的每一個(gè)測(cè)試圖像中的句準(zhǔn)率和性能數(shù)據(jù)有了很好的對(duì)比和參考;通過(guò)該自動(dòng)化方法評(píng)估OCR 模型優(yōu)劣。
根據(jù)用戶場(chǎng)景來(lái)構(gòu)建測(cè)試集,對(duì)OCR 模型和算法的準(zhǔn)確率至關(guān)重要。沒(méi)有符合目標(biāo)用戶場(chǎng)景的測(cè)試數(shù)據(jù),無(wú)法度量模型和算法的優(yōu)劣,因此需要研究用戶場(chǎng)景中的用戶習(xí)慣和用戶的偏好,針對(duì)用戶場(chǎng)景的測(cè)試集才能更好地發(fā)現(xiàn)用戶場(chǎng)景的問(wèn)題,提升用戶場(chǎng)景的體驗(yàn)。因此提出了基于手機(jī)終端用戶場(chǎng)景OCR 測(cè)試集的構(gòu)建的方法,如果是針對(duì)某單一用戶使用場(chǎng)景則需要去針對(duì)性地去根據(jù)用戶體驗(yàn)或者人因分析后再構(gòu)造該特定場(chǎng)景的測(cè)試集。基于該測(cè)試集提出了適合手機(jī)終端的OCR 識(shí)別的評(píng)估模型:基于用戶手機(jī)終端場(chǎng)景的測(cè)試集、更好體現(xiàn)句子可讀性的句準(zhǔn)率/召回率來(lái)度量準(zhǔn)確率、影響使用性能體驗(yàn)的OCR 圖像識(shí)別性能以及該OCR 評(píng)估模型自動(dòng)化實(shí)現(xiàn)。