李成恩,鄧?yán)溃鲗幣d
1.六盤水市六枝特區(qū)第一中學(xué),貴州六盤水,553400
2.六盤水市六枝特區(qū)教育局,貴州六盤水,553400
3.六盤水市第二人民醫(yī)院,貴州六盤水,553400
彝族文章是我國彝族歷史文化的重要載體,是研究分布在我國西南地區(qū)的彝族的重要資料,更是中華民族的文化瑰寶。但是隨著時(shí)間的推移,彝族文檔保護(hù)情況不容樂觀,而且由于年代久遠(yuǎn)和紙張質(zhì)量問題,很多彝族文檔已經(jīng)無法翻看和查閱,對(duì)彝族文檔進(jìn)行數(shù)字化處理,是保存文檔的迫切需要,保存彝族的文章文檔、通過分析研究彝族文章了解彝族的歷史、文化和風(fēng)俗習(xí)慣,也是鑄牢中華民族共同體意識(shí)的迫切需要。
民族語言信息化是讓民族語言“活”起來,因此,研究民族語言意義重大。研究如何識(shí)別彝族文本文檔,首先,我們要掌握一定的彝文知識(shí)。彝文指的是彝族的文字,其特點(diǎn)包括:彝文是一種古老的音節(jié)文字,一個(gè)字形代表一個(gè)意義,其文字總數(shù)達(dá)萬余字。彝文的獨(dú)特體字多,合體字少。彝文的字形結(jié)構(gòu)有點(diǎn)、橫、豎、橫析,大致有象形、會(huì)意、指事、假借四類。彝文涉及宗教、歷史、哲學(xué)、文學(xué)、語言文字、醫(yī)藥、天文、地理和農(nóng)技等各個(gè)方面。彝文文獻(xiàn)的書寫方式因地區(qū)而異,四川涼山一帶彝文一般由右向左橫行書寫;云南、貴州、廣西一帶則由左向右豎行書寫。彝文的聲調(diào)一般分為3~5個(gè),調(diào)型簡單。彝文的詞序和虛詞是表達(dá)語法意義的主要手段,基本語序是主語—賓語—謂語。名詞、動(dòng)詞、人稱代詞作定語時(shí),在中心詞前;形容詞、數(shù)量詞作修飾語時(shí),在中心詞后。有些副詞修飾雙音節(jié)中心詞時(shí),在中心詞的兩個(gè)音節(jié)之間。彝文中的量詞非常豐富,有些方言的量詞能直接修飾中心詞,起后置冠詞的作用。1980年,國務(wù)院正式推行了《彝文規(guī)范方案》,很大程度上推動(dòng)了彝族文化的傳播。2014年,貴州民族大學(xué)的吳勰對(duì)古彝文進(jìn)行了規(guī)范化,整理出5000多個(gè)古彝文字符,其中常用字3000余個(gè),其余為文獻(xiàn)整理所需的異體字[1]。到目前為止,該套字符集已經(jīng)能夠滿足古彝文信息化的基本需求。目前對(duì)彝族文章文檔的圖像識(shí)別的研究比較少[2]。結(jié)合彝文的特征用合適的算法進(jìn)行預(yù)處理,對(duì)彝文文檔的識(shí)別和分析具有重要意義。預(yù)處理的好壞直接關(guān)系到文本圖像的識(shí)別和分析的質(zhì)量。
一般來說,古籍文檔圖像分析和識(shí)別需要幾個(gè)階段:預(yù)處理(二值化)、文本行切分、字符切分和文字識(shí)別[3]。本論文是利用OpenCVPython為實(shí)驗(yàn)平臺(tái),將通過高清攝像機(jī)拍攝的彝文圖片進(jìn)行預(yù)處理。為后期的圖像處理和識(shí)別奠定基礎(chǔ)。本論文選取的彝文圖片為2010年6月中華書局出版的《國家圖書館藏彝文典籍目錄》。
圖片二值化是圖片預(yù)處理的關(guān)鍵環(huán)節(jié)。在二值化之前要進(jìn)行灰度化處理。二值化的好壞直接影響后期圖片的識(shí)別和處理。在OpenCVPython中二值化的效果見圖1。
圖1 彝文文本原始圖像與二值化圖像對(duì)比
在OpenCV-Python實(shí)驗(yàn)平臺(tái)上彝文文本圖像二值化的算法如圖2所示。
圖2 彝文文本圖像二值化算法截圖
文本圖像中的噪聲一般是圖像采集、傳輸?shù)冗^程中由外界因素干擾所引起的,為了減少文本圖像中的噪聲,提高文本圖像的質(zhì)量和文本圖像識(shí)別的準(zhǔn)確率,文本圖像識(shí)別的預(yù)處理過程中一般還包括了對(duì)圖像進(jìn)行降噪處理。本文在OpenCV中利用算法對(duì)文本圖片進(jìn)行了降噪處理。降噪處理后可以極大提高圖片質(zhì)量。降噪前后對(duì)比如圖3所示。
圖3 彝文文本圖像降噪前后對(duì)比
降噪的算法截圖如圖4所示。
圖4 彝文文本圖像降噪算法截圖
經(jīng)過對(duì)文本圖像的二值化和降噪處理后,接下來開始對(duì)文本圖像進(jìn)行連通域分析。通過對(duì)文本圖像的連通域分析,可以將圖像中的不同物體分割開來,實(shí)現(xiàn)高準(zhǔn)確率的圖像識(shí)別。本文嘗試對(duì)《國家圖書館藏彝文典籍目錄》中的第466頁的彝文進(jìn)行連通域分析。通過分析,得到連通域169個(gè)。連通域分析結(jié)果如圖5所示。
圖5 彝文文本圖像的連通域分析結(jié)果
對(duì)圖像進(jìn)行預(yù)處理是為文本圖像的識(shí)別做準(zhǔn)備工作,對(duì)預(yù)處理的結(jié)果進(jìn)行分析,是我們發(fā)現(xiàn)問題、尋找研究方向和方法的必由之路。通過對(duì)連通域結(jié)果的圖片分析,我們發(fā)現(xiàn)以下三個(gè)問題,這也是以后研究的方向。
①我們可以看到在貴州、云南等地彝文有豎向書寫的寫作習(xí)慣,并且在列與列之間會(huì)出現(xiàn)一個(gè)個(gè)獨(dú)立的筆畫(點(diǎn))。列和列之間的筆畫如圖6所示。
圖6 列和列之間的筆畫
②連通域數(shù)量過多的問題,如圖6所示,一張彝文圖像有169個(gè)連通域,連通域數(shù)量多會(huì)對(duì)后期字符識(shí)別造成干擾。
③有些彝文文章存在彝文和漢文的混排的情況。需要研究如何把彝文和漢文切分出來,實(shí)現(xiàn)彝文文本圖像版面的分割和描述。
(1)經(jīng)查閱資料,對(duì)于列和列之間的點(diǎn)有兩種觀點(diǎn),一種觀點(diǎn)是姓氏之間的分割點(diǎn),另一種觀點(diǎn)認(rèn)為列和列之間的點(diǎn)是分割不同的音節(jié)點(diǎn),以避免混淆和誤解。兩種觀點(diǎn)的對(duì)錯(cuò),有待去考證。需要再深入地研究,找到真正的原因。列和列之間的點(diǎn)的歸屬問題,是列切分必須解決的問題。通過觀察彝文圖像可以看出,彝文列和列之間的距離不均等,甚至來說列間距差別還有點(diǎn)大,再加上彝文有些字體書寫習(xí)慣和字體本身結(jié)構(gòu)的原因,給列切分帶來了一定的難度,不能簡單地按照寬度均分的方法,筆者打算采用基于輪廓的分割方法來嘗試對(duì)彝文文本圖片的文字進(jìn)行列切分,一般情況下,采用該方法對(duì)圖片的質(zhì)量、清晰度要求比較高,如果圖片質(zhì)量不高或者存在噪聲,會(huì)極大地影響輪廓識(shí)別的準(zhǔn)確性,極大可能造成切分出錯(cuò),彝文尤其是古彝文由于年代久遠(yuǎn)、保存環(huán)境等原因,圖片質(zhì)量普遍不高,使用基于輪廓切分的方法比較困難。彝文是豎向書寫的文體,如何精準(zhǔn)地把彝文列切分出來,是彝文圖像識(shí)別中非常重要的步驟,更是以字符切分、字符識(shí)別的基礎(chǔ),列切分效果的好壞,直接影響到后面的圖像識(shí)別的最終結(jié)果。彝文列切分中可能產(chǎn)生部分字體切分出錯(cuò)的情況,比如列和列之間的筆畫的歸屬問題,切分出錯(cuò)的字體部分回歸本體的問題。如何在OpenCVPython中用合適的算法來處理上述的問題,是今后研究的方向之一。
(2)如何有效地減少、合并連通域也是今后研究的課題。連通域數(shù)量多可能由很多原因造成。比如圖片質(zhì)量、噪聲干擾、算法的閾值等。針對(duì)預(yù)處理后連通域數(shù)量過多的情況,筆者打算在以后的研究過程中通過優(yōu)化算法程序的方法進(jìn)行實(shí)驗(yàn)。摸索出一種更適合彝文文本圖像連通域分析的算法,也是今后的努力方向和目標(biāo)。
(3)今后研究的方向還包括對(duì)彝文和漢文混排的文本圖像版面分割和描述的問題的研究,在彝文文本預(yù)處理的過程中,選取的彝文圖片比較單純,都只是字符,沒有插圖、頁碼,以及其他不同于字符的內(nèi)容出現(xiàn),但是在現(xiàn)實(shí)中彝文文本圖像中包括很多有異于字符的內(nèi)容,如何把版面不同的內(nèi)容進(jìn)行準(zhǔn)確分割和描述,如何在OpenCV-Python的實(shí)驗(yàn)平臺(tái)上找到合適的算法對(duì)彝文、彝文和漢文混排的文本圖像的版面進(jìn)行分割和描述,也是以后研究的重點(diǎn)問題。
在OpenCV-Python中利用算法對(duì)彝文文檔圖像進(jìn)行有效處理,包括但不限于列切分、字符切分、后處理等,并且通過一定數(shù)量的實(shí)驗(yàn)測試,保證算法處理結(jié)果有較高的準(zhǔn)確率??偨Y(jié)并提煉出基于OpenCV-Python的有效處理彝文文本圖像的算法。在基于OpenCV-Python平臺(tái)上擴(kuò)大試驗(yàn)樣本的數(shù)量,優(yōu)化算法,以期能達(dá)到更好的彝文文本圖像識(shí)別效果。