書名:《文字書寫系統(tǒng)的計(jì)算理論》
作者:史伯樂(Richard Sproat)
出版社:北京大學(xué)出版社
ISBN:978-7-301-17155-4/H·2496
出版時(shí)間:2010年8月
定價(jià):34元
21 世紀(jì)是一個(gè)符號化的信息時(shí)代,文字和符號日益成為記載和傳遞信息的重要載體。因此,文字日漸廣泛存在于各種場景中的各類物體之上,如路標(biāo)、車牌、食品包裝等。如今,人工智能發(fā)展迅速,并漸漸被廣泛應(yīng)用到各個(gè)領(lǐng)域中。人工智能在未來的社會(huì)中將發(fā)揮著不可替代的作用,然而人工智能離不開場景文字書寫識別。
由史伯樂(Richard Sproat)著,北京大學(xué)出版社2010 年8 月出版發(fā)行的《文字書寫系統(tǒng)的計(jì)算理論》一書以文字書寫系統(tǒng)為研究對象,深入剖析其計(jì)算理論。該書圍繞兩大論點(diǎn)展開論述:(一)詞形與書寫規(guī)則的映射是一種正則關(guān)系;(二)一個(gè)特定的語言書寫系統(tǒng)與其表達(dá)的語言學(xué)信息具有一致性。作者首先提出論點(diǎn),接著以實(shí)例的形式從不同角度加以論證。具體內(nèi)容涵蓋書寫系統(tǒng)的正則性、特定文字語言學(xué)信息表達(dá)及其一致性問題、常用的文字體系等多方面知識。該書結(jié)構(gòu)層次清晰,中心明確,條理性、理論性、實(shí)用性較強(qiáng),對場景文字書寫識別研究者探究神經(jīng)網(wǎng)絡(luò)環(huán)境下場景文字書寫識別具有一定積極意義,可供其參閱。
場景文字書寫識別要通過計(jì)算機(jī)視覺進(jìn)行識別、轉(zhuǎn)換,理解圖片上的文字,是計(jì)算機(jī)視覺技術(shù)中的重要組成部分。人們通常將識別圖片文字的技術(shù)稱為光學(xué)字符識別,簡稱OCR。傳統(tǒng)OCR 主要以掃描文檔圖片為主,成像過程容易受限,識別方法主要依靠二值化等技術(shù)。場景文字識別是對傳統(tǒng)OCR 的繼承與發(fā)展。較傳統(tǒng)OCR 而言,場景文字的排布、背景、字體、顏色等都更為復(fù)雜,因而在識別方面也更具挑戰(zhàn)性。近年來,在神經(jīng)網(wǎng)絡(luò)的興起下,計(jì)算機(jī)視覺行業(yè)中的許多問題因此得到了有效解決。神經(jīng)網(wǎng)絡(luò)是一種以模擬人腦神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的機(jī)器學(xué)習(xí)技術(shù)。它的結(jié)構(gòu)靈活,特征學(xué)習(xí)能力強(qiáng),可進(jìn)行端到端的訓(xùn)練,因而成為場景文字識別的得力助手,在場景文字書寫識別過程中具有不可忽視的作用。在國家社會(huì)科學(xué)基金項(xiàng)目(16XYY009)資助下,通過對場景文字書寫識別進(jìn)行探究,加深人們對網(wǎng)絡(luò)神經(jīng)背景下場景文字書寫識別的了解,以期促使人們能合理利用網(wǎng)絡(luò)神經(jīng)對場景文字進(jìn)行識別。
文字檢測是場景文字書寫識別的第一步。片段鏈接是快速進(jìn)行文字檢測的一種方法,其核心是對文字進(jìn)行拆解,將其分為片段和鏈接兩大元素。片段是一個(gè)局部包圍盒,用于覆蓋一小部分單詞或者文本行,常用一個(gè)帶有角度的矩形框進(jìn)行表示。矩形框與文字的高度差不多,但每個(gè)矩形框的長度只占整體長度中的一部分。如crocs 這個(gè)單詞可拆解為五個(gè)片段,每個(gè)片段包含一個(gè)字母。由于每個(gè)字母的長度不同,故其矩形框長度也有所不同,c 的長度比r 長,因此其矩形框也比r 長。鏈接是指將兩個(gè)相鄰的片段連接起來,通過片段連接組成一個(gè)完整的文字,能相連的片段表示是同一個(gè)部分的,不能相連的片段則表示不同部分。如c、r、o、c、s 這五個(gè)片段能連接起來組成crocs 這個(gè)完整而有意義的單詞,這表示c、r、o、c、s 屬于同一個(gè)部分。在進(jìn)行文字檢測時(shí),算法通過全面檢測片段,將兩個(gè)相連片段連接起來,并以幾何規(guī)則為依據(jù)將相連片段整合為一個(gè)整詞的包圍盒,從而獲取檢測結(jié)果。該種方法最大的優(yōu)勢是它可以對長文本或非水平長詞進(jìn)行檢測。
經(jīng)過文字檢測后,接下來就是對文字進(jìn)行識別。CRNN 是能進(jìn)行端到端訓(xùn)練的一種文字識別技術(shù)。它最大的優(yōu)勢是無需逐一對單個(gè)字符進(jìn)行標(biāo)注,能直接對文本與相應(yīng)的標(biāo)簽進(jìn)行訓(xùn)練。CRNN主要由卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和翻譯層組成。卷積神經(jīng)網(wǎng)絡(luò)主要對卷積特征圖進(jìn)行分析、整理,并提取特征序列。循環(huán)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)檢測卷積神經(jīng)網(wǎng)絡(luò)提取的特征序列,并輸出檢測結(jié)果。翻譯層則負(fù)責(zé)對檢測結(jié)果進(jìn)行翻譯。這樣就完成了對場景文字的識別,從而為場景文字書寫奠定良好基礎(chǔ)。然而場景文字書寫識別探索之路漫漫,需要研究者不斷探究,通過不斷學(xué)習(xí),掌握相關(guān)知識,增強(qiáng)自身專業(yè)素養(yǎng),從而更好地運(yùn)用神經(jīng)網(wǎng)絡(luò)推動(dòng)場景文字的書寫識別。