• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于聚類和多神經(jīng)網(wǎng)絡(luò)的中文視頻文字識(shí)別

    2013-03-25 04:59:26
    關(guān)鍵詞:字符寬度聚類

    黃 軒

    ?

    基于聚類和多神經(jīng)網(wǎng)絡(luò)的中文視頻文字識(shí)別

    黃 軒

    (漳州職業(yè)技術(shù)學(xué)院 經(jīng)濟(jì)管理系, 福建 漳州 363000)

    通過研究視頻漢字識(shí)別問題,提出了關(guān)于視頻中漢字跟蹤及分割算法。首先,提取視頻樣本特征,采用K均值算法進(jìn)行聚類作為第I次分類,之后,采用多個(gè)BP(back propagation)神經(jīng)網(wǎng)絡(luò)進(jìn)一步細(xì)分一次分類后的結(jié)果作為二次分類。最后,對(duì)以上算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果證明這些算法是有效的,多層分類器較單一的BP神經(jīng)網(wǎng)絡(luò)分類器識(shí)別率更高。

    漢字分割;漢字跟蹤;k均值聚類;BP神經(jīng)網(wǎng)絡(luò)

    1 引 言

    隨著計(jì)算機(jī)硬件速度的不斷提升,視頻在許多領(lǐng)域得到了廣泛的應(yīng)用,視頻提取也變得十分重要的研究課題。近年來,分析視頻內(nèi)容,描述視頻結(jié)構(gòu),建立視頻索引,進(jìn)而理解視頻已成為研究的熱點(diǎn)。在這些過程中,視頻中的文字檢測(cè)和識(shí)別成為了分析視頻內(nèi)容的關(guān)鍵[1-3]。視頻文字識(shí)別和圖像文字識(shí)別相比更為復(fù)雜。主要的原因是:前者有著更為復(fù)雜的背景和噪音,另外還存在文字跟蹤的問題[4]。目前關(guān)于文字識(shí)別的問題,許多學(xué)者采用單一的分類器,取得了一定效用[5-7]。本文提出了一種基于聚類和多神經(jīng)網(wǎng)絡(luò)的中文視頻文字識(shí)別方法。論文的組織結(jié)構(gòu)如下:第2節(jié)討論了漢字區(qū)域的定位問題;第3節(jié)探討了在視頻中追蹤漢字區(qū)域的問題;第4節(jié)將追蹤到的區(qū)域分割若干個(gè)獨(dú)立的漢字;第5節(jié)識(shí)別分割后的漢字;第6節(jié)進(jìn)行了仿真實(shí)驗(yàn)分析。

    2 漢字區(qū)域定位

    本文采用Open CV中提供的函數(shù)從視頻中獲取單幅圖像,之后對(duì)得到的單幅圖像尋找漢字所在的區(qū)域。具體算法如下:

    步驟1從視頻中獲取單幅圖像;

    步驟2將彩色圖像轉(zhuǎn)化為灰度圖像;

    步驟3采用otsu方法[8],對(duì)灰度圖像二值化;

    步驟4去除噪音;

    步驟5尋找漢字區(qū)域。

    3 視頻中跟蹤漢字

    本文提出了一種雙向的搜索方法來確定視頻文字的開始圖像和結(jié)束圖像。搜索過程中,使用邊緣圖像的密度差值的平方作為尺度,當(dāng)距離尺度比某個(gè)閾值D小時(shí),就認(rèn)為當(dāng)前圖像的對(duì)應(yīng)區(qū)域與文字對(duì)象相匹配。下面具體說明往前搜索對(duì)應(yīng)區(qū)域的結(jié)束幀的過程,往后搜索開始幀方法與向前搜索完全相同,只要 把搜索方向改變一下就能得到所要的結(jié)果。往前搜索由兩個(gè)步驟構(gòu)成:

    (1)以當(dāng)前單幅圖像Picture_Start為開始圖像,用較大的搜索步長(zhǎng)向前找到第一幅單幅出現(xiàn)的與本文字對(duì)象不匹配的圖像Picture_Nomatch,以此來確定該文字對(duì)象沿時(shí)間軸變化的上界,同時(shí)記錄最后一次與本文字對(duì)象匹配的圖像Picture_Lastmatch。

    (2)以圖像Picture_Lastmatch作為參照?qǐng)D像并作為左邊的端點(diǎn),以Picture_Nomatch為右邊端點(diǎn),在這兩幅圖像之間反復(fù)進(jìn)行搜索,直到找到匹配的具有最大圖像號(hào)的圖像Picture_Maxmatch為止,此圖像就是該文字對(duì)象在時(shí)間軸上變化的上確界,即結(jié)束圖像Picture_End。

    下面引入文字對(duì)象匹配的距離尺度概念。定義一個(gè)尺寸大小為X*Y的觀察窗,用此觀察窗分別在水平方向上以距離X/2、垂直方向上以Y/2的搜索步長(zhǎng)掃描圖像。

    假定A為X*Y的觀察窗,對(duì)應(yīng)的邊緣點(diǎn)的集合為E(A,e),|E(A,e)|為邊界點(diǎn)數(shù)數(shù)目,e為A的邊界,那么如果A為文本區(qū)域,則A的填充密度就是:

    兩幅圖像檢測(cè)到的文字區(qū)域相似度定義成:

    其中Picture1_FillDensity[i]表示第1幅圖像的第i個(gè)窗口的填充密度,Picture2_FillDensity[i]表示第2幅圖像的第i個(gè)窗口的填充密度。

    4 漢字的分割

    假定圖像文字區(qū)域中含有若干的空白間隙,以w1,w2…wn-1表示這些間隙的寬度,cw1,cw2…cwn-1表示字符的寬度。則間隙的平均寬度可以表示成為:

    空白間隙的方差表示成為:

    空白間隙序列離差的平方表示成為:

    字符寬度序列的離差的平方表示成為:

    字符的平均寬度可以表示成為:

    填充度可以表示成為:

    公式(7)中width的意義是單個(gè)字符圖像的寬度,height是高度,grayvalue[i][j]表示灰度值FillFactor,可以很好地反應(yīng)了單個(gè)字符圖像的填充程度。具體實(shí)現(xiàn)算法如下:

    步驟1計(jì)算文字區(qū)域的垂直投影賦值給垂直投影向量V[i]=0,i=0,1,2,…,n-1;

    步驟2設(shè)定間隙閾值T;

    步驟3根據(jù)V和T計(jì)算間隙序列S[]和字符寬度序列C[];

    步驟4統(tǒng)計(jì)間隙序列和字符寬度序列的均值和方差;

    步驟5統(tǒng)計(jì)間隙序列和字符寬度序列的離差平方值;

    步驟6計(jì)算字符寬度序列離差平方值與字符寬度序列方差之差;

    步驟7根據(jù)步驟6的結(jié)果進(jìn)行合并和分割;

    步驟8填充度計(jì)算,進(jìn)行過濾;

    步驟9漢字圖片歸一化處理。

    5 漢字的識(shí)別

    本文把常用漢字的11種字體作為訓(xùn)練集,并重新編碼,并把這些編號(hào)轉(zhuǎn)化為二進(jìn)制編碼,作為BP神經(jīng)網(wǎng)絡(luò)的教師向量。我們采用[9]提出的環(huán)投影結(jié)合筆畫密度作為圖像文字的特征。漢字樣本空間很大,傳統(tǒng)的單一BP分類器不能夠很好的分類。通過采用多級(jí)分類的方法,具體是先進(jìn)行K均值聚類,而后是在此基礎(chǔ)上用多個(gè)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行二次分類,能得到比較理想的效果。

    5.1 K均值聚類

    本文先對(duì)樣本進(jìn)行聚類分析,歐式距離為距離模式,中心數(shù)400,迭代次數(shù)為50000次,得到類中最大樣本數(shù)為280,最小為65,在得到的371個(gè)類中,完全涵蓋了不同字體的相同字,通過處理就能將字形相似的字都聚集在一塊,同時(shí)樣本集合的樣本空間幅度也大大減少了。

    5.2 多BP神經(jīng)網(wǎng)絡(luò)

    通過重新編碼常用漢字,對(duì)每個(gè)一級(jí)類里的漢字按照不同的參數(shù)再次分組(二級(jí)類),在每組中采用傳統(tǒng)的單一的BP神經(jīng)網(wǎng)絡(luò)(小網(wǎng))進(jìn)行訓(xùn)練,將訓(xùn)練好的各種權(quán)值和參數(shù)保存,所有組訓(xùn)練完畢以后,再把訓(xùn)練樣本用各組對(duì)應(yīng)的小網(wǎng)加以控制和識(shí)別,識(shí)別后的結(jié)果連接起來作為新的BP神經(jīng)網(wǎng)絡(luò)(大網(wǎng))的輸入向量,經(jīng)過再次訓(xùn)練得出大網(wǎng)的訓(xùn)練結(jié)果,訓(xùn)練完畢保存權(quán)值和參數(shù)。識(shí)別時(shí),先用各個(gè)小網(wǎng)加以識(shí)別,將識(shí)別結(jié)果排序,如果首位候選具有明顯的優(yōu)勢(shì)那么則認(rèn)為就是該結(jié)果,否則進(jìn)行該一級(jí)類對(duì)應(yīng)的大網(wǎng)進(jìn)行識(shí)別得出在一級(jí)類中對(duì)應(yīng)的組,再用該組對(duì)應(yīng)的小網(wǎng)進(jìn)行識(shí)別作為最后結(jié)果(如圖1所示)。在小網(wǎng)訓(xùn)練中,輸入特征向量為200維,教師向量由該漢字編碼確定,再將其轉(zhuǎn)化為二進(jìn)制數(shù)。

    圖1 分類器設(shè)計(jì)圖

    6 仿真實(shí)驗(yàn)及分析

    將文中的方法與傳統(tǒng)的單一BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和識(shí)別加以比較。傳統(tǒng)的單一的BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)中,采用3層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu):輸入層為200個(gè)簡(jiǎn)單神經(jīng)元,隱含層60個(gè)簡(jiǎn)單的神經(jīng)元,輸出層12個(gè)簡(jiǎn)單神經(jīng)元;本文方法中聚類后每類中以20個(gè)漢字作為一組,進(jìn)行分組,特征向量都采用文中特征計(jì)算方法。

    用字庫產(chǎn)生模塊生成11種字體的I級(jí)常用漢字作為訓(xùn)練樣本,從各種視頻中截取圖像文字5000個(gè)作為測(cè)試樣本。訓(xùn)練樣本的K均值聚類實(shí)驗(yàn)結(jié)果如表1。

    表1 K均值聚類結(jié)果

    表2 實(shí)驗(yàn)結(jié)果對(duì)比

    從表2可以看出小網(wǎng)具有更快的學(xué)習(xí)速度,經(jīng)過小網(wǎng)學(xué)習(xí)后,可以大大縮減大網(wǎng)的學(xué)習(xí)時(shí)間和加快收斂速度。本文的方法優(yōu)于傳統(tǒng)的單一的BP神經(jīng)網(wǎng)絡(luò)方法,主要是由于一方面使用了K均值聚類。將4萬多個(gè)樣本分為400個(gè)大類,平均每類為100個(gè)左右。在聚類后又分為若干小組,之后再用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),這樣就大大降低了樣本空間。同時(shí)還使用了小網(wǎng)的識(shí)別結(jié)果排序規(guī)則,在有些情況下省去了大網(wǎng)的識(shí)別,綜合以上兩方面原因使本文方法訓(xùn)練時(shí)收斂速度加快,也提高了識(shí)別速度和識(shí)別率,實(shí)驗(yàn)結(jié)果明顯優(yōu)于傳統(tǒng)的單一的BP神經(jīng)網(wǎng)絡(luò)。

    [1] P.H Lindsay and D.A. Norman, Introduction into psychology—human information reception and processing[M].In German Berlin,Germany: Springer-Verlag,1991.

    [2] Jean-Marc Odobez and Datong Chen. Robust video text segmentation and recognition with multiple hypotheses[M].2002.

    [3] LiTao.The Fundamental Theory of Big-Neuron Proc of ICNNSP95[C].Nanjing,P.R.China,1995.12.

    [4] Chong-Wah Ngo,Chi-Kwong Chan. Video text detection and segmentation for optical character recognition[J]. Multimedia Systems, Vol.10,2005.3.

    [5] Cheng Lin Liu, In Jung Kim, Jin H Kim.Model-based stroke extraction and matching for handwritten Chinese character recognition[J]. Pattern Recognition, 2001(34).2339-2352.

    [6] Jian Wang, Yuan-Hua Zhou. An Unsurprised Approach for Video Text Localization[J].IEICE Transactions on Information and Systems.2006(4):1582-1585.

    [7] Kwang In Kim, Keechul Jung, and Jin Hyung Kim. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[M].

    [8] Otsu Nobuguki, A threshold selection method from gray-level histograms[J].IEEE Trans on Systems Man and Cybernetics,1979,SMC-9(1):62-66.

    [9] Tang Y Y, Yang L H, Liu J. Ma H. Wavelet Theory and its application to pattern Recognition[M].London: World Scientific Singapore,2000.

    Chinese Video Characters Recognition based on Cluster and Multi Neural Network

    HUANG Xuan

    (Department of Economic Management,Zhangzhou Institute of Technology, Fujian, Zhangzhou 363000, China)

    In this paper we study the problem of Chinese character recognition in video. We propose a series of algorithms on Chinese character division, tracking. Based on them we design a multi-level sorter. Firstly we extract the features of some samples and employ K-means clustering algorithm to carry on I level classification. Secondly, we employ the algorithm of multi-back propagation neural network (MBPNN) to classify every category once again and we call it II level classification. Finally, we carry on the experiment and the testing result proves that these algorithms are effectively and recognition rate is higher than conventional back propagation neural network.

    Chinese character segmentation; Chinese character tracking; K-means clustering; back propagation neural network

    2012-12-22

    漳州職業(yè)技術(shù)學(xué)院科技資助項(xiàng)目(ZZY1107)

    黃軒(1978-),男,福建漳州人,高級(jí)工程師,博士研究生,研究領(lǐng)域?yàn)檫M(jìn)化計(jì)算、計(jì)算機(jī)視覺。

    TP441.4;TP183

    A

    1673-1417(2013)01-0007-05

    (責(zé)任編輯:季 平)

    猜你喜歡
    字符寬度聚類
    尋找更強(qiáng)的字符映射管理器
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    基于DBSACN聚類算法的XML文檔聚類
    馬屁股的寬度
    基于改進(jìn)的遺傳算法的模糊聚類算法
    紅細(xì)胞分布寬度與血栓的關(guān)系
    孩子成長(zhǎng)中,對(duì)寬度的追求更重要
    人生十六七(2015年5期)2015-02-28 13:08:24
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    汨罗市| 邛崃市| 嘉黎县| 光泽县| 横山县| 恭城| 孙吴县| 牡丹江市| 平度市| 北碚区| 额济纳旗| 藁城市| 泉州市| 增城市| 集贤县| 保康县| 苏尼特左旗| 韶关市| 介休市| 永福县| 隆回县| 临澧县| 营山县| 垣曲县| 吴桥县| 福鼎市| 西林县| 宁国市| 莒南县| 余庆县| 红原县| 赤峰市| 根河市| 广南县| 凉城县| 巴南区| 福鼎市| 侯马市| 阳西县| 永和县| 高阳县|