• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于輕量級網(wǎng)絡的PCB芯片文字識別

      2022-01-09 05:19:40蔣子敏劉寧鐘沈家全
      計算機技術與發(fā)展 2021年12期
      關鍵詞:網(wǎng)絡層標簽準確率

      蔣子敏,劉寧鐘,沈家全

      (南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106)

      0 引 言

      作為工業(yè)電子領域的核心基礎組件之一,PCB(printed circuit board)電路板被廣泛應用于計算機、汽車電子、通信等多個領域,在電子元器件電氣連接中具有重要的支撐與互連作用[1]。作為PCB電路板中重要的元器件之一,芯片在文字識別中可以檢測在封裝過程中是否出現(xiàn)印刷錯誤等缺陷,為PCB提供基礎質(zhì)量保障,是至關重要的環(huán)節(jié)。

      人工進行芯片文字識別將會消耗大量的時間,且容易出現(xiàn)失誤,準確率不高。目前,一般與計算機技術相結合加以實現(xiàn)。傳統(tǒng)的文字識別技術主要包含預處理、版面分析、特征提取以及后處理等操作。該流程對于背景簡單、字體大小一致的版面文字具有較好的處理效果,且已經(jīng)趨于成熟,但面對一些復雜的場景圖片時很難將文字從圖片中完整提取。與場景文字類似,芯片文字具有背景噪聲多、字符粘連、字體大小不一致等特點,使用傳統(tǒng)的圖像處理技術對PCB芯片文字進行識別時無法取得較好效果。

      近年來,隨著科技的不斷發(fā)展與進步,深度學習被廣泛應用于目標檢測、語音識別等,文字識別作為基礎及熱點問題之一[2-4],在計算機視覺領域引起了廣泛的關注與研究。使用深度學習的方法對芯片文字進行識別,準確率更高,且更具魯棒性。而隨著社會的不斷進步,人們對于人工智能的需求日益加深,在良好需求實現(xiàn)的基礎上對模型的速度以及大小有著更進一步的要求,即在保證一定的精度下,盡可能地減少網(wǎng)絡模型的計算量與參數(shù)量,提高模型運行速度,使其能夠運行在移動端、嵌入式等設備中,減少大模型在實際操作中存在的限制。但傳統(tǒng)深度學習網(wǎng)絡模型較大,難以滿足如今移動終端、便攜式設備的需求。為了解決上述問題,減小模型大小,提升PCB芯片文字識別的效率與速度,該文提出了一種基于輕量級[5-7]PCB芯片文字識別算法LWTR。

      1 相關工作

      文字識別作為計算機視覺領域的基礎及熱點問題之一,已經(jīng)引起了廣泛的討論與關注。早期傳統(tǒng)的文字識別主要通過計算機圖像處理方法實現(xiàn),包括圖像預處理、版面分析、圖像行列切分、單個字符模型訓練以及后處理等步驟[8]。該類傳統(tǒng)方法對每一個流程模塊的性能都有著較高的標準要求,因此在文字識別的應用范圍上具有一定的局限性,在很多場景下,該方法無法將文字從 背景復雜、噪聲較多、光照不一的圖像中分割、訓練以及識別,同時,檢測與識別流程較為繁瑣,難以泛化出較好的模型。

      近年來,深度學習技術在不斷發(fā)展與進步,并在多個領域都有了廣泛而普遍的應用[9],如目標檢測、圖像分類、語音識別等等,極大地提高了生產(chǎn)生活效率。作為計算機視覺領域的基礎及熱點研究問題之一,文字識別技術亦得到了顯著的發(fā)展。其逐漸舍棄傳統(tǒng)的圖像處理方法,不斷向深度學習的框架靠近。將深度學習算法應用于文字檢測與識別之中,與傳統(tǒng)算法相比,其過程更為簡單,具有更好的性能。不同于傳統(tǒng)方法的手工特征提取,基于深度學習的方法將圖片作為輸入,通過自動特征提取等操作,即可得到輸出結果,整體而言更加魯棒,且模型的泛化能力更強。目前,基于深度學習實現(xiàn)端到端文字識別主要分為通過連接主義分類[10](connectionist temporal classification,CTC)或注意力機制(attention mechanism,AM)的識別方法,分別以CNN+RNN+CTC[11]與CNN+RNN+Attention[12]框架為基礎。這兩種框架的主要區(qū)別為將循環(huán)神經(jīng)網(wǎng)絡[13](recurrent neural network,RNN)得到的序列標簽轉(zhuǎn)錄為最終識別結果的對齊方式差異。目前,CRNN[14]作為場景文字識別算法被廣泛應用,在該算法中,作者選用VGGNet[15]作為輸入圖像的CNN特征提取網(wǎng)絡,將提取到的特征圖轉(zhuǎn)換為特征序列,并將特征序列送入基于雙向長短期記憶網(wǎng)絡[16](Bidirectional long short-term memory,Bi-LSTM)實現(xiàn)的循環(huán)神經(jīng)網(wǎng)絡層進行序列標簽預測,最終通過CTC完成轉(zhuǎn)錄。該類方法在場景文字識別中得到了良好的效果,但傳統(tǒng)的深度學習算法如VGG、ResNet[17]等模型參數(shù)量較多,計算量較大,受小型設備內(nèi)存限制較大,難以滿足人們?nèi)找嬖鲩L的輕量化應用需求。

      基于以上問題,該文提出了一種輕量級文字識別算法LWTR。該算法網(wǎng)絡框架以CNN+RNN+CTC為基準實現(xiàn),共包含特征序列提取層、循環(huán)神經(jīng)網(wǎng)絡層以及轉(zhuǎn)錄層。針對傳統(tǒng)深度模型參數(shù)量多、受設備內(nèi)存限制較大的問題,該文引入輕量級網(wǎng)絡PeleeNet[18],以該網(wǎng)絡為基礎并借鑒ShuffleNet V2[19]相關設計原則對其進行改進,在很大程度上減少了計算量以及模型參數(shù)量,減少小型設備中因模型太大對于內(nèi)存的限制,提升文字識別速度,使其更加適用于輕量級場景。同時,在循環(huán)神經(jīng)網(wǎng)絡層中加入歸一化[20](batch normalization,BN),從而加速網(wǎng)絡的收斂,并進一步提高了模型的泛化能力。

      2 LWTR模型

      該文提出了一種輕量級PCB芯片文字識別算法LWTR,能夠?qū)崿F(xiàn)快速而準確的高性能PCB芯片文字識別。受文字識別網(wǎng)絡架構以及輕量級網(wǎng)絡的啟發(fā),該模型網(wǎng)絡由特征序列提取層、循環(huán)神經(jīng)網(wǎng)絡層和轉(zhuǎn)錄層三部分組成。LWTR整體結構框架如圖1所示。

      圖1 LWTR框架

      2.1 特征序列提取層

      圖像輸入到網(wǎng)絡,將經(jīng)CNN卷積神經(jīng)網(wǎng)絡提取特征圖以及特征圖到特征序列的轉(zhuǎn)換部分稱為特征序列提取層。關于特征提取網(wǎng)絡,傳統(tǒng)方法通常采用一些較為基礎的算法模型實現(xiàn)豐富的特征提取,如VGG模型,并取得了良好的效果。但該類網(wǎng)絡具有較多的參數(shù)量以及計算量,所得到的模型較大,且內(nèi)存消耗大,在小型設備的應用上受限較多,難以實現(xiàn)快速、準確的高性能任務。同時,較深的網(wǎng)絡在訓練時收斂較慢,需要大量的訓練數(shù)據(jù)。

      為實現(xiàn)輕量級文字識別算法,減少計算成本、內(nèi)存限制的影響,在特征序列提取層中,該文設計了一種輕量級卷積神經(jīng)網(wǎng)絡用以實現(xiàn)特征提取,在很大程度上提升了LWTR整體識別網(wǎng)絡的效率及性能。

      特征序列提取層的網(wǎng)絡如表1所示。該層網(wǎng)絡共包含4個特征提取的階段以及特征圖到特征序列轉(zhuǎn)換的過程。通過摒棄原PeleeNet的階段4,選用階段0至階段3共四個階段進行特征提取。同時,為了滿足文中數(shù)據(jù)集文字長序列的特點,將原網(wǎng)絡中每個階段最后2×2的平均池化層改為2×1的平均池化層,并且在特征提取的最后一層添加了一個1×1的卷積層。受ShuffleNet V2相關設計原則的啟發(fā),在每個階段Dense Layer的設計中,統(tǒng)一卷積核的通道數(shù),保持其輸入輸出通道數(shù)的一致,從而加快識別速度,且階段1,2,3輸出特征圖的通道數(shù)分別為128,256以及512,從而保證了特征信息的充分提取。同時,為了加速網(wǎng)絡的收斂,在各階段最后使用BN進行歸一化,進一步提升模型的泛化能力。最終,將所得到的特征圖映射為特征序列,并送入循環(huán)神經(jīng)網(wǎng)絡層中進行更進一步的操作。

      表1 特征序列提取層

      2.2 循環(huán)神經(jīng)網(wǎng)絡層

      循環(huán)神經(jīng)網(wǎng)絡層主要由Bi-LSTM構成。圖片經(jīng)特征序列提取層得到的特征序列被送入RNN中得到預測標簽,最終采用CTC轉(zhuǎn)錄實現(xiàn)文字識別。即對于特征序列層提取而得的特征序列X=x1,x2,…,xL(L為序列長度)輸入到循環(huán)網(wǎng)絡層中,生成一系列預測序列標簽H=h1,h2,…,hL,其中每個xi對應一個hi。對于RNN在訓練中存在的梯度消失導致難以完成長序列的預測問題,常通過改變其單元結構加以優(yōu)化。作為一種特殊的RNN,長短期記憶網(wǎng)絡[21](long short-term memory,LSTM)通過引入門機制及細胞狀態(tài),有效解決了長期依賴的瓶頸問題,使得網(wǎng)絡可以處理任意長度的序列問題。對于LSTM而言,其看到、記住的信息均來自過去,無法獲得之后的相關信息。而在文字識別的算法應用中,文字序列過去與未來的信息間充滿關聯(lián),上下文間處于互補、一致狀態(tài),如在主語、時態(tài)的確定時前后信息都至關重要。因此,該文選擇將兩個LSTM進行前后組合為Bi-LSTM,從而充分獲得文字的前后語義信息,對于文字的整體識別具有重要意義。

      同時,該文采用多層Bi-LSTM構建循環(huán)神經(jīng)網(wǎng)絡層。與單層Bi-LSTM相較,堆疊的多層Bi-LSTM可以獲得更高層次的抽象,從而提取更為充分的信息,在文字識別過程中起到了至關重要的作用。

      2.3 CTC轉(zhuǎn)錄層

      作為LWTR網(wǎng)絡模型的最后一部分,轉(zhuǎn)錄層負責將循環(huán)神經(jīng)網(wǎng)絡層中預測得到的序列標簽轉(zhuǎn)化為最終文字識別結果加以輸出,是文字識別框架中至關重要的一步。對于循環(huán)神經(jīng)網(wǎng)絡而言,若采用常規(guī)SoftMax損失函數(shù),則每一列的輸出均對應一個字符元素。該過程需要在訓練時對每張圖片進行字符及其位置的標記,再將其對應到特征序列獲取對應標簽方能進行,耗費了大量的時間及精力。CTC作為一種時序分類算法,多用于處理序列任務中標注問題中的輸入以及輸出標簽的難以自動對齊問題。通過引入CTC算法至損失函數(shù)的計算,將其與RNN相結合,無需對訓練數(shù)據(jù)進行預分割以及后續(xù)處理操作,只需輸入與輸出序列。整體網(wǎng)絡的輸入為未進行分割、對齊的序列標簽,輸出則為經(jīng)過規(guī)則映射得到的序列標簽中概率最大的序列。該類應用避免了字符或音素級別的標注,在單一網(wǎng)絡架構中完成對序列的建模,呈現(xiàn)出一種用循環(huán)神經(jīng)網(wǎng)絡標記序列數(shù)據(jù)的新方法,真正實現(xiàn)端到端的網(wǎng)絡模型,進一步簡化了任務的流程,極大地提升了文字識別的效率,在語音識別、文字識別等場景中被廣泛應用。

      在文中文字識別的處理中,CTC主要在訓練時進行標簽的對齊并參與損失函數(shù)的計算過程。同時,在預測過程中,CTC通過計算條件概率將預測的標簽文字轉(zhuǎn)換為最終的輸出結果,從而實現(xiàn)文字識別的整體過程。因此,該網(wǎng)絡可以使用序列標簽作為監(jiān)督進行訓練。對于給定的特征輸入序列x,輸入圖片文字識別為序列l(wèi)的概率如公式(1)所示:

      (1)

      2.4 損失函數(shù)

      對于訓練數(shù)據(jù)集X={Ii,li}i,其中Ii代表訓練圖像,li代表對應圖像文字的真實值標簽序列。則本實驗中算法的訓練目標為最小化真實條件概率的最大負對數(shù)似然函數(shù)。該損失函數(shù)的定義如式(2)所示:

      (2)

      其中,yi代表圖像Ii經(jīng)卷積神經(jīng)網(wǎng)絡層以及循環(huán)神經(jīng)網(wǎng)絡層產(chǎn)生的序列。損失函數(shù)通過圖像以及它的真實標簽序列計算損失值?;诖?,本算法研究中的網(wǎng)絡可以基于訓練圖像及其真實標簽序列值進行端到端的訓練,從而避免了人工標記單個字符的過程,進一步提高了效率。

      3 實驗結果與分析

      3.1 評價標準

      關于文字識別的評價,通常存在兩種標準,分別為編輯距離以及準確率,其中準確率可以細分為字符準確率、字段準確率以及圖片文字識別準確率。

      編輯距離又稱萊文斯坦距離(Levenshtein distance,LD),在信息學、計算機科學等領域被廣泛應用。其作為一種特殊的量化算法常常被用來衡量兩個字符串序列之間的相似度,即對于兩個單詞或者是兩個字符串,從其中一個轉(zhuǎn)換為另一個所需的最少編輯操作次數(shù)。如對于單詞cafe與coffee,這兩者的編輯距離為3,對于單詞set與sit,其編輯距離為1。對于兩者間的操作轉(zhuǎn)換,僅限于插入、刪除以及替換共計三種單字符的操作。通過編輯距離,當預測標簽與真實值之間的差異編輯距離越小,相似度越大,則識別準確率越高。

      對于文字識別準確率的計算,針對其基準不同,可分為字符準確率、字段準確率以及圖片文字識別準確率。字符識別準確率為識別正確的字符數(shù)占總字符的比率,字段識別準確率為圖像中完全識別正確的字段占總字段數(shù)的比率,而圖像文字識別準確率則用識別正確的圖片數(shù)量除以總圖片數(shù)。

      其中,在字段識別以及圖片文字識別準確率中,識別正確的字段以及圖片要求字段或圖片中文字每一個字符識別均完全正確。在現(xiàn)實應用中,由于其直觀與便捷性,準確率常常被選用為文字識別的評價指標。在本實驗中,由于數(shù)據(jù)集中圖片為分割完成的單獨字段行,采用字段準確率(圖片準確率)作為文中文字識別的評價指標。

      3.2 實驗設置

      實驗在Tensorflow深度學習框架上進行,操作系統(tǒng)為Ubuntu 16.04,CPU為i7-8700k,顯卡為GeForce GTX 1080 Ti,內(nèi)存為15.6 GiB,11 GB顯存。

      采用基于批處理的隨機梯度下降方法進行模型的優(yōu)化?;緦W習率設為0.01,學習衰減率設置為0.1,重量衰減值設為0.000 5,采用Kaiming[22]初始化進行參數(shù)的初始化過程。在訓練階段,通過最小化CTC損失函數(shù)共同訓練LWTR中的卷積神經(jīng)網(wǎng)絡與循環(huán)神經(jīng)網(wǎng)絡。由于PCB文字數(shù)據(jù)集數(shù)據(jù)量較小,對該部分數(shù)據(jù)進行增加噪聲、調(diào)整對比度等操作實現(xiàn)數(shù)據(jù)增廣,增廣后的數(shù)據(jù)集作為該文的訓練集進行訓練。同時,對于輸入圖像,將其縮放至100×32的大小進行網(wǎng)絡的訓練以及測試。

      3.3 實驗結果與分析

      將PCB芯片數(shù)據(jù)集運行在不同的網(wǎng)絡架構之中,實驗結果如表2所示。實驗表明,該文提出算法的識別準確率為89.58%,比以VGG 16為主干網(wǎng)絡的CRNN算法識別率低0.42%??梢郧逦匕l(fā)現(xiàn),采用所提出的LWTR算法模型,相比以VGG 16為主干的提取網(wǎng)絡,在準確率幾乎沒有下降的情況下,模型的參數(shù)減少了一半多,同時,與PeleeNet為主干架構的網(wǎng)絡模型相比,所提出方法的識別準確率高了2.5%,模型大小減小了36%。實驗驗證了所提出的算法的有效性,即在PCB芯片數(shù)據(jù)集上進行文字識別,與其他網(wǎng)絡相比,具有更好的性能。

      表2 實驗對比

      在循環(huán)神經(jīng)網(wǎng)絡層,采用堆疊的Bi-LSTM進行特征序列到標簽的預測。為深入探討B(tài)i-LSTM的堆疊深度以及卷積層中通道數(shù)的大小對于文字識別模型整體性能的影響,本實驗在PCB芯片數(shù)據(jù)集上通過RNN深度不同以及通道數(shù)不同的設置分別進行消融實驗。消融實驗結果如表3所示。其中,本模型中通道數(shù)的選擇為8,Scale代表所選取的通道數(shù)為模型通道數(shù)的倍數(shù),當Scale=0.5時,通道數(shù)為4,當Scale=1時,通道數(shù)為8。通過消融實驗可以發(fā)現(xiàn),循環(huán)神經(jīng)網(wǎng)絡層中Bi-LSTM的疊加深度以及卷積神經(jīng)網(wǎng)路中通道數(shù)對實驗結果有不同的影響。由于不同的RNN層數(shù)以及通道數(shù)直接影響著模型的大小、計算量以及運行速度,當選用一層Bi-LSTM時,雖然其參數(shù)量與疊加的RNN相比較小,且速度較快,但網(wǎng)絡收斂較慢,無法充分學習,在同等情況下(通道數(shù)相同),相較層次較深的網(wǎng)絡無法得到可觀的識別結果。而當Bi-LSTM深度較深、通道數(shù)較大時,會在一定程度上造成信息的冗余,從而帶來信息的丟失,不利于識別準確率的提升。同時,由于深度較深,模型參數(shù)量較大,其整體的識別速度大幅度下降。實驗表明,在使用2層Bi-LSTM且通道數(shù)為8時,即采用該文提出的算法時,在識別準確率幾乎等同于最好值90.00%時,具有更小的模型以及更快的速度。其得到的結果可以在速度、模型大小以及識別準確率間謀取平衡,達到較高的性能,具有較好的綜合實驗效果。

      表3 消融實驗對比

      3.4 結果可視化

      將LWTR網(wǎng)絡模型應用于PCB數(shù)據(jù)集中進行芯片文字的識別測試,測試結果圖如圖2所示。圖2所展示的為部分測試圖像以及其對應的模型識別結果。從圖2可以得出,該文提出的算法應用于PCB芯片文字識別時取得了較好的效果,在背景各異、字體及大小不同的圖片文字識別中具有較強的魯棒性。

      圖2 結果可視化

      4 結束語

      該文主要提出了一種輕量級文字識別算法LWTR并將其應用于PCB芯片文字識別中。通過引入改進的輕量級網(wǎng)絡進行特征提取,大大減少了網(wǎng)絡的參數(shù)量,提高了識別速度,同時,引入BN歸一化加速網(wǎng)絡收斂。實驗證明,該文提出方法在保證識別準確率的條件下獲得了更小的模型與更快的識別速度,相比傳統(tǒng)深度模型更具輕量級特點。

      猜你喜歡
      網(wǎng)絡層標簽準確率
      Noise-Tolerant ZNN-Based Data-Driven Iterative Learning Control for Discrete Nonaffine Nonlinear MIMO Repetitive Systems
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      高速公路車牌識別標識站準確率驗證法
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標簽化傷害了誰
      基于WPA的物聯(lián)網(wǎng)網(wǎng)絡層安全的研究
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      济源市| 清涧县| 安徽省| 沂源县| 新野县| 哈密市| 西贡区| 昌平区| 潮安县| 长岛县| 缙云县| 平武县| 彩票| 文水县| 邵武市| 贺州市| 呼伦贝尔市| 怀仁县| 文登市| 安远县| 梁山县| 宁波市| 孟津县| 绩溪县| 肇源县| 繁峙县| 东乡族自治县| 钟祥市| 合作市| 雅江县| 宣恩县| 德惠市| 延吉市| 手机| 六枝特区| 深圳市| 永定县| 东丽区| 麦盖提县| 耒阳市| 左权县|