白 艷,郭艷輝
(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院,河南 鄭州 451100)
基于人工智能的圖像識(shí)別技術(shù)在交通領(lǐng)域、醫(yī)療領(lǐng)域、電力行業(yè)、智能支付、工農(nóng)業(yè)生產(chǎn)等方面都有廣泛的應(yīng)用,提高了人們的生活水平,推動(dòng)了各個(gè)行業(yè)的創(chuàng)新發(fā)展,在智能化技術(shù)和計(jì)算機(jī)技術(shù)的支撐下,圖像識(shí)別和處理功能變得更加強(qiáng)大。
圖像識(shí)別是人工智能技術(shù)的核心組成部分。圖像識(shí)別技術(shù)的具體應(yīng)用是模擬人類眼睛的功能對(duì)所要識(shí)別對(duì)象的各類特征進(jìn)行捕捉。圖像識(shí)別的重點(diǎn)是對(duì)圖像特征的判斷、掃描。例如,字母A的特征是一個(gè)突出的尖角,字幕O的特征是一個(gè)圓圈,字母Y是一個(gè)銳角。圖像識(shí)別技術(shù)在生活中的應(yīng)用比較常見。例如,在智能停車場(chǎng)中,利用掃描設(shè)備準(zhǔn)確識(shí)別車牌號(hào),對(duì)停進(jìn)車輛和駛出車輛的車牌號(hào)進(jìn)行識(shí)別,可以提高停車場(chǎng)管理的智能化水平和智能化程度。除了對(duì)外在突出特征進(jìn)行識(shí)別外,圖像識(shí)別技術(shù)還可以對(duì)色彩、特殊信息進(jìn)行識(shí)別,在識(shí)別過程中主要是對(duì)所識(shí)別對(duì)象突出的特征信息進(jìn)行捕捉,也可以根據(jù)具體的場(chǎng)景和對(duì)應(yīng)的需求,對(duì)所要識(shí)別內(nèi)容的內(nèi)涵進(jìn)行分析[1]。為了更加真實(shí)地模仿人眼識(shí)別圖像的原理,圖像識(shí)別技術(shù)需要不斷縮小與人眼識(shí)別圖像的效果差異,利用計(jì)算機(jī)系統(tǒng),在遵循計(jì)算機(jī)掃描特征和原理的基礎(chǔ)上模擬人眼識(shí)別圖像的過程和人腦處理圖像信息的原理。
圖像識(shí)別的智能化處理是基于人工智能圖像識(shí)別技術(shù)的最大優(yōu)勢(shì),結(jié)合實(shí)際情況來看,相比傳統(tǒng)的圖像處理方法來說,利用人工智能圖像識(shí)別技術(shù)可以更加精確、直接地識(shí)別、分析和篩選圖像信息內(nèi)容,提高了分解結(jié)果的準(zhǔn)確性。以目前應(yīng)用最為廣泛的人臉識(shí)別技術(shù)為例,利用人工智能圖像識(shí)別的智能識(shí)別技術(shù),將實(shí)時(shí)采集到的人臉數(shù)據(jù)與數(shù)據(jù)庫中提前儲(chǔ)存的人臉數(shù)據(jù)信息進(jìn)行對(duì)比,利用智能化的人臉識(shí)別技術(shù)提取人臉信息,將人臉信息轉(zhuǎn)化為數(shù)據(jù)信息用于安全識(shí)別的密碼設(shè)定,實(shí)時(shí)獲取的人臉數(shù)據(jù)信息與數(shù)據(jù)庫中預(yù)先儲(chǔ)存的人臉圖像信息相匹配時(shí)時(shí)完成人臉解鎖功能的設(shè)定,在手機(jī)人臉設(shè)備解鎖以及人臉識(shí)別智能支付等方面有著廣泛的應(yīng)用[2]?;谌斯ぶ悄艿膱D像識(shí)別系統(tǒng)功能更加復(fù)雜,所要處理的信息量大,處理難度高,不僅能進(jìn)行簡(jiǎn)單的圖像識(shí)別,也能對(duì)圖像信息進(jìn)行自動(dòng)化處理,同時(shí)可以進(jìn)行深入分析、研究、挖掘和對(duì)比,其智能化程度和龐大數(shù)據(jù)信息處理模式是傳統(tǒng)電腦處理圖像功能不具備的。
便捷化和實(shí)用性也是基于人工智能圖像識(shí)別技術(shù)的優(yōu)勢(shì)。圖像識(shí)別技術(shù)的應(yīng)用范圍廣泛,應(yīng)用場(chǎng)景多樣,在人們生活、工作中比較常見,基于人工智能的圖像識(shí)別技術(shù)可以展現(xiàn)出其便捷性和實(shí)用性,在實(shí)際應(yīng)用過程中,不需要經(jīng)過復(fù)雜的圖像處理流程就能高效、快速地完成難度較大的數(shù)據(jù)處理任務(wù)。例如,現(xiàn)階段大力推廣的刷臉支付和刷臉開鎖功能,消費(fèi)者無需使用密碼就可以完成支付和解鎖,這也是基于圖像識(shí)別技術(shù)發(fā)展而來的新型密保系統(tǒng),相比傳統(tǒng)的密碼輸入方式,不僅具有便捷性和實(shí)用性,其保護(hù)功能的安全系數(shù)更高。
圖像預(yù)處理是智能化圖像識(shí)別技術(shù)的重中之重。圖像識(shí)別的準(zhǔn)確度以及重要、關(guān)鍵圖像信息的識(shí)別、分析、對(duì)比的最終結(jié)果,都與圖像預(yù)處理階段的工作息息相關(guān)。圖像數(shù)據(jù)預(yù)處理是基于人工智能圖像識(shí)別技術(shù)應(yīng)用效果最為關(guān)鍵的環(huán)節(jié)。通過聯(lián)合圖像預(yù)處理技術(shù)和智能識(shí)別體系,可以及時(shí)、快速、準(zhǔn)確、全面地掃描和捕捉所識(shí)別對(duì)象的特征,為后續(xù)圖像數(shù)據(jù)的處理以及相關(guān)功能的完成奠定基礎(chǔ)。利用預(yù)處理圖像技術(shù),可以降低圖像識(shí)別的工作量和工作難度,縮短圖像識(shí)別所需的時(shí)間。圖像預(yù)處理技術(shù)應(yīng)用的關(guān)鍵點(diǎn)在于提高辨識(shí)效率,在具體應(yīng)用時(shí)要應(yīng)用降噪、去霧等工序,通過層層篩選將質(zhì)量不佳、應(yīng)用效果較差的圖像經(jīng)過綜合預(yù)處理的方式提高清晰度和辨識(shí)度[3]。
提取和選擇是圖像特征提取的關(guān)鍵工作任務(wù)。所要識(shí)別的目標(biāo)圖像有很多的特征點(diǎn),不同的特征點(diǎn)對(duì)應(yīng)著具體的特征子集??茖W(xué)合理地選擇和選用特征點(diǎn),是提高圖像識(shí)別效果、保證最終識(shí)別結(jié)果準(zhǔn)確度和完整性的基礎(chǔ)和前提。根據(jù)圖像識(shí)別技術(shù)的具體應(yīng)用情況來看,所要識(shí)別的目標(biāo)圖像特征點(diǎn)主要表現(xiàn)在空間關(guān)系特征、圖像形狀、圖像紋理、顏色特征等多個(gè)方面,基于人工智能圖像識(shí)別技術(shù)的應(yīng)用,一般情況下將顏色作為第一捕捉特征,其次考慮空間特征、目標(biāo)圖像的體積特征等。但是在圖像識(shí)別技術(shù)具體應(yīng)用時(shí),要以智能化圖像識(shí)別技術(shù)的具體應(yīng)用場(chǎng)景、需求以及應(yīng)用方向具體設(shè)定。目標(biāo)圖像所包含的信息數(shù)據(jù)內(nèi)容比較多,想要提高圖像識(shí)別技術(shù)的應(yīng)用效果,必須對(duì)目標(biāo)圖像的具體特征進(jìn)行區(qū)分和劃分。例如,電力企業(yè)在應(yīng)用基于人工智能的圖像識(shí)別技術(shù)對(duì)架空輸電線路進(jìn)行巡檢時(shí),要提取線路的紋理特征,并根據(jù)輸電線路檢修、維護(hù)工作的開展需求制定具有針對(duì)性的巡檢方案。根據(jù)以往工作經(jīng)驗(yàn),確定輸電線路存在問題時(shí)輸配電電纜的紋理特征,才能提高對(duì)問題線路的辨識(shí)度,提高輸配電線路巡檢工作的有效性和針對(duì)性。
圖像匹配分類是智能化圖像識(shí)別技術(shù)的最后一個(gè)流程,也是關(guān)鍵的工作步驟。圖像匹配分類工作的開展,建立在預(yù)處理圖像數(shù)據(jù)和提取圖像典型特征的基礎(chǔ)上,以這兩個(gè)工作環(huán)節(jié)獲取的結(jié)果數(shù)據(jù)為參照,提取數(shù)據(jù)庫中相同圖片的信息,展開特征分析。仍然以電力企業(yè)輸配電線巡檢工作中圖像識(shí)別技術(shù)的應(yīng)用為例,在智能化圖像識(shí)別技術(shù)的圖像匹配分類中,必須按照?qǐng)D片的特點(diǎn)調(diào)取數(shù)據(jù)庫中與其相對(duì)應(yīng)問題的處理信息,為技術(shù)人員分析、判斷、評(píng)估工作的開展提供必要的支撐,以提高圖片處理效率和匹配率[4]。
模型識(shí)別法在智能化圖像識(shí)別技術(shù)的應(yīng)用中發(fā)揮著至關(guān)重要的作用。圖像識(shí)別技術(shù)的應(yīng)用通常要處理海量的數(shù)據(jù)信息。模型識(shí)別法技術(shù)是在傳統(tǒng)圖像識(shí)別技術(shù)的基礎(chǔ)上發(fā)展而來。該技術(shù)以數(shù)學(xué)原理和數(shù)學(xué)模型為基礎(chǔ),根據(jù)圖像數(shù)值、曲線和形狀等方面的特征,自動(dòng)完成圖像識(shí)別的各項(xiàng)步驟。模型識(shí)別法最重要的步驟是學(xué)習(xí)步驟,在該步驟中,通過信息的采集、保存構(gòu)建較為全面的圖像信息數(shù)據(jù)庫,為后續(xù)與圖像信息分析、挖掘、識(shí)別、提取相關(guān)的工作步驟提供全面的數(shù)據(jù)支撐。與其他智能化圖像識(shí)別技術(shù)相同的是,模型識(shí)別法在實(shí)際應(yīng)用中也會(huì)出現(xiàn)識(shí)別錯(cuò)誤、識(shí)別不準(zhǔn)確、不全面、不及時(shí)等諸多問題,如果學(xué)習(xí)步驟不正確,會(huì)增大上述問題的影響范圍和影響程度。以模型識(shí)別法在醫(yī)療行業(yè)中的具體應(yīng)用為例,其在實(shí)驗(yàn)室檢測(cè)、醫(yī)學(xué)臨床檢測(cè)、醫(yī)療設(shè)備規(guī)格檢測(cè)等場(chǎng)景中應(yīng)用都比較廣泛。以在醫(yī)學(xué)臨床檢測(cè)領(lǐng)域中的具體應(yīng)用為例,模型識(shí)別技術(shù)在X射線透視圖、核磁共振圖中的應(yīng)用比較常見。該方法的應(yīng)用可以幫助醫(yī)護(hù)人員及時(shí)、準(zhǔn)確、全面、客觀地完成圖像分析,了解患者影像,以具體、準(zhǔn)確、全面的數(shù)據(jù)為參照,通過對(duì)異常點(diǎn)的分析找出對(duì)應(yīng)的癥狀。但相比其他圖像識(shí)別技術(shù)來說,模型識(shí)別法在實(shí)踐中應(yīng)用的時(shí)間不長(zhǎng),有些功能不太完善,需要進(jìn)一步加強(qiáng)與人工智能技術(shù)的融合,才能充分發(fā)揮出該項(xiàng)技術(shù)的重要應(yīng)用價(jià)值。
相比其他技術(shù)來說,神經(jīng)網(wǎng)絡(luò)形式在基于人工智能圖像識(shí)別技術(shù)中的應(yīng)用最為廣泛和普遍,如其在交通領(lǐng)域中的應(yīng)用可以充分發(fā)揮出該項(xiàng)技術(shù)的諸多優(yōu)勢(shì)。與前文提到的模型識(shí)別法原理相同的是,神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)技術(shù)也是以傳統(tǒng)的圖像識(shí)別法為基礎(chǔ),綜合應(yīng)用神經(jīng)網(wǎng)絡(luò)方法構(gòu)建一套新型的識(shí)別模式。顧名思義,神經(jīng)網(wǎng)絡(luò)形式是利用動(dòng)物和人類神經(jīng)網(wǎng)絡(luò)系統(tǒng)的原理進(jìn)行高度模擬,完成復(fù)雜的圖像識(shí)別[5]。與模型法等方法不同的是,基于神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)別法的運(yùn)行更加復(fù)雜,數(shù)據(jù)信息、圖像信息的處理流程更為煩瑣,對(duì)專業(yè)技術(shù)要求高,應(yīng)用成本也比較高。但是與之對(duì)應(yīng)的,圖像數(shù)據(jù)的處理效率、信息提取分析效果也更為明顯。
現(xiàn)階段常用的神經(jīng)網(wǎng)絡(luò)形式主要有前饋網(wǎng)絡(luò)、反饋網(wǎng)絡(luò)、相互結(jié)合型網(wǎng)絡(luò)、混合型網(wǎng)絡(luò)四種形式。不同形式的網(wǎng)絡(luò)形式其組成不同,特征也存在差異。以前饋網(wǎng)絡(luò)為例,該網(wǎng)絡(luò)形式由多層組成,該形式的主要特征是相鄰層之間的神經(jīng)元相連接,同層各個(gè)神經(jīng)元無法連接,各神經(jīng)元從上一層得到多個(gè)輸入,利用下一個(gè)節(jié)點(diǎn)傳輸?shù)较乱粚拥母鱾€(gè)神經(jīng)元中,結(jié)構(gòu)如圖1所示。
圖1 三層前饋網(wǎng)絡(luò)結(jié)構(gòu)圖
從神經(jīng)網(wǎng)絡(luò)中的前饋網(wǎng)絡(luò)形式來看,反饋網(wǎng)絡(luò)的特征是各節(jié)點(diǎn)在接受輸入信號(hào)的同時(shí)可以接收其他節(jié)點(diǎn)的反饋,包含神經(jīng)元輸出信號(hào)返回自身的環(huán)繞反饋。具體結(jié)構(gòu)如圖2所示,是一種用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖。應(yīng)用該神經(jīng)網(wǎng)絡(luò)架構(gòu)圖,可以針對(duì)交通領(lǐng)域不同場(chǎng)景下的圖像識(shí)別需求,幫助交警進(jìn)行交通管制、視頻檢測(cè)、智能化的違章拍攝等,保證車輛的安全,提高了交通管理、違章拍攝以及處理的工作效率。
圖2 一種用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
除了模型識(shí)別法和神經(jīng)網(wǎng)絡(luò)形式之外,非線性降維形式也是人工智能圖像識(shí)別技術(shù)中非常重要的內(nèi)容。該形式是在高維識(shí)別技術(shù)的基礎(chǔ)上發(fā)展而來的。相比前兩種技術(shù),非線性降維形式的環(huán)境適應(yīng)能力強(qiáng),可以在圖像分辨率較低的場(chǎng)景下工作,這一特征使得該項(xiàng)技術(shù)在實(shí)際應(yīng)用中可以產(chǎn)生多維性的數(shù)據(jù)信息,數(shù)據(jù)的準(zhǔn)確度、全面性都比較高。但是結(jié)合非線性降維形式的具體應(yīng)用來看,受到計(jì)算機(jī)技術(shù)、數(shù)據(jù)處理軟件、人工智能技術(shù)、算法算力等方面的影響,該項(xiàng)技術(shù)尚處在發(fā)展階段,實(shí)際應(yīng)用中仍然存在諸多問題,想要取得技術(shù)突破,需要從線性和非線性方面著手進(jìn)行深入研究。
常規(guī)的非線性降維算法包含PAC、LDA、MDS、Isomap、LLE等。不同算法的優(yōu)勢(shì)、缺點(diǎn)和適用場(chǎng)景存在很大的區(qū)別,在具體應(yīng)用中要根據(jù)應(yīng)用場(chǎng)景的具體需求而定。以PAC算法為例,其優(yōu)點(diǎn)是理論基礎(chǔ)扎實(shí),概念較為簡(jiǎn)單、設(shè)計(jì)方便,具有最優(yōu)線性重構(gòu)誤差。缺點(diǎn)在于在高維的數(shù)據(jù)特征向量計(jì)算中適用性較差,主成分個(gè)數(shù)的確定沒有較為清晰的標(biāo)準(zhǔn),在非線性數(shù)據(jù)處理中不適用。
隨著科學(xué)技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)和信息技術(shù)的不斷發(fā)展和進(jìn)步,人工智能中的圖像識(shí)別技術(shù)也取得了蓬勃發(fā)展,在不斷優(yōu)化、升級(jí)和完善中。結(jié)合實(shí)際情況來看,現(xiàn)階段圖像識(shí)別技術(shù)雖然在不同場(chǎng)景中以不同形式得到了廣泛應(yīng)用,且有些技術(shù)已經(jīng)非常精準(zhǔn)和先進(jìn),但是仍然存在很大的優(yōu)化和改良空間。從基于人工智能的圖像識(shí)別技術(shù)的未來發(fā)展來看,高分辨率和急速傳輸、多維角度、應(yīng)用范圍持續(xù)拓展將是智能化圖像識(shí)別技術(shù)的主要發(fā)展方向和發(fā)展趨勢(shì)。在人工智能領(lǐng)域,圖像識(shí)別技術(shù)雖然具備了高清晰度和較高的信息處理能力,但是在數(shù)據(jù)處理中仍然存在很大的誤差,對(duì)信息設(shè)備處理產(chǎn)生了一定影響,而導(dǎo)致這一問題的主要原因是計(jì)算機(jī)硬件設(shè)備的功能和性能不穩(wěn)定。在未來發(fā)展中,技術(shù)人員要根據(jù)圖像識(shí)別技術(shù)應(yīng)用場(chǎng)景的具體需求,加大軟件技術(shù)和硬件技術(shù)的改良,突破技術(shù)瓶頸[6]。
在信息技術(shù)、網(wǎng)絡(luò)技術(shù)持續(xù)發(fā)展的背景下,圖像識(shí)別技術(shù)得到了完善和優(yōu)化,應(yīng)用場(chǎng)景增多,應(yīng)用范圍不斷拓展。以人工智能為基礎(chǔ)的圖像識(shí)別技術(shù)可以滿足不同場(chǎng)景圖像提取、圖像信息分析的需求。在具體應(yīng)用中,技術(shù)人員要明確模型分析法、神經(jīng)網(wǎng)絡(luò)形式、非線性降維形式等技術(shù)的優(yōu)勢(shì)和不足,根據(jù)應(yīng)用場(chǎng)景的具體需求構(gòu)建完善的圖像識(shí)別系統(tǒng),提高圖像識(shí)別技術(shù)的應(yīng)用價(jià)值,為各個(gè)行業(yè)的創(chuàng)新發(fā)展提供技術(shù)支撐。