李偉 田高華 賴玲
摘要:網(wǎng)絡(luò)信息技術(shù)不斷發(fā)展,在很大程度上便利了人們的生產(chǎn)生活,大大推動了社會進步,可以預(yù)見到,在未來機器智能技術(shù)將繼續(xù)發(fā)展,并且會擁有更強大的信息處理能力,在人們的生產(chǎn)生活中占據(jù)更加重要的位置。本文將結(jié)合當前社會的發(fā)展現(xiàn)狀,對大數(shù)據(jù)環(huán)境下批量處理的機器智能識別技術(shù)展開分析。
關(guān)鍵詞:大數(shù)據(jù)環(huán)境;批量處理;機器智能識別技術(shù)
引言
大數(shù)據(jù)也被稱之為“海量數(shù)據(jù)”,信息是人們進行決策行為的基礎(chǔ)和依據(jù),數(shù)據(jù)越廣泛和準確,對人們做出正確的決策來說就更有利,在當前的時代背景下,人們獲取信息越來越容易,同時對信息的整理和辨別也越來越重要,“大數(shù)據(jù)”環(huán)境下數(shù)據(jù)規(guī)模的龐大、結(jié)構(gòu)的復(fù)雜和類型的眾多要求機器智能識別技術(shù)具有更強的數(shù)據(jù)分析與處理能力,要求能夠通過機器智能識別技術(shù)在規(guī)模龐大的數(shù)據(jù)庫中將信息加以分類并批量處理。
一、機器智能識別技術(shù)簡介
人類主要是通過視覺來獲取信息,所以在機器智能識別系統(tǒng)中,也存在著計算機視覺,即計算機通過攝像頭和電腦來代替人眼對目標進行識別、信息采集,之后再根據(jù)這些信息進一步對數(shù)據(jù)進行處理。當前的計算機識別技術(shù)既可以對無生命智能識別卡進行信息采集與識別,也可以根據(jù)人身體上一些無可復(fù)制的特征進行識別,如人臉、眼睛、指紋、聲音等。機器智能可以模擬人的思維與意識,針對各種事件和情況可以根據(jù)所獲取的信息進行信息處理與分析,然后將結(jié)果呈現(xiàn)給人類,機器智能可以應(yīng)用在很多領(lǐng)域,幫助人們提高工作效率,甚至完成人類不可能完成的信息處理任務(wù)。
二、利用機器智能識別技術(shù)進行海量數(shù)據(jù)批量處理的優(yōu)勢
利用機器智能識別技術(shù)進行海量數(shù)據(jù)批量處理可以不僅可以減少人力成本,還能夠大大提高效率,對于信息處理來說,參與信息操作與管理的人員越多,合作的人越多,出現(xiàn)失誤與信息漏洞的可能性就越大,同時,一旦有人辭職,必然會引進新人,對于新人的培養(yǎng)既耗時又耗力,嚴重影響工作效率。而采用機器智能識別技術(shù)來進行對信息進行批量處理可以精簡公司團隊,減少系統(tǒng)數(shù)據(jù)的錯誤發(fā)生率。
當前隨著信息化技術(shù)和計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,各個行業(yè)的多個領(lǐng)域都需要對數(shù)據(jù)進行大批量處理,比如行政管理,如今我們需要將所有數(shù)據(jù)包括國家級、省級、廳級,教育、公安、金融、稅務(wù),社會管理、城市建設(shè)在內(nèi)的數(shù)據(jù)進行全集中式管理。學(xué)校內(nèi)的主管部門需要管理成千上萬的學(xué)生,在進行管理工作時需要同時處理學(xué)生的入學(xué)與畢業(yè)等數(shù)據(jù),如果不利用機器智能識別技術(shù)的話,這項工作將會耗費巨大的人力物力。尤其是在金融機構(gòu)、銀行等企業(yè)中,每日的信息處理量巨大,而且一旦出現(xiàn)失誤將會造成巨大的財產(chǎn)損失。利用機器智能識別技術(shù)可以輕易的進行數(shù)據(jù)一致性檢查,同時對一些簡單的基礎(chǔ)性數(shù)據(jù)可以進行大批量的同時操作,還能及時對數(shù)據(jù)進行批量更新,大大減少了出錯率,提高了信息處理效率。
三、數(shù)據(jù)批量處理的方式
在對數(shù)據(jù)進行批量處理之前,要先進行批量數(shù)據(jù)抽取,數(shù)據(jù)集的篩選和過濾過程包括建立數(shù)據(jù)集篩選的查詢條件、得出數(shù)據(jù)記錄集和得到最終需要批量數(shù)據(jù)處理的數(shù)據(jù)結(jié)果集。在進行數(shù)據(jù)批量處理時,可以選擇用事件進行批量數(shù)據(jù)處理的方式,用事件進行數(shù)據(jù)批量處理又可以分為批量增加和批量修改兩種方式。如果是對主表進行批量增加只要對較少的數(shù)據(jù)進行修改,就可以對大批數(shù)據(jù)進行快速錄入,如果是對關(guān)系表子集進行批量增加,則無法進行大批量數(shù)據(jù)快速錄入,比如在檔案系統(tǒng)中的學(xué)歷子集、工資子集等。在對主表進行批量增加時,首先可以在搜索欄中加入關(guān)鍵字,同時輸入批量循環(huán)的操作次數(shù),然后增加第一條主表記錄并用數(shù)組記錄不為空的字段記錄, 用于循環(huán)執(zhí)行時賦值給批量增加的字段記錄,最后執(zhí)行主表的批量增加事件。
還可以用SQL語句來對數(shù)據(jù)進行批量處理,首先對數(shù)據(jù)進行過濾操作,之后將條件應(yīng)用于SQL語句的WHERE部分數(shù)據(jù)抽取流程,然后再對首條表單的數(shù)據(jù)進行提取,將改變的一組數(shù)據(jù)作為INSERT,UPDATE的操作的改變對象。在使用這種方式對數(shù)據(jù)進行大批量處理時,要注意做一些相關(guān)的額外開發(fā)工作來保證子集表中的數(shù)據(jù)能夠保持統(tǒng)一和一致。
四、批量處理的機器智能識別技術(shù)
(一)支持向量機
支持向量機是一類按照監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進行二元分類的廣義線性分類器,而對數(shù)據(jù)進行大批量處理的前提就是要對信息做好分類。那么支持向量機是如何進行數(shù)據(jù)分類的呢?在這里我們以天氣分類為例,來解釋一下支持向量機的工作原理以及流程。
首先,我們要在網(wǎng)上尋找一些數(shù)據(jù),可以運用Python爬蟲爬取百度相關(guān)搜索的詞條,進行多輪爬取,我們將跟天氣相關(guān)的語料稱為正語料,與天氣無關(guān)的語料稱為負語料,正語料和負語料分開爬取,一般來說,訓(xùn)練模型所需要的正負語料比例大概是1:3到1:5,也就是說訓(xùn)練天氣模型的時候,正語料大概是10000條左右,負語料30000+條。在完成數(shù)據(jù)搜索工作后,可以做一些簡單的人工篩選,將一些不純的正語料去掉,剩下的純凈的正語料。之后再將剩下的正負語料進行進一步處理,比如停用詞的去除等操作,就是將語料中沒有意義的詞去除,比如“嗎”、“的”等等。語料處理好之后,大概要從語料中抽10%的語料,用于模型訓(xùn)練好之后的測試,即抽取大概1000條正語料和3000條負語料作為測試語料,剩下的語料作為訓(xùn)練語料。將所有的語料進行分詞處理,將完整的語料分成若干詞語,分詞可以運用“結(jié)巴”分詞的庫。將每一個分詞后的語料進行標注,正語料標注為1,負語料標注為0。語料和標簽之間用TAB分隔,即“\t”。 之后將標注好的正負語料進行混合,然后進行打亂順序,讓帶標簽的正負語料充分混合。可以運用卡方或者互信息等方法將分詞之后的語料每個詞的特征提取出來,即每一個詞語與當前類別的相關(guān)程度,特征提取也是為后面的向量化做準備的??梢杂胒eature_select.py。特征提取結(jié)束可以得到每個特征詞與相關(guān)類別的相關(guān)度排序。做好這些之后,就可以將我們處理好的數(shù)據(jù)進行向量化,將我們的語料轉(zhuǎn)化成向量,分好詞的語料命中之前特征提取的特征詞,那么就將向量中的這個值設(shè)置為1,其他的為0。這個過程中,特征詞就是這個向量的維度,每個語料都是一個這么多維度的向量。向量化執(zhí)行一個vector.sh腳本文件,里面指定feature_num,text_data,train_model這幾個文件,其中feature_num=500是指我們?nèi)∏?00個特征詞作為我們訓(xùn)練模型的維度,text_data是我們之前分好詞打好標簽的混合好的語料,train_data是我們指定好向量化好之后生成的向量化文件。之后再進行參數(shù)調(diào)優(yōu),之后,就可以調(diào)動sibsvm中的svm-train來訓(xùn)練模型,同時要設(shè)置好之前參數(shù)調(diào)優(yōu)得到的結(jié)果,最終就得到了一個天氣模型,除此之外,還要將參數(shù)調(diào)優(yōu)得到的結(jié)果c和g傳入一起訓(xùn)練,還要將參數(shù)b設(shè)置為1,為了得到的分數(shù)是其概率。最終可以得到我們想要的模型,如果我們調(diào)用svmpredict,根據(jù)訓(xùn)練獲得的模型,對數(shù)據(jù)集合進行預(yù)測。通過對數(shù)據(jù)集合的預(yù)測,可測得準確率與召回率,最終就會得到預(yù)測的結(jié)果。
(二)克隆選擇法
當前隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,對圖形的批量處理顯得越來越重要,圖像識別指的是計算機通過模式識別、視覺識別、機器識別等方式,對圖像進行分類與處理,不過如果想要進一步對圖形進行識別與處理,就要借助計算機批量的為兄奧圖像視覺,使工作有序展開。在對微小圖像進行識別的過程中,計算機視覺發(fā)揮了重要作用,不過由于微小圖像自身特征不夠明顯,使得計算機視覺在對圖像進行識別時,難度比較大,識別不夠準確。此時,就需要用到另一種信息處理識別方式,即克隆選擇法。這種方式能夠針對微小圖像批量識別難度大的特點解決在批量處理信息中的難題。
首先我們要對微小圖形特征智能識別原理有所了解。在大數(shù)據(jù)環(huán)境下,要基于灰度共生矩陣批量提取微小圖像紋理特性參數(shù),全面系統(tǒng)的描述微小圖像視覺的特征,在歸一化手段處理的同時,還要對支持向量機加以利用,使智能識別批量微小圖像特征更準確。微小圖像的恢復(fù)共生矩陣當中,會呈現(xiàn)出灰度的相關(guān)特性關(guān)系。除了要利用歸一化處理手段,還應(yīng)該對樣本展開分級支持向量機的訓(xùn)練工作,這樣就可以完成微小圖像批量處理特征的智能識別就可以得到實現(xiàn)。因此,在大數(shù)據(jù)環(huán)境下,對微小圖像特征的智能識別可以輕易的實現(xiàn),只要利用微小圖像批量處理的特征識別原理就可以了。
在對微小圖像特征進行智能識別批量處理的過程中,首先應(yīng)該想辦法獲得微小圖像五個尺度上的融合特征,可以通過對微小圖像的Gabor進行變換,同時將方向不同、尺度相同的微小圖像按照一定的規(guī)則融合起來來實現(xiàn)。
五、結(jié)束語
綜上所述,大數(shù)據(jù)環(huán)境下,必須采用機器智能識別技術(shù)對信息進行批量處理,在對信息進行批量處理的過層中,常運用的包括兩種方式:支持向量機和克隆選擇法,在對微小圖像進行識別上,克隆選擇法具有相對優(yōu)勢。
參考文獻
[1]曾勁松.大數(shù)據(jù)環(huán)境下批量處理的機器智能識別技術(shù)研究[J].信息記錄材料,2019,20(6):102-106.
[2]柴曉麗.大數(shù)據(jù)環(huán)境下人臉識別技術(shù)在智能監(jiān)控系統(tǒng)中的運用分析[J].電視技術(shù),2018,42(7):38-42.
[3]曹穎,王彥琳,秦曉晗,等.大數(shù)據(jù)技術(shù)在人工智能中的應(yīng)用研究[J].數(shù)碼設(shè)計(下),2018,(7):137-138.
[4]陳銳,王濱,艾傳鮮.大數(shù)據(jù)處理技術(shù)在機器人紅外巡檢中的應(yīng)用研究[J].電力系統(tǒng)裝備,2019(8):212-213.
[5]蔣玉婷.大數(shù)據(jù)背景下的人工智能優(yōu)化技術(shù)研究[J].信息與電腦(理論版),2018,418(24):147-148.
[6]尹漢雄.大數(shù)據(jù)視角下的人工智能技術(shù)應(yīng)用探討[J].科技資訊,2019, 17(14):26-27.
作者簡介
李偉(1983.07-),男,漢族,江西贛州,碩士研究生,助教,研究方向:大數(shù)據(jù)、機器學(xué)習(xí)。