喬慶鵬
(河南財(cái)政金融學(xué)院 人工智能學(xué)院,河南 鄭州 450046)
當(dāng)前,大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息的研究還處于不斷發(fā)展改進(jìn)中。在技術(shù)處理、構(gòu)架分析等方面還存在著較多的問題。面對(duì)動(dòng)輒短時(shí)間內(nèi)涌現(xiàn)的TB量級(jí)的海量數(shù)據(jù),雖然可以利用大規(guī)模集群進(jìn)行并行計(jì)算,但是查詢和分析的即時(shí)性對(duì)數(shù)據(jù)處理和挖掘的效率提出了更高的要求。另外,大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)信息在對(duì)純文本方面的信息處理上已經(jīng)擁有較為成熟的方案,但對(duì)圖像類、影音類數(shù)據(jù)的處理分析還處在相對(duì)初級(jí)的階段[1]。雖然國內(nèi)已建立起一套大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情的應(yīng)對(duì)機(jī)制,但關(guān)于人工智能(artificial intelligence,AI)技術(shù)發(fā)展對(duì)網(wǎng)絡(luò)信息的影響方面的文獻(xiàn)則相對(duì)欠缺,有待進(jìn)一步研究。
網(wǎng)絡(luò)信息是指網(wǎng)絡(luò)媒體或網(wǎng)絡(luò)用戶通過互聯(lián)網(wǎng)所表達(dá)的具有自己傾向性與影響力的言論或觀點(diǎn),具有形式開放、傳播迅速、內(nèi)容豐富、互動(dòng)性強(qiáng)和即時(shí)性等特征。隨著4G、5G網(wǎng)絡(luò)技術(shù)的發(fā)展,聯(lián)網(wǎng)的設(shè)備由PC和筆記本電腦變?yōu)槭殖衷O(shè)備或可穿戴設(shè)備為主,移動(dòng)互聯(lián)網(wǎng)使得每個(gè)聯(lián)網(wǎng)設(shè)備及其使用者成為互聯(lián)網(wǎng)信息鏈中的一個(gè)節(jié)點(diǎn),在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)信息一旦產(chǎn)生,傳播起來就極為迅速[2]。
大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)信息以微信公眾號(hào)、微博、短視頻、直播、自媒體(owned media)平臺(tái)以及各種社交類和資訊類APP等作為信息傳播媒介,具有以下較為突出的特點(diǎn):數(shù)據(jù)數(shù)量大,來源廣泛,形式多樣,有文字、圖像、音視頻;數(shù)據(jù)整體價(jià)值高但分散,單個(gè)數(shù)據(jù)價(jià)值有限。在大數(shù)據(jù)背景下,網(wǎng)絡(luò)信息在數(shù)據(jù)吞吐量、復(fù)雜多變性和傳播速度等方面不斷發(fā)生著演變。
網(wǎng)絡(luò)信息分析處理技術(shù)是大數(shù)據(jù)背景下社會(huì)科學(xué)領(lǐng)域服務(wù)于決策管理層的技術(shù),主要包含[3]:
1)信息采集技術(shù)。它包含數(shù)據(jù)的抓取和數(shù)據(jù)清洗,機(jī)器抓取可以采用開源爬蟲軟件,數(shù)據(jù)清洗用于去除無關(guān)和重復(fù)的內(nèi)容,對(duì)抓取的數(shù)據(jù)進(jìn)行精簡。
2)熱點(diǎn)發(fā)現(xiàn)技術(shù)。該技術(shù)通過對(duì)大量數(shù)據(jù)關(guān)鍵詞或話題的辨別,統(tǒng)計(jì)新聞與目標(biāo)話題數(shù)量隨時(shí)間的變動(dòng)情況,分析并預(yù)測其發(fā)展趨勢。
3)熱點(diǎn)評(píng)估技術(shù)。對(duì)某一具體熱點(diǎn)事件中公眾的關(guān)注和反饋情況,建立對(duì)應(yīng)的評(píng)分和早期預(yù)警方案,以此對(duì)公眾輿論的影響進(jìn)行評(píng)估和引導(dǎo)。
人工智能隨著計(jì)算機(jī)技術(shù)的飛躍成為近十年最熱門的研究領(lǐng)域之一,基于人工智能的各種應(yīng)用不斷涌現(xiàn),最具代表性的例子當(dāng)數(shù)2016年谷歌的圍棋程序AlphaGo以41擊敗韓國棋手李世石,并在接下來的2017年5月3∶0零封當(dāng)時(shí)世界排名第一的中國棋手柯潔。AlphaGo就是人工智能中深度學(xué)習(xí)的一個(gè)典型例子。
深度學(xué)習(xí)是近些年來人工智能領(lǐng)域中一個(gè)新的研究方向,從屬于機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域。深度學(xué)習(xí)概念源自人工智能神經(jīng)網(wǎng)絡(luò)方面的研究,最終目的是通過學(xué)習(xí)樣本的內(nèi)在結(jié)構(gòu)和表示層次,把所采集到的信息數(shù)據(jù)進(jìn)行特征區(qū)分,根據(jù)相應(yīng)的識(shí)別規(guī)則,讓機(jī)器能夠像人一樣具備分析學(xué)習(xí)能力,對(duì)文字、聲音、圖像等數(shù)據(jù)信息進(jìn)行特征識(shí)別。
深度學(xué)習(xí)作為一個(gè)相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)算法,在圖像識(shí)別領(lǐng)域得到了廣泛的應(yīng)用,有力地推動(dòng)了圖像識(shí)別技術(shù)的飛躍式發(fā)展,高效解決了很多復(fù)雜模式的識(shí)別難題。
軟件層面,人工智能技術(shù)中圖像識(shí)別過程分為數(shù)據(jù)信息的獲取、數(shù)據(jù)預(yù)處理、特征的選擇和抽取[4]、設(shè)計(jì)和決策分類等環(huán)節(jié)。識(shí)別方式上,常用的有神經(jīng)網(wǎng)絡(luò)圖像識(shí)別,它把現(xiàn)代神經(jīng)網(wǎng)絡(luò)算法和傳統(tǒng)圖像識(shí)別相結(jié)合,把圖像特征映射到相應(yīng)的神經(jīng)網(wǎng)絡(luò)程序里,模擬人類的視覺系統(tǒng)進(jìn)行識(shí)別和處理,如果圖像特征和人眼識(shí)別記憶及感官判斷的圖像相匹配,則可以認(rèn)定識(shí)別圖像成功。在識(shí)別效果上,微軟公司憑借深度神經(jīng)網(wǎng)絡(luò)搭建的圖像識(shí)別引擎,在第六屆ImageNet圖像識(shí)別大賽中[5],在圖像檢測、識(shí)別和分類方面,均以高準(zhǔn)確率奪冠。微軟參賽方案的分類錯(cuò)誤率僅有3.5%,而微軟團(tuán)隊(duì)認(rèn)為人類肉眼辨識(shí)的錯(cuò)誤率可達(dá)5.1%。通過這個(gè)比較可以得出,與人類肉眼識(shí)別相比,機(jī)器深度學(xué)習(xí)在圖像識(shí)別效率和精準(zhǔn)度上更有優(yōu)勢。
硬件層面,美國NVIDIA公司在已經(jīng)將GPU(graphics processing unit)虛擬化引入人工智能和數(shù)據(jù)科學(xué)領(lǐng)域。2019年,NVIDIA公司宣布其虛擬GPU技術(shù)已經(jīng)完成了 AI、深度學(xué)習(xí)和數(shù)據(jù)科學(xué)服務(wù)器虛擬化等方面的支持。與傳統(tǒng)的僅使用 CPU(central processing unit) 的服務(wù)器相比較,僅配置了4顆NVIDIA V100 專業(yè)顯卡GPU的vComputeServer服務(wù)器就可以將深度學(xué)習(xí)的速度提高50倍。 GPU中的CUDA(compute unified device architecture)單元在加速卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方面起著重要作用[6]。如果需要更大規(guī)模的數(shù)據(jù)監(jiān)控識(shí)別與處理,人們只需要增加專業(yè)顯卡的數(shù)量即可。硬件性能的日新月異和售價(jià)的逐步降低,無疑對(duì)深度學(xué)習(xí)的普及和發(fā)展起到了如虎添翼的作用。
深度學(xué)習(xí)是建立在大數(shù)據(jù)基礎(chǔ)上的機(jī)器自主學(xué)習(xí)過程,通過低層組合獲得更加直觀的表示方式。在深度學(xué)習(xí)中,如果針對(duì)特定任務(wù)的模型深度還不夠完善,系統(tǒng)就會(huì)主動(dòng)增加所需要的計(jì)算單元,從而需要更多的參數(shù)和訓(xùn)練樣本,而大數(shù)據(jù)可為其提供取之不盡的資源。另外,深度學(xué)習(xí)可以通過大數(shù)據(jù)自主學(xué)習(xí)提取良好的樣本特征,從而提高圖像識(shí)別系統(tǒng)的性能。深度學(xué)習(xí)近幾年還在諸如汽車自動(dòng)駕駛、文本分析、語音識(shí)別等領(lǐng)域蓬勃發(fā)展,而這些在大數(shù)據(jù)網(wǎng)絡(luò)信息的研究中都有所體現(xiàn)。
綜上所述,在大數(shù)據(jù)網(wǎng)絡(luò)信息的研究中,通過引進(jìn)人工智能,建立合適的深度學(xué)習(xí)模型,同時(shí)結(jié)合使用特定的優(yōu)化算法,進(jìn)而實(shí)現(xiàn)精確識(shí)別各種不同模式的目標(biāo)和對(duì)象,譬如圖像中的文字、人臉、物品以及車輛等信息,識(shí)別的結(jié)果可以通過網(wǎng)絡(luò)反饋給數(shù)據(jù)端,從而為網(wǎng)絡(luò)信息提供實(shí)時(shí)監(jiān)控和預(yù)警服務(wù)[7]。
人工智能在大數(shù)據(jù)網(wǎng)絡(luò)信息方面的應(yīng)用不僅僅局限于圖像處理識(shí)別方面,它是一個(gè)復(fù)雜的系統(tǒng)體系。智能數(shù)據(jù)處理算法在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的推動(dòng)下不斷發(fā)展,文本的語義分析、網(wǎng)絡(luò)謠言的傳播機(jī)理、神經(jīng)網(wǎng)絡(luò)對(duì)于信息的識(shí)別等技術(shù)的日趨成熟,提高了信息分析技術(shù)對(duì)數(shù)據(jù)利用的效率,促進(jìn)了信息自動(dòng)分析處理、智能決策技術(shù)的不斷完善。展望未來,人工智能或?qū)⒊蔀樾畔⒎治黾夹g(shù)的核心,大數(shù)據(jù)信息預(yù)測與監(jiān)控的實(shí)用性、準(zhǔn)確性或最終將由其來起決定性作用。
以上對(duì)人工智能技術(shù)在大數(shù)據(jù)網(wǎng)絡(luò)信息處理中的應(yīng)用展開了討論。人工智能在大數(shù)據(jù)信息數(shù)據(jù)處理技術(shù)研究充滿了挑戰(zhàn)性,要搭建好頂層設(shè)計(jì),采用高效率的核心算法,選用有高性能、高性價(jià)比的硬件方案,以保證人工智能算法在大數(shù)據(jù)信息處理上及時(shí)高效地運(yùn)行。這一平臺(tái)的搭建是長期的,需要不斷改進(jìn)和完善,從而為相關(guān)部門對(duì)大數(shù)據(jù)網(wǎng)絡(luò)信息的監(jiān)管和引導(dǎo)提供數(shù)據(jù)參考和技術(shù)支持。