,
(亳州職業(yè)技術(shù)學院信息工程系,安徽 亳州 236800)
目前萬維網(wǎng)具有超過萬億的統(tǒng)一資源定位符(URL),cebook 有 10 億節(jié)點和千億連邊,大腦神經(jīng)元網(wǎng)絡有數(shù)百億節(jié)點,中國三大運營商的手機通訊網(wǎng)絡無一不擁有數(shù)億用戶。如何處理超大規(guī)模的網(wǎng)絡數(shù)據(jù),已經(jīng)成為學術(shù)界急需解決的關(guān)鍵科學問題。
傳統(tǒng)的數(shù)據(jù)分析方法,主要是根據(jù)以前的經(jīng)驗,先設(shè)計出人工模型,然后根據(jù)設(shè)計出的模型對數(shù)據(jù)進行分析,這種方式在以前是還是有效的,處理一些結(jié)構(gòu)性強、數(shù)據(jù)量小的信息,但是在大數(shù)據(jù)的時代下,在使用這種方式,就會出現(xiàn)很多弊端,已經(jīng)不能適應現(xiàn)代大數(shù)據(jù)的發(fā)展了[1]。另外,現(xiàn)在占據(jù)大數(shù)據(jù)時代的主要是一些非結(jié)構(gòu)性數(shù)據(jù),出現(xiàn)的模式也是不一樣的,無法再根據(jù)之前的經(jīng)驗進行分析,再想要建立人工模型,是十分困難的,這就需要再研究相關(guān)數(shù)據(jù)挖掘技術(shù),所以,神經(jīng)網(wǎng)絡分析方法就應運而生了,它能夠從復雜、深量的數(shù)據(jù)中提取有用的信息,這就是現(xiàn)代的大數(shù)據(jù)分析方法。
神經(jīng)網(wǎng)絡方法主要是以深度學習為主要特點,以數(shù)據(jù)驅(qū)動、數(shù)據(jù)自動檢索來提取其中的數(shù)據(jù)信息,尤其是在非結(jié)構(gòu)化、模型不明且多變、跨領(lǐng)域的大數(shù)據(jù)上更具有顯著優(yōu)勢,復值BP神經(jīng)網(wǎng)絡方法主要是通過在內(nèi)部構(gòu)建許多隱形的機器模型和大量的數(shù)據(jù)分析訓練,從而得出準確的數(shù)據(jù)信息,隨著大數(shù)據(jù)時代的不斷深入,大數(shù)據(jù)所含有的信息量也十分豐富,只有想神經(jīng)網(wǎng)絡這種更加復雜、更有表達能力的模型,才能夠挖掘出其中的內(nèi)在信息。
在數(shù)據(jù)系統(tǒng)中,大數(shù)據(jù)主要是經(jīng)過了五個重要環(huán)節(jié),數(shù)據(jù)準備、數(shù)據(jù)存儲和管理、計算機管理、數(shù)據(jù)分析和知識再現(xiàn)五個重要環(huán)節(jié),數(shù)據(jù)分析階段占據(jù)核心地位,主要是體系在3V方面,從體量巨大、增長迅速和類型多樣三個方面來進行分析,得出規(guī)律和結(jié)論,只有通過進行數(shù)據(jù)分析才能夠挖掘大數(shù)據(jù)中更有深度、更有價值的信息,得到大數(shù)據(jù)的第四個特性—價值,所以說數(shù)據(jù)分析在大數(shù)據(jù)時代顯得尤為重要,是從數(shù)據(jù)轉(zhuǎn)化為信息的重要一環(huán)[2]。
大數(shù)據(jù)的4V特性對于大數(shù)據(jù)分析也是一個重大挑戰(zhàn),現(xiàn)在全球每年的數(shù)據(jù)增長速度基本上都是去年的兩倍左右,相當于美國國會圖書館大約2500萬個,對這樣龐大的數(shù)據(jù)分析是十分苦難的,從每個人手中的智能手機到顯示器上的傳感設(shè)備等,都無時無刻不再發(fā)生著復雜的結(jié)構(gòu)性或者非結(jié)構(gòu)性的數(shù)據(jù)變化,結(jié)構(gòu)性的數(shù)據(jù)變化相對來說比較容易分析,但是往往數(shù)據(jù)的出現(xiàn)是以非結(jié)構(gòu)性出現(xiàn)的,這就給大數(shù)據(jù)分析更增添了一些難度,有相關(guān)的研究調(diào)查指出,在以后大約10年的時間內(nèi),非結(jié)構(gòu)性的數(shù)據(jù)將會占據(jù)到90%左右,數(shù)值型的結(jié)構(gòu)性數(shù)據(jù)將會得到更加深入的分析和研究,這就相當于傳統(tǒng)的數(shù)據(jù)研究領(lǐng)域,包括網(wǎng)頁索引、社交數(shù)據(jù)等,都在一些大型互聯(lián)網(wǎng)公司中得到很淺的分析,但是對于像文本、信息、圖片、視頻等這些占據(jù)了總數(shù)據(jù)量約85%的非結(jié)構(gòu)性信息卻是很難進行有效分析。
神經(jīng)網(wǎng)絡是屬于人工智能方面的鏈接主義學派,和人大腦中的神經(jīng)突觸一樣,能夠進行信息的傳遞和處理。第一代的神經(jīng)網(wǎng)絡感知機誕生于20世紀50年代,它主要是實現(xiàn)線性分類以及聯(lián)想記憶,能夠解決的問題比較少,而出現(xiàn)在20世紀80年代的反向傳播算法就能夠在解決現(xiàn)行不可分問題上廣泛應用,因為它能夠進行多層感知和訓練算法,但是由于當時硬件的計算能力和網(wǎng)絡訓練算法還都比較落后,這就掣肘了神經(jīng)計算方法的發(fā)展,直至到了2006年Hinton教授提出的深度教學方法,多層結(jié)構(gòu)、逐層學習,這才真正使得神經(jīng)網(wǎng)絡方法在大數(shù)據(jù)時代發(fā)揮了強大的計算能力,并逐漸在大數(shù)據(jù)時代分析下明亮起來,它主要運用在語音識別、圖像識別以及自然語音識別等方面,現(xiàn)在這些領(lǐng)域做出了很大的突破性成功,而且隨著大數(shù)據(jù)時代的不斷深入,神經(jīng)網(wǎng)絡方法的不斷探索,已經(jīng)在不少領(lǐng)域內(nèi)取得了標志性的記錄。
大部分的神經(jīng)網(wǎng)絡方法還都是運用前饋神經(jīng)網(wǎng)絡,根據(jù)字面意思,就可以知道數(shù)據(jù)在這種網(wǎng)絡中流向是屬于單向性的,即是說從開始的輸入到輸出是一條線傳遞的,中間逐層進行映射和傳遞,網(wǎng)絡的深度,也就是說在神經(jīng)網(wǎng)絡中神經(jīng)元層次的數(shù)量,之間通過很多隱形的神經(jīng)元數(shù)量,各個神經(jīng)元之間相互鏈接,開始對原始數(shù)據(jù)進行特征分析,根據(jù)神經(jīng)網(wǎng)絡中的逼近原理,任何一個非線性映射,都能夠找到一個淺層網(wǎng)絡和一個深層網(wǎng)絡,而且能夠在任意精度的情況下無限逼近,出現(xiàn)這種情況是有條件的,要使得淺層網(wǎng)絡的隱形神經(jīng)元足夠多,深度網(wǎng)絡的做的足夠深,但是淺層網(wǎng)絡和深度網(wǎng)絡相比較,深層網(wǎng)絡只要能取得一定數(shù)量的參數(shù)就可以有相同的逼近效果,而不需要和淺層網(wǎng)絡大量的參量[3]。復值BP神經(jīng)網(wǎng)絡是在神經(jīng)網(wǎng)絡的基礎(chǔ)上延伸的,構(gòu)成了一個全新的網(wǎng)絡模型,每個網(wǎng)絡之間是互相連接,如圖1所示。
圖1 復值BP神經(jīng)網(wǎng)絡模型
復值BP神經(jīng)網(wǎng)絡學習模型相對復雜一些,一般就是由幾個相對簡單的模塊對層次堆積起來的,這里面的每個模塊都是將從輸入到輸出的非線性映射,而且,在映射時,每個模塊都能夠?qū)斎刖哂羞x擇性和不變性,一個神經(jīng)網(wǎng)絡具有多層非線性層,往往具有5到20左右的深度,就可以根據(jù)選擇性,對一些很小的細節(jié)進行選擇,可以非常敏感,同時,對其它細節(jié)可以不敏感,這就是神經(jīng)層的選擇性,例如背景,就因為敏感度不同,所以出現(xiàn)的圖像、顏色等都不一樣。
(1)
假設(shè)R和I分別代表的是實部和虛部,可以得到隱層神經(jīng)元輸出值為公式(2)所示
(2)
則輸出神經(jīng)元輸出方程為公式(3)所示
(3)
通過上式可以得到神經(jīng)元的輸出為公式(4)所示
(4)
復雜神經(jīng)網(wǎng)絡基于反向傳播過程來計算目標函數(shù)相對于每個模塊中的參數(shù)的梯度。反向傳播過程的數(shù)學原理即為鏈式法則。目標函數(shù)相對于每個模塊的梯度具有一定的獨立性,這是鏈式法則的關(guān)鍵,目標函數(shù)相對于一個模塊的輸入的梯度可以在計算出目標函數(shù)相對于這個模塊輸出的梯度之后被計算,反向傳播規(guī)則可以反復施加通過所有模塊傳播梯度,從而實現(xiàn)梯度(亦即誤差)的不斷反向傳播,從最后一層一直傳播到原始的輸入。BP復值神經(jīng)網(wǎng)絡的反向傳播定義一個輸出神經(jīng)元的誤差為δpk=(Dpk-Opk),其中p代表的是第p個訓練向量,k代表第k個輸出神經(jīng)元,最小誤差所有輸出神經(jīng)元的平方和如公式(5)所示。
(5)
根據(jù)系數(shù)的實部和虛部進而對Ep的梯度的復值進行計算,權(quán)值的實虛部形式如公式(6)所示。
(6)
根據(jù)上式可以得到輸出層權(quán)值更新的公式(7)
(7)
(8)
根據(jù)前面的定義表達式可以進一步得到公式(9)
(9)
通過上面公式可以得到隱層誤差公式(10)所示
(10)
許多的經(jīng)典學習算法是出現(xiàn)于上世紀九十年代,但是大數(shù)據(jù)時代的浪潮不斷推進,各種各樣更加強大的計算機設(shè)備也就隨之不斷更新,各種訓練深層的網(wǎng)絡新思路也踴躍的提出,這些新的思想、新的科技都在現(xiàn)實中得到了充分的運用,這些深度的學習都在實際運用中得到替身,無限深度學習可以利用各種海量數(shù)據(jù),而且能夠從這些數(shù)據(jù)中提取出所蘊含的相關(guān)信息,并通過抽象知識進行表達,這就是把原始的數(shù)據(jù)轉(zhuǎn)變?yōu)槟撤N知識,運用無限深度學習能夠大大提升數(shù)據(jù)信息的運用準確性,在這幾年的短時間內(nèi),就能夠在語音理解、圖像理解、文本理解等眾多領(lǐng)域找算法設(shè)計思路,逐漸形成各種模型,然后輸出最后的結(jié)果。雖然在優(yōu)化方面還比不上深度神經(jīng)網(wǎng)絡,但是目前出現(xiàn)的BPTT、LST等出現(xiàn)為這一問題提供了解決方案。
尤其是隨著大數(shù)據(jù)時代的不斷推進,基于回復式網(wǎng)絡結(jié)構(gòu)的無限深度神經(jīng)網(wǎng)絡計算方法也在學術(shù)界和工業(yè)界得到了越來越廣泛的關(guān)注,并迅速在許多大互聯(lián)網(wǎng)公司成為研究的重點,神經(jīng)網(wǎng)絡在處理時序問題上具有很大的潛力,大數(shù)據(jù)的分析和預測功能在強大的互聯(lián)網(wǎng)上顯示出更加強大的能力,隨著結(jié)合智能計算的大數(shù)據(jù)分析日益成為大數(shù)據(jù)時代的熱點問題,神經(jīng)網(wǎng)絡方法也就在更多領(lǐng)域被提出更多新的思路和方法,它的應用也必將會刷新更過領(lǐng)域的奇跡,推動和大數(shù)據(jù)分析的發(fā)展和革新。