劉定一 應(yīng)毅
摘要:網(wǎng)絡(luò)輿情是對(duì)整個(gè)輿情事件的具體描述、對(duì)事件的觀點(diǎn)和立場(chǎng),在短時(shí)間內(nèi)會(huì)大規(guī)模、快速的擴(kuò)散,因此盡早地預(yù)測(cè)輿情事件的走向和態(tài)勢(shì),相關(guān)部門就可以及時(shí)掌握社情民意,及時(shí)發(fā)現(xiàn)工作中存在的不足和對(duì)問(wèn)題矛盾出現(xiàn)的影響,對(duì)負(fù)面聲音進(jìn)行正確引導(dǎo)。網(wǎng)絡(luò)輿情的發(fā)展趨勢(shì)具有無(wú)規(guī)則、隨機(jī)變化等特點(diǎn),互聯(lián)網(wǎng)中的海量數(shù)據(jù)又給輿情預(yù)測(cè)帶來(lái)了更嚴(yán)峻的挑戰(zhàn)。文章分析主要從網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法、輿情預(yù)測(cè)算法的并行化入手,研究在大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的趨勢(shì)預(yù)測(cè)問(wèn)題。
關(guān)鍵詞:計(jì)算智能;大數(shù)據(jù);輿情預(yù)測(cè)方法;算法研究;神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):G2 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào)1674-6708(2019)239-0126-02
1國(guó)內(nèi)外研究現(xiàn)狀
網(wǎng)絡(luò)輿情是一種復(fù)雜、多變的系統(tǒng),它的趨勢(shì)發(fā)展由于有廣大網(wǎng)民的參與,具有爆發(fā)性、演變不確定性、隱匿性、互動(dòng)性等特點(diǎn)。在網(wǎng)絡(luò)信息技術(shù)高速發(fā)展的今天,輿情對(duì)社會(huì)穩(wěn)定發(fā)展的影響越來(lái)越大。通過(guò)對(duì)大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情預(yù)測(cè)算法的研究,及時(shí)、盡早、準(zhǔn)確地預(yù)測(cè)互聯(lián)網(wǎng)上輿論熱點(diǎn)事件的走向趨勢(shì)和廣大老百姓生活息息相關(guān)的話題并提供信息化技術(shù)支撐,這既利于政府對(duì)輿情熱點(diǎn)信息的及時(shí)監(jiān)控和引導(dǎo),也有利于社會(huì)的和諧穩(wěn)定發(fā)展。
計(jì)算智能是人工智能發(fā)展的一個(gè)新階段,是受到大自然智慧和人類智慧的共同啟發(fā)而設(shè)計(jì)出的一類解決復(fù)雜問(wèn)題方法的統(tǒng)稱。與傳統(tǒng)的人工智能相比,計(jì)算智能的最大特點(diǎn)是問(wèn)題本身不需建立精確的數(shù)學(xué)、邏輯模型,可以直接對(duì)輸入的測(cè)試數(shù)據(jù)進(jìn)行處理。這一特點(diǎn)非常適合于解決大數(shù)據(jù)分析中難以建立有效的形式化模型,而用傳統(tǒng)技術(shù)難以解決、甚至無(wú)法解決的問(wèn)題。近年來(lái),計(jì)算智能理論與技術(shù)研究迅速發(fā)展,在圖像處理、模式識(shí)別、生物醫(yī)學(xué)、智能控制等諸多領(lǐng)域都得到了廣泛應(yīng)用,取得了一系列令人鼓舞的研究成果。
計(jì)算智能在神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、演化計(jì)算/群體智能發(fā)展的基礎(chǔ)上形成了一種新的研究方法。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡(jiǎn)寫為ANNs)也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(Connection Model),它是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)的行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之問(wèn)相互連接的關(guān)系,從而達(dá)到處理信息的目的。模糊系統(tǒng)(fuzzy system),是一種將輸入、輸出和狀態(tài)變量定義在模糊集上的系統(tǒng),是確定性系統(tǒng)的一種推廣。模糊系統(tǒng)從宏觀出發(fā),抓住了人腦思維的模糊性特點(diǎn),在描述高層知識(shí)方面有其長(zhǎng)處,可以模仿人的綜合推斷來(lái)處理常規(guī)數(shù)學(xué)方法難以解決的模糊信息處理問(wèn)題,使計(jì)算機(jī)應(yīng)用得以擴(kuò)大到人文、社會(huì)科學(xué)及復(fù)雜系統(tǒng)等領(lǐng)域。它能夠較好地解決非線性問(wèn)題,現(xiàn)已廣泛應(yīng)用于自動(dòng)控制、模式識(shí)別(pattern recognitioy)、決策分析(decesion analysis)、時(shí)序信號(hào)處理,以及人機(jī)對(duì)話系統(tǒng)、經(jīng)濟(jì)信息系統(tǒng)、醫(yī)療診斷系統(tǒng)、地震預(yù)測(cè)系統(tǒng)、天氣預(yù)報(bào)系統(tǒng)等方面。遺傳算法(Genetic Algorithm)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法。
2大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情預(yù)測(cè)算法
2.1網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法
網(wǎng)絡(luò)輿情在大量的網(wǎng)絡(luò)數(shù)據(jù)之中,具有延續(xù)性、交互性和演化性,有一定的可預(yù)測(cè)性。由于網(wǎng)絡(luò)輿情發(fā)展趨勢(shì)的預(yù)測(cè)具有較高的復(fù)雜性,采用傳統(tǒng)統(tǒng)計(jì)學(xué)的方法具有一定的局限性,而非線性預(yù)測(cè)方法是研究的一個(gè)大方向,主要包括灰色模型、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。
神經(jīng)網(wǎng)絡(luò)具有自組織、自學(xué)習(xí)、強(qiáng)魯棒性等特點(diǎn),在很多領(lǐng)域取得了較好的預(yù)測(cè)效果,解決了不少難點(diǎn)問(wèn)題。RBF神經(jīng)網(wǎng)絡(luò)(Radial BasisFunction Neural Network)拓?fù)浣Y(jié)構(gòu)簡(jiǎn)單、學(xué)習(xí)速度快,主要應(yīng)用于自適應(yīng)系統(tǒng);BP神經(jīng)網(wǎng)絡(luò)(BackPropagation Neural Network)不需要建立模型,有很強(qiáng)的非線性數(shù)據(jù)擬合能力。神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)長(zhǎng)時(shí)問(wèn)的訓(xùn)練,對(duì)非線性函數(shù)可以達(dá)到任意精度。由于神經(jīng)網(wǎng)絡(luò)在容錯(cuò)能力方面存在著一定的問(wèn)題,進(jìn)行算法測(cè)試容易出現(xiàn)極小值,導(dǎo)致收斂速度慢、不穩(wěn)定性等缺點(diǎn)。將粒子群優(yōu)化算法與神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合,提出網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法,在提高算法預(yù)測(cè)準(zhǔn)確性的同時(shí),可以加快算法的收斂速度。
粒子群優(yōu)化算法是一種模擬鳥(niǎo)類捕食行為的群體智能進(jìn)化算法,具有收斂速度快、操作方便簡(jiǎn)單等特點(diǎn),特別適合于對(duì)神經(jīng)網(wǎng)絡(luò)的優(yōu)化。在網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法中,神經(jīng)網(wǎng)絡(luò)的參數(shù)通過(guò)粒子群優(yōu)化算法優(yōu)化后得到。神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是將原始輿情數(shù)據(jù)進(jìn)行預(yù)處理后得到的時(shí)問(wèn)序列數(shù)據(jù)。經(jīng)神經(jīng)網(wǎng)絡(luò)計(jì)算后得到輿情事件發(fā)展趨勢(shì)的預(yù)測(cè)結(jié)果。具體的算法設(shè)計(jì)與實(shí)現(xiàn)步驟如圖1所示。
2.2輿情預(yù)測(cè)算法的并行化
隨著網(wǎng)絡(luò)輿情數(shù)據(jù)規(guī)模的不斷變大,傳統(tǒng)算法在小數(shù)據(jù)集上能有效運(yùn)行的計(jì)算復(fù)雜度,在大數(shù)據(jù)集上運(yùn)行變得越來(lái)越困難。
群體智能算法(如PSO、ACO)天生具有較強(qiáng)的實(shí)施并行性和分布式處理的能力,因此,將輿情預(yù)測(cè)混合算法(粒子群優(yōu)化+神經(jīng)網(wǎng)絡(luò))進(jìn)行移植,以適應(yīng)并行計(jì)算(MapReduce、Spark)的特點(diǎn),提高算法的速度和可擴(kuò)展性。面對(duì)海量的數(shù)據(jù),并行化是解決算法速度和擴(kuò)展性問(wèn)題的最有效途徑。
首先需要將輿情原始數(shù)據(jù)存入大數(shù)據(jù)系統(tǒng)中:半結(jié)構(gòu)化數(shù)據(jù)存入NoSQL數(shù)據(jù)庫(kù)(如HBase),非結(jié)構(gòu)化數(shù)據(jù)存入分布式文件系統(tǒng)(如ItDFS)。在此基礎(chǔ)上,將網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法移植到MapReduce框架(離線計(jì)算)或Spark組件(內(nèi)存計(jì)算)上,充分利用并行計(jì)算的優(yōu)勢(shì),提高算法的收斂精度和算法的求解效率,具體的實(shí)現(xiàn)步驟如圖2所示。
3解決相關(guān)問(wèn)題的策略方法與技術(shù)
3.1神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化與并行化
使用粒子群算法(PSO)優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)(連接權(quán)值和閾值)可以解決神經(jīng)網(wǎng)絡(luò)算法收斂速度慢的缺點(diǎn),但是PSO優(yōu)化參數(shù)的終止條件(迭代次數(shù))需要人為設(shè)定。迭代次數(shù)過(guò)少而得不到較優(yōu)的初始參數(shù),迭代次數(shù)過(guò)多算法效率又會(huì)低下,合適的迭代次數(shù)需要經(jīng)過(guò)反復(fù)大量的實(shí)驗(yàn)。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法的并行化,主要是在Map階段計(jì)算并輸出每個(gè)權(quán)值的變化量,在Reduce階段統(tǒng)計(jì)每個(gè)權(quán)值的總變化量,之后再對(duì)權(quán)值進(jìn)行調(diào)整。這種方法會(huì)產(chǎn)生大量的中問(wèn)結(jié)果,導(dǎo)致頻繁的磁盤I/O操作,拖慢整個(gè)作業(yè)的完成時(shí)問(wèn)。使用內(nèi)存計(jì)算Spark組件作為神經(jīng)網(wǎng)絡(luò)算法并行化移植的目標(biāo),能大大降低磁盤操作,加快算法效率。
3.2利用計(jì)算智能技術(shù)進(jìn)行網(wǎng)絡(luò)輿情預(yù)測(cè)
人工智能使網(wǎng)絡(luò)輿情的研究?jī)?nèi)容由輿情跟蹤轉(zhuǎn)向輿情預(yù)測(cè)。現(xiàn)有輿情預(yù)測(cè)強(qiáng)調(diào)是時(shí)問(wèn)序列預(yù)測(cè)模型的重要性,是線性關(guān)系的預(yù)測(cè);而網(wǎng)絡(luò)輿情受隨機(jī)因素影響較大,具有許多的不確定性,主要為非線性關(guān)系。計(jì)算智能的一大特點(diǎn)是可解決那些難以建立有效的精確數(shù)學(xué)模型/邏輯模型,基于計(jì)算智能中的神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化算法,提出網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法,為輿情預(yù)測(cè)提供了另一個(gè)有效模型。
3.3引入大數(shù)據(jù)技術(shù)提高算法性能并進(jìn)行全數(shù)據(jù)分析
由于算法單機(jī)運(yùn)行模式的限制,現(xiàn)有輿情分析和輿情預(yù)測(cè)只能依賴采樣數(shù)據(jù)。引入大數(shù)據(jù)技術(shù),不僅提高輿情預(yù)測(cè)算法的執(zhí)行效率和可擴(kuò)展性,而且使網(wǎng)絡(luò)輿情研究可以立足于全量數(shù)據(jù)分析,從海量輿情數(shù)據(jù)中挖掘出真實(shí)可靠的、有價(jià)值的輿情信息。
4結(jié)束語(yǔ)
網(wǎng)絡(luò)輿情是對(duì)輿情整個(gè)事件的具體描述、對(duì)事件的觀點(diǎn)和立場(chǎng),在短時(shí)問(wèn)內(nèi)會(huì)大規(guī)模、快速的擴(kuò)散,因此盡早地預(yù)測(cè)輿情事件的走向和態(tài)勢(shì),相關(guān)部門就可以掌握社情民意,及時(shí)發(fā)現(xiàn)工作中存在的不足,對(duì)負(fù)面聲音進(jìn)行引導(dǎo)?;ヂ?lián)網(wǎng)的海量數(shù)據(jù)又給輿情預(yù)測(cè)帶來(lái)了更嚴(yán)峻的挑戰(zhàn),從網(wǎng)絡(luò)輿情預(yù)測(cè)混合算法、輿情預(yù)測(cè)算法的并行化入手,可以研究大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的趨勢(shì)預(yù)測(cè)問(wèn)題。