◆龔 韶 劉興均
?
網(wǎng)絡(luò)輿情安全監(jiān)測(cè)語義識(shí)別研究綜述
◆龔 韶 劉興均
(三亞學(xué)院人文與傳播學(xué)院 海南 572022)
本文從網(wǎng)絡(luò)輿情基本概念的研究入手,分析了大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情的基本特征,概述了網(wǎng)絡(luò)輿情監(jiān)測(cè)的研究現(xiàn)狀,分別介紹了文本信息、圖像信息、聲音信息和視頻信息等網(wǎng)絡(luò)輿情信息的特征提取技術(shù),對(duì)深度語義識(shí)別技術(shù)分別進(jìn)行了介紹和比較,分析了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的語義識(shí)別流程,為網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的建立提供了參考。
網(wǎng)絡(luò);輿情信息;輿情監(jiān)測(cè);語義識(shí)別
大數(shù)據(jù)的應(yīng)用與推廣給互聯(lián)網(wǎng)的發(fā)展帶來了深遠(yuǎn)影響,特別是移動(dòng)互聯(lián)網(wǎng)4G、5G時(shí)代的到來,網(wǎng)絡(luò)已然成為社會(huì)輿論產(chǎn)生的集散地和發(fā)展走向的助推器,網(wǎng)絡(luò)輿情安全監(jiān)測(cè)已成為社會(huì)輿情研究的熱點(diǎn)問題。在網(wǎng)絡(luò)輿情監(jiān)測(cè)研究中,主要集中在:網(wǎng)絡(luò)輿情概念、輿情演進(jìn)特征、輿情信息獲取、輿情分析和預(yù)警監(jiān)測(cè)系統(tǒng)建立等方面,語義識(shí)別技術(shù)是網(wǎng)絡(luò)輿情監(jiān)測(cè)的關(guān)鍵技術(shù)之一,網(wǎng)絡(luò)輿情信息的特征提取、深度分析和預(yù)警判斷都離不開語義識(shí)別技術(shù),可以說語義識(shí)別貫穿于整個(gè)輿情監(jiān)測(cè)研究之中,其算法主要有:支持向量機(jī)、貝葉斯算法、聚類算法和神經(jīng)網(wǎng)絡(luò)等,但是這些算法都有各自的優(yōu)缺點(diǎn),加之網(wǎng)絡(luò)輿情信息的復(fù)雜性,簡(jiǎn)單地應(yīng)用這些算法并不能達(dá)到輿情監(jiān)測(cè)分析的需要,因此在網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)構(gòu)建中往往將多個(gè)算法進(jìn)行組合和優(yōu)化。本文以網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)構(gòu)建流程為主線,從理論層面概述了各種語義識(shí)別技術(shù)的應(yīng)用和優(yōu)缺點(diǎn)比較分析,有助于了解語義識(shí)別技術(shù)在網(wǎng)絡(luò)輿情監(jiān)測(cè)方面的現(xiàn)狀及應(yīng)用前景。
網(wǎng)絡(luò)輿情是輿情在網(wǎng)絡(luò)上的表現(xiàn)和延伸,是民意在網(wǎng)絡(luò)上的綜合表現(xiàn)形式。隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)平臺(tái)已成為人民表達(dá)對(duì)社會(huì)事件的意見、態(tài)度、意愿和看法的重要途徑,新聞評(píng)論、論壇跟帖、微博分享、朋友圈和短視頻共享等內(nèi)容構(gòu)成了包涵龐大數(shù)據(jù)量的輿情信息。網(wǎng)絡(luò)輿情是社會(huì)輿情的一種特殊的反應(yīng)模式,網(wǎng)絡(luò)輿情的對(duì)象事件包括時(shí)政要聞、公共安全、自然災(zāi)害、環(huán)境衛(wèi)生、生產(chǎn)安全、社會(huì)思潮和其他突發(fā)事件等熱點(diǎn)問題,這些“熱點(diǎn)”問題的輿情信息往往帶有傾向性的意見或言論,其中混雜著理智和非理智的成分,具有廣泛的社會(huì)影響力。加之“謠言”信息摻雜其中,網(wǎng)絡(luò)輿情環(huán)境日趨復(fù)雜,如果不能及時(shí)對(duì)負(fù)面的輿情信息進(jìn)行引導(dǎo)、清理,就可能會(huì)產(chǎn)生惡性的社會(huì)輿論影響[1]。
劉毅[2]、張一文[3]、張玉強(qiáng)[4]等學(xué)者對(duì)網(wǎng)絡(luò)輿情的特征進(jìn)行了描述,概括來說具有以下特征:
(1)自由性。自媒體使人們獲得了越來越多的話語權(quán),網(wǎng)絡(luò)上信息的發(fā)布具有隨機(jī)性和自主性,人們既是接收信息的客體,更是制造信息的主體,還是信息傳遞的中介,可以隨時(shí)在網(wǎng)絡(luò)平臺(tái)上自由地發(fā)表言論,因此,網(wǎng)絡(luò)輿情不僅是多元的,更是自由的。
(2)互動(dòng)性。網(wǎng)絡(luò)平臺(tái)不僅能夠發(fā)布“熱點(diǎn)”信息,還是網(wǎng)民之間交流評(píng)論、相互轉(zhuǎn)發(fā)的平臺(tái),網(wǎng)民在某一觀點(diǎn)上可能會(huì)出現(xiàn)矛盾,他們往往會(huì)在網(wǎng)絡(luò)平臺(tái)上交流討論,甚至爭(zhēng)論辯護(hù),加速輿情的擴(kuò)散,這就體現(xiàn)出網(wǎng)絡(luò)輿情具有靈活的互動(dòng)性。
(3)突發(fā)性?;ヂ?lián)網(wǎng)技術(shù)的發(fā)展和普及,為網(wǎng)絡(luò)輿情的爆炸式傳播創(chuàng)造了條件,當(dāng)某一輿情事件發(fā)生,網(wǎng)民可以通過微信、微博或抖音、快手等多媒體平臺(tái),快速形成復(fù)雜多樣的觀點(diǎn)并飛速傳播,體現(xiàn)出輿情爆發(fā)的突然性。
(4)情緒性。人們都存在著一定的負(fù)面情緒,而網(wǎng)絡(luò)已然成為宣泄情緒的最佳渠道,在熱點(diǎn)問題激進(jìn)言論的煽動(dòng)下,往往會(huì)導(dǎo)致網(wǎng)民的情緒化,產(chǎn)生缺乏理性思考的觀點(diǎn),這些情緒化的輿情信息往往會(huì)帶來嚴(yán)重的負(fù)面影響。
(5)炒作性。網(wǎng)絡(luò)平臺(tái)不僅是信息共享的平臺(tái),還是利益?zhèn)鬟f的平臺(tái),有的人為了聚集人氣,不惜通過炒作、歪曲事實(shí)來獲得更多關(guān)注,更有別有用心者,隨意捏造事實(shí),煽動(dòng)民眾的負(fù)面心理來制造虛假的輿論“熱點(diǎn)”。
網(wǎng)絡(luò)輿情監(jiān)測(cè)作為多學(xué)科交叉滲透的研究領(lǐng)域,國(guó)外研究起步較早,20世紀(jì)90年代,James Allan 等就將主題檢測(cè)和跟蹤技術(shù)( TDT)應(yīng)用到網(wǎng)絡(luò)輿情的數(shù)據(jù)分析中[5],美國(guó)Allan J等人基于挖掘技術(shù)和網(wǎng)絡(luò)社區(qū)譜算法,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)輿情信息的挖掘與檢測(cè)[6]。A. Weichselbraun對(duì)大數(shù)據(jù)背景下網(wǎng)絡(luò)智能平臺(tái)輿情信息提取識(shí)別和情感分類進(jìn)行了研究,較好地實(shí)現(xiàn)了熱點(diǎn)話題的挖掘[7]。Vlachostergiou A提出了一種基于交互語境的情感分析方法[8]。Kushal Dave利用聚類算法設(shè)計(jì)了一種針對(duì)網(wǎng)絡(luò)評(píng)論的語義分析系統(tǒng)[9]。Amanda Lee通過對(duì)突發(fā)事件中推特用戶的態(tài)度和行為的研究,提出了推特平臺(tái)如何疏導(dǎo)網(wǎng)絡(luò)輿情的方法[10]。
國(guó)內(nèi)研究起步相對(duì)較晚,研究主要有三個(gè)方面:一是探討大數(shù)據(jù)網(wǎng)絡(luò)時(shí)代,網(wǎng)絡(luò)輿情的傳播形態(tài)。姜?jiǎng)俸閷⒕W(wǎng)絡(luò)輿情傳播分為發(fā)布、意見形成和意愿訴求三階段[11];董靖巍對(duì)網(wǎng)絡(luò)輿情的演進(jìn)過程和演進(jìn)規(guī)律進(jìn)行了深入研究,對(duì)網(wǎng)絡(luò)輿情演進(jìn)過程中的影響機(jī)制進(jìn)行系統(tǒng)分析[12];石琰鑫針對(duì)自媒體社交媒體平臺(tái)信息傳播的特點(diǎn),對(duì)網(wǎng)絡(luò)謠言形成的原因、傳播的主體和控制的策略進(jìn)行了研究[13]。二是探索深度語義識(shí)別方法,建立輿情監(jiān)測(cè)系統(tǒng)。黃微通過建立語義識(shí)別技術(shù)指標(biāo)體系,對(duì)網(wǎng)絡(luò)輿情信息語義識(shí)別的關(guān)鍵技術(shù)進(jìn)行了比較分析[14];劉英杰對(duì)網(wǎng)絡(luò)輿情信息情感維度空間特征和演化規(guī)律的模型進(jìn)行了分析[15]。三是突發(fā)事件網(wǎng)絡(luò)輿情危機(jī)的管理、引導(dǎo)和決策。何洋以天津港危險(xiǎn)品大爆炸事件為例,分析了突發(fā)事件輿情演進(jìn)的特點(diǎn),提出了政府輿情引導(dǎo)的方法16];陳海漢通過對(duì)突發(fā)事件網(wǎng)絡(luò)輿情傳播的特征分析,研究了政府如何建立有效的預(yù)警模式[17];王喜紅對(duì)突發(fā)事件網(wǎng)絡(luò)輿情政府的治理方法進(jìn)行了探討[18]。
文本信息、聲音信息、圖像信息和視頻信息是網(wǎng)絡(luò)輿情信息的主要形式,下面分別介紹各類輿情信息的特征提取技術(shù)。
文本信息一般以新聞、網(wǎng)絡(luò)文章、自媒體推文和評(píng)論等形式呈現(xiàn),一般篇幅不長(zhǎng),具有較強(qiáng)的針對(duì)性,相比較于聲音、圖片和視頻等信息,其格式最為規(guī)則、簡(jiǎn)單,語義識(shí)別相對(duì)比較容易。在文本信息識(shí)別中,為了更好地表述出完整的語義,一般選詞作為文本信息的特征項(xiàng)。中文分詞就是將一段連續(xù)的中文語句,按照一定的算法分隔成為若干獨(dú)立的詞序列,進(jìn)而得到文本信息的特征詞集,常用的方法有字符匹配分詞法和基于統(tǒng)計(jì)的分詞方法。字符匹配分詞法是一種基于字典的分詞方法,又稱為詞典分詞法,該方法先將文本分割為字符串再與詞典中的詞條進(jìn)行比對(duì),這就需要構(gòu)建包含大量詞語的字典,分詞效果的好壞往往取決于字典與文本的匹配度,這種方法的優(yōu)點(diǎn)是分詞處理簡(jiǎn)單、效率高,但嚴(yán)重依賴字典的缺點(diǎn)也大大限制了其運(yùn)用。在網(wǎng)絡(luò)輿情中,新語言、新詞匯的更新速度十分快,詞典分詞法很難滿足文本信息的特征提取要求,采用基于統(tǒng)計(jì)的分詞方法更為多見。Chen使用 LSTM 來實(shí)現(xiàn)中文分詞,取得了95.8%的分詞正確率[19];Yao進(jìn)一步改進(jìn)分詞算法,使用了雙向的LSTM神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)97.7%的分詞正確率[20]。在網(wǎng)絡(luò)輿情文本信息的特征識(shí)別中,為了得到完善的分詞系統(tǒng)往往采用多個(gè)分詞方法組合使用,中科院的張華平、劉群等基于多層 HMM 隱馬爾可夫模型開發(fā)了ICTCLAS系統(tǒng),通過分層逐級(jí)篩選,分詞精度達(dá)到了98.45%,是當(dāng)前比較常用的中文分詞系統(tǒng)。
圖像分割技術(shù)能夠提取出圖像的局部特征,常用的圖像分割技術(shù)包括閾值分割、區(qū)域分割、邊緣分割、聚類分割、小波變換分割和神經(jīng)網(wǎng)絡(luò)分割等。MIKOLOV T[21]介紹了基于閾值的圖像分割技術(shù),其依據(jù)閾的大小對(duì)像素點(diǎn)進(jìn)行分類,實(shí)現(xiàn)了圖像的初始分割,對(duì)主體與背景差別大的圖像分割比較有效;吳建對(duì)區(qū)域生長(zhǎng)法的圖像分割技術(shù)進(jìn)行了研究,通過選擇特定的種子點(diǎn),并將種子點(diǎn)周圍的相似像素點(diǎn)進(jìn)行合并,進(jìn)而實(shí)現(xiàn)圖像的區(qū)域分割[22];趙婕運(yùn)用區(qū)域邊界最優(yōu)映射的圖像分割算法,針對(duì)不同區(qū)域像素灰度的變化特點(diǎn),利用灰度變化的邊緣進(jìn)行圖像分割[23]。張榮祥對(duì)小波變換的自適應(yīng)圖像分割技術(shù)進(jìn)行了分析,以二維小波變換不同層次的小波系數(shù)為依據(jù),實(shí)現(xiàn)了圖像在細(xì)節(jié)上的小波分解,從而使圖像分割更加細(xì)致[24];江曉亮采用模糊聚類圖像分割技術(shù),在模糊因子設(shè)計(jì)上引入了局部變異系數(shù),建立了一種魯棒的圖像分割模型,解決圖像孤立點(diǎn)、噪聲點(diǎn)影響聚類算法分割精度的問題[25];張明月利用稀疏卷積、分解卷積和高層與底層特征融合等特殊層,提出了Fast-SegNet 神經(jīng)網(wǎng)絡(luò)新架構(gòu)[26]。
在聲音特征提取技術(shù)上,目前常用方法可以分兩大類,基于語音信號(hào)和基于非平穩(wěn)信號(hào)的聲音特征提取方法。梅爾頻譜倒譜系數(shù)(MFCC)是最典型的基于語音信號(hào)的聲音特征提取方法,1980年,Davis 和Mermelstein基于語音發(fā)聲的機(jī)理和人類聽覺特性提出了MFCC,在語音情感特征識(shí)別中得到廣泛應(yīng)用[27]、[28]。李虹融入了短時(shí)能量特征描述來提取音頻MFCC特征,并用MFCC的一階、二階差分來描述語音的動(dòng)態(tài)性,更好地實(shí)現(xiàn)了不同情感狀態(tài)的語音信息特征提取[29]。對(duì)于非平穩(wěn)信號(hào)的聲音特征提取,常用的方法有經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)、局部均值分解(LMD)和極點(diǎn)對(duì)稱模態(tài)分解(ESMD)等。Huang 基于經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD),提出了一種非平穩(wěn)信號(hào)的自適應(yīng)性時(shí)頻分析方法,通過EMD精細(xì)地描述了語音信號(hào)的非平穩(wěn)特性[30]。
在視頻信息的特征識(shí)別中,需要通過鏡頭分割或者分幀等技術(shù),將視頻信息節(jié)選為若干個(gè)圖像。鏡頭分割技術(shù)在視頻信息特征識(shí)別中得到了廣泛應(yīng)用,其可以分為漸變鏡頭分割技術(shù)和突變鏡頭分割技術(shù)。漸變鏡頭分割技術(shù)主要適用于同一場(chǎng)景下拍攝的視頻分割,常用的方法有雙閾值檢測(cè)、光流檢測(cè)方法和輪廓檢測(cè)等。鄧麗基于累積幀的自適應(yīng)雙閾值檢測(cè)算法,把相鄰若干幀的差異進(jìn)行累積,進(jìn)而放大視頻圖像的漸變特征,對(duì)漸變鏡頭分割具有較好的檢測(cè)效果[31]。KAR T通過前后兩幀圖像的運(yùn)動(dòng)估計(jì),來判斷視頻中運(yùn)動(dòng)對(duì)象區(qū)域的亮度變化,分析得到漸變鏡頭的分界點(diǎn),對(duì)提取視頻中的運(yùn)動(dòng)目標(biāo)十分有效[32]。孫中華利用相鄰幀之間的顏色灰度和目標(biāo)輪廓的變化特征,提出了一種將顏色和輪廓變化相結(jié)合進(jìn)行鏡頭分割的方法[33]。突變鏡頭分割技術(shù)主要適用于不同場(chǎng)景下拍攝的視頻分割,常用的方法有像素分割法和直方圖分割等。陳康睿通過建立超像素聯(lián)接權(quán)模型,實(shí)現(xiàn)了視頻的超像素分割,在降低圖像分割的數(shù)據(jù)維度的同時(shí),還有效提升搜索速率[34];王新衛(wèi)將切片圖像處理與矩陣奇異值分解(SVD)的運(yùn)動(dòng)特征提取算法相結(jié)合,得出視頻切片方向圖的角度直方圖,再根據(jù)不同運(yùn)動(dòng)類型的直方圖模型對(duì)視頻進(jìn)行分割[35]。
支持向量機(jī)(SVM)可以分為線性支持向量機(jī)與非線性支持向量機(jī)兩種:線性支持向量機(jī)一般能解決比較簡(jiǎn)單的線性分類問題,都云琪采用線性支持向量機(jī)(LSVM)的識(shí)別算法,設(shè)計(jì)出能夠?qū)崿F(xiàn)中文文本自動(dòng)分類的分類器,并應(yīng)用拒識(shí)樣本信息對(duì)分類器輸出進(jìn)行了改進(jìn),彌補(bǔ)了特征抽取不合理造成的不良影響,有效地提高了分類器的性能[36]。而在現(xiàn)實(shí)分類中面臨的往往是非線性問題,為了解決非線性問題,在支持向量機(jī)算法中引入了核函數(shù)(Kernel Function)的概念,能夠?qū)⒌途S線性不可分問題轉(zhuǎn)化為高維線性可分進(jìn)行解決。武旭采用“平均值”閾值匹配方法,將文本特征向量和標(biāo)準(zhǔn)分類特征向量進(jìn)行歸一化,經(jīng)過加權(quán)后計(jì)算特征向量的夾角,最后根據(jù)預(yù)先給定的閾值對(duì)文檔結(jié)構(gòu)進(jìn)行識(shí)別,取得了較好的識(shí)別效果[37]。李妍采用支持向量機(jī)算法構(gòu)造了中文文本分類模型,并驗(yàn)證了支持向量機(jī)的多分類器可有效對(duì)中文文本進(jìn)行識(shí)別[38]。支持向量機(jī)在解決小樣本分類和高維模式識(shí)別中具有許多獨(dú)特的優(yōu)勢(shì),但其只適用于二分類問題,所以往往與其他算法融合使用。
貝葉斯算法是一種基于概率統(tǒng)計(jì)來預(yù)測(cè)事件發(fā)生可能性的推理方法。在網(wǎng)絡(luò)輿情信息識(shí)別中,比較常用是樸素貝葉斯分類算法,常用的分類模型有:基于快速聚類算法的樸素貝葉斯分類模型、基于K值的樸素貝葉斯分類模型和基于監(jiān)督學(xué)習(xí)算法的樸素貝葉斯分類模型。王軍強(qiáng)采用基于K值的樸素貝葉斯分類模型,對(duì)社交網(wǎng)絡(luò)消息文本的分類進(jìn)行了研究[39]。段宇鋒在貝葉斯分類算法中引入了 Bootstrapping弱監(jiān)督學(xué)習(xí)方法,在提高標(biāo)注效率的同時(shí),降低了系統(tǒng)學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)規(guī)模的要求[40]。貝葉斯分類算法屬于一類概率模型,其用圖像的方式表達(dá)數(shù)據(jù)之間的相互關(guān)聯(lián)性,進(jìn)而實(shí)現(xiàn)對(duì)事件的概率描述,來解決分類和回歸問題,當(dāng)樣本數(shù)據(jù)集的量很豐富時(shí),貝葉斯分類具有較好的分類效果,但也存在依靠獨(dú)立假設(shè)條件必須成立的缺陷,這也影響了貝葉斯算法的分類效果。
聚類算法是無監(jiān)督算法的一種,主要是找到數(shù)據(jù)在多維空間的位置,計(jì)算各點(diǎn)到聚類中心的距離,將各個(gè)點(diǎn)以距離聚類中心最小的方式劃分到各個(gè)聚類中心,從而達(dá)到分類的目的。常見的聚類方法有LDA 聚類算法、 k-means 算法、 SOM 聚類算法和FCM 聚類算法等。目前,常使用LDA算法來進(jìn)行主題挖掘研究,Yan Xiaohui對(duì)LDA算法進(jìn)行改進(jìn),建模時(shí)以詞對(duì)為基礎(chǔ),并與一元混合模型相結(jié)合,有效克服了短文本的稀疏性問題,在短文本的相似度計(jì)算和分類中具有較好的表現(xiàn)[41]。陳曉美提出了一種網(wǎng)絡(luò)輿情觀點(diǎn)提取的 LDA 主題模型方法[42]。K-means算法具有參數(shù)簡(jiǎn)單、運(yùn)算快捷的優(yōu)點(diǎn),邱云飛提出了一種結(jié)合語義改進(jìn)的 K-means短文本聚類算法,有效克服了 K-means聚類算法對(duì)初始聚類中心敏感的缺點(diǎn),解決了簇的理解性問題[43];張睿通過引入共享最近鄰相似度中“鄰居”的概念,對(duì)Bisecting K-means算法進(jìn)行了優(yōu)化改進(jìn), 提高了文本聚類算法的質(zhì)量[44]。孫玲芳利用 F1值對(duì)K-means 算法進(jìn)行改進(jìn),實(shí)現(xiàn)了網(wǎng)絡(luò)輿情熱點(diǎn)事件的有效挖掘[45]。SOM聚類算法特別適合于對(duì)網(wǎng)絡(luò)輿情大規(guī)模文檔進(jìn)行聚類,蔡麗宏提出了基于領(lǐng)域本體的文本向量表示模型,采用部分失真方法改進(jìn)了SOM 聚類算法[46];陳國(guó)玉通過對(duì)SOM聚類算法預(yù)處理的改進(jìn),實(shí)現(xiàn) SOM和K-means兩階段的聚類分析,建立了針對(duì)論壇水軍貼聚類分析模型[47]。
神經(jīng)網(wǎng)絡(luò)適用于大量信息的并行運(yùn)算處理,在解決非線性的問題上應(yīng)用比較廣泛。在網(wǎng)絡(luò)輿情信息語義識(shí)別中,BP神經(jīng)網(wǎng)絡(luò)模型得到了廣泛應(yīng)用。
張鵬基于BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了一種網(wǎng)絡(luò)謠言危機(jī)預(yù)警系統(tǒng),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)突發(fā)事件的謠言風(fēng)險(xiǎn)評(píng)定[48];孫玲芳利用遺傳算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)模型初始權(quán)值和閾值進(jìn)行了優(yōu)化,構(gòu)建了遺傳算法與BP 神經(jīng)網(wǎng)絡(luò)融合的網(wǎng)絡(luò)輿情安全監(jiān)測(cè)模型[49];游丹丹利用粒子群算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,構(gòu)建了網(wǎng)絡(luò)輿情預(yù)測(cè)模型[50];黃亞駒在游丹丹粒子群算法優(yōu)化的基礎(chǔ)之上,在群初始化階段引入了信息熵理論,并利用了遺傳算法的搜索能力,基于這種混合算法優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了網(wǎng)絡(luò)輿情預(yù)測(cè)模型,該模型具有更好的穩(wěn)定性[51]。卷積神經(jīng)網(wǎng)絡(luò) (CNN) 對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的補(bǔ)充,CNN經(jīng)過訓(xùn)練能夠?qū)D像的特征進(jìn)行學(xué)習(xí),并完成對(duì)圖像特征的提取分類,廣泛應(yīng)用于對(duì)二維圖像的識(shí)別。張海濤將文本信息的情感分析方法與卷積神經(jīng)網(wǎng)絡(luò)理論相結(jié)合,構(gòu)建了微博輿情情感分類模型,該模型消除了對(duì)情感詞典的依賴,解決了微博文本特征提取困難的問題,提高了情感分類的效率和準(zhǔn)確性[52]。
黃微教授在文獻(xiàn)[53]中對(duì)網(wǎng)絡(luò)輿情信息語義識(shí)別技術(shù)進(jìn)行了分析,設(shè)立了七個(gè)指標(biāo)對(duì)深度識(shí)別算法進(jìn)行比較,七個(gè)指標(biāo)為:高速反應(yīng)能力、真實(shí)性判斷能力、情感判斷能力、態(tài)度判斷能力、話題分類能力、敏感信息檢索能力和其他指標(biāo)等。如表1所示,支持向量機(jī)算法在小樣本、二分類問題上計(jì)算速度快,在謠言判別和網(wǎng)民態(tài)度判別上具有明顯優(yōu)勢(shì),但在多分類問題上,由于需要串聯(lián)多個(gè)支持向量機(jī)模型,大大增加了算法的復(fù)雜度,因此不適用于大樣本、多分類問題。貝葉斯算法適用于需要概率化描述信息語義的問題,能夠應(yīng)用于含有缺失數(shù)據(jù)的數(shù)據(jù)集,可以對(duì)人的語言、表情和肢體動(dòng)作進(jìn)行概率化的情感判別。
表1 網(wǎng)絡(luò)輿情深度語義識(shí)別算法比較
聚類是一種無監(jiān)督學(xué)習(xí)算法,能夠通過對(duì)網(wǎng)絡(luò)輿情信息提取的特征進(jìn)行聚類,來進(jìn)一步挖掘文本特征詞之間存在的內(nèi)在聯(lián)系,挖掘圖像、聲音分割的相似度,其他算法為進(jìn)行深度情感識(shí)別提供有效的支持。神經(jīng)網(wǎng)絡(luò)在評(píng)價(jià)指標(biāo)內(nèi)的表現(xiàn)最為全面,在謠言判別、情感判別、態(tài)度判別、話題分類、敏感信息檢索等方面都有較為優(yōu)秀的表現(xiàn),但也存在時(shí)間復(fù)雜度高、訓(xùn)練效率低的劣勢(shì)??偟膩碚f,幾種算法各有優(yōu)、劣勢(shì),在實(shí)際應(yīng)用中往往多個(gè)算法融合建立語義識(shí)別模型,聚類算法很少單獨(dú)使用,一般作為補(bǔ)充算法為其他算法提供支持,支持向量機(jī)與貝葉斯算法一般用于謠言和敏感信息識(shí)別,神經(jīng)網(wǎng)絡(luò)則較多地應(yīng)用于多媒體網(wǎng)絡(luò)輿情語義的深度識(shí)別中。
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)按照輿情信息的處理順序,主要由信息采集、數(shù)據(jù)預(yù)處理、深度識(shí)別和輿情服務(wù)等四個(gè)模塊組成,其中數(shù)據(jù)預(yù)處理和深度識(shí)別是網(wǎng)絡(luò)輿情信息語義識(shí)別的重要階段。如圖1所示,輿情檢測(cè)系統(tǒng)要從混雜的網(wǎng)絡(luò)中獲得輿情信息,首先要通過網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行文本、圖片、聲音和視頻的輿情信息數(shù)據(jù)采集,然后再用輿情信息的特征提取技術(shù),對(duì)采集的數(shù)據(jù)信息進(jìn)行特征提取,最后再通過深度識(shí)別技術(shù)對(duì)輿情信息進(jìn)行分析,判斷輿情信息的真實(shí)性、主題類別、用戶情感、網(wǎng)民態(tài)度和所包含的敏感信息等,為網(wǎng)絡(luò)管理有關(guān)部門提供重要的數(shù)據(jù)支撐。
圖1 輿情檢測(cè)系統(tǒng)語義識(shí)別流程圖
隨著大數(shù)據(jù)時(shí)代的到來,我國(guó)網(wǎng)民數(shù)量和網(wǎng)絡(luò)輿情數(shù)據(jù)體量都已發(fā)展到了十分龐大的地步,復(fù)雜的網(wǎng)絡(luò)輿情環(huán)境摻雜著過激言論、虛假信息和有害謠言等,這對(duì)輿情監(jiān)測(cè)的語義識(shí)別能力提出了更高要求。目前,針對(duì)不同類型網(wǎng)絡(luò)輿情信息的單獨(dú)識(shí)別已有比較優(yōu)秀的識(shí)別算法,但這些算法面對(duì)多元、復(fù)雜的網(wǎng)絡(luò)輿情信息就存在著一定的局限性,缺乏對(duì)多類型融合輿情信息的整體識(shí)別能力。如何對(duì)大數(shù)據(jù)化的網(wǎng)絡(luò)輿情信息,有效進(jìn)行分類采集、特征提取和深度識(shí)別成了網(wǎng)絡(luò)輿情監(jiān)測(cè)的焦點(diǎn)問題,網(wǎng)絡(luò)輿情監(jiān)測(cè)語義識(shí)別方法也由單一型向多元型轉(zhuǎn)化,在識(shí)別算法研究中主要以深度語義識(shí)別算法為主,輔助以其他學(xué)習(xí)分類算法,綜合運(yùn)用統(tǒng)計(jì)學(xué)、仿真學(xué)、情報(bào)學(xué)和社會(huì)學(xué)等學(xué)科方法,不斷吸收新的識(shí)別分析技術(shù),提高網(wǎng)絡(luò)輿情監(jiān)測(cè)語義識(shí)別的準(zhǔn)確性和時(shí)效性。
[1]王楊,尤科本,王夢(mèng)瑤等.基于博弈論的網(wǎng)絡(luò)社區(qū)輿情傳播模型研究[J].計(jì)算機(jī)應(yīng)用,2013,30(8):2480-2482.
[2]劉毅.略論網(wǎng)絡(luò)輿情的概念、特點(diǎn)、表達(dá)與傳播[J].理論界,2007(1):11-12.
[3]張一文,齊佳音等.非常規(guī)突發(fā)事件網(wǎng)絡(luò)輿情熱度評(píng)價(jià)指標(biāo)體系構(gòu)建[J].情報(bào)雜志,2010(11):71-75.
[4]張玉強(qiáng).網(wǎng)絡(luò)典情危機(jī)的政府適度反應(yīng)研究[D].北京:中央民族大學(xué),2011:31-35.
[5]James Allan,Ao Feng,Alvaro Bolivar.Flexible Intrinsic Evaluation of Hierarchical Clustering for TDT[J].Proceedings of the Twelfth International Conference on Information and Knowledge Management,2003: 263-270.
[6]Allan J,Paka R,Lavrenko V.On-Line New Event Detection and Tracking[A].Proceedings of SIGIR’98: 21stAnnual International ACMSIGIR Conference on Researchand Development in Information Retrieval[C].NewYork: ACM Press,1998: 37-45.
[7]A. Weichselbraun,S. Gindl,A. Scharl. Enriching semantic knowledge bases for opinion mining in big data applications[J]. Knowledge-Based Systems,2014,69(1):78-85.
[8]Vlachostergiou A,Caridakis G,Kollias S. Investiga- ting context awareness of affectivecomputing systems: A critical approach[J]. Procedia Computer Science, 2014,39(11): 91-98.
[9]Kushal Dave,Steve Lawrence,David M.Pennock.Mining the peanutgallery:Opinion extraction and semantic classification of product reviews.Proceedings of WWW 2003 .
[10]Amanda Lee Hughes,Leysia Palen.Twitter adoption and use in mass convergence and emergency events. Int. J. of Emergency Management . 2009.
[11]姜洪勝.我國(guó)網(wǎng)絡(luò)輿情的現(xiàn)狀及其引導(dǎo)[J].廣西社會(huì)科學(xué),2009(1):1-4.
[12]董靖?。趶?fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情動(dòng)態(tài)演進(jìn)影響機(jī)制研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[13]石琰鑫.社交媒體平臺(tái)上的謠言傳播現(xiàn)象——以微博謠言傳播為例[J].新媒體研究,2018(4):17-19.
[14]黃微,李瑞,孟佳林.大數(shù)據(jù)環(huán)境下多媒體網(wǎng)絡(luò)輿情傳播要素及運(yùn)行機(jī)理研究[J].圖書情報(bào)工作,2015,59(21):38-45.
[15]劉英杰.網(wǎng)絡(luò)輿情的信息情感維度空間構(gòu)建和信息情感元識(shí)別研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[16]何洋.突發(fā)事件的網(wǎng)絡(luò)輿情引導(dǎo)研究—以“天津港大爆炸事件”為例[J].科技創(chuàng)業(yè),2017(12):115-115.
[17]陳海漢,陳婷.突發(fā)事件網(wǎng)絡(luò)輿情傳播時(shí)段特征和政府預(yù)警模式研究[J].圖書館學(xué)研究,2015(1):24-30.
[18]王喜紅.突發(fā)事件網(wǎng)絡(luò)輿情政府治理路徑探討[J] 中共濟(jì)南市委黨校學(xué)報(bào),2017(2):41-4.
[19]Chen X,Qiu X, Zhu C,et al.Long Short-TermMemory Neural Networks for Chinese Word Segmentation[C].Conference on Empirical Methods in Natural Language Processing.2015:1197-1206.
[20]Yao Y,Huang Z.Bi-directional LSTM Recurrent N-eural Network for Chinese WordSegmentation[M].Neural Information Processing.Springer International Publishing,2016.
[21]MIKOLOV T,CHEN K,CORRADO G,et al.Eff-icient estimation of word representations in vector space[J]. Computer Science,2013.
[22]吳建.基于區(qū)域生長(zhǎng)算法的彩色遙感圖像分割[J].廣西大學(xué)學(xué)報(bào)自然科學(xué)版,2011,36(6):981-986.
[23]趙婕,張春美,張小勇等.基于區(qū)域邊界最優(yōu)映射的圖像分割算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(1):307-310.
[24]張榮祥,鄭世杰,夏慶觀.基于Hilbert 掃描和小波變換的自適應(yīng)圖像分割[J].中國(guó)圖像圖形學(xué)報(bào),2008,13(4):666-671.
[25]江曉亮.基于模糊聚類及活動(dòng)輪廓模型的圖像分割技術(shù)研究[D].成都:西南交通大學(xué),2016.
[26]張明月.基于深度學(xué)習(xí)的圖像分割研究[D].長(zhǎng)春:吉林大學(xué),2017.
[27]Davis S B,Mermelstein P.Evaluation of acoustic p-arameters for monosyllabic word recognition incontinuously s-poken sentences.IEEE Trans.ASSP,1980(28):357-366.
[28]Tiwari V.MFCC and its applications in speaker rec-ognition[J].International Journal on Emerging -Technologies Issn,2010.
[29]李虹,徐小力,吳國(guó)新等.基于 MFCC 的語音情感特征提取研究[J].電子測(cè)量與儀器學(xué)報(bào),2017,31(3):448-453.
[30]Huang N E,Shen Z.The empirical mode decomposition and the Hibert spectrum for nonlinear and nonstation -ary time series and analysis[J].Proceedings of the Royal Society of London Series,1998,454:903-995.
[31]鄧麗,金立左,楊文強(qiáng)等.基于累積幀的自適應(yīng)雙閾值鏡頭邊界監(jiān)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(6):258-261.
[32]KAR T,KANUNGO P.A motion and illumination resilient framework forautomatic shot boundary detection[J]. Signal Image & Video Processing,2017(1):1-8.
[33]孫中華.基于顏色與目標(biāo)輪廓特征的視頻分割方法[D].長(zhǎng)春:吉林大學(xué),2004.
[34]陳康睿.視頻分割算法研究[D].大連:大連理工大學(xué),2015.
[35]王新衛(wèi),周利莉,蘇大偉,史紅剛.一種基于奇異值分解的視頻運(yùn)動(dòng)分割算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2006, 27(23):4453-4456.
[36]都云琪,肖詩斌.基于支持向量機(jī)的中文文本自動(dòng)分類研究[J].計(jì)算機(jī)工程,2002,28(11):137-139.
[37]武旭,須德.基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J].北方交通大學(xué)學(xué)報(bào),2003(4):38-41.
[38]李妍,劉茂福,姬東鴻.基于支持向量機(jī)的中文文本蘊(yùn)涵識(shí)別研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(4):51-55.
[39]王軍強(qiáng),劉建平.基于樸素貝葉斯的社交網(wǎng)絡(luò)消息文本分類算法的研究[J].工業(yè)控制計(jì)算機(jī), 2015,28(9):36-37.
[40]段宇鋒,朱雯晶等.樸素貝葉斯算法與 Bootstrapping 方法相結(jié)合的中文物種描述文本語義標(biāo)注研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(5):83-88.
[41]Yan Xiaohui,Guo Jiafeng,Lan Yanyan,et a.A biterm topic modelfor short texts[C]//Proceedings of the 22nd International Conference on World Wide Web.Riode Janeiro: International World WideWeb Conferences Steering Committee,2013:1445-1456.
[42]陳曉美,高鋮,關(guān)心惠.網(wǎng)絡(luò)輿情觀點(diǎn)提取的 LDA 主題模型方法[J].計(jì)算機(jī)工程,2015,59(21):21-26.
[43]邱云飛,趙彬,林明明.結(jié)合語義改進(jìn)的 K-means短文本聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(19):78-83.
[44]張睿.基于K-means的中文文本聚類算法的研究與實(shí)現(xiàn)[D].西安:西北大學(xué),2009.
[45]孫玲芳,周加波,徐會(huì)等.基于改進(jìn) K-means 的網(wǎng)絡(luò)輿情熱點(diǎn)事件發(fā)現(xiàn)技術(shù)[J].計(jì)算機(jī)與現(xiàn)代化,2014(4):143-147.
[46]蔡麗宏.SOM 聚類算法的改進(jìn)及其在文本挖掘中的應(yīng)用研究[D].南京:南京航空航天大學(xué),2011.
[47]陳國(guó)玉.基于SOM—K-means的天涯BBS水軍帖的聚類分析[D].武漢:華中科技大學(xué),2013.
[48]張鵬,李昊青,蘭月新等.基于BP神經(jīng)網(wǎng)絡(luò)的突發(fā)事件網(wǎng)絡(luò)謠言危機(jī)預(yù)警[J].電子政務(wù) E-GOVERNMENT,2016, (11):40-47.
[49]孫玲芳,周加波,林偉健等.基于BP神經(jīng)網(wǎng)絡(luò)和遺傳算法的網(wǎng)絡(luò)輿情危機(jī)預(yù)警研究[J].情報(bào)雜志,2014,33(11):18-24.
[50]游丹丹,陳福集.基于改進(jìn)粒子群和BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測(cè)研究[J].情報(bào)科學(xué),2018,36(2):24-29.
[51]黃亞駒,陳福集,游丹丹.基于混合算法和BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測(cè)研究[J].情報(bào)雜志,2016,35(8):157-162.
[52]張海濤,王丹,徐海玲等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博輿情情感分類研究[J].情報(bào)學(xué)報(bào),2018,37(7):695-702.
[53]黃微,劉熠,孫悅.多媒體網(wǎng)絡(luò)輿情語義識(shí)別的關(guān)鍵技術(shù)分析[J].情報(bào)理論與實(shí)踐,2018年錄用期刊.首發(fā)地址:http://kns.cnki.net/kcms/detail/11.1762.G3.20180816.1627.003.ht-ml.
海南省哲學(xué)社會(huì)科學(xué)規(guī)劃課題(一般課題)學(xué)科共建項(xiàng)目“海南旅游語言景觀研究”;三亞學(xué)院科學(xué)研究項(xiàng)目“大學(xué)生言語交際語義識(shí)別研究——以三亞學(xué)院為例”(USY18YSK048)階段性研究成果。