趙曉楠,馬晨辰
(中國人民解放軍68303部隊 甘肅 武威733004)
基于Single-Pass的軍事網(wǎng)絡輿情監(jiān)控系統(tǒng)設計
趙曉楠,馬晨辰
(中國人民解放軍68303部隊 甘肅 武威733004)
軍事網(wǎng)絡輿論導向是人們獲取軍事信息的主要來源,這些輿論信息將直接影響人們的判斷,甚至危害社會安全。本文基于軍事主題特點,對比常見的文本聚類算法,改進傳統(tǒng)的Single-Pass算法,設計適合軍事主題的網(wǎng)絡輿情監(jiān)控系統(tǒng),準確率和召回率都高于Single-Pass算法5個百分點以上,達到較好的效果,從而為相關部門制定決策提供可靠依據(jù)。
Single-Pass;軍事;文本聚類;網(wǎng)絡輿情監(jiān)控
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,網(wǎng)絡上的信息越來越豐富,由于網(wǎng)絡的虛擬性和隱蔽性,人們更喜歡通過互聯(lián)網(wǎng)進行交流和發(fā)表各種意見。軍事作為特定的主題,更吸引著較多的軍事愛好者,他們通過網(wǎng)絡發(fā)表各類留言和評論,一些負面消極和不良輿論,嚴重地危害了社會穩(wěn)定。由于網(wǎng)絡情報資料的開放性、及時性以及便捷性等特點,作為一種新的公開情報資料,越來越受到情報工作者的重視[1-3]。甚至有一些情報工作者將網(wǎng)絡輿情作為公開情報資料搜集的第一來源。
如何快速獲取國內外互聯(lián)網(wǎng)媒體中關于軍事事件的評論和觀點給相關部門帶來了極大困難。主題爬蟲技術和情感分析技術的結合使我們對特定領域的網(wǎng)絡輿情分析成為可能。通過對特定領域網(wǎng)絡輿情的分析,可以給相關決策部門提供決策支持,有效防止危害社會穩(wěn)定的謠言傳播。
軍事網(wǎng)絡輿情的特點包括突發(fā)性強、多元性強、控制難度大等特點。針對軍事網(wǎng)絡網(wǎng)絡輿情特點,本文設計利用網(wǎng)絡爬蟲技術、中文分詞技術、信息分析和處理技術、文本聚類和挖掘技術等的軍事網(wǎng)絡輿情監(jiān)控系統(tǒng),實現(xiàn)對互聯(lián)網(wǎng)相關輿情信息的自動采集,并對海量數(shù)據(jù)進行分析和監(jiān)控,挖掘動態(tài)輿情信息,把握處理突發(fā)事件的最佳時機。軍事網(wǎng)絡輿情監(jiān)控系統(tǒng)主要包括信息采集、輿情分析和輿情服務模塊,系統(tǒng)體系結構如圖1所示。信息采集主要是利用網(wǎng)絡爬蟲實現(xiàn)對網(wǎng)絡輿情信息的采集,并將網(wǎng)頁信息經(jīng)過去重和去噪,生成干凈的文本信息,通過中文分析算法提取特征值,建立文本向量空間模型(VSM,Vector Space Model);輿情分析模塊是系統(tǒng)的核心部分,利用文本聚類發(fā)現(xiàn)熱點話題,并對話題進行情感傾向性分析,使人民掌握輿情趨勢;輿情服務是向相關人員提供輿情報告,通過掌握報告實現(xiàn)對突發(fā)事件的處理,并利用個性化定制,提供方便的輿情信息,給決策者制定決策提供可靠依據(jù)[4]。
圖1 系統(tǒng)體系結構
輿情信息收集是利用網(wǎng)絡爬蟲從網(wǎng)頁中提取非結構化信息,并存入結構化數(shù)據(jù)庫中。依據(jù)相應爬行規(guī)則,網(wǎng)絡爬蟲通過網(wǎng)頁鏈接地址尋找網(wǎng)頁,從網(wǎng)站的某個頁面開始,讀取內容,分析頁面中的其它鏈接地址,然后通過這些新的鏈接地址繼續(xù)查找下一個網(wǎng)頁[5],如此循環(huán),直到爬取所有頁面或達到系統(tǒng)預先設置的停止條件。最后將與主題相關的信息經(jīng)處理后保存到系統(tǒng)數(shù)據(jù)庫中。
爬蟲爬取網(wǎng)頁后,要對網(wǎng)頁信息進行處理,主要包括網(wǎng)頁去“噪”、網(wǎng)頁去重、中文分詞及特征詞提取。通常網(wǎng)頁中包含大量的“噪聲”,主要是一些無用的廣告等,這些內容對系統(tǒng)沒有作用,但卻影響系統(tǒng)運行速度,并占據(jù)大量存儲空間,所以首先要對爬蟲爬取的網(wǎng)頁信息進行去“噪”,保留網(wǎng)頁鏈接、正文和標題。在本系統(tǒng)中,我們采用文檔對象模型(DOM,Document Object Model)來獲取網(wǎng)頁的正文和標題信息,首先構建DOM樹,然后從DOM樹上刪除節(jié)點的過濾器,獲得相應文本信息[6-8]。在網(wǎng)頁中,通常存在大量重復的鏈接,為避免網(wǎng)頁冗余,提高系統(tǒng)效率,還需去除重復的網(wǎng)頁。通過分析頁面提出網(wǎng)頁特征碼,根據(jù)特征碼區(qū)分相同或相似網(wǎng)頁。利用網(wǎng)頁特征碼索引網(wǎng)頁,建立檢索系統(tǒng),并將特征碼存入檢索系統(tǒng)中。當爬取出新的網(wǎng)頁后,根據(jù)文檔特征碼進行判斷,相似度大于系統(tǒng)設定的閾值則認為是重復網(wǎng)頁,系統(tǒng)自動刪除。
經(jīng)上述網(wǎng)頁處理后,將得到結構化的網(wǎng)頁信息,然后進行分詞處理。文中利用中科院自行研制的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進行分詞,去除停用詞后建立VSM。
話題發(fā)現(xiàn)和聚類是輿情監(jiān)控系統(tǒng)的基礎,就是把描述同一話題和事件的網(wǎng)頁按一定序列聚合在一起,減少冗余和重復信息,給用戶提供方便[9-10]。話題發(fā)現(xiàn)流程如圖2所示。
圖2 話題自動發(fā)現(xiàn)流程
話題發(fā)現(xiàn)和聚類算法受信息本身被關注程度的影響,關注程度高,聚類效果就好,對話題的評估能力也強,從而更好的為網(wǎng)絡輿情監(jiān)控系統(tǒng)提供可靠依據(jù)。常見的話題發(fā)現(xiàn)和聚類算法主要包括Single-Pass算法,基于文本劃分、層次、密度和網(wǎng)格的聚類算法。對上述五類算法進行比較,可得出以下結論,如表1所示。
表1 常見聚類算法的指標表現(xiàn)
由表1可知,在預知主題的情況下,Single-Pass算法更適合用于輿情話題發(fā)現(xiàn)和聚類,在實際應用中,此算法也是使用最廣泛的算法之一,其各項性能指標及聚類結果都得到開發(fā)者的認可。但由于其精度一般,并受文本輸入順序的影響較大,也制約著其聚類效果的提升。
文中對Single-Pass算法進行改進,以彌補其算法精度上的不足。首先是改進特征詞的選擇,在對網(wǎng)頁進行向量化時,只選擇具有實際意義的名詞和動詞表示向量,而不是對所有詞語都向量化;并加入網(wǎng)頁的標題表示向量,用網(wǎng)頁標題和正文的雙向兩表示法;在文本初步聚類時,每次處理一批文檔,而不是簡單的單個處理,這樣就可以有效避免Single-Pass對文本輸入順序的依賴性,完成初步聚類后,再進行偏離點的調整,直至滿足系統(tǒng)設置停止條件。
1)特征詞選擇
改進后的Single-Pass算法把網(wǎng)頁中去掉停用詞后的名詞、動詞作為特征詞,然后統(tǒng)計出這些詞的出現(xiàn)次數(shù)以及反文檔頻率。利用公式(1)計算得出特征詞權重,根據(jù)權重組合計算出文本相似度。
其中,Wi指第 i個特征詞的權重,TFi(t,d)指特征詞t出現(xiàn)在文檔d中的次數(shù),N是網(wǎng)頁的文檔總數(shù),DF(t)指網(wǎng)頁中含有特征詞t的網(wǎng)頁總數(shù)。在實際中,由于文本的復雜性,會使得文本向量中有較多的0項值,給計算帶來較大開銷,并使得文本相似度區(qū)分不明顯,本文對Single-Pass算法進行改進,文本輸入后,首先對其內容進行分詞,根據(jù)辭典辨識,將經(jīng)過分詞后的每個詞語進行詞性標注;選取特征詞時,只選擇文本中的動詞和名詞(此步驟只需經(jīng)過一個詞性判斷就能實現(xiàn));然后統(tǒng)計動詞和名詞的詞頻,從而減少特征詞數(shù)量,降低運算量,減少開銷,同時也保存了文本內容的關鍵信息,避免了矩陣稀疏現(xiàn)象,也提高算法準確性。然后根據(jù)Single-Pass算法的步驟,統(tǒng)計特征詞頻率及反文檔頻率,利用TFIDF公式得到特征詞權重,然后計算相似度。本文采用空間夾角余弦公式實現(xiàn)對文本相似度的計算,如公式(2)。公式得到的數(shù)值都介于0~1之間,數(shù)值越接近1,就說明兩個文本相似度越高,它們被歸為同一話題的可能性就越大;反之,兩個文本越不相似,屬于同一話題的幾率就小。
2)雙向量表示
Single-Pass算法在選擇特征向量時只選擇文本正文,忽略了文本的標題。而文本標題卻涵蓋了文本的主要內容,網(wǎng)絡新聞和各類帖子更是如此,新聞和帖子的標題往往蘊含事件的主要內容。如果能較好的運用標題的這一屬性,從標題中得出事件的關鍵元素,并強調標題的作用,將能較好的促進文本聚類效果,從而改進常見文本聚類算法的不足。因此在本文中,我們選擇標題和正文雙向量表示法。在計算文本相似度時,標題和正文都參與運算。首先我們計算得出標題和主題的相似度,以及正文和主題的相似度;然后對標題和正文的相似度進行加權求和,并對標題中的關鍵詞賦予較高的權重。本文中,通過反復試驗,賦予標題特征詞權重0.75,正文特征詞權重0.25時,聚類效果較好。此方法加入了標題特征詞,無疑會增加運算,但由于標題的文字數(shù)量遠低于正文,所以對計算無較大影響,卻對話題發(fā)現(xiàn)和聚類精度有了較大改善。
3)偏離點調整
Single-Pass算法在處理文本時,根據(jù)文本輸入的順序,一個一個處理文本,在第一次讀取時就確定文本所屬的類簇,之后輸入的文本根據(jù)與前面文本的相似度劃分類簇,這就導致文本的輸入順序會很大程度上影響聚類結果。所以說,一個好的文本輸入順序會使文本有較好的聚類效果。但根據(jù)實際應用,文本的內容確定后,其聚類結果就應當確定,不應該受到輸入順序的影響。為了克服此類問題,本文在進行文本聚類時,一批一批的來處理,而不是單個的進行處理。由于每次加入新的文本后,會引起類歸屬的變化,在本改進算法中,允許類進行重選擇,稱為偏離點的調整。即當有新的文本加入話題后,此類內的所有話題重新計算相似度,看是否處于最相似的類中,若是,則不變動;若不是,就調整類簇,將此文本放入經(jīng)處理后最接近的類簇中。這些調整會引起連鎖的反應,導致系統(tǒng)無法終止。因此,在本文中為了防止這種現(xiàn)象的發(fā)生,本文設定當有90%或者以上的文本處于最接近的類簇中時,將不再進行調整。根據(jù)大量的實驗驗證,此終止條件達到預期效果,令人滿意。
輿情服務是系統(tǒng)的輸出層,給用戶提供相關信息,包括輿情報告、郵件、用戶個性化定制和輿情信息發(fā)布等[11-13]。從而為用戶提供清晰、精確、快捷方便的網(wǎng)頁輿情信息服務功能,滿足用戶對信息的各種不同需求。
實驗采用Single-Pass算法和改進的Single-Pass算法進行比較測試。實驗環(huán)境采用為Windows XP系統(tǒng),1G以上內存機器,用VC 2010進行編譯。數(shù)據(jù)用以下6個關鍵字:教育、娛樂、汽車、經(jīng)濟、軍事、體育。通過百度進行搜索,采用每個主題的前100條文檔,總共600條文檔進行聚類分析,故K=6。由于這兩類算法對初始聚類中心的依賴性都比較高(即初始聚類中心的選擇能較大程度地影響聚類結果),所以我們采用多次隨機選取聚類中心,多次重復運行,然后取平均值作為聚類算法性能的結果。實驗結果如表2和表3。
表2 Single-Pass算法結果
表3 改進的Single-Pass算法結果
比較上述兩表發(fā)現(xiàn),在準確率方面,改進的Single-Pass只有經(jīng)濟一項比原Single-Pass略低一點;在召回率方面,改進的Single-Pass只有汽車一項比原Single-Pass略低一點。除此之外,其它項無論在準確率還是召回率,改進的Single-Pass都比原Single-Pass效果要好。改進的Single-Pass算法的兩項數(shù)據(jù)均高于Single-Pass算法5個百分點以上。且改進的Single-Pass聚類算法比Single-Pass聚類算法在處理異常數(shù)據(jù)和噪聲數(shù)據(jù)方面更好。
網(wǎng)絡輿情預警的作用在于,盡早發(fā)現(xiàn)可能的危機苗頭,盡早判斷可能產生的危機走向和規(guī)模,盡早讓有關職能部門做好應對準備[14-15]。本系統(tǒng)預警能力較高,能夠及時從海量的互聯(lián)網(wǎng)信息中發(fā)現(xiàn)潛在的危機苗頭,并能準確預計輿情發(fā)生的時間差,從而為相關職能部門提供足夠的時間來做準備,為網(wǎng)絡輿情應對贏得寶貴時間,并將有效推進軍隊信息化建設進程。
[1]Agrawal D,BudakC,El Abbadi A,et al.Big Data in Online Social Networks:User Interaction Analysis to ModelUser Behavior in Social Networks[M].Databases in Networked Information Systems.Springer International Publishing,2014.
[2]張玉珠.基于內容相似性的論壇用戶社會網(wǎng)絡挖掘[J].通信技術,2013,46(253):57-59.
[3]張玉峰,王志芳.基于內容相似性的論壇用戶社會網(wǎng)絡挖掘[J].情報雜志,2010,29(8):125-130.
[4]何佳,周長勝,石顯鋒.網(wǎng)絡輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學學報:理學版,2010,42(1):82-85.
[5]張長利.面向特定領域的互聯(lián)網(wǎng)輿情分析技術研究[D].吉林:吉林大學,2011.
[6]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-390.
[7]劉恒文.基于網(wǎng)絡語義挖掘的輿情監(jiān)測預警研究[D].武漢:武漢理工大學,2010.
[8]Jennifer Bachner,Kathy W.Hill.Advances in Public Opinion and Policy Attitudes Research[J].The Policy Studies Journal,2014,42(1):51-70.
[9]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-39.
[10]劉恒文.基于網(wǎng)絡語義挖掘的輿情監(jiān)測預警研究[D].武漢:武漢理工大學,2010.
[11]殷風景.面向網(wǎng)絡輿情監(jiān)控的熱點話題發(fā)現(xiàn)技術研究[D].北京:國防科學技術大學,2010.
[12]張春華.網(wǎng)絡輿情社會學的闡釋[M].北京:社會科學文獻出版社,2012.
[13]李金海,何有世,熊強.基于大數(shù)據(jù)技術的網(wǎng)絡輿情文本挖掘研究[J].情報雜志,2014,33(10):1-6.
[14]方星星,呂永強.基于改進的single-pass網(wǎng)絡輿情話題發(fā)現(xiàn)研究[J].計算機與數(shù)字工程,2014,42(7):1233-1237.
[15]高承實,陳越.網(wǎng)絡輿情幾個基本問題的探討[J].情報雜志,2011,30(11):52-56.
Design of network public opinion monitoring system in military based on Single-Pass
ZHAO Xiao-nan,MA Chen-chen
(Army Unit 68303,Wuwei 733004,China)
Military network public opinion is the main source of military information.These information will directly affect people's judgment,and even endanger social security.According to the characteristics of military,this paper compares common text clustering algorithms,and improves Single-Pass algorithm.Then design network public opinion monitoring system which is suitable for military.The accuracy and recall rate are above 5 percentage points than the Single-Pass,and so as to provide a reliable basis for the relevant departments to make decision.
Single-Pass; military; text clustering; network public opinion monitoring
TN957.52
A
1674-6236(2017)16-0117-04
2016-07-04稿件編號:201607025
趙曉楠(1986—),女,河南偃師人,碩士研究生,中級工程師。研究方向:人工智能與應用。