王娟琳,陶宇煒,高東偉,封紅旗
(常州大學信息化建設與管理中心,江蘇常州 213164)
校園網(wǎng)絡同樣具備互聯(lián)網(wǎng)絡的匿名性、虛擬性、隱蔽性和即時互動性,一旦突發(fā)網(wǎng)絡輿情傳播快、波及面廣、影響范圍大等,高校校園網(wǎng)絡信息管理部門高度關注積極應對。從2003 年起我國開始對網(wǎng)絡輿情監(jiān)管平臺進行研究[1],十年來隨著網(wǎng)絡信息技術發(fā)展,高性能計算、云計算等技術在高校網(wǎng)絡輿情監(jiān)管中被應用,通過構建Hadoop 集群與MapReduce 分布處理架構,從智慧校園數(shù)據(jù)中心各個應用系統(tǒng)數(shù)據(jù)接口采集高校網(wǎng)絡輿情數(shù)據(jù),關聯(lián)爬取到學生在校園內(nèi)的學習生活靜態(tài)、動態(tài)數(shù)據(jù)并針對這些數(shù)據(jù)進行處理、分析獲取相關的高校網(wǎng)絡輿情預警信息[2]使職能部門的教師、輔導員主動關注目標學生做好學生工作預案及時研判、疏導,降低和避免負面事件發(fā)生。
高校網(wǎng)絡信息管理部門在構建輿情監(jiān)管平臺時,在Linux操作系統(tǒng)上通常使用出現(xiàn)較早的開源分布式大數(shù)據(jù)計算Hadoop 平臺(如常州大學高性能計算集群上構建Hadoop 平臺,計算節(jié)點服務器操作系統(tǒng)是Redhat V6.2,共有30 多個計算節(jié)點,總存儲容量50TB),該大數(shù)據(jù)平臺具有穩(wěn)定性、擴展性、容錯性、投資少、維護成本低等特性,在此平臺上可使用多種編程語言[2]、使用一般硬件配置。主要的兩個核心平臺架構分別是:1)HDFS 分布式文件管理體系可實現(xiàn)高效存儲,2)MapReduce 分布式并行計算可將一組數(shù)據(jù)按照某種Map 函數(shù)映射成新的數(shù)據(jù)再將若干組映射結果進行匯總并輸出,Hadoop平臺架構如圖1所示。
圖1 平臺架構示意圖
HDFS 是將大文件、大批量文件進行分布式存儲的文件系統(tǒng),在投資成本較低的高性能計算機服務器集群上可進行文件切塊、副本存儲,使用統(tǒng)一的命名空間目錄樹進行文件定位,用戶可使用客戶端訪問文件系統(tǒng)。它是一個主從存儲模式的文件系統(tǒng)[3],如圖2所示。有一個Namenode 主節(jié)點管理目錄樹、文件所對應的文件塊id以及所在的從節(jié)點服務器等;而多個Datanode 數(shù)據(jù)從節(jié)點執(zhí)行主節(jié)點所發(fā)出的指令來進行數(shù)據(jù)存儲,主節(jié)點與從節(jié)點通信方式采用心跳信號進行。每個數(shù)據(jù)塊可以將副本存放在多個datanode從節(jié)點上(通過參數(shù)可設置存放副本的數(shù)量),由此可見HDFS具有高容錯性特性。
圖2 HDFS結構
MapReduce 主要針對大數(shù)據(jù)計算(TB 級數(shù)據(jù)以上)模型如圖3 所示。其主要有兩個過程即Map 和Reduce,為達到高計算效率采用并行計算框架或者說是一種編程模型。計算時先將一個大的計算作業(yè)分解成多個子作業(yè)(復雜問題簡單化),再將這些子作業(yè)分別處理將得出結果再合并成最后的計算分析結果。整個作業(yè)計算流程主要分為:提交作業(yè)、初始化作業(yè)和任務分配[4]。MapReduce 分布式并行計算框架其功能是實現(xiàn)高校網(wǎng)絡輿情數(shù)據(jù)的并行爬取及分析計算,使高校開展網(wǎng)絡輿情的數(shù)據(jù)收集和分析工作快速而高效。
圖3 MapReduce模型
采用K-Means算法是基于劃分的聚類算法,其核心思想根據(jù)用戶所設的類別數(shù)量,隨機在文本集里選擇K個文本設置成最初的類簇中心,計算剩余的文本集里的各個文本到類簇中心的距離,把文本分別劃分到就近的類簇中,當全部劃分完畢后重新再計算每個類簇的中心,再次計算剩余每個文本到這些新類簇中心的距離,將文本重新劃分到當前最接近的類簇中去;不斷重復以上過程,當完成設置的迭代次數(shù)或簇不發(fā)生變化了停止算法[5]。K-Means算法的優(yōu)點是復雜度較低并且易實現(xiàn),任意范圍內(nèi)都可進行聚類。但比較難選擇到最初始的全局最優(yōu)化的聚類中心,算法還容易受到噪聲和例外文本的影響。
基于Hadoop 架構的高校輿情監(jiān)管平臺,管理員可自由地開發(fā)運行基于大數(shù)據(jù)的應用程序[6],兼容性好,以常大高性能計算集群linux 操作系統(tǒng)為例,在4個計算節(jié)點服務器上進行安裝部署。將其中一臺計算節(jié)點服務器作為Namenode 主節(jié)點命名為Masternode,作為名字空間存儲服務和下發(fā)指令任務;另外3臺計算節(jié)點服務器作為DataNode 從節(jié)點分別命名為Branch1、Branch2、Branch3 負責存儲具體數(shù)據(jù)。為每臺計算機服務器配置IP 地址(vim/etc/hosts 文件中配置),再進行測試主節(jié)點和所有從節(jié)點網(wǎng)絡通信狀態(tài);設置主節(jié)點和從節(jié)點之間實現(xiàn)SSH 免密登錄。(免密登錄需關閉防火墻再配置遠程連接SSH服務)。配置的軟件、硬件如下表1、表2所示。
表1 集群軟件信息表
表2 集群硬件信息表
由于輿情數(shù)據(jù)大部分都是結構化數(shù)據(jù),使用Sqoop工具從智慧校園數(shù)據(jù)中心MySQL等結構化數(shù)據(jù)庫中將數(shù)據(jù)從接口導入Hadoop 平臺。MySQL 數(shù)據(jù)需導入HDFS 中,由DataNode 負責數(shù)據(jù)塊元數(shù)據(jù)的存儲根據(jù)NameNode 的指令進行檢索讀取數(shù)據(jù)。每個DataNode 會定期向NameNode 發(fā)送“心跳”信息判斷DataNode的運行情況。
從校園網(wǎng)上爬取在校學生信息數(shù)據(jù)如:學號、姓名、班級、所學專業(yè)、愛好等靜態(tài)特征數(shù)據(jù)和動態(tài)特征數(shù)據(jù)如:上課出勤率、使用校園一卡通圖書館借閱率、食堂消費率、考核成績、使用校園網(wǎng)時長等。
結合高校的工作內(nèi)容,Hadoop平臺獲取的關鍵信息還有:
1)學習。主要包括自主學習、授課、網(wǎng)上教學等模式信息。
2)考試。涉及考試紀律、考試成績、成績服務器、考核方式等信息。
3)上課。涉及教師授課方法、上課教室軟硬件條件、興趣愛好等信息。
4)宿舍。同學間聊天的話題、宿舍軟硬件條件、后管服務滿意度等信息。
5)愛情。愛情觀、失戀等信息。
6)食堂。涉及飯菜種類、口味、價格、衛(wèi)生、環(huán)境、服務等信息。
7)圖書館。涉及軟硬件條件、電子借閱、占位、館員服務等信息。
8)其他。在校體育活動場地、運動器材、校園文化環(huán)境、教學管理服務等信息。
將“高?!薄案咝4髮W生”“高等院?!钡汝P鍵詞與上述信息進行組合,在Hadoop 平臺中進行爬取。再對這些數(shù)據(jù)進行清洗,去除不符合用戶標準的數(shù)據(jù)。網(wǎng)頁信息數(shù)據(jù)含有文本、圖像、除了我們所需的正文信息,還包含了多種輔助信息如:商家廣告、導航、彈窗等。在進行數(shù)據(jù)清洗時,也要對網(wǎng)頁內(nèi)容進行清洗,消除一些不需要的內(nèi)容干擾。獲得有價值數(shù)據(jù)后再將兩個時段數(shù)據(jù)合并進行曼哈頓距離計算(如本時段的數(shù)據(jù)和前一個時段的數(shù)據(jù)合并),得到某個特征數(shù)據(jù)離中心距離的偏離大小及某個數(shù)據(jù)的異常情況。
通過搭建的實驗平臺可以提取在校學生行為的靜態(tài)、動態(tài)信息數(shù)據(jù)中與輿情信息關聯(lián)的敏感關鍵字,依據(jù)一些有負面風險影響信號的關鍵字給相關學生畫像,再通過這些學生在校內(nèi)的各種上網(wǎng)行為軌跡(如QQ、微信、網(wǎng)頁瀏覽、短信等)達到對監(jiān)測的輿情進行追溯。積極發(fā)揮班主任、輔導員老師的主觀能動性做好預警和研判工作,從而降低輿情負面風險值達到高校網(wǎng)絡輿情監(jiān)測的目的。
清洗干凈的學生靜態(tài)、動態(tài)特征數(shù)據(jù)通過Map-Reduce進行并行計算,在主成分分析中用協(xié)方差矩陣的特征值而在求協(xié)方差矩陣時,用的就是矩陣的加減乘除。針對主成分進行分析后將結果合并在一起提取關鍵字,通過離中心距離的劃分聚類算法,再從多角度出發(fā)對不同的數(shù)據(jù)將其結果聚合在一起,從中獲取出離中心距離偏大的一系列學生數(shù)據(jù),針對提取的異常數(shù)據(jù)實時進行監(jiān)測和研判。
Hadoop 平臺獲取信息速度與快速分析信息是一項重要的性能指標。實驗中針對單機模式與Hadoop模式進行爬取信息的速度和熱點計算所需時間、聚類分析所需時間的測試。通過實驗對比依據(jù)平臺運行時間遞增單機模式與Hadoop模式運行結果是:在平臺運行較短時間內(nèi),單機模式與Hadoop 模式?jīng)]有明顯差別,這是因Hadoop 模式在開始集群運行時各種系統(tǒng)存在比較大的開銷。運行時間逐漸增加時,信息爬取、數(shù)據(jù)清洗、聚類分析的數(shù)據(jù)量也在遞增,Hadoop模式爬取信息速度明顯較單機模式塊、熱點計算時間與聚類分析時間較單機模式信息計算分析速度明顯加快。由此可見,Hadoop模式在并行計算分析方面有著明顯的優(yōu)勢,能快速有效提升高校網(wǎng)絡輿情的數(shù)據(jù)采集與分析效率。
通過基于Hadoop 高校網(wǎng)絡輿情監(jiān)管平臺研究,實施分析爬取到學生在校園內(nèi)的各種學習生活靜態(tài)、動態(tài)數(shù)據(jù),提取到偏離中心的負面風險信號關鍵字并關注這些學生在校內(nèi)學習生活行為軌跡相關數(shù)據(jù),由班主任、輔導員針對這些學生給予一對一的關注并解決問題。數(shù)字化技術手段助力高校學生管理工作科學、高效,同時促進建設高校智慧平安校園。由此可見,構建高校Hadoop 網(wǎng)絡輿情監(jiān)管平臺具有廣泛的實際應用價值。