摘要:本文著重介紹了數(shù)據(jù)分析系統(tǒng)的需求,探討了一種針對政務微博分析的HRCA模型,并對政務微博數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)進行了研究。
關鍵詞:數(shù)據(jù)分析;HRCA模型;系統(tǒng)需求
目前政務微博內(nèi)部的賬戶數(shù)據(jù)越來越多,微博的作用逐漸體現(xiàn)了出來,政府微博目前需要首先解決的問題就是設計并實現(xiàn)數(shù)據(jù)分析系統(tǒng),通過該系統(tǒng)來尋找大眾最關心的話題內(nèi)容,得到大眾的情感傾向,進而在政府微博上推送相關內(nèi)容,實現(xiàn)微博價值。政務微博數(shù)據(jù)分析系統(tǒng)本身包含著數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)、數(shù)據(jù)可視化子系統(tǒng),它們都可以很好的完成數(shù)據(jù)收集、儲存、分析工作。本文著重介紹了數(shù)據(jù)分析系統(tǒng)的需求,探討了一種針對政務微博分析的HRCA模型,并對政務微博數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)進行了研究。
1 系統(tǒng)需求分析
1.1 業(yè)務需求
政府微博的主要工作就是為政府部門發(fā)布一些政策,通過這種方式訪問民生,拉近群眾和政府之間的關系,群眾可以根據(jù)政府微博了解當前的優(yōu)惠政策,政府也可以利用微博了解群眾心中所想,由此可見政府微博就是政府的另一種形式體現(xiàn),可以構建出一個親民的政府形象。近幾年來,政府微博越來越被重視,有關政府微博的運營問題也展開了研究,在運營過程中,提高信息處理效率,貼近群眾,提高工作人員工作效率等內(nèi)容成為運營人員首要考慮的問題。為了實現(xiàn)這些目標,政府微博就需要實現(xiàn)以下其中業(yè)務需求[1]。
首先政府微博需要采集政務微博賬戶數(shù)據(jù)信息,給系統(tǒng)數(shù)據(jù)分析提供支持,同時還需要提供最少一年以內(nèi)的微博熱點話題,通過這種方式來了解群眾的心中所想,了解民心,在后續(xù)的內(nèi)容發(fā)布過程中也可以據(jù)此提供策略依據(jù)。政府微博還需要掌握整體的輿論走勢,引導輿論走向更好的方向,改善政府微博的服務質(zhì)量,同時迎合微博用戶的需求。政府微博還需要按照用戶的訪問時間熱度判斷微博發(fā)送的時間,判斷政府微博近期活躍數(shù)以及熱門話題等等。在數(shù)據(jù)分析方面,政府微博需要提供可視化的展示界面,將數(shù)據(jù)分析所呈現(xiàn)出來的結果變得更加直觀,同時為政府微博發(fā)布提供熱門素材信息。
1.2 功能性需求
政務微博的數(shù)據(jù)分析系統(tǒng)所需要提供的功能可以從數(shù)據(jù)采集功能、微博話題功能、輿論傾向分析功能、多維度數(shù)據(jù)分析功能等幾個角度進行分析。政府微博數(shù)據(jù)分析系統(tǒng)本身需要從采集工作開始,采集的主要內(nèi)容包括微博網(wǎng)站上的賬戶相關信息,微博評論內(nèi)容、轉(zhuǎn)發(fā)內(nèi)容、點贊數(shù)量等等,這些具有用戶特征的微博數(shù)據(jù)是政府微博數(shù)據(jù)分析系統(tǒng)著重收集的。在收集工作完成之后,就需要將采集到的內(nèi)容數(shù)據(jù)進行數(shù)據(jù)清洗、格式轉(zhuǎn)化。獲取政務微博熱門微博話題工作主要是從話題的內(nèi)容出發(fā),主要的目的就是分析微博賬戶一年以內(nèi)的熱點話題,通過這種方式來掌握群眾所感興趣的內(nèi)容,然后對原有的熱門話題數(shù)據(jù)進行有效的分析。同時受到政務微博賬務類型不同的因素影響,很多用戶的訪問時間都是不同的,數(shù)據(jù)分析工作還可以對用戶的訪問時間進行統(tǒng)計,計算出最佳的政策推送時間并且不斷的更新數(shù)據(jù),推送數(shù)據(jù)。數(shù)據(jù)分析工作還需要具有數(shù)據(jù)可視化功能以及系統(tǒng)用戶管理功能,在數(shù)據(jù)可視化功能中,政府微博運營人員可以通過柱狀圖、餅狀圖等對數(shù)據(jù)分析結構數(shù)據(jù)進行可視化展示,給運營人員一種直觀的展示效果[2]。對于系統(tǒng)用戶管理功能來講主要的作用就是對系統(tǒng)用戶的維護工作,配置對應的系統(tǒng)管理員,幫助用戶添加、修改、查詢等工作。
2 面向政務微博熱度和情感分析的HRCA和EDS模型
2.1 政務微博熱度HRCA模型
HRCA模型也是政務微博熱度值模型,所謂微博熱度值主要指的就是目前政務微博賬戶內(nèi)部的熱門微博,并且在熱門微博中過濾出大眾最為關心、最為重視的微博內(nèi)容。據(jù)專業(yè)分析來講,微博的熱度值并不僅僅體現(xiàn)在點贊數(shù)和轉(zhuǎn)發(fā)上,更多的應該是微博用戶對其內(nèi)容的感興趣程度和重視程度。因為微博系統(tǒng)本身設置的關系,在微博中進行瀏覽,轉(zhuǎn)發(fā)和評論等操作都是要麻煩于點贊的,所以轉(zhuǎn)發(fā)和評論所占的重要比例是要高于點贊的。在確定用戶重視程度上主要從用戶評論的長度來考慮,其次轉(zhuǎn)發(fā)人員的影響力也會給政府微博熱度帶來影響,比如如果一個擁有五萬粉絲的用戶轉(zhuǎn)發(fā)并評論了政府微博內(nèi)容,那么政府微博的熱度值就被很好的帶動了起來。根據(jù)HRCA模型所呈現(xiàn)出來的預期效果,政府微博可以采用代碼編程的內(nèi)容來進行實現(xiàn),首先在編寫代碼之前需要確定對應的影響關系,HRCA模型本身包含著用戶的操作行為,其中點贊、評論、轉(zhuǎn)發(fā)等權值計算都會對HRCA模型產(chǎn)生影響,具體的代碼如圖1所示[3]。
2.2 政務微博評論情感值EDS模型
在對政府微博評論內(nèi)容進行調(diào)研的過程中可以發(fā)現(xiàn),政府微博評論的文本內(nèi)容大多都是陳述句以及感嘆句,只有個別的評論是疑問句,表現(xiàn)著對發(fā)布內(nèi)容的疑問,疑問句文本本身就表達出了一種消極態(tài)度,而且具有很強的攻擊性。EDS模型就是基于此進行開創(chuàng)的,EDS模型可以對言語表達出來的情感進行探索,主要的工作任務就是優(yōu)化文本的情感分析。在對評論文本進行分析的過程中,EDS模型可以通過標點來判斷評論內(nèi)容的歸屬類別,比如感嘆號一般都是代表著對政策的感嘆,而懷有疑問語氣的評論內(nèi)容大多都是對政策內(nèi)容存在疑問或者是不滿意的情況。
3 面向政務微博的數(shù)據(jù)分析系統(tǒng)設計
3.1 系統(tǒng)整體架構設計
政務微博系統(tǒng)整體框架得到了數(shù)據(jù)分析系統(tǒng)的支持,而采集子系統(tǒng)、數(shù)據(jù)可視化子系統(tǒng)以及數(shù)據(jù)分析子系統(tǒng)又成為了支撐數(shù)據(jù)分析系統(tǒng)運行的關鍵技術。這三種子系統(tǒng)包含著不同的功能,功能的種類也是多種多樣,其中數(shù)據(jù)采集工作、話題提取工作、情感分析數(shù)據(jù)分析工作、可視化工作等等。其中數(shù)據(jù)采集子系統(tǒng)主要的工作目的就是完成政務微博數(shù)據(jù)采集工作,其中數(shù)據(jù)采集工作包括對政務微博的網(wǎng)頁記錄、評論內(nèi)容的字段提取、微博數(shù)據(jù)清洗以及政務微博數(shù)據(jù)格式化等等。在采集的過程中,采集的數(shù)據(jù)一般都會儲存在MongoDB數(shù)據(jù)庫中,在該數(shù)據(jù)庫中,數(shù)據(jù)采集系統(tǒng)本身就是分布式集群,數(shù)據(jù)存放的形式是用單一存放的方法,通過這樣處理來方便后期進行數(shù)據(jù)分析工作。數(shù)字分析子系統(tǒng)本身可以根據(jù)運營人員的具體需求來進行數(shù)據(jù)分析,在分析的過程中還需要進行微博熱門話題提出工作、微博評論情感分析工作、政務微博多維度數(shù)據(jù)分析以及獲取發(fā)布素材功能[4]。數(shù)據(jù)分析子系統(tǒng)本身通過Spark分布式框架實現(xiàn)的,它不僅可以實現(xiàn)獨立字段操作還可以搭建Linux系統(tǒng),在系統(tǒng)中對數(shù)據(jù)庫進行分析,方便后續(xù)的數(shù)據(jù)可視化工作。數(shù)據(jù)可視化子系統(tǒng)本身包含著數(shù)據(jù)可視化展示功能以及用戶管理功能兩種,在表現(xiàn)形式上一直以柱狀圖、餅狀圖等幾種形式來展現(xiàn)數(shù)據(jù),這種形勢也是數(shù)據(jù)可視化的具體體現(xiàn)。同時為了保證數(shù)據(jù)內(nèi)容的可靠性以及安全性,該系統(tǒng)還設定了用戶登錄和用戶維護功能,用戶在登陸之后才能進行相關操作。
3.2 數(shù)據(jù)采集子系統(tǒng)設計
數(shù)據(jù)采集子系統(tǒng)的主要工作就是定時采集政務微博相關賬戶的數(shù)據(jù)信息,并對已經(jīng)采集到的信息進行“清洗”以及格式轉(zhuǎn)換,并對相關信息內(nèi)容進行保存,以此作為整個數(shù)據(jù)收集系統(tǒng)的數(shù)據(jù)來源,給其他工作提供數(shù)據(jù)支持。
政務微博的數(shù)據(jù)采集工作一般都會對政務微博歷史數(shù)據(jù)信息、政務微博評論數(shù)據(jù)信息、政務微博發(fā)布素材信息這三種形式。首先政務微博歷史數(shù)據(jù)信息分析工作主要就是將政務微博賬戶歷史所發(fā)布的信息的所有轉(zhuǎn)發(fā)數(shù)、點贊數(shù)等等進行統(tǒng)一采集。采集的過程大概以一個月為更新時間,主要是為政務微博熱門話題以及政務微博多個維度數(shù)據(jù)分析功能進行數(shù)據(jù)統(tǒng)計,統(tǒng)計的內(nèi)容還包括微博ID、評論ID、用戶性別、用戶粉絲數(shù)、評論內(nèi)容、評論內(nèi)容的點贊數(shù)等等,這些信息都在統(tǒng)計的范圍之內(nèi)[5]。政務微博評論數(shù)據(jù)信息本身主要是將系統(tǒng)最近兩天以內(nèi)的政務微博賬戶發(fā)布的所有評論信息以及微博內(nèi)容進行統(tǒng)計,統(tǒng)計的間隔大約在一個小時左右,數(shù)據(jù)更新一般都會傾向于政務微博輿論以及情感傾向,主要的字段信息內(nèi)容以用戶評論的文字為主要標準。第三類采集信息主要指的就是政務微博發(fā)布素材信息,這類信息基本上都是來自于政務微博官方賬號和一些政務微博關注的賬號,這些信息本身發(fā)布的素材都可以提供數(shù)據(jù)支持,信息數(shù)據(jù)大約在十分鐘左右更新一次。
3.3 數(shù)據(jù)分析子系統(tǒng)設計
數(shù)據(jù)分析工作是整個數(shù)據(jù)處理工作中比較重要的工作內(nèi)容之一,該系統(tǒng)的主要作用也就是處理數(shù)據(jù)、分析數(shù)據(jù),對數(shù)據(jù)的內(nèi)容進行更深層次的了解,了解的內(nèi)容一般都是微博內(nèi)容、數(shù)據(jù)清理工作、文本情感分析工作等等,在實際的工作過程中一般都使用Spark分布式框架作為子系統(tǒng)的計算引擎。在子系統(tǒng)設計的過程中一般都使用文本數(shù)據(jù)預處理、LDA模型訓練等等。其中LDA模型訓練需要從系統(tǒng)工作為開始,對微博數(shù)據(jù)進行讀取,然后通過hrca模型獲取熱門微博的內(nèi)容,隨即對微博內(nèi)容進行數(shù)據(jù)清洗工作,并添加詞典、分詞、去除停用詞、b特征提取,隨后進行LDA模型訓練,獲取詞語及對應權重,最后將系統(tǒng)處理數(shù)據(jù)存入到mysql當中[6]。
3.4 數(shù)據(jù)可視化子系統(tǒng)設計
數(shù)據(jù)可視化子系統(tǒng)設計它的工作形式就是將數(shù)據(jù)分析中的數(shù)據(jù)內(nèi)容通過圖表的方式向用戶進行展示,讓用戶可以直觀的感受到數(shù)據(jù)變化。在系統(tǒng)用戶管理功能當中,系統(tǒng)用戶管理部分配有對應的系統(tǒng)管理人員,該管理人員可以通過添加用戶的方法來注冊用戶,如果沒有經(jīng)過注冊的用戶在訪問系統(tǒng)的時候會被攔截,整個系統(tǒng)的安全性得到了很好的保障。在數(shù)據(jù)可視化展示功能當中,數(shù)據(jù)可視化展示功能可以對數(shù)據(jù)分析子系統(tǒng)中的部分數(shù)據(jù)分析功能進行一定的展示,在展示的過程中不能通過圖標的方式而是通過一些可視化工具,比如Echarts。在得到了可視化工具之后才可以讀取Mysql數(shù)據(jù),最后通過餅狀體、柱狀圖的方式進行數(shù)據(jù)展示。
4 面向政務微博的數(shù)據(jù)分析系統(tǒng)實現(xiàn)
4.1 系統(tǒng)實現(xiàn)環(huán)境
面向政務微博的數(shù)據(jù)分析系統(tǒng)實現(xiàn)工作主要分為硬件環(huán)境以及軟件環(huán)境兩種,其中硬件環(huán)境具體指的就是計算機的配置,比如CPU、主頻、內(nèi)存、硬盤等等。軟件環(huán)境主要指的就是給系統(tǒng)提供一定的開發(fā)環(huán)境和運行環(huán)境,軟件環(huán)境需要得到硬件環(huán)境的支持,在硬件中安裝對應的軟件系統(tǒng)、框架,采取分布式環(huán)境的方法完成系統(tǒng)實現(xiàn)[7]。在面向政務微博的數(shù)據(jù)分析系統(tǒng)時,數(shù)據(jù)采集子系統(tǒng)以及數(shù)據(jù)分析子系統(tǒng)都是通過分布式框架才實現(xiàn)的,所以在搭建服務器的過程中需要根據(jù)相關技術完成系統(tǒng)設定,以此來實現(xiàn)定時啟動數(shù)據(jù)分析任務[8]。
4.2 數(shù)據(jù)采集子系統(tǒng)實現(xiàn)
數(shù)據(jù)采集子系統(tǒng)的實現(xiàn)本身的作用就是保護系統(tǒng)的安全性,在具體的工作過程中主要使用的方法有反爬蟲手段以及加密字符等等。其中反爬蟲手段就是使用多用戶模擬登陸的方式獲取對應的Cookie值,然后通過代理的方式來完成運行。如果網(wǎng)站人員在識別Cookie用戶的時候需要添加一段加密字符,此時如果某些非法人員經(jīng)常使用一個Cookie多次的訪問網(wǎng)站,那么根據(jù)系統(tǒng)設定會很容易將其判定為爬蟲,最終拒絕該用戶的訪問。在實現(xiàn)數(shù)據(jù)采集子系統(tǒng)的過程中也會涉及到IP代理池的實現(xiàn),在實際測試的過程中會為每一個電腦分配對應的IP地址,如果使用單- IP對政務微博進行多次訪問、惡意訪問,那么該IP也會被封禁[9]。
4.3 數(shù)據(jù)分析子系統(tǒng)實現(xiàn)
數(shù)據(jù)分析子系統(tǒng)實現(xiàn)主要包括一些熱門主題提取,同時在文本情感分析和多維度數(shù)據(jù)分析和獲取熱度政務微博發(fā)布素材分析中的都有著很好的表現(xiàn)。該程序本身就需要處理大量的數(shù)據(jù)內(nèi)容以及設定算法,所以在數(shù)據(jù)分析子系統(tǒng)中使用的技術都是基于內(nèi)存的Spark分析框架,并且使用分布式架構加快信息數(shù)據(jù)分析處理的速度。同時數(shù)據(jù)分析子系統(tǒng)在文本數(shù)據(jù)預處理中也有著較好的應用,首先Spark對政務微博賬戶發(fā)過的熱門微博進行整合,并取出前百分之二十的微博數(shù)據(jù)作為熱門微博數(shù)據(jù),并且對微博的具體內(nèi)容進行熱度排序,使用結巴分詞器進行分詞、過濾,最終生成沒有副詞影響的信息數(shù)據(jù)[10]。
4.4 數(shù)據(jù)可視化子系統(tǒng)實現(xiàn)
數(shù)據(jù)可視化子系統(tǒng)實現(xiàn)本身由表現(xiàn)層、業(yè)務層以及持久層組成,表現(xiàn)層的功能主要是展示可視化數(shù)據(jù)以及基本用戶維護操作,而業(yè)務層的功能則是使用SpringMVC技術接受前端發(fā)出的請求,處理業(yè)務邏輯,最終實現(xiàn)各個模塊之間的融合。持久層的功能是將數(shù)據(jù)保存到關系型數(shù)據(jù)庫中,為控制層提供訪問和更新數(shù)據(jù)的權利[11]。
5 結束語
綜上所述,隨著信息化社會的到來,微博等公眾平臺已經(jīng)發(fā)展火熱,目前已經(jīng)成為傳播政策、推廣消息的重要途徑,因此政務微博現(xiàn)如今已經(jīng)成為了政府和廣大人民群眾之間聯(lián)系的關鍵紐帶。但是在政務微博處理數(shù)據(jù)的過程中遭遇到了很多的問題,微博運營遇到了很多的阻礙,由此可見,政務微博的財務系統(tǒng)設計工作尤為重要,相關運營人員需要面向政務微博的數(shù)據(jù)分析系統(tǒng)、數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)、數(shù)據(jù)可視化子系統(tǒng)進行探討和研究,做好數(shù)據(jù)分析系統(tǒng)的構建,保證政務微博的可持續(xù)發(fā)展。
參考文獻
[1]于一,楊俊杰,王太林.基于Android的排球比賽數(shù)據(jù)統(tǒng)計分 析系統(tǒng)設計與實現(xiàn)[J].科學技術創(chuàng)新,2020 (31):66-68.
[2]畢祥銀,張輝,大數(shù)據(jù)分析在用電采集數(shù)據(jù)分析與智能監(jiān)測系統(tǒng)的設計與實現(xiàn)[J].電子世界,2020 (19):136-137.
[3]劉斌.基于Twit ter大數(shù)據(jù)處理的境外輿情分析系統(tǒng)設計與實現(xiàn)[J].電腦知識與技術,2020,16 (27):30-3 3+42.
[4]邊倩,王振鐸,庫趙云.基于Python的招聘崗位數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[J].微型電腦應用,2020,36 (09):18-19+26.
[5]韓冬,郭浩峰,李林洋,汪菊琴,江森林.基于大數(shù)據(jù)技術的區(qū)域房價與就業(yè)數(shù)據(jù)關聯(lián)分析系統(tǒng)的設計與實現(xiàn)[J].電腦知識與技術,2020,16 (25):89-91.
[6]郭曉乾,武守曉,王承棟,劉思宇.基于大數(shù)據(jù)的電能質(zhì)量監(jiān)測分析系統(tǒng)設計與實現(xiàn)[J].軟件導刊,2020,19 (08):182-18 5.
[7]游磊,梁穎,韓祺祎,張文,馮江.基于虛擬儀器的動態(tài)信號采集與分析系統(tǒng)設計與實現(xiàn)[J].自動化與儀器儀表,2020(07):144-147.
[8]陳愷.S模式監(jiān)視數(shù)據(jù)質(zhì)量分析系統(tǒng)設計與實現(xiàn)[J].軟件,2020, 41(07): 228-2 34.
[9]吳磊,歐陽赫明,基于Spark的分布式健康大數(shù)據(jù)分析系統(tǒng)設計與實現(xiàn)[J].軟件導刊,2020,19 (07):99-102.
[10]楊輝,基于R語言的北京市醫(yī)耗聯(lián)動綜合改革數(shù)據(jù)分析Web應用系統(tǒng)的設計與實現(xiàn)[J].中國數(shù)字醫(yī)學,2020,15 (07):22-25.
[11]舒暢,蔣方園.高校畢業(yè)生就業(yè)大數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[J].信息通信,2020 (07):149-150.
作者簡介
鄭榮龍(1984-),男,廣東省江門市人。碩士研究生,計算機高級工程師、公職律師、一級建造師。研究方向為政務服務工作、大數(shù)據(jù)管理等。