張麗媛 李美子
摘 要:本文提出一種基于云計(jì)算的大規(guī)模輿情數(shù)據(jù)服務(wù)平臺(tái)設(shè)計(jì)方案,依托大規(guī)模網(wǎng)頁(yè)采集分析技術(shù)、云計(jì)算數(shù)據(jù)處理技術(shù)、社會(huì)關(guān)系輿情傳播分析技術(shù)和文本流輿情主題分類技術(shù),針對(duì)不同需求的用戶提供按需計(jì)費(fèi)、可定制和可彈性管理的商業(yè)服務(wù)模式,實(shí)現(xiàn)網(wǎng)絡(luò)輿情服務(wù)。
關(guān)鍵詞:云計(jì)算 數(shù)據(jù) 服務(wù)平臺(tái)
中圖分類號(hào):TP3
長(zhǎng)期以來(lái),互聯(lián)網(wǎng)輿情是人們所關(guān)注的重點(diǎn)。通過網(wǎng)絡(luò)所發(fā)布、傳播、共享的輿情信息,是展現(xiàn)廣大人民群眾心態(tài)、體現(xiàn)政府能力和信心的重要手段。隨著當(dāng)前社交網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò)等新型互聯(lián)網(wǎng)平臺(tái)的出現(xiàn),目前對(duì)互聯(lián)網(wǎng)輿情服務(wù)的要求正在日益增強(qiáng)。
現(xiàn)有的互聯(lián)網(wǎng)輿情監(jiān)測(cè)評(píng)估系統(tǒng)在語(yǔ)義處理上采用基于關(guān)鍵詞的技術(shù),其在網(wǎng)頁(yè)處理上直接的局限表現(xiàn)在不能有效地進(jìn)行實(shí)體識(shí)別,影響了主題定義的質(zhì)量,導(dǎo)致系統(tǒng)在熱點(diǎn)追蹤、文本分類等核心功能的實(shí)現(xiàn)質(zhì)量不高;在數(shù)據(jù)處理能力方面,由于系統(tǒng)運(yùn)行在能力有限的物理分割服務(wù)器上,導(dǎo)致海量輿情數(shù)據(jù)的分析能力不足[1]。本文引入語(yǔ)義計(jì)算[2]、云計(jì)算[3]、主題檢測(cè)等技術(shù),為輿情分析提供了強(qiáng)大的數(shù)據(jù)采集、存儲(chǔ)和處理能力,可以依據(jù)不同需求的用戶提供不同的輿情分析能力和服務(wù)。
本文所提出的針對(duì)互聯(lián)網(wǎng)中出現(xiàn)的新型移動(dòng)平臺(tái)、社交平臺(tái)、輿情數(shù)據(jù)海量化等新興狀態(tài),采用云計(jì)算技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、語(yǔ)義計(jì)算技術(shù)、文本流主題檢測(cè)技術(shù)、垂直搜索引擎技術(shù)等在內(nèi)的多項(xiàng)新型技術(shù),針對(duì)多樣化和海量化的輿情數(shù)據(jù)展開監(jiān)測(cè)和評(píng)估,并通過云計(jì)算所具備的全新計(jì)算架構(gòu),針對(duì)不同需求的用戶提供按需計(jì)費(fèi)、可定制和可彈性管理的商業(yè)服務(wù)模式,最大程度上契合用戶的需求并降低用戶的使用費(fèi)用,通過空間、虛擬機(jī)和輿情評(píng)估模塊定制等跳過用戶自行投資信息化硬件建設(shè)的成本,為用戶提供低價(jià)優(yōu)質(zhì)的全新輿情監(jiān)測(cè)與評(píng)估體驗(yàn)。
1 整體方案
下面,本文將分別從輿情檢測(cè)技術(shù)、云計(jì)算平臺(tái)架構(gòu)、輿情傳播分析技術(shù)等三個(gè)方面闡述本文所提出平臺(tái)的技術(shù)方案。
1.1 輿情檢測(cè)技術(shù)
主要由三個(gè)部分組成:(1)信息采集:主要完成網(wǎng)絡(luò)輿情信息的采集工作,用戶可以通過指定站點(diǎn)、頻道、時(shí)間范圍等對(duì)這部分功能進(jìn)行定制。信息采集主要通過Crawler對(duì)網(wǎng)頁(yè)進(jìn)行采集,或者通過專用DB導(dǎo)出工具,直接掛接到站點(diǎn)的服務(wù)器上實(shí)現(xiàn)輿情信息的高效采集。(2)用戶接口:允許用戶采用專門需求對(duì)自己的評(píng)估監(jiān)測(cè)需求;允許用戶專業(yè)特點(diǎn)、應(yīng)用體驗(yàn)對(duì)系統(tǒng)的功能重新進(jìn)行定制;完成輿情監(jiān)測(cè)評(píng)估的報(bào)告的反饋呈現(xiàn)功能。(3)輿情監(jiān)測(cè)評(píng)估控制:對(duì)監(jiān)測(cè)評(píng)估需求進(jìn)行語(yǔ)義解析,并據(jù)此調(diào)度監(jiān)測(cè)評(píng)估程序庫(kù)的程序,來(lái)完成監(jiān)測(cè)評(píng)估結(jié)果,而后將結(jié)果以圖形、表格、文字報(bào)告等形式反饋給用戶。
1.2 云計(jì)算平臺(tái)
云計(jì)算平臺(tái)主要分為四個(gè)層次:基礎(chǔ)資源服務(wù)層(即IaaS層)、數(shù)據(jù)服務(wù)層(即DaaS層)、平臺(tái)服務(wù)層(即PaaS層)和軟件服務(wù)層(即SaaS層)。在這四個(gè)層次中:(1)IaaS層:基礎(chǔ)資源虛擬化、基礎(chǔ)資源動(dòng)態(tài)負(fù)載平衡、超大規(guī)模高速網(wǎng)絡(luò)聚合帶寬技術(shù)、云安全控制。(2)DaaS層:基于ETL的海量輿情實(shí)時(shí)信息處理、大規(guī)模輿情信息文本流分類管理、海量輿情數(shù)據(jù)安全防災(zāi)管理。該層中將通過結(jié)構(gòu)化數(shù)據(jù)庫(kù)(Oracle)和非結(jié)構(gòu)化數(shù)據(jù)庫(kù)(HBase和Hive)等同時(shí)管理存儲(chǔ)數(shù)據(jù)。(3)PaaS層:標(biāo)準(zhǔn)接口管理、異構(gòu)數(shù)據(jù)交互與轉(zhuǎn)化、服務(wù)部署、任務(wù)分配與平衡。該層中將部署節(jié)點(diǎn)控制器、集群控制器等實(shí)現(xiàn)平臺(tái)管理。(4)SaaS層:統(tǒng)一訪問門戶、輿情采集、管理與分析挖掘應(yīng)用部署。
1.3 輿情傳播分析技術(shù)
當(dāng)重點(diǎn)聚焦當(dāng)前輿情傳播中的用戶社交關(guān)系的分析和處理:(1)用戶社交關(guān)系路徑獲取與分析技術(shù):實(shí)現(xiàn)不同ID情況下用戶身份的統(tǒng)一識(shí)別和認(rèn)證;繼而對(duì)用戶的網(wǎng)絡(luò)社交關(guān)系、社交圈等進(jìn)行記錄和分析,從而獲取用戶對(duì)于每一個(gè)輿情主題的傳播路徑等。(2)用戶社交關(guān)系的計(jì)算基礎(chǔ)技術(shù):該技術(shù)為用戶社交關(guān)系、社交圈、社區(qū)身份等信息提供可計(jì)算的邏輯基礎(chǔ),從而使每一個(gè)用戶的社交關(guān)系、身份信息等具備可定性或定量計(jì)算的可能。(3)用戶關(guān)系在輿情傳播中的路徑和影響力預(yù)測(cè)技術(shù):該技術(shù)可計(jì)算并預(yù)測(cè)不同程度和性質(zhì)的用戶關(guān)系可能會(huì)導(dǎo)致輿情主題的傳播方向,傳播對(duì)象和傳播群體;同時(shí)可針對(duì)不同用戶關(guān)系,預(yù)測(cè)這些關(guān)系和路徑對(duì)輿情主題傳播可能產(chǎn)生的附加影響力。
2 關(guān)鍵技術(shù)
本文所提出的輿情數(shù)據(jù)服務(wù)平臺(tái)主要包括以下四個(gè)方面核心技術(shù)。
(1)大規(guī)模網(wǎng)頁(yè)信息采集、網(wǎng)頁(yè)信息抽取、文本實(shí)體識(shí)別技術(shù):通過構(gòu)建云計(jì)算平臺(tái),利用云計(jì)算技術(shù)實(shí)現(xiàn)計(jì)算資源整合,并進(jìn)一步利用虛擬機(jī)動(dòng)態(tài)分配、網(wǎng)絡(luò)節(jié)點(diǎn)分布式計(jì)算等實(shí)現(xiàn)大規(guī)模網(wǎng)頁(yè)輿情數(shù)據(jù)的爬去的采集;利用語(yǔ)義計(jì)算、垂直搜索引擎技術(shù)、文本過濾、自然語(yǔ)言處理技術(shù)等實(shí)現(xiàn)了網(wǎng)頁(yè)信息的抽取與文本實(shí)體識(shí)別,最終完成輿情信息的采集、分類、抽取等功能。
(2)基于云計(jì)算的大規(guī)模、分布式輿情信息分析處理能力:在云計(jì)算平臺(tái)下,劃分出專門的虛擬機(jī),通過云平臺(tái)下MapReduce并行算法,完成輿情信息的漢詞切分、語(yǔ)料分析、主題提取和分類、輿情情感計(jì)算,最終實(shí)現(xiàn)輿情信息的分析處理功能。
(3)基于社會(huì)關(guān)系的移動(dòng)社交網(wǎng)絡(luò)(微博等)信息輿情傳播模式分析技術(shù):依據(jù)互聯(lián)網(wǎng)媒體平臺(tái)中用戶的社會(huì)關(guān)系,對(duì)移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等媒體中所出現(xiàn)的輿情數(shù)據(jù)進(jìn)行深度分析,利用用戶社會(huì)關(guān)系實(shí)現(xiàn)對(duì)輿情傳播模式分析,最終完成主題傳播跟蹤、輿情影響力評(píng)估、輿情預(yù)測(cè)等功能。
(4)大規(guī)模輿情文本流主題檢測(cè)分類技術(shù):針對(duì)互聯(lián)網(wǎng)大規(guī)模文本流輿情數(shù)據(jù),利用在線輿情文本進(jìn)行主題建模技術(shù)、在云計(jì)算平臺(tái)進(jìn)行自動(dòng)的非監(jiān)督學(xué)習(xí),對(duì)輿情文本進(jìn)行分類、檢測(cè)等。
3 結(jié)語(yǔ)
本文提出一種以云計(jì)算、語(yǔ)義計(jì)算、用戶關(guān)系計(jì)算、文本流主題檢測(cè)等技術(shù)為基礎(chǔ),克服了傳統(tǒng)輿情檢測(cè)系統(tǒng)僅僅依賴于關(guān)鍵字、詞頻等統(tǒng)計(jì)手段的缺點(diǎn),同時(shí)涵蓋了互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等不同傳統(tǒng)和新興網(wǎng)絡(luò)載體,以面向服務(wù)的互聯(lián)網(wǎng)輿情監(jiān)測(cè)評(píng)估系統(tǒng)作為主,并向行業(yè)應(yīng)用以及個(gè)人應(yīng)用服務(wù)。
參考文獻(xiàn)
[1] 鄭魁,疏學(xué)明,袁宏永.網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程,2010,36(3):4-6.
[2] 張波,向陽(yáng),黃震華.基于本體的決策問題語(yǔ)義理解及精煉方法[J].電子學(xué)報(bào), 2012,40(8):1603-1608.
[3] Creeger M.,CTO Roundtable:Cloud Computing Communications of the ACM,vol.52,no.8,august 2009:50-56. 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2013)03(b)-0020-01