魏子皓 遂寧市東辰榮興國際學校
目前業(yè)界廣泛認可大數(shù)據(jù)的特征為4V特征,即認為大數(shù)據(jù)具有規(guī)模性(Volume)、價值性(Value)、多樣性(Variety)以及高速性(Velocity)四個特征。
在大數(shù)據(jù)時代,隨著海量輿情信息的涌現(xiàn)和數(shù)據(jù)采集技術(shù)的進步,唐濤(2014)認為網(wǎng)絡(luò)輿情分析創(chuàng)新要使用大數(shù)據(jù)分析方法,包括網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的隱性輿情分析、基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)主體關(guān)系分析、關(guān)聯(lián)領(lǐng)域數(shù)據(jù)輿情分析、基于網(wǎng)絡(luò)民意調(diào)查的輿情分析等。維克托fi 邁爾fi 舍恩伯格(2012)認為大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法,樣本分析逐步讓位于總體分析,傳統(tǒng)的統(tǒng)計分析方法與Web數(shù)據(jù)挖掘技術(shù)互相融合,包含多種分析模塊的輿情分析系統(tǒng)被開發(fā)出來。
典型的Web數(shù)據(jù)挖掘主要包括以下幾個(1)查找資源:任務(wù)是從目標Web文檔中得到數(shù)據(jù),包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。(2)信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無用信息和將信息進行必要的整理。(3)模式發(fā)現(xiàn):自動進行模式發(fā)現(xiàn)。可以在同一個站點內(nèi)部或在多個站點之間進行。(4)模式分析:驗證、解釋上一步驟產(chǎn)生的模式。
從社會網(wǎng)絡(luò)的角度出發(fā),人在社會環(huán)境中的相互作用可以表達為基于關(guān)系的一種模式或規(guī)則,而基于這種關(guān)系的有規(guī)律模式反映了社會結(jié)構(gòu),這種結(jié)構(gòu)的量化分析是社會網(wǎng)絡(luò)分析的出發(fā)點。社會網(wǎng)絡(luò)分析不僅僅是一種工具,更是一種關(guān)系論的思維方式??梢岳脕斫忉屢恍┥鐣W、經(jīng)濟學、管理學等領(lǐng)域問題。近年來,該方法在職業(yè)流動、城市化對個體幸福的影響、世界政治和經(jīng)濟體系、國際貿(mào)易等領(lǐng)域廣泛應(yīng)用,并發(fā)揮了重要作用。社會網(wǎng)絡(luò)分析研究的重點不是個體,而是個體之間的聯(lián)系。社會網(wǎng)絡(luò)分析的任務(wù)就是描述群體關(guān)系的結(jié)構(gòu),研究這種結(jié)構(gòu)對群體功能或者群體內(nèi)部個體的影響。
一,為了得到更準確的輿情信息,所需要的數(shù)據(jù)量大幅膨脹。隨著數(shù)據(jù)生成的自動化以及數(shù)據(jù)生成速度的加快,自媒體時代的到來,為了獲得準確的網(wǎng)絡(luò)輿情信息需要處理的數(shù)據(jù)量急劇膨脹。一種處理大數(shù)據(jù)的方法是使用采樣技術(shù),通過采樣,把數(shù)據(jù)規(guī)模變小,以便利用現(xiàn)有的技術(shù)進行數(shù)據(jù)管理和分析。二,數(shù)據(jù)深度分析需求的增長。為了從數(shù)據(jù)中得到準確的輿情信息進而指導(dǎo)人們的決策,必須對大數(shù)據(jù)進行深入的分析,這些復(fù)雜的分析必須依賴于復(fù)雜的分析模型。所以對網(wǎng)絡(luò)輿情信息的分析還需要路徑分析、時間序列分析、圖分析、What-if分析等。三,自動化和可視化分析需求的出現(xiàn)。在TB級的復(fù)雜輿情信息環(huán)境下,網(wǎng)絡(luò)輿情系統(tǒng)應(yīng)該能根據(jù)網(wǎng)站的內(nèi)容自動構(gòu)造查詢,自動提供熱點推薦,自動分析數(shù)據(jù)的價值并決定是否需要保存。
隨著網(wǎng)絡(luò)技術(shù)和應(yīng)用的不斷創(chuàng)新,網(wǎng)絡(luò)輿情在不斷發(fā)生變化,面對數(shù)億網(wǎng)民和浩如煙海的網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境,我們需要不斷擴大網(wǎng)絡(luò)輿情分析的內(nèi)涵,從分析顯性輿情容,拓展到分析隱性輿情、輿情主體間關(guān)系、輿情子群體、輿情對社會的動態(tài)影響等更廣義的輿情分析。我們要不斷改進輿情的分析方法,網(wǎng)絡(luò)輿情分析不再僅僅是采樣分析,而是要開始關(guān)注大數(shù)據(jù)分析;不再僅僅是企業(yè)大數(shù)據(jù)能力,提高大數(shù)據(jù)工作水平。目前國內(nèi)外有關(guān)廠商,紛紛推出與大數(shù)據(jù)服務(wù)相關(guān)的產(chǎn)品。如甲骨文公司推出了Oracle大數(shù)據(jù)機,最大程度幫助用戶管理海量數(shù)據(jù),快速提供一個具有高可用性的可擴展系統(tǒng);IBM推出最新數(shù)據(jù)庫軟件DB210和InfoSphere Warehouse 10,能夠輕松集成大數(shù)據(jù)系統(tǒng),自動將數(shù)據(jù)壓縮成更緊密的空間,以防止存儲蔓延,并且將過去、現(xiàn)在和未來的信息進行分離,以清除某些程序代碼。
隨著大數(shù)據(jù)時代的到來,我們要不斷改進輿情的分析方法,將大數(shù)據(jù)思維及方法運用到網(wǎng)絡(luò)輿情分析中去。首要開始關(guān)注大數(shù)據(jù)分析,其次不再僅僅依靠語義分析,而是求諸于自動化的數(shù)據(jù)分析,再次要關(guān)聯(lián)不同領(lǐng)域數(shù)據(jù)進行輿情分析等等??傊覀円黄苽鹘y(tǒng),將輿情分析向大數(shù)據(jù)分析的方向創(chuàng)新。
[1]張璇.基于社會網(wǎng)絡(luò)分析的輿情管理研究[D].合肥工業(yè)大學,2013.