□馮子桓 梁 循 牛思敏
[中國(guó)人民大學(xué) 北京 100872]
隨著互聯(lián)網(wǎng)的快速發(fā)展和數(shù)字時(shí)代的到來,人們傳統(tǒng)地獲取、分享、交流信息的方式正在發(fā)生根本性的改變,人們可以很方便地獲取與共享網(wǎng)絡(luò)上的資源,自由地通過網(wǎng)絡(luò)進(jìn)行交流與溝通。人們通過互聯(lián)網(wǎng)的各種手段表達(dá)對(duì)社會(huì)事件的認(rèn)識(shí)、態(tài)度和情感,這些手段包括微博、微信、短視頻、新聞評(píng)論等形式。由于新技術(shù)、新應(yīng)用不斷出現(xiàn),其傳播途徑和傳播方式更加隱蔽和復(fù)雜,能否及時(shí)掌握網(wǎng)絡(luò)輿論的最新動(dòng)向,對(duì)于國(guó)家安全和社會(huì)穩(wěn)定具有重要意義。
輿情主題圖譜是一種以大規(guī)模采集的社交網(wǎng)絡(luò)輿情數(shù)據(jù)為基礎(chǔ)并對(duì)其進(jìn)行語義抽取和標(biāo)注,而構(gòu)建的覆蓋大規(guī)模輿情事件和實(shí)體的語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò)。它可以實(shí)現(xiàn)對(duì)輿情主題圖譜數(shù)據(jù)的采集和主題圖譜的構(gòu)建,為社交網(wǎng)絡(luò)輿情主題圖譜的挖掘提供依據(jù)和支撐,對(duì)現(xiàn)實(shí)輿情事件相關(guān)的一切事物及其相互關(guān)系進(jìn)行形式化的描述。
從輿情數(shù)據(jù)、輿情信息到輿情主題圖譜的流程中,社交輿情大數(shù)據(jù)作為互聯(lián)網(wǎng)大數(shù)據(jù)的一部分,具有其特殊性。社交網(wǎng)絡(luò)輿情資源具有海量、分布、異構(gòu)、多粒度等多種特性,為對(duì)其進(jìn)行有效的數(shù)據(jù)挖掘,就需要首先對(duì)這些海量、分布、異構(gòu)、多粒度的輿情資源進(jìn)行知識(shí)抽取,為輿情主題圖譜的構(gòu)建提供數(shù)據(jù)基礎(chǔ)。根據(jù)知識(shí)組織的相關(guān)性原理和有序性原理,社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的組織可以具體化為:社交網(wǎng)絡(luò)輿情大數(shù)據(jù)主題圖譜的構(gòu)建與社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的分析兩個(gè)主要方面。因此,如何構(gòu)建社交網(wǎng)絡(luò)輿情大數(shù)據(jù)主題圖譜并對(duì)其進(jìn)行有效分析便成為該領(lǐng)域需要解決的一個(gè)關(guān)鍵性問題。
本文以輿情和知識(shí)圖譜為關(guān)鍵研究領(lǐng)域,針對(duì)輿情大數(shù)據(jù)多源異構(gòu)性、多維關(guān)聯(lián)性、多重可用性的問題,挖掘輿情信息、構(gòu)建輿情主題知識(shí)圖譜,并利用輿情主題圖譜的應(yīng)用價(jià)值,自下而上地從理論和實(shí)踐多方面介紹大數(shù)據(jù)環(huán)境下社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建和分析調(diào)控。
1. 社交網(wǎng)絡(luò)輿情
輿情是指在一定的時(shí)間空間范圍內(nèi),社會(huì)民眾對(duì)社會(huì)事件的產(chǎn)生與發(fā)展變化所持有的一種態(tài)度,是民眾對(duì)社會(huì)中出現(xiàn)的各種現(xiàn)象和問題集中表達(dá)出來的意見和態(tài)度的總和[1~3]。社交網(wǎng)絡(luò)輿情是指公眾在社交平臺(tái)上對(duì)某種社會(huì)公共問題、現(xiàn)象或具體事件公開表達(dá)的具有傾向性和一定影響力的言論、態(tài)度的集合。
對(duì)社交網(wǎng)絡(luò)輿情的有效掌控,是在新形勢(shì)下應(yīng)對(duì)社會(huì)新變化新發(fā)展的必然要求。但是,由于網(wǎng)絡(luò)存在一定程度的虛擬性且社交網(wǎng)絡(luò)的覆蓋范圍越來越大,輿情傳播的途徑和形式也越來越復(fù)雜,輿情管理面臨著不小的壓力和挑戰(zhàn)[4]。例如,在社交網(wǎng)絡(luò)上,“造謠一張嘴,辟謠跑斷腿”一直是辟謠者所面臨的現(xiàn)實(shí)困境。要想和虛假信息做斗爭(zhēng),就必須對(duì)在線社會(huì)網(wǎng)絡(luò)謠言進(jìn)行實(shí)時(shí)檢測(cè),針對(duì)不同類別和應(yīng)用場(chǎng)景的網(wǎng)絡(luò)謠言,還需要從目標(biāo)、對(duì)象和時(shí)間三個(gè)屬性入手,同時(shí)對(duì)謠言源進(jìn)行檢測(cè)[5],可見數(shù)據(jù)量之大,檢測(cè)難度之高。
2. 社交網(wǎng)絡(luò)輿情主題圖譜
知識(shí)圖譜是一個(gè)具有屬性的實(shí)體通過關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫,以符號(hào)形式來描述現(xiàn)實(shí)世界中的實(shí)體及其相互關(guān)系[6]。其構(gòu)建有兩種方式:自頂向下構(gòu)建和自底向上構(gòu)建。其中最典型就是Google的Knowledge Vault[7]。
構(gòu)建知識(shí)圖譜的第一步是知識(shí)抽取,主要分為以下幾種方法。
(1)實(shí)體和主題抽取。實(shí)體抽取的方法分為三種[8]:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法、混合法。面向開放域的實(shí)體抽取則是從大量的互聯(lián)網(wǎng)語料中采取一定的技術(shù)手段進(jìn)行實(shí)體抽取[9~11]。主題抽取也稱話題檢測(cè),話題檢測(cè)的主要任務(wù)是檢測(cè)新話題,是一種無監(jiān)督聚類方法,如果爬取到的話題與之前產(chǎn)生的某個(gè)話題類別相關(guān),則將其融合;否則,產(chǎn)生一個(gè)新的話題類別[12]。
(2)概念和屬性抽取。屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。對(duì)于非結(jié)構(gòu)化的公開數(shù)據(jù),可以利用結(jié)構(gòu)化數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練出來的模型應(yīng)用于非結(jié)構(gòu)化的實(shí)體屬性抽取[13];還可以采用數(shù)據(jù)挖掘的方法從大量的數(shù)據(jù)中提取實(shí)體屬性與屬性值之間的關(guān)系模式[14]。
(3)情感關(guān)系抽取。對(duì)于情感關(guān)系抽取,學(xué)者們先后構(gòu)建了基于規(guī)則的Twitter情感分析系統(tǒng)[15]、基于層次結(jié)構(gòu)多策略的情感分析框架[16]、情感極性判別分析[17]等。
實(shí)體關(guān)系抽取是圖譜構(gòu)建的重要環(huán)節(jié)。關(guān)系抽取的主要方法有:基于模式匹配的方法[18~19]、基于語義詞典的方法[20~22]、基于有監(jiān)督的方法[23~24]、基于種子或自舉(bootstrapping)的方法、基于遠(yuǎn)程監(jiān)督(distant supervision)的方法[25~27]等。最后通過關(guān)聯(lián)關(guān)系將離散的命名實(shí)體聯(lián)系起來,形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。
知識(shí)圖譜作為人類對(duì)理解認(rèn)識(shí)的一種結(jié)構(gòu)化模擬,不僅可以很好地幫助計(jì)算機(jī)進(jìn)行語義的理解,應(yīng)用于知識(shí)庫問答、文本生成、情感分析等多個(gè)方面,而且針對(duì)某一特定領(lǐng)域建立相關(guān)的知識(shí)圖譜也極大地提高了用戶的體驗(yàn)。構(gòu)建具有領(lǐng)域特色的知識(shí)圖譜,可以很好地應(yīng)用于復(fù)雜分析和決策的場(chǎng)景,該技術(shù)在自然語言處理、推薦系統(tǒng)、預(yù)測(cè)分析、識(shí)別、分類等各種信息網(wǎng)絡(luò)中具有深厚而有影響力的應(yīng)用[28]。在此,我們著重介紹針對(duì)社交網(wǎng)絡(luò)輿情領(lǐng)域知識(shí)圖譜的構(gòu)建與分析。
1. 網(wǎng)絡(luò)輿情分析方面
在Web of Science中,檢索關(guān)鍵詞“public opinion OR public sentiment”,選擇范圍為網(wǎng)絡(luò)(web OR internet OR www OR network),時(shí)間跨度為1950年至今(2021-09-04),共檢索到9 965篇期刊論文和會(huì)議論文。
從學(xué)科分布來看,網(wǎng)絡(luò)輿情問題吸引了計(jì)算機(jī)科學(xué)、行為科學(xué)、社會(huì)學(xué)、心理學(xué)、工程、新聞與媒體等領(lǐng)域?qū)<覍W(xué)者的密切關(guān)注。
從研究者的分布情況來看,如圖1所示,相關(guān)研究者主要集中在中國(guó)、美國(guó)、英國(guó)、西班牙、加拿大、德國(guó)等國(guó)家。
圖1 關(guān)于網(wǎng)絡(luò)輿情研究的國(guó)家分布狀況
從時(shí)間分布來看,這幾年網(wǎng)絡(luò)輿情主題越來越受到國(guó)際學(xué)者的關(guān)注,如圖2所示,盡管2021年發(fā)文量暫時(shí)還未統(tǒng)計(jì)完,2011~2020年一直呈上升的態(tài)勢(shì)。
圖2 關(guān)于網(wǎng)絡(luò)輿情研究的時(shí)間分布狀況
國(guó)內(nèi)學(xué)者如蘭月新、陳福集、黃微、李國(guó)祥等對(duì)網(wǎng)絡(luò)輿情進(jìn)行了積極探索。研究主題主要集中在網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)輿論、網(wǎng)絡(luò)輿情應(yīng)對(duì)的研究。新媒體與移動(dòng)網(wǎng)絡(luò)的流行使輿情在豆瓣、微博、微信上傳播更加迅速,輿情往往會(huì)在多個(gè)社交平臺(tái)上聯(lián)動(dòng)發(fā)酵。高校大學(xué)生作為活躍的網(wǎng)民群體引起了學(xué)者對(duì)高校網(wǎng)絡(luò)輿情的關(guān)注。“新媒體”“情感分析”“電子政務(wù)”等熱詞開始進(jìn)入網(wǎng)絡(luò)輿情的研究領(lǐng)域,推動(dòng)該主題的研究往縱深方向發(fā)展。
2. 知識(shí)圖譜方面
在Web of Science中,檢索主題為“Knowledge Graph”,時(shí)間跨度為1950年至今(2021-09-04),共檢索到24 251篇期刊論文。
從學(xué)科分布來看,知識(shí)圖譜吸引了計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程、商業(yè)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)等領(lǐng)域?qū)<覍W(xué)者的密切關(guān)注。從研究者的分布情況來看,如圖3所示,相關(guān)研究者主要集中在中國(guó)、美國(guó)、德國(guó)、法國(guó)、西班牙、英國(guó)、加拿大等國(guó)家。
圖3 關(guān)于知識(shí)圖譜研究的國(guó)家分布狀況
從時(shí)間分布來看,這幾年知識(shí)圖譜主題越來越受到國(guó)際學(xué)者的關(guān)注,如圖4所示,2011~2019年一直呈上升的態(tài)勢(shì),盡管2020年發(fā)文較少,但期刊發(fā)文數(shù)仍超過2 500篇。
圖4 關(guān)于知識(shí)圖譜研究的時(shí)間分布狀況
從中國(guó)知網(wǎng)中的知識(shí)圖譜主題發(fā)文量來看,從2014年開始,該主題成為國(guó)內(nèi)研究熱點(diǎn)領(lǐng)域之一,發(fā)文數(shù)持續(xù)攀升。目前,知識(shí)圖譜除了在圖書情報(bào)學(xué)領(lǐng)域得到廣泛和深入應(yīng)用外,正快速地向其他學(xué)科或領(lǐng)域(如計(jì)算機(jī)軟件、教育理論、自動(dòng)化管理、企業(yè)經(jīng)濟(jì)、體育等)擴(kuò)散,并且取得了非常豐富的科研成果,且研究成果呈現(xiàn)遞增趨勢(shì)。總體而言,知識(shí)圖譜當(dāng)前應(yīng)用主要集中在公開數(shù)據(jù)集的研究以及知識(shí)庫的構(gòu)建,同時(shí)對(duì)各學(xué)科的研究熱點(diǎn)與前沿、研究主題及研究基礎(chǔ)等進(jìn)行可視化分析。而利用知識(shí)圖譜原理和技術(shù)對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行可視化關(guān)聯(lián)分析的研究比較少。
3. 基于社交網(wǎng)絡(luò)分析相關(guān)技術(shù)輿情主題圖譜挖掘方面
從學(xué)術(shù)研究方面來看,現(xiàn)有的人工智能技術(shù)大多以數(shù)據(jù)驅(qū)動(dòng)為主,目前仍停留在計(jì)算智能和感知智能。通過一系列復(fù)雜算法和大規(guī)模的數(shù)據(jù)計(jì)算去得到規(guī)律進(jìn)行學(xué)習(xí)與決策,很容易造成數(shù)據(jù)依賴,導(dǎo)致模型的效果不佳[29],并且這種方式的可解釋性差,不可控性凸顯。同時(shí),越來越多的學(xué)者意識(shí)到人類對(duì)于問題的解決思路,并不像現(xiàn)有的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)技術(shù)那樣需要經(jīng)過大規(guī)模的數(shù)據(jù)運(yùn)算,而是簡(jiǎn)單的通過概念之間的關(guān)系進(jìn)行推理就可以得到答案。這使得研究者更加清晰地認(rèn)識(shí)到人工智能不應(yīng)該局限于計(jì)算智能與感知智能,要想實(shí)現(xiàn)智能、魯棒、可解釋、可推理多方完善的人工智能系統(tǒng),將現(xiàn)有的技術(shù)與基于知識(shí)規(guī)則的認(rèn)知智能相結(jié)合才是更好的選擇。例如,在進(jìn)行表征學(xué)習(xí)時(shí),混合知識(shí)圖譜嵌入和卷積運(yùn)算或神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì),可以用于研究和提取社交網(wǎng)絡(luò)結(jié)構(gòu)中有意義的特征,以幫助節(jié)點(diǎn)分類,社區(qū)檢測(cè)和鏈接預(yù)測(cè)問題[30],并且使用這種融合技術(shù)進(jìn)行嵌入相較于傳統(tǒng)的節(jié)點(diǎn)嵌入性能更好,但計(jì)算成本相對(duì)而言更高[31];對(duì)于企業(yè)而言,結(jié)合知識(shí)圖譜與文本挖掘技術(shù),將其業(yè)務(wù)數(shù)據(jù)和互聯(lián)網(wǎng)輿情數(shù)據(jù)進(jìn)行對(duì)比、關(guān)聯(lián)分析,可發(fā)掘研判與應(yīng)對(duì)規(guī)律,利于輿論引導(dǎo)、輿情應(yīng)對(duì)的高效開展[32]。
4. 國(guó)內(nèi)外知名企業(yè)及學(xué)者相關(guān)研究方面
我們熟知的Facebook、騰訊、微博等,無論是企業(yè)本身在知識(shí)圖譜的構(gòu)建與應(yīng)用,還是眾多學(xué)者在此領(lǐng)域進(jìn)行的相關(guān)研究,都在進(jìn)行不斷地嘗試與突破。
早在2013年,F(xiàn)acebook就推出圖譜搜索(Graph Search),Graph Search不同于Google的基于關(guān)鍵字匹配的搜索方式,Graph Search更像語義識(shí)別搜索,將與個(gè)人直接相關(guān)的事物以搜索結(jié)果的形式呈現(xiàn),而非像Google搜索結(jié)果那樣僅展示相關(guān)網(wǎng)站鏈接。但Graph Search 還處于比較早期的開發(fā)階段,還有許多問題亟待解決。
騰訊作為國(guó)內(nèi)最大的關(guān)系社區(qū),在構(gòu)建多領(lǐng)域特色知識(shí)圖譜方面則顯得更有建樹。騰訊知識(shí)圖譜(Tencent Knowledge Graph,TKG)是一個(gè)集成圖數(shù)據(jù)庫、圖計(jì)算引擎和圖可視化分析于一體的一站式平臺(tái)。TKG擁有豐富的應(yīng)用場(chǎng)景,涉及金融、物聯(lián)網(wǎng)、安全等方方面面。例如在泛安全領(lǐng)域,我們可以處理結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)識(shí)別數(shù)據(jù)中隱藏模式和關(guān)系[33~34],將從大數(shù)據(jù)中深度挖掘關(guān)聯(lián)關(guān)系,轉(zhuǎn)化為關(guān)系圖譜數(shù)據(jù),進(jìn)行司法風(fēng)險(xiǎn)與輿情風(fēng)險(xiǎn)發(fā)現(xiàn)[35],有力支撐公安機(jī)關(guān)展開情報(bào)研判分析、犯罪團(tuán)伙跟蹤以及重大事情預(yù)警等,從而更好地提升警民良性互動(dòng)與政府公信力[36]。
新浪微博相繼推出圖譜搜索體驗(yàn)服務(wù)。與此同時(shí),為解決微博搜索中存在的一些問題,使得結(jié)果中呈現(xiàn)更多知識(shí),不少研究人員也進(jìn)行了多樣化的探索。例如,一些學(xué)者研究微博社區(qū)知識(shí)圖譜構(gòu)建方法并針對(duì)其構(gòu)建效果、演化特征、應(yīng)用效果進(jìn)行了多元分析[37];通過構(gòu)建微博輿情主題知識(shí)圖譜進(jìn)行主題挖掘,不僅可以有效識(shí)別出主題,還可以準(zhǔn)確定位每個(gè)主題下的意見領(lǐng)袖[38~39];在文獻(xiàn)[40]中,作者也進(jìn)一步構(gòu)建微博主題識(shí)別與演變知識(shí)圖譜,進(jìn)而發(fā)現(xiàn)微博主題演變路徑,揭示了微博輿情傳播中的主題演變情況以及發(fā)生演變的動(dòng)態(tài)變化過程,可以更好地對(duì)微博輿情傳播進(jìn)行實(shí)時(shí)監(jiān)管;通過構(gòu)建面向社交網(wǎng)絡(luò)用戶意見的知識(shí)圖譜,用于理解不同的用戶意見,并以知識(shí)圖譜的形式識(shí)別復(fù)雜的關(guān)系,使得社會(huì)科學(xué)研究人員可以更輕松地獲取各種視角的意見,并對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析[41]。
輿情主題圖譜的概念來源于知識(shí)圖譜,針對(duì)社交網(wǎng)絡(luò)輿情信息的大數(shù)據(jù)化、動(dòng)態(tài)化、多維度等特征,從社交網(wǎng)絡(luò)輿情大數(shù)據(jù)獲取的新方法和新工具研究出發(fā),對(duì)社會(huì)安全、突發(fā)事件預(yù)警等某一特定領(lǐng)域、特定需求進(jìn)行實(shí)踐,就是本文探索構(gòu)建大數(shù)據(jù)驅(qū)動(dòng)的社交網(wǎng)絡(luò)輿情主題圖譜的出發(fā)點(diǎn)所在。
輿情主題圖譜是輿情信息工作的有效方法體系,探索構(gòu)建大數(shù)據(jù)驅(qū)動(dòng)的社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建理論方法和技術(shù),以此為基礎(chǔ)研究基于社交網(wǎng)絡(luò)輿情主題圖譜的輿情分析和推理方法,進(jìn)而從輿情點(diǎn)、輿情鏈路、輿情主題、全局層面等多個(gè)維度討論社交網(wǎng)絡(luò)輿情主題圖譜的調(diào)控策略,實(shí)現(xiàn)社交網(wǎng)絡(luò)輿情的動(dòng)態(tài)收集與監(jiān)控工作,編制行業(yè)輿情調(diào)研報(bào)告,為各級(jí)政府部門提供決策參考。
社會(huì)網(wǎng)絡(luò)中輿情傳播來源多、傳播速度快、傳播范圍廣,使得網(wǎng)絡(luò)中輿論的監(jiān)控和管理更加困難。大量積累的、復(fù)雜的數(shù)據(jù)也給查詢、處理等帶來了挑戰(zhàn),并且隨著時(shí)間的推移、數(shù)據(jù)的更新,圖中蘊(yùn)含的節(jié)點(diǎn)和邊的數(shù)量可能越來越龐大。任何一種復(fù)雜網(wǎng)絡(luò)圖系統(tǒng)都具有一定的特殊性,這給研究增加了難度。大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)中的節(jié)點(diǎn)數(shù)量已經(jīng)可以達(dá)到百萬甚至數(shù)億的級(jí)別,并且呈現(xiàn)多樣化、異質(zhì)化和動(dòng)態(tài)性等特征[42]。這些特征豐富了表示學(xué)習(xí)的內(nèi)容。
知識(shí)表示學(xué)習(xí)的代表模型主要包括距離模型、雙線性模型、神經(jīng)張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型、翻譯模型等[43~47]。知識(shí)表示的方法主要是將實(shí)體與關(guān)系嵌入到低維向量空間中,如TransE模型。研究人員在TransE模型的基礎(chǔ)上進(jìn)行拓展或改進(jìn),從不同角度嘗試解決復(fù)雜關(guān)系建模問題[48~50],采用多種數(shù)學(xué)方法來表示實(shí)體及實(shí)體之間的關(guān)系,如使用高斯分布的均值表示實(shí)體或關(guān)系在語義空間中的中心位置,使用協(xié)方差表示實(shí)體或關(guān)系的不確定度[51]。
網(wǎng)絡(luò)輿情中存在的信息和知識(shí)量隨時(shí)間的變化呈指數(shù)式增長(zhǎng),因此輿情主題知識(shí)圖譜的內(nèi)容也需要不斷更新,與時(shí)俱進(jìn),其構(gòu)建過程是一個(gè)不斷迭代更新的過程。
從邏輯上看,知識(shí)庫的更新主要包括模式層的更新與數(shù)據(jù)層的更新。模式層的更新包括但不限于增加、刪除或修改本體中元素的概念,同時(shí)還需更新元素的概念屬性以及概念之間上下級(jí)關(guān)系等。其中,概念屬性的更新操作將直接影響到所有與實(shí)體有直接或間接聯(lián)系子概念和實(shí)體[52]。模式層的增量更新方式多數(shù)情況下是在人工干預(yù)的情況下完成的。數(shù)據(jù)層的更新指的是實(shí)體元素的更新,比如修改實(shí)體的基本信息和屬性值。由于數(shù)據(jù)層的更新一般影響面較小,因此通常以自動(dòng)的方式完成。
知識(shí)推理是知識(shí)圖譜構(gòu)建與發(fā)展的重要手段和關(guān)鍵環(huán)節(jié)。知識(shí)推理是指從知識(shí)庫中已有的多對(duì)實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計(jì)算機(jī)復(fù)雜推理,從舊知識(shí)中發(fā)現(xiàn)新的知識(shí),發(fā)現(xiàn)并建立已有實(shí)體間的新聯(lián)系,形成新的三元組,從而拓展和豐富知識(shí)網(wǎng)絡(luò)。通過知識(shí)推理,不斷擴(kuò)大知識(shí)庫的覆蓋范圍。
知識(shí)庫推理可以分為基于符號(hào)邏輯的推理和基于圖的推理?;诜?hào)的推理一般是基于經(jīng)典邏輯或者經(jīng)典邏輯的變體?;诜?hào)的推理可以利用一定的規(guī)則從一個(gè)已有的知識(shí)圖譜中推理出新的實(shí)體間關(guān)系,還可以對(duì)知識(shí)圖譜進(jìn)行邏輯的沖突檢測(cè)?;趫D的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或Path Ranking算法。例如,可以根據(jù)兩個(gè)實(shí)體間的連通路徑來判斷兩個(gè)實(shí)體是否屬于某個(gè)關(guān)系。
質(zhì)量評(píng)估也是知識(shí)庫構(gòu)建技術(shù)的重要組成部分。公開數(shù)據(jù)雜亂無規(guī)則,而且受當(dāng)前階段中文處理技術(shù)水平限制,有時(shí)從互聯(lián)網(wǎng)公開數(shù)據(jù)中抽取到的知識(shí)元素有可能存在一些問題,如數(shù)據(jù)錯(cuò)誤,獲取到的知識(shí)元素準(zhǔn)確率并不高,經(jīng)過知識(shí)推理得到的知識(shí)同樣也是沒有質(zhì)量保證的。因此在將其加入知識(shí)庫之前,需要有一個(gè)質(zhì)量評(píng)估的過程。通過質(zhì)量評(píng)估,設(shè)定一定的規(guī)則量化圖譜中存在的知識(shí)可信度,舍棄置信度較低的知識(shí),來保障知識(shí)庫的質(zhì)量以提高知識(shí)圖譜的推理能力[53]。隨著社交網(wǎng)絡(luò)復(fù)雜性的提高和實(shí)體數(shù)的增多,數(shù)據(jù)間的沖突日益增多,對(duì)圖譜質(zhì)量進(jìn)行評(píng)估,對(duì)于全局知識(shí)圖譜的構(gòu)建起著重要的作用。
圖譜構(gòu)建是大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)網(wǎng)絡(luò)輿情主題圖譜構(gòu)建和分析的起點(diǎn),通過對(duì)社會(huì)網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義揭示和語義關(guān)聯(lián),對(duì)社會(huì)網(wǎng)絡(luò)輿情大數(shù)據(jù)進(jìn)行知識(shí)組織,形成語義關(guān)聯(lián)的覆蓋網(wǎng)絡(luò),為圖譜挖掘提供高質(zhì)量的數(shù)據(jù)資源,為圖譜分析提供研究框架。以大規(guī)模采集的社交網(wǎng)絡(luò)輿情數(shù)據(jù)為基礎(chǔ),對(duì)輿情數(shù)據(jù)進(jìn)行語義抽取和標(biāo)注,構(gòu)建一個(gè)覆蓋大規(guī)模輿情事件和實(shí)體的語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)輿情主題圖譜數(shù)據(jù)的采集和主題圖譜的構(gòu)建,為社交網(wǎng)絡(luò)輿情主題圖譜的挖掘提供依據(jù)和支撐。
借助行為追蹤法、增量獲得法、不同平臺(tái)匹配法等方法進(jìn)行數(shù)據(jù)的采集,為社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建提供更為豐富、有效、及時(shí)的數(shù)據(jù)支撐。數(shù)據(jù)預(yù)處理后,應(yīng)用自然語言處理、文本挖掘、命名實(shí)體識(shí)別等方法和技術(shù),對(duì)基于頻繁詞組挖掘的命名實(shí)體的識(shí)別技術(shù)和概念描述方法進(jìn)行研究,以達(dá)到有效識(shí)別社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的實(shí)體名稱技術(shù)性、實(shí)體關(guān)系、實(shí)體類別等語義內(nèi)容。
其中,命名實(shí)體識(shí)別和分類是社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建過程中的關(guān)鍵性技術(shù)。英文的命名實(shí)體識(shí)別相對(duì)容易,實(shí)體邊界也比較容易確定,在英文文本中專有名詞的第一個(gè)字符一般為大寫。中文的專有名詞識(shí)別就存在很大的困難,中文中的專有名詞沒有特殊標(biāo)識(shí)。利用深度學(xué)習(xí)方法,盡可能地提取專有名詞的特點(diǎn),同時(shí)利用上下文的知識(shí),充分利用這些技術(shù)和資源解決中文實(shí)體邊界識(shí)別問題。
借助形式化描述、實(shí)體關(guān)聯(lián)、屬性映射、類映射和機(jī)器學(xué)習(xí)等方法和技術(shù),構(gòu)建社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義數(shù)據(jù),對(duì)社交網(wǎng)絡(luò)輿情事件中的實(shí)體、屬性等對(duì)象之間的順序關(guān)系、因果關(guān)系、時(shí)間關(guān)系、相似關(guān)系、參考關(guān)系等多類型邏輯關(guān)系進(jìn)行標(biāo)注。標(biāo)注完成后,基于相似度計(jì)算、規(guī)則推理等方法和技術(shù),根據(jù)語義標(biāo)注的結(jié)果,對(duì)社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)行研究,從而生成一個(gè)社交網(wǎng)絡(luò)輿情大數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)。
圖譜分析是大數(shù)據(jù)驅(qū)動(dòng)的社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建和調(diào)控策略的基礎(chǔ)環(huán)節(jié),主要通過對(duì)社交網(wǎng)絡(luò)輿情主題圖譜的分析和推理方法的研究,從關(guān)鍵節(jié)點(diǎn)、關(guān)鍵路徑、網(wǎng)絡(luò)結(jié)構(gòu)影響力分析和趨勢(shì)預(yù)測(cè)等多個(gè)維度對(duì)社交網(wǎng)絡(luò)輿情主題圖譜進(jìn)行全面深入的挖掘,達(dá)到將數(shù)據(jù)轉(zhuǎn)化為知識(shí)的目的。依據(jù)語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò),在對(duì)社交網(wǎng)絡(luò)輿情主題圖譜關(guān)鍵節(jié)點(diǎn)、關(guān)鍵路徑、網(wǎng)絡(luò)結(jié)構(gòu)影響力分析和趨勢(shì)預(yù)測(cè)等多個(gè)維度進(jìn)行挖掘的基礎(chǔ)上,探索大規(guī)模輿情事件和實(shí)體的綜合分析和推理方法,達(dá)到面向大規(guī)模輿情事件和實(shí)體的、針對(duì)用戶需求的社交網(wǎng)絡(luò)輿情主題圖譜知識(shí)發(fā)現(xiàn)的目的。
政企對(duì)網(wǎng)絡(luò)輿情的及時(shí)發(fā)現(xiàn)與快速收集所需輿情信息并做出“適時(shí)、適實(shí)、適勢(shì)”的響應(yīng),離不開對(duì)輿情事件傳播過程中的關(guān)鍵節(jié)點(diǎn)的分析。準(zhǔn)確找到事件的核心并針對(duì)事件進(jìn)行有效引導(dǎo),以確保輿情傳播朝著健康的社會(huì)輿論方向發(fā)展是關(guān)鍵所在。
對(duì)于最常用的搜索引擎Google和Baidu來說,當(dāng)用戶在搜索引擎中查找某個(gè)具體人物或事件信息時(shí),由于網(wǎng)絡(luò)上的信息龐雜,還存在著大量的虛假和垃圾信息,使得有價(jià)值的信息被湮沒,有時(shí)查詢到的結(jié)果并不理想。為了得到想要的信息,只能采取人工方式,逐個(gè)瀏覽搜索到的網(wǎng)頁,費(fèi)時(shí)又費(fèi)力。
將知識(shí)圖譜引入人物畫像分析,能夠自動(dòng)地從大量的無規(guī)則互聯(lián)網(wǎng)數(shù)據(jù)中抽取和整理出人物的全局信息,將零散的、碎片化的數(shù)據(jù)匯集起來形成人物畫像,并以結(jié)構(gòu)化的形式存儲(chǔ)和顯示,極大地提高了研究人員分析人物全貌信息的效率,為精準(zhǔn)營(yíng)銷、制定數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品提供了便利。Fader等以新聞文本為數(shù)據(jù)集,介紹了一種人物畫像挖掘技術(shù),從人物社會(huì)關(guān)系、參與事件、人物熱度及情感分析三個(gè)維度進(jìn)行研究,其研究成果可應(yīng)用于熱門人物探測(cè)、人物搜索和特定目標(biāo)追蹤等領(lǐng)域[54]。
針對(duì)關(guān)鍵節(jié)點(diǎn)進(jìn)行基于知識(shí)圖譜的人物畫像挖掘,便于對(duì)高輿情風(fēng)險(xiǎn)人群進(jìn)行動(dòng)態(tài)跟蹤。例如,從情感分析角度來看,通過聚類和分類得出個(gè)體情感傾向和群體情感傾向,便于政企掌握情感異動(dòng),以便及時(shí)采取相關(guān)措施,疏導(dǎo)負(fù)面輿情。
關(guān)鍵路徑分析主要指的是網(wǎng)絡(luò)路徑分析與網(wǎng)絡(luò)社區(qū)分析。社會(huì)網(wǎng)絡(luò)分析的核心是社會(huì)網(wǎng)絡(luò)中的節(jié)點(diǎn),這些節(jié)點(diǎn)可以代表社會(huì)中的任何單位,例如個(gè)人、組織、群體等。節(jié)點(diǎn)之間的連接被稱為節(jié)點(diǎn)之間的關(guān)系,節(jié)點(diǎn)以及它們的關(guān)系就構(gòu)成了社會(huì)網(wǎng)絡(luò)。在社交網(wǎng)絡(luò)社區(qū)中,個(gè)人觀點(diǎn)會(huì)受到多個(gè)鄰居同時(shí)影響,但系統(tǒng)中所有節(jié)點(diǎn)的意見最終會(huì)趨向一致[55]。目前的研究中,既有探索如何讓算法更高效地對(duì)數(shù)據(jù)進(jìn)行處理,提高算法的執(zhí)行效率,也有考慮社交網(wǎng)絡(luò)節(jié)點(diǎn)和網(wǎng)絡(luò)連接中的社會(huì)屬性[56~58]。
常見的關(guān)鍵路徑分析場(chǎng)景有輿情事件傳播路徑分析、敏感信息溯源分析等。
社交網(wǎng)絡(luò)影響力可以通過用戶之間的社交活動(dòng)體現(xiàn)出來,表現(xiàn)為用戶的行為和思想等受他人影響發(fā)生改變以及用戶行為和思想對(duì)他人的影響情況。在社交網(wǎng)絡(luò)分析中,引入社會(huì)屬性權(quán)重來表示節(jié)點(diǎn)的社會(huì)屬性差異,給節(jié)點(diǎn)和邊賦予相應(yīng)的屬性權(quán)重,來表示信息在社交網(wǎng)絡(luò)中傳播的特點(diǎn)和規(guī)律,可以提高關(guān)鍵節(jié)點(diǎn)挖掘算法執(zhí)行效率[59]。
網(wǎng)站影響力的評(píng)價(jià)方法可以分為定性和定量?jī)煞N。定性的評(píng)價(jià)方法主要有問卷調(diào)查法和效益評(píng)價(jià)。定量的評(píng)價(jià)方法主要有鏈接分析和流量分析兩種。一個(gè)站點(diǎn)被鏈接的次數(shù)越多,證明該站點(diǎn)影響越大。網(wǎng)站的訪問量越大,則網(wǎng)站影響力越大,該網(wǎng)站所蘊(yùn)含的信息價(jià)值越高。
借助輿情主題圖譜是進(jìn)行輿情預(yù)測(cè)的一種有效表現(xiàn)方式。對(duì)于網(wǎng)絡(luò)輿情信息進(jìn)行有效獲取,正確分析和統(tǒng)計(jì)、預(yù)測(cè),對(duì)于政府應(yīng)對(duì)輿論危機(jī)將十分有利。網(wǎng)絡(luò)輿情的發(fā)展一般存在蟄伏期、爆發(fā)期、持續(xù)期、消亡期四個(gè)階段。對(duì)于網(wǎng)絡(luò)輿情的有效預(yù)測(cè),協(xié)助政企準(zhǔn)確判定輿情走向,進(jìn)而制定相應(yīng)的應(yīng)對(duì)管理辦法。以企業(yè)輿情管理為例,傳統(tǒng)的輿情管理方式已不再適用,企業(yè)輿情也需要現(xiàn)代化的技術(shù)形式進(jìn)行管理。在新型的企業(yè)輿情管理中,企業(yè)輿情部門的決策必須緊緊結(jié)合社會(huì)網(wǎng)絡(luò)的結(jié)構(gòu)、內(nèi)容和用戶三個(gè)核心點(diǎn),完善企業(yè)輿情管理制度,及時(shí)應(yīng)對(duì)突發(fā)事件。
有效的網(wǎng)絡(luò)輿情預(yù)測(cè)有利于輿情危機(jī)蟄伏期的預(yù)防預(yù)警、有利于輿情危機(jī)爆發(fā)期的應(yīng)急反應(yīng)和干預(yù)、有利于輿情危機(jī)持續(xù)期的信息分析與研判、有利于輿情危機(jī)消亡期的信息再跟蹤與反饋。
現(xiàn)有的網(wǎng)絡(luò)輿情預(yù)測(cè)分析,主要是在時(shí)間序列模型分析的基礎(chǔ)上,采用數(shù)學(xué)方法建立預(yù)測(cè)模型,是一種定量分析的方法。網(wǎng)絡(luò)輿情預(yù)測(cè)相關(guān)數(shù)學(xué)模型主要有基于統(tǒng)計(jì)學(xué)的預(yù)測(cè)模型和基于機(jī)器學(xué)習(xí)的預(yù)測(cè)模型兩種。圖5是網(wǎng)絡(luò)輿情預(yù)測(cè)分析遵循的主要路線。
圖5 網(wǎng)絡(luò)輿情預(yù)測(cè)分析路線圖
輿情調(diào)控是輿情主題圖譜構(gòu)建和調(diào)控策略的橋梁?;谏缃痪W(wǎng)絡(luò)輿情主題圖譜,動(dòng)態(tài)提取社交網(wǎng)絡(luò)輿情特征,并構(gòu)建社交網(wǎng)絡(luò)輿情預(yù)警模型,然后針對(duì)不同的輿情主體、傳播路徑和輿情主題,提出自適應(yīng)的輿情點(diǎn)調(diào)控、輿情鏈路調(diào)控和輿情主題調(diào)控策略,并在三者的基礎(chǔ)上,提出輿情全局精準(zhǔn)調(diào)控策略。利用爬蟲、信息檢索以及專家知識(shí)庫等技術(shù),構(gòu)建輿情特征—調(diào)控策略知識(shí)庫,然后以此為基礎(chǔ),針對(duì)社交網(wǎng)絡(luò)輿情的不同特征,提出社交網(wǎng)絡(luò)輿情自適應(yīng)的點(diǎn)調(diào)控策略、鏈路調(diào)控策略和主題調(diào)控策略,最后在三者的基礎(chǔ)上提出全局精準(zhǔn)調(diào)控策略,達(dá)到對(duì)社交網(wǎng)絡(luò)輿情主題圖譜從點(diǎn)、線、面,全局精準(zhǔn)調(diào)控的目的。
與輿情圖譜結(jié)合,在信息推送和場(chǎng)景應(yīng)用等方面建立相應(yīng)的功能模塊,為個(gè)人用戶、企業(yè)和政府提供強(qiáng)大的輿情分析服務(wù)。以大數(shù)據(jù)思維檢測(cè)和分析海量的社交網(wǎng)絡(luò)上的海量輿情數(shù)據(jù),通過構(gòu)建社交網(wǎng)絡(luò)輿情主題圖譜,為各級(jí)政府或相關(guān)機(jī)構(gòu)提供民生熱點(diǎn)、熱點(diǎn)事件、熱點(diǎn)話題等重點(diǎn)關(guān)注輿情的發(fā)現(xiàn)與分析服務(wù),以幫助政府或相關(guān)機(jī)構(gòu)了解特定輿情事件的傳播路徑、傳播態(tài)勢(shì)并把握其發(fā)展趨勢(shì)。依據(jù)不同場(chǎng)景,可分為經(jīng)濟(jì)網(wǎng)絡(luò)監(jiān)控、面向輿情的政府知識(shí)管理、突發(fā)事件預(yù)警。
經(jīng)濟(jì)網(wǎng)絡(luò)輿情監(jiān)測(cè)的基本類別包括用戶消費(fèi)類、投資類、創(chuàng)業(yè)類、生態(tài)環(huán)保類。用戶消費(fèi)類主要包括線上消費(fèi)數(shù)據(jù)分析和市場(chǎng)價(jià)格分析,從網(wǎng)民反映的消費(fèi)問題、生活消費(fèi)等數(shù)據(jù)監(jiān)測(cè)反映當(dāng)?shù)匚飪r(jià)走勢(shì),判斷當(dāng)前經(jīng)濟(jì)形勢(shì)和預(yù)測(cè)未來經(jīng)濟(jì)發(fā)展;投資類分析主要包括金融投資分析和房地產(chǎn)投資分析,從企業(yè)投資和投資金融服務(wù)等方面反映民眾對(duì)當(dāng)前投資環(huán)境的判斷和評(píng)價(jià),監(jiān)測(cè)民眾最關(guān)注的住房、投資輿情;創(chuàng)業(yè)類分析主要是分析民眾對(duì)創(chuàng)新創(chuàng)業(yè)的熱情程度,以此反映整個(gè)社會(huì)創(chuàng)新創(chuàng)業(yè)的情況;生態(tài)環(huán)保監(jiān)測(cè)社交網(wǎng)絡(luò)上的生態(tài)環(huán)保熱點(diǎn)話題,從網(wǎng)民反映的生態(tài)環(huán)保問題、對(duì)環(huán)保關(guān)注程度等方面監(jiān)測(cè)生態(tài)環(huán)保情況。
政府輿情知識(shí)管理可以分為三個(gè)部分:事件知識(shí)管理、決策類知識(shí)管理和響應(yīng)類知識(shí)管理。事件知識(shí)管理主要針對(duì)網(wǎng)絡(luò)輿情本體,探究事件發(fā)生的性質(zhì),勾畫人物和相關(guān)機(jī)構(gòu)關(guān)系脈絡(luò)。大致相當(dāng)于給政府闡述“何人何地何時(shí)間發(fā)生何事”。在靜態(tài)描述完畢后,對(duì)輿情進(jìn)行跟蹤,持續(xù)跟進(jìn)事件發(fā)展動(dòng)態(tài)和變化,讓政府可以獲取事件的演化機(jī)理和相關(guān)影響。決策類知識(shí)管理主要通過信息的收集、加工和分類,幫助政府做出決策和判斷。響應(yīng)類知識(shí)管理則包括政府針對(duì)事態(tài)變化需要進(jìn)行調(diào)度的機(jī)構(gòu),做出行動(dòng)的部門和獲取的資源。構(gòu)建面向輿情的政府知識(shí)管理的目的在于引導(dǎo)和控制輿情變化,降低不良信息對(duì)社會(huì)造成的損害,防止別有用心之人對(duì)社會(huì)的正常秩序產(chǎn)生干擾。
社會(huì)突發(fā)事件可能會(huì)造成嚴(yán)重社會(huì)危害,需要實(shí)時(shí)對(duì)重點(diǎn)輿情話題進(jìn)行檢測(cè),及時(shí)采取應(yīng)急處置措施予以應(yīng)對(duì)。輿情主題圖譜中的數(shù)據(jù)來源非常廣闊,因此能從中發(fā)掘出各種不同的事件和關(guān)系。針對(duì)突發(fā)事件的危害性,有必要專門將這一部分提取出來進(jìn)行相應(yīng)的分析和策劃。根據(jù)輿情主題敏感度、發(fā)展趨勢(shì)和危害程度等級(jí),提前向有關(guān)部門發(fā)出實(shí)時(shí)預(yù)警。
本文首先對(duì)大數(shù)據(jù)時(shí)代的社交網(wǎng)絡(luò)輿情主題圖譜的研究現(xiàn)狀進(jìn)行了較為全面的總結(jié),并在研究基礎(chǔ)上對(duì)社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建、分析與調(diào)控等開展了詳細(xì)的介紹。從關(guān)鍵節(jié)點(diǎn)、關(guān)鍵路徑、趨勢(shì)模型等不同維度進(jìn)行社交網(wǎng)絡(luò)輿情主題圖譜的多元分析。挖掘更深層次的知識(shí)關(guān)聯(lián)與更廣范圍的知識(shí)范疇。對(duì)社交網(wǎng)絡(luò)輿情態(tài)勢(shì)感知與“適時(shí)、適實(shí)、適勢(shì)”的響應(yīng)與引導(dǎo)具有一定的理論意義和實(shí)用價(jià)值。
電子科技大學(xué)學(xué)報(bào)(社科版)2022年2期