• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間構(gòu)建*

      2022-09-24 13:32:56張曉君
      情報(bào)雜志 2022年9期
      關(guān)鍵詞:沙盒數(shù)據(jù)源引擎

      趙 旭 黃 微 張曉君

      (1.吉林大學(xué)商學(xué)與管理學(xué)院 長(zhǎng)春 132000;2.吉林師范大學(xué)圖書館 四平 136000)

      0 引 言

      第48次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告顯示,截至2021年6月,我國(guó)網(wǎng)民規(guī)模為10.11 億[1]。在互聯(lián)網(wǎng)社會(huì)化升級(jí)和營(yíng)造清朗網(wǎng)絡(luò)空間的社會(huì)背景下,網(wǎng)絡(luò)輿情分眾化和時(shí)效性特征,使引導(dǎo)管控網(wǎng)絡(luò)輿情受眾的參與行為成為了現(xiàn)代化社會(huì)治理迫切需求[2]。

      自20世紀(jì)末,國(guó)內(nèi)外學(xué)者就開始展開網(wǎng)絡(luò)輿情受眾參與行為的研究。“受眾”一詞本義是指信息傳播的接收者,這一定義強(qiáng)調(diào)了受眾“接收者”的被動(dòng)身份[3]。實(shí)際上,隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)民數(shù)量持續(xù)穩(wěn)定增長(zhǎng),網(wǎng)絡(luò)輿情受眾已經(jīng)不僅是被動(dòng)的輿情信息接收者,而是網(wǎng)絡(luò)輿情產(chǎn)生、傳播過程中的重要參與主體,是最直接的驅(qū)動(dòng)力量。鑒于此,網(wǎng)絡(luò)輿情受眾被定義為“對(duì)社會(huì)敏感話題有持續(xù)關(guān)注度,并在網(wǎng)絡(luò)空間以搜索、轉(zhuǎn)載、回帖、評(píng)論、利用社交媒體發(fā)布原生新聞等形式,積極參與網(wǎng)絡(luò)輿情信息生產(chǎn)傳播的公民評(píng)論員[4]。而網(wǎng)絡(luò)輿情受眾參與行為更多的是指輿情受眾的信息行為,所有與網(wǎng)絡(luò)輿情信息源選擇、信息使用、信息搜尋、信息交流等相關(guān)的人類行為[5]。

      引導(dǎo)管控網(wǎng)絡(luò)輿情受眾的參與行為對(duì)于營(yíng)造風(fēng)清氣朗互聯(lián)網(wǎng)空間至關(guān)重要,而對(duì)網(wǎng)絡(luò)輿情受眾的參與行為靶向引導(dǎo)、有效管控的前提,則建立在網(wǎng)絡(luò)輿情受眾參與行為精準(zhǔn)標(biāo)定基礎(chǔ)之上[6]。在網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定研究中,首先建立受眾參與行為標(biāo)準(zhǔn),將網(wǎng)絡(luò)輿情受眾參與行為劃分為操作活動(dòng)、交互活動(dòng)和內(nèi)驅(qū)活動(dòng)[7];進(jìn)而,基于輿情數(shù)據(jù)對(duì)單個(gè)輿情受眾參與行為進(jìn)行定性到定量、抽象到具體的描述,定量數(shù)據(jù)源自于對(duì)網(wǎng)絡(luò)輿情受眾個(gè)體的識(shí)別、行為的識(shí)別、情感的識(shí)別及體征的識(shí)別[8];最后對(duì)標(biāo)定結(jié)果進(jìn)行精度檢驗(yàn)與校準(zhǔn),擬合參與行為軌跡,預(yù)測(cè)靶向引導(dǎo)的行為趨勢(shì)[9]。

      圖1 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型

      然而,輿情事件信息散布在多個(gè)移動(dòng)輿情平臺(tái)。并且,數(shù)據(jù)形式復(fù)雜、數(shù)據(jù)體量較大、數(shù)據(jù)更新速度較快、信息價(jià)值密度較低??墒?PZ,DY〗數(shù)據(jù)整合匯聚在一個(gè)輿情受眾參與行為標(biāo)定大數(shù)據(jù)中心成本高、技術(shù)復(fù)雜,也會(huì)因?yàn)楦饕苿?dòng)輿情平臺(tái)的數(shù)據(jù)保護(hù)壁壘而更不具有可行性[10]。同時(shí),輿情受眾參與行為標(biāo)定最基礎(chǔ)的標(biāo)定粒度是單個(gè)受眾,所有的輿情數(shù)據(jù)的數(shù)據(jù)對(duì)象必須明晰,進(jìn)而確定輿情數(shù)據(jù)的占有、使用、收益、處分權(quán)利人,才能夠建立任何一條輿情數(shù)據(jù)和受眾、受眾行為的關(guān)聯(lián),并基于輿情管理的多價(jià)值協(xié)同目標(biāo)破除不同輿情平臺(tái)的數(shù)據(jù)壁壘[11]。但是,即便解決了標(biāo)定所需數(shù)據(jù)基礎(chǔ)問題和數(shù)據(jù)對(duì)象問題,在展開受眾行為標(biāo)定及面向操作層面的靶向引導(dǎo)過程中,我們亦會(huì)發(fā)現(xiàn),如何基于數(shù)據(jù)面向標(biāo)定和引導(dǎo)需求提供精準(zhǔn)、全面、智慧的數(shù)據(jù)服務(wù)和知識(shí)服務(wù),是網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定的另一個(gè)關(guān)鍵問題[12]。

      因而,在上述問題導(dǎo)向下,本文在梳理國(guó)內(nèi)外相關(guān)學(xué)者的研究基礎(chǔ)上,引入了數(shù)據(jù)空間的概念:數(shù)據(jù)空間是面向特定組織或個(gè)人的所有分布數(shù)據(jù)源及其豐富關(guān)聯(lián)關(guān)系的集合,并包括數(shù)據(jù)對(duì)象、數(shù)據(jù)集、數(shù)據(jù)服務(wù)3個(gè)維度[13]。網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間則可以被界定為:面向特定輿情主體的所有移動(dòng)輿情平臺(tái)分布數(shù)據(jù)源及其豐富的輿情受眾行為和數(shù)據(jù)關(guān)聯(lián)關(guān)系的集合。

      1 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型

      1.1 輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型框架

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型由管理引擎、數(shù)據(jù)中樞系統(tǒng)和數(shù)據(jù)空間模型三大部分組成,如圖1所示。參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎主要功能是感知參與行為標(biāo)定對(duì)數(shù)據(jù)的需求,采集并調(diào)用數(shù)據(jù),清洗并處理數(shù)據(jù),沙盒數(shù)據(jù)輸出?;诘讓咏涌趲斓臄?shù)據(jù)中樞系統(tǒng)主要功能則是對(duì)管理引擎進(jìn)行管理、保障標(biāo)定需求精準(zhǔn)契合、中樞數(shù)據(jù)的實(shí)時(shí)更新。對(duì)數(shù)據(jù)對(duì)象進(jìn)行管理,實(shí)現(xiàn)數(shù)據(jù)主體、輿情受眾、數(shù)據(jù)權(quán)限、參與行為和數(shù)據(jù)關(guān)系的全生命周期管理。對(duì)數(shù)據(jù)集進(jìn)行管理,保證數(shù)據(jù)具有較高的價(jià)值密度、適宜的體量、較細(xì)的粒度。提供數(shù)據(jù)服務(wù)和知識(shí)服務(wù),保障輿情受眾行為標(biāo)定的數(shù)據(jù)基礎(chǔ)和知識(shí)支撐。網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型則包括數(shù)據(jù)協(xié)同管理引擎模型、智能彈性數(shù)據(jù)沙盒模型、行為標(biāo)定數(shù)據(jù)中樞模型、行為標(biāo)定服務(wù)接口模型,融合爬蟲技術(shù)、彈性分發(fā)技術(shù)、數(shù)據(jù)技術(shù)、語義本體技術(shù),采用數(shù)據(jù)映射方法、生命周期管理方法、社會(huì)網(wǎng)絡(luò)分析方法,實(shí)現(xiàn)上述模型的功能。

      1.2 參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型如圖2所示,包括數(shù)據(jù)采集引擎、數(shù)據(jù)中樞引擎和數(shù)據(jù)輸出引擎3個(gè)子引擎,數(shù)據(jù)采集引擎基于行為標(biāo)定的數(shù)據(jù)需求,感知并觸發(fā)采集行為指令,對(duì)多數(shù)據(jù)源數(shù)據(jù)進(jìn)行并發(fā)采集。數(shù)據(jù)中樞引擎實(shí)際上是沙盒數(shù)據(jù)中樞引擎,執(zhí)行數(shù)據(jù)清洗和處理,并暫存在沙盒數(shù)據(jù)集中。數(shù)據(jù)采集引擎在采集或調(diào)用數(shù)據(jù)前,需要根據(jù)數(shù)據(jù)中樞引擎的數(shù)據(jù)一致性檢驗(yàn)結(jié)果,來判斷是否執(zhí)行采集或調(diào)用執(zhí)行。數(shù)據(jù)輸出引擎則是對(duì)數(shù)據(jù)沙盒的數(shù)據(jù)進(jìn)行輸出,以執(zhí)行參與行為標(biāo)定過程中的數(shù)據(jù)預(yù)檢驗(yàn)。輿情數(shù)據(jù)沙盒可以理解為正式存儲(chǔ)到數(shù)據(jù)中樞系統(tǒng)的暫存數(shù)據(jù),以便在管理引擎的處理下,最終形成需求驅(qū)動(dòng)、多源數(shù)據(jù)協(xié)同、價(jià)值密度較高、數(shù)據(jù)體量相對(duì)較小的子數(shù)據(jù)集,進(jìn)而通過數(shù)據(jù)中樞系統(tǒng)引擎管理模塊的檢驗(yàn),正式存儲(chǔ)到數(shù)據(jù)中樞系統(tǒng)。

      圖2 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型

      1.3 基于底層接口庫的參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)模型

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)如圖3所示,主要包括引擎管理模塊、數(shù)據(jù)對(duì)象管理模塊、數(shù)據(jù)集管理模塊、數(shù)據(jù)服務(wù)模塊,同時(shí)基于數(shù)據(jù)協(xié)同管理引擎接口、智能彈性數(shù)據(jù)沙盒接口、數(shù)據(jù)服務(wù)接口、行為標(biāo)定數(shù)據(jù)中樞接口等接口庫同輿情參與行為數(shù)據(jù)標(biāo)定操作進(jìn)行數(shù)據(jù)交互,并采用數(shù)據(jù)映射方法、智慧服務(wù)方法、生命周期管理方法、社會(huì)網(wǎng)絡(luò)分析方法、分級(jí)管理技術(shù)、語義本體技術(shù)、云存儲(chǔ)技術(shù)、大數(shù)據(jù)技術(shù)支撐中樞系統(tǒng)運(yùn)行。

      圖3 基于底層接口庫的網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)模型

      2 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間算法

      2.1 數(shù)據(jù)協(xié)同管理引擎算法

      圖5 數(shù)據(jù)協(xié)同管理引擎工作流程

      定義J操作計(jì)算Zh,算法如公式(1)所示:

      (1)

      定義N操作計(jì)算Oh,算法如公式(2)所示:

      (2)

      接著開始HITS計(jì)算,初始化(D,k),D為j個(gè)種子數(shù)據(jù)源集合,k為任意自然數(shù)。設(shè)a=(1,1…1)∈Sj,設(shè)O0、Z0初始值為a,執(zhí)行以下循環(huán)操作,返回Zk、Ok值:

      Fori=1,2,…k

      對(duì)Zi-1,Oi-1執(zhí)行J操作,求得Zi

      對(duì)0i-1,Oi-1執(zhí)行N操作,求得Oi

      END

      接著判斷數(shù)據(jù)權(quán)限,如果沒有權(quán)限則重新選擇數(shù)據(jù)源,對(duì)于有權(quán)限的數(shù)據(jù)源則建立連接,如果連接建立不成功,則入庫到待采集地址,循環(huán)n次后仍然不成功則放棄采集。連接建立成功后,獲取數(shù)據(jù)內(nèi)容。具有完全數(shù)據(jù)權(quán)限的,則下載數(shù)據(jù)后,存儲(chǔ)到數(shù)據(jù)沙盒,部分權(quán)限的則不下載數(shù)據(jù),解析數(shù)據(jù)后,建立地址映射。中樞引擎負(fù)責(zé)數(shù)據(jù)的清洗、處理和數(shù)據(jù)輸出,其核心的功能是對(duì)沙盒數(shù)據(jù)及待采集映射數(shù)據(jù)的相關(guān)性比對(duì),本文采取基于塊的相關(guān)性算法實(shí)現(xiàn)。

      將數(shù)據(jù)源內(nèi)容劃分為多個(gè)獨(dú)立的塊,假設(shè)為標(biāo)定內(nèi)容塊Cd、噪音塊Cb、鏈接塊Co。標(biāo)定內(nèi)容塊與標(biāo)定所需檢索詞相同或相似,或者同沙盒存儲(chǔ)內(nèi)容相同或相似,鏈接塊指向與標(biāo)定內(nèi)容相關(guān)的鏈接,噪音塊鏈接同待采集數(shù)據(jù)源沒有關(guān)系。設(shè)定標(biāo)定主題u,正在采集的數(shù)據(jù)源用Vi表示,已經(jīng)獲取的內(nèi)容為Qi,Vi的鏈出數(shù)據(jù)地址用Vu表示,Vu為待采集數(shù)據(jù)源Qu,Qu的標(biāo)定相關(guān)度用Sc表示。則Sc可以由公式(3)計(jì)算:

      (3)

      其中α為優(yōu)先度,當(dāng)Vu為噪音塊鏈接,則同標(biāo)定主題不相關(guān)。當(dāng)Vu為標(biāo)定內(nèi)容塊時(shí),則與標(biāo)定主題相關(guān)。本文采用以下方法改進(jìn)詞頻逆文本頻率指數(shù)(TF-IDF)算法[15],當(dāng)Vu為導(dǎo)航鏈接塊,數(shù)據(jù)源地址同標(biāo)定主題索引有關(guān),剔除噪音塊及Qu∩Qi數(shù)據(jù)源,確定采集優(yōu)先順序,引入數(shù)據(jù)源數(shù)據(jù)協(xié)同權(quán)重改進(jìn)TF-IDF算法來計(jì)算相似度,如公式(4)所示:

      (4)

      (5)

      其中ti,l是標(biāo)定主題詞L在數(shù)據(jù)源的密度,O是數(shù)據(jù)源的數(shù)據(jù)總量,Ol是含有標(biāo)定主題詞L的數(shù)據(jù)頁面總數(shù),WSiSN為數(shù)據(jù)源的數(shù)據(jù)協(xié)同權(quán)重,如公式(6)所示:

      (6)

      公式(6)中,PRSi為目標(biāo)數(shù)據(jù)源Alexa指數(shù)(alexa.cn)的3個(gè)月日均UV值,PLl為待采集數(shù)據(jù)地址的鏈出數(shù)量,PLk為待采集地址的鏈入和鏈出數(shù)量和。

      沙盒數(shù)據(jù)和緩存數(shù)據(jù)在采集管理引擎中樞處理后,再通過數(shù)據(jù)中樞的協(xié)同管理引擎處理,確定最終是否存儲(chǔ)到數(shù)據(jù)中樞。

      2.2 智能彈性數(shù)據(jù)沙盒算法

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間管理引擎的智能彈性數(shù)據(jù)沙盒工作流程如圖5所示。

      圖5 智能彈性數(shù)據(jù)沙盒工作流程

      數(shù)據(jù)沙盒作為一個(gè)相對(duì)臨時(shí)的數(shù)據(jù)集,在數(shù)據(jù)管理引擎中具有重要的作用,一方面支持標(biāo)定數(shù)據(jù)獲取或者標(biāo)定過程中的實(shí)時(shí)結(jié)果的輸出;另一方面,基于敏捷開發(fā)的思維,避免數(shù)據(jù)直接存儲(chǔ)到中樞系統(tǒng)數(shù)據(jù)集后,行為標(biāo)定數(shù)據(jù)和標(biāo)定需求不匹配而帶來的時(shí)間和成本大幅上升問題。再者,對(duì)于采集的數(shù)據(jù)或者映射到的數(shù)據(jù)源,其真實(shí)性、可靠性、數(shù)據(jù)質(zhì)量往往并不能在沒有經(jīng)過數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)集并不完善、采集映射進(jìn)程還在進(jìn)行的前提下,得到最終的可靠檢驗(yàn)結(jié)果,此時(shí)數(shù)據(jù)或者映射地址存儲(chǔ)到數(shù)據(jù)中樞數(shù)據(jù)庫,會(huì)對(duì)數(shù)據(jù)中樞數(shù)據(jù)質(zhì)量、時(shí)效性、真實(shí)性、價(jià)值密度帶來很大影響。沙盒數(shù)據(jù)和映射數(shù)據(jù)、采集數(shù)據(jù)在數(shù)據(jù)檢驗(yàn)和操作判斷環(huán)節(jié),一個(gè)最主要的標(biāo)準(zhǔn)就是內(nèi)容相關(guān)度,本文提出基于輿情受眾參與行為表示的內(nèi)容相關(guān)度算法,首先構(gòu)建內(nèi)容子句網(wǎng)絡(luò)圖,接著計(jì)算詞、節(jié)點(diǎn)、邊權(quán)重,最后計(jì)算行為-內(nèi)容相關(guān)度,得出不同行為維度下采集數(shù)據(jù)、映射數(shù)據(jù)和現(xiàn)有沙盒數(shù)據(jù)的相關(guān)程度,如下計(jì)算:

      首先,將采集數(shù)據(jù)、映射數(shù)據(jù)以及沙盒數(shù)據(jù)進(jìn)行字句提取,提取字句盡量充分覆蓋該內(nèi)容主題。接著,將每個(gè)子句作為網(wǎng)絡(luò)圖節(jié)點(diǎn),以重合詞建立連接構(gòu)成無向圖,邊權(quán)重算法如公式(7)所示。其中,L1和L2代表子句構(gòu)成的節(jié)點(diǎn),Weight(L1,L2)代表L1和L2的邊初始權(quán)重,|L1∩L2|代表子句分詞集合交集詞數(shù)量,|L1∪L2|代表子句分詞集合并集詞數(shù)量。

      (7)

      節(jié)點(diǎn)算法選擇上,鑒于Text Rank算法[16]適用于無向圖,并將關(guān)鍵詞視為節(jié)點(diǎn),因而本文將子句視為節(jié)點(diǎn)并進(jìn)行改進(jìn)來實(shí)現(xiàn)節(jié)點(diǎn)權(quán)重的迭代,如公式(8)所示。

      WeightT(Li)=(1-e)+e×

      (8)

      其中e為阻尼系數(shù)取0.85[17],WeightT(Li)為節(jié)點(diǎn)Li權(quán)重,in(Li)和out(Lj)分別為節(jié)點(diǎn)Li的鏈入和鏈出。Weightij代表節(jié)點(diǎn)Li與Lj邊權(quán)重,Weightjk代表節(jié)點(diǎn)Lj與Lk邊權(quán)重。進(jìn)而基于節(jié)點(diǎn)權(quán)重更新詞權(quán)重,如公式(9)所示。其中,Weight(Xi)是詞Xi權(quán)重,X為包含詞Xi節(jié)點(diǎn)結(jié)合,WeightT(Lk)為節(jié)點(diǎn)Lk權(quán)重,L為全部節(jié)點(diǎn),|L|為集合中元素?cái)?shù)量。

      (9)

      節(jié)點(diǎn)間連接的邊權(quán)重在詞權(quán)重基礎(chǔ)上計(jì)算,如公式(10)所示,Weight(L1,L2)為節(jié)點(diǎn)L1和L2連接的邊權(quán)重。

      (10)

      Sim(A,B)=

      2.3 行為標(biāo)定數(shù)據(jù)中樞算法

      數(shù)據(jù)中樞系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)引擎管理、數(shù)據(jù)對(duì)象管理、數(shù)據(jù)集管理和數(shù)據(jù)服務(wù)功能,數(shù)據(jù)引擎管理其實(shí)就是同數(shù)據(jù)協(xié)同管理引擎和數(shù)據(jù)沙盒的引擎指令交互,數(shù)據(jù)服務(wù)模塊和數(shù)據(jù)集管理模塊則主要基于傳統(tǒng)的大數(shù)據(jù)、語義本體、社會(huì)網(wǎng)絡(luò)分析等技術(shù)和方法,通過數(shù)據(jù)服務(wù)和知識(shí)服務(wù)接口實(shí)現(xiàn)有關(guān)功能。輿情受眾參與行為數(shù)據(jù)空間同傳統(tǒng)大數(shù)據(jù)的主要區(qū)別,就在于數(shù)據(jù)對(duì)象的管理,因而本文重點(diǎn)圍繞數(shù)據(jù)對(duì)象權(quán)限,采用分級(jí)管理技術(shù)和生命周期管理方法,設(shè)計(jì)了行為標(biāo)定數(shù)據(jù)中樞工作流程,如圖6所示。

      面向數(shù)據(jù)權(quán)限的輿情主體可以被區(qū)分為擁有全部數(shù)據(jù)權(quán)限的數(shù)據(jù)權(quán)人,擁有部分?jǐn)?shù)據(jù)權(quán)限的被授權(quán)人,尚未確定數(shù)據(jù)權(quán)限的未授權(quán)人以及沒有任何數(shù)據(jù)權(quán)限的不被授權(quán)人。從數(shù)據(jù)權(quán)限的類型來看,包括數(shù)據(jù)占有、使用、收益和處分4種類型。然而,網(wǎng)絡(luò)輿情數(shù)據(jù)源多樣,同一用戶在跨數(shù)據(jù)源的身份標(biāo)識(shí)可能不同,那么如何跨輿情網(wǎng)絡(luò)匹配網(wǎng)絡(luò)用戶則是數(shù)據(jù)中樞需要解決的主要問題。只有解決了這個(gè)問題,才能夠?qū)⒉煌浨槠脚_(tái)的同一用戶識(shí)別出來,并基于數(shù)據(jù)權(quán)限展開行為識(shí)別和標(biāo)定。因而,本文設(shè)計(jì)了基于好友的跨輿情平臺(tái)用戶身份匹配算法,計(jì)算過程如下:

      圖6 行為標(biāo)定數(shù)據(jù)中樞工作流程

      (12)

      (13)

      (14)

      (15)

      (16)

      2.4 行為標(biāo)定服務(wù)接口算法

      網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定服務(wù)接口從標(biāo)定需求出發(fā),面向數(shù)據(jù)空間的知識(shí)服務(wù)和數(shù)據(jù)服務(wù),基于數(shù)據(jù)指令和算法請(qǐng)求指令,執(zhí)行相應(yīng)的數(shù)據(jù)所示或算法操作,將返回結(jié)果通過Api工具進(jìn)行輸出,流程如圖7所示。

      從過程來看,首先基于指令進(jìn)行數(shù)據(jù)檢索,接著判斷是否需要深度學(xué)習(xí)計(jì)算,一般情況下基于行為類型標(biāo)簽檢索、數(shù)據(jù)源地址標(biāo)簽檢索、受眾ID檢索是不需要深度學(xué)習(xí)計(jì)算的,那么則拼接查詢語句,執(zhí)行查詢語句,返回?cái)?shù)據(jù)結(jié)果并輸出。如果需要深度學(xué)習(xí)計(jì)算,則進(jìn)入消息隊(duì)列等待,并輸出是否處理的結(jié)果,同時(shí)請(qǐng)求計(jì)算,計(jì)算完成后輸出數(shù)據(jù)結(jié)果。從算法請(qǐng)求流程來看,對(duì)提交的算法指令在算法庫中進(jìn)行檢索,接著判斷是否需要深度學(xué)習(xí),不需要深度學(xué)習(xí)則拼接、執(zhí)行語句,返回算法執(zhí)行結(jié)果并輸出。如果需要深度學(xué)習(xí),則進(jìn)一步計(jì)算后輸出算法計(jì)算結(jié)果。然而,基于輿情主題進(jìn)行檢索,進(jìn)而將輸出數(shù)據(jù)作為標(biāo)定基礎(chǔ)數(shù)據(jù)集,也是輿情標(biāo)定實(shí)踐操作的重要內(nèi)容,則需要采用科學(xué)的算法來提高檢索精度,因而在公式(7)-(9)基礎(chǔ)上,進(jìn)一步改進(jìn)算法,以適應(yīng)主題-內(nèi)容數(shù)據(jù)輸出的檢索需求,可如下計(jì)算。

      圖7 行為標(biāo)定服務(wù)接口工作流程

      首先構(gòu)建檢索主題句和數(shù)據(jù)空間內(nèi)容子句網(wǎng)絡(luò)圖,接著計(jì)算詞、節(jié)點(diǎn)、邊權(quán)重,最后計(jì)算主題-內(nèi)容相關(guān)度。檢索主題句進(jìn)行字詞提取,數(shù)據(jù)空間內(nèi)容則進(jìn)行子句、字詞提取,將檢索主題句和內(nèi)容子句作為網(wǎng)絡(luò)圖節(jié)點(diǎn),以重合詞建立連接構(gòu)成無向圖,邊權(quán)重算法如公式(17)所示。其中,L1代表檢索主題句,L2代表內(nèi)容子句構(gòu)成的節(jié)點(diǎn),Weight(L1,L2)代表L1和L2的邊初始權(quán)重,|L1∩L2|代表檢索主題句和內(nèi)容子句分詞集合交集詞數(shù)量,|L1∪L2|代表子句分詞集合并集詞數(shù)量。

      (17)

      節(jié)點(diǎn)權(quán)重、邊權(quán)重采用上文公式(8)-(10)計(jì)算,接著構(gòu)建以檢索主題句為節(jié)點(diǎn)A,以及數(shù)據(jù)空間內(nèi)容句B為節(jié)點(diǎn)的無向網(wǎng)絡(luò)圖U,基于公式(18)計(jì)算檢索主題-內(nèi)容相關(guān)度。其中|U|為網(wǎng)絡(luò)圖U所有節(jié)點(diǎn)數(shù)量,k為節(jié)點(diǎn)Li邊的數(shù)量,ConditionA為檢索主題條件約束集,ConditionB為同檢索主題條件約束集要素對(duì)應(yīng)的數(shù)據(jù)空間內(nèi)容條件屬性集。例如ConditionA=(數(shù)據(jù)源:新浪微博,數(shù)據(jù)主體:光明日?qǐng)?bào)),ConditionB=(數(shù)據(jù)源:新浪微博,數(shù)據(jù)主體:光明日?qǐng)?bào)∪參考消息)。

      Sim(A,B)=

      (18)

      最后,采用上述方法循環(huán)計(jì)算出所有數(shù)據(jù)內(nèi)容同檢索主題的相關(guān)度,按照從高到低排列,調(diào)整輸出窗口大小輸出數(shù)據(jù),作為該主題下輿情受眾參與行為標(biāo)定的基礎(chǔ)數(shù)據(jù)。

      3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      3.1 實(shí)驗(yàn)環(huán)境

      a.實(shí)驗(yàn)工具。

      操作系統(tǒng)Windows 10 專業(yè)版(64 位)

      處理器Intel(R) Core(TM) i5-8250U

      CPU @ 1.60GHz 1.80 GHz

      內(nèi)存4GB

      編譯環(huán)境Python 3.8.3、MATLAB2019a、

      Gephi0.6.2

      b.參數(shù)設(shè)置。

      參數(shù)設(shè)置如表1所示。

      表1 實(shí)驗(yàn)參數(shù)設(shè)置表

      3.2 實(shí)驗(yàn)數(shù)據(jù)

      采用爬蟲在抖音、新浪微博獲取數(shù)據(jù),新浪微博樣本數(shù)據(jù)樣例見表2。

      表2 “湯加火山爆發(fā)”事件輿情受眾參與行為標(biāo)定數(shù)據(jù)樣本

      續(xù)表2 “湯加火山爆發(fā)”事件輿情受眾參與行為標(biāo)定數(shù)據(jù)樣本

      3.3 結(jié)果分析

      3.3.1數(shù)據(jù)協(xié)同管理引擎效率分析

      在多次試驗(yàn)后,最終選擇相關(guān)度指標(biāo)0.2方案,進(jìn)行了數(shù)據(jù)的采集。Python爬蟲數(shù)據(jù)采集線程為10, 新浪微博以https://m.weibo.cn/search?containerid=100103type%3D1%26q%3D%E6%B1%A4%E5%8A%A0%E7%81%AB%E5%B1%B1為起始地址,抖音以https://www.douyin.com/search/%E6%B1%A4%E5%8A%A0%E7%81%AB%E5%B1%B1%E5%96%B7%E5%8F%91?source=normal_search&aid=9cfa6148-ab76-4594-b149-d49c62bb6b6e&enter_from=recommend為起始地址開始爬取,耗時(shí)3小時(shí)24分,cpu平均利用率72% ,內(nèi)存平均利用率83%。采集過程中共選取地址189個(gè),連接失敗地址12個(gè),連接成功地址177個(gè),其中抖音地址59個(gè),新浪微博地址118個(gè),最終采集新浪微博數(shù)據(jù)12 126條,采集抖音數(shù)據(jù)3 105條,抖音映射地址59個(gè)。為檢測(cè)數(shù)據(jù)協(xié)同管理引擎算法效率,進(jìn)一步將不采用算法的Python采集[18]和火車頭采集[19]效果進(jìn)行了對(duì)比,結(jié)果如表3所示。

      表3 采集效率對(duì)比

      結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)采集流程清晰、有效,能夠針對(duì)標(biāo)定數(shù)據(jù)需求,采集到足夠的樣本數(shù)據(jù),并降低了數(shù)據(jù)存儲(chǔ)對(duì)硬件的要求。同不采用數(shù)據(jù)協(xié)同管理引擎算法的其他采集方式相比較,優(yōu)點(diǎn)是樣本數(shù)據(jù)質(zhì)量更高、更精準(zhǔn),缺點(diǎn)是耗時(shí)雖然比火車頭采集短,但是相較未應(yīng)用本算法的普通Python采集方式,耗時(shí)相對(duì)較長(zhǎng)。

      3.3.2沙盒數(shù)據(jù)和映射數(shù)據(jù)分析

      最終沙盒數(shù)據(jù)和映射數(shù)據(jù)統(tǒng)計(jì)如表4所示。隨著相關(guān)度指標(biāo)的上升,采集數(shù)據(jù)量、沙盒數(shù)據(jù)量、映射數(shù)據(jù)量和輸出數(shù)據(jù)量都增大。說明相關(guān)度指標(biāo)值越大,采集的數(shù)據(jù)內(nèi)容和沙盒數(shù)據(jù)內(nèi)容相似度越大,在達(dá)不到數(shù)據(jù)標(biāo)定樣本數(shù)據(jù)差異化要求情況下,將會(huì)采集并輸出更多的數(shù)據(jù)。而相關(guān)度指標(biāo)為0時(shí),則說明采集內(nèi)容和數(shù)據(jù)沙盒數(shù)據(jù)內(nèi)容相似度較小,但是卻可能存在偏離標(biāo)定數(shù)據(jù)主題的情況。從映射數(shù)量來看,因?yàn)橛成鋽?shù)據(jù)更多的是抖音的視頻數(shù)據(jù),因而,隨著相關(guān)度指標(biāo)的增大,映射數(shù)據(jù)量雖然有所攀升,但是幅度不大,說明抖音視頻的內(nèi)容相似度較小,而新浪微博的數(shù)據(jù)相似度較高。最終本文選擇相關(guān)度為0.2展開進(jìn)行其他數(shù)據(jù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)束后,映射抖音數(shù)據(jù)地址2 105條,輸出數(shù)據(jù)15 231條,沙盒中尚有21 294條數(shù)據(jù)待檢驗(yàn),因抖音映射數(shù)據(jù)的地址、對(duì)象、標(biāo)題、標(biāo)簽、摘要元數(shù)據(jù)在沙盒及輸出數(shù)據(jù)中,因而采集數(shù)據(jù)量是沙盒數(shù)據(jù)和輸出數(shù)據(jù)之和36 525條。

      表4 沙盒數(shù)據(jù)和映射數(shù)據(jù)統(tǒng)計(jì)表

      3.3.3行為標(biāo)定中樞及服務(wù)數(shù)據(jù)分析

      行為標(biāo)定中樞數(shù)據(jù)存儲(chǔ)了上述實(shí)驗(yàn)結(jié)果的輸出數(shù)據(jù),以便基于標(biāo)定數(shù)據(jù)服務(wù)需求向標(biāo)定行為人輸出,有關(guān)數(shù)據(jù)結(jié)果已經(jīng)在上文說明。但,行為數(shù)據(jù)中樞數(shù)據(jù)處理過程中,更重要的是采用了基于好友的跨輿情平臺(tái)用戶身份匹配算法,對(duì)于跨平臺(tái)的同一真實(shí)用戶進(jìn)行識(shí)別。而此識(shí)別結(jié)果在標(biāo)定服務(wù)中,作為檢索主題-內(nèi)容相關(guān)度條件約束,則能夠更精準(zhǔn)地匹配到中樞數(shù)據(jù)內(nèi)容[20]。相關(guān)結(jié)果如表5和表6所示。

      表5 跨輿情平臺(tái)用戶身份匹配和基于昵稱匹配結(jié)果對(duì)比

      表6 檢索主題-內(nèi)容相關(guān)度數(shù)據(jù)結(jié)果統(tǒng)計(jì)表

      續(xù)表6 檢索主題-內(nèi)容相關(guān)度數(shù)據(jù)結(jié)果統(tǒng)計(jì)表

      數(shù)據(jù)結(jié)果表明,基于好友的跨輿情平臺(tái)用戶身份匹配算法隨著內(nèi)容相關(guān)度指標(biāo)的增加,識(shí)別效果得以提升,相較昵稱識(shí)別的方式提高了識(shí)別精度。檢索主題-內(nèi)容相關(guān)度算法在檢索主題-內(nèi)容相關(guān)度設(shè)定為0.8以上時(shí),能夠取得較好的檢索結(jié)果,其中表中相關(guān)度為檢索主題-內(nèi)容相關(guān)度,內(nèi)容相關(guān)度取0.2,一致數(shù)量為檢索主題-內(nèi)容完全一致的數(shù)量,作為判定標(biāo)準(zhǔn)。選擇數(shù)量為不同檢索主題-內(nèi)容相關(guān)度算法,檢索到的數(shù)據(jù)數(shù)量,正確數(shù)量為選擇數(shù)量中,同一致數(shù)量完全相同的數(shù)據(jù)量。

      3.3.4數(shù)據(jù)空間可視化分析

      基于獲取的網(wǎng)絡(luò)數(shù)據(jù),采用Gephi軟件繪圖并獲取數(shù)據(jù)統(tǒng)計(jì)結(jié)果。以輿情受眾參與行為關(guān)系連接為邊,構(gòu)建了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間的行為關(guān)系網(wǎng)絡(luò)。網(wǎng)絡(luò)圖中,行為關(guān)系連接數(shù)為24 438,平均加權(quán)度為11.88,反映了標(biāo)定數(shù)據(jù)空間用戶參與行為較為緊密。參與行為統(tǒng)計(jì)結(jié)果顯示,點(diǎn)贊行為比例為48.58,評(píng)論行為比率為15.76%,內(nèi)驅(qū)行為比率為0.02%。從交互、參與和內(nèi)驅(qū)行為匯總比例來看,比值為100∶30∶1。說明在標(biāo)定數(shù)據(jù)空間,以交互行為數(shù)據(jù)為主,參與行為數(shù)據(jù)為輔,而內(nèi)驅(qū)行為較少。也說明僅僅以獲取到的基礎(chǔ)數(shù)據(jù)作為輿情受眾參與行為識(shí)別和標(biāo)定的結(jié)果性數(shù)據(jù)存在疏漏、不科學(xué)、錯(cuò)誤的可能性,需要進(jìn)一步對(duì)行為表象形成的數(shù)據(jù)空間數(shù)據(jù)進(jìn)行分析挖掘,特別是基于語義對(duì)內(nèi)驅(qū)行為的挖掘。

      圖8 數(shù)據(jù)空間數(shù)據(jù)源核心節(jié)點(diǎn)圖

      以受眾用戶為節(jié)點(diǎn),以鏈接關(guān)系為邊,構(gòu)建了輿情受眾參與行為標(biāo)定數(shù)據(jù)空間云圖,數(shù)據(jù)空間用戶節(jié)點(diǎn)眾多,連接較為頻繁,輿情受眾關(guān)系明晰,具備參與行為標(biāo)定的用戶識(shí)別基礎(chǔ)。以數(shù)據(jù)源為核心節(jié)點(diǎn),以輿情話題相關(guān)性為邊,構(gòu)建數(shù)據(jù)源核心節(jié)點(diǎn)如圖8所示。可見,新浪微博數(shù)據(jù)源的衍生話題較多,而抖音衍生話題較少,為基于話題對(duì)輿情受眾參與行為進(jìn)行標(biāo)定和識(shí)別構(gòu)建了數(shù)據(jù)基礎(chǔ)。

      4 結(jié) 論

      針對(duì)網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)源分散、數(shù)據(jù)整合存在壁壘、數(shù)據(jù)主體不明晰、數(shù)據(jù)管理權(quán)限缺失現(xiàn)狀,為解決輿情受眾參與行為標(biāo)定所需基礎(chǔ)數(shù)據(jù)建設(shè)和知識(shí)支撐問題,構(gòu)建了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型,提出了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間算法,并設(shè)計(jì)了實(shí)驗(yàn),分析了實(shí)驗(yàn)結(jié)果。

      結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)采集流程清晰、有效,能夠針對(duì)標(biāo)定數(shù)據(jù)需求,采集到足夠的樣本數(shù)據(jù),樣本數(shù)據(jù)質(zhì)量更高、更精準(zhǔn)。智能彈性數(shù)據(jù)沙盒算法有效地起到了數(shù)據(jù)中樞數(shù)據(jù)緩沖、篩選的作用,跨輿情平臺(tái)用戶身份匹配算法識(shí)別效率較高,檢索主題-內(nèi)容算法在相關(guān)度設(shè)定合理的情況下,召回率、精準(zhǔn)率、準(zhǔn)確率達(dá)到理想效果。所構(gòu)建的網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間數(shù)據(jù)體量合理、數(shù)據(jù)對(duì)象清晰、受眾行為被如實(shí)反映。未來研究,將匯聚更多的數(shù)據(jù)源展開實(shí)驗(yàn),并重點(diǎn)對(duì)本文提出的算法進(jìn)一步優(yōu)化。

      猜你喜歡
      沙盒數(shù)據(jù)源引擎
      不好惹的沙盒樹
      韓國(guó)版金融科技“監(jiān)管沙盒”法案及其啟示
      Windows 10“沙盒” 不僅更安全
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      藍(lán)谷: “涉藍(lán)”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      熱點(diǎn)追蹤 角逐創(chuàng)新沙盒絕賽Phantom異軍突起奪冠
      無形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      基于Cocos2d引擎的PuzzleGame開發(fā)
      大同市| 洪雅县| 晋江市| 东乡族自治县| 南华县| 泸水县| 方城县| 北辰区| 石河子市| 陆河县| 饶平县| 县级市| 南川市| 南开区| 内江市| 敦化市| 和硕县| 中牟县| 永年县| 洪湖市| 金坛市| 万山特区| 高阳县| 兰考县| 宁晋县| 通辽市| 南丰县| 叙永县| 北海市| 安泽县| 休宁县| 六枝特区| 绵竹市| 通城县| 沙田区| 兴和县| 梅河口市| 甘孜| 布尔津县| 武山县| 略阳县|